Google использует модель машинного обучения для прогнозирования вероятности того, что пользователь перейдет по конкретной ссылке. Эта модель анализирует характеристики ссылки (положение, размер шрифта, анкорный текст) и данные о поведении пользователей. Ссылки с высокой вероятностью клика передают значительно больше ссылочного веса (например, PageRank), чем ссылки, которые пользователи обычно игнорируют.
Описание
Какую задачу решает
Патент решает фундаментальную проблему традиционных алгоритмов ссылочного ранжирования (таких как оригинальный PageRank), основанных на модели «Случайного Серфера». Эта модель предполагает, что пользователь с равной вероятностью перейдет по любой ссылке на странице. В реальности это не так (пользователи игнорируют рекламу, ссылки «Условия использования», футеры). Изобретение внедряет «Reasonable Surfer Model» (Модель Разумного Серфера) для более точного расчета авторитетности путем взвешивания ссылок на основе их фактической вероятности использования.
Что запатентовано
Запатентована система ранжирования документов, которая генерирует динамическую модель на основе Feature Data (характеристик ссылок и документов) и User Behavior Data (навигационных действий пользователей). Эта модель предсказывает вероятность клика по конкретной ссылке. Эта вероятность используется как вес ссылки (Link Weight) при расчете ранга целевого документа, модифицируя стандартные алгоритмы ссылочного анализа.
Как это работает
Система работает в несколько этапов:
- Сбор данных: Собираются Feature Data (позиция ссылки, шрифт, анкор, контекст) и User Behavior Data (клики по ссылкам).
- Обучение модели: Идентифицируются положительные (клик) и отрицательные (отсутствие клика) примеры. Обучается модель машинного обучения, которая коррелирует признаки ссылки с вероятностью ее выбора.
- Взвешивание ссылок: На основе модели ссылкам присваиваются веса (Weights), отражающие вероятность перехода по ним.
- Расчет рангов: Ранги документов рассчитываются с использованием модифицированного алгоритма (например, Eqn. 1 в патенте), который учитывает эти веса, а не предполагает равную ценность всех ссылок.
Актуальность для SEO
Критически высокая. Хотя этот патент является продолжением (continuation) оригинальной заявки 2004 года, концепция Reasonable Surfer Model является фундаментальной для современного понимания анализа ссылок в Google. Выдача патента в 2018 году подтверждает актуальность механизма, а участие Джеффри Дина (главы Google AI) подчеркивает его важность для инфраструктуры поиска.
Важность для SEO
Патент имеет критическое значение (95/100) для SEO. Он фундаментально меняет подход к оценке ссылок. Вес, передаваемый ссылкой, напрямую зависит от ее заметности, контекста, расположения и вероятности клика. Это делает многие традиционные тактики линкбилдинга (например, покупку ссылок в футере или сайдбаре) неэффективными и подчеркивает важность интеграции UX и SEO.
Детальный разбор
Термины и определения
- Document (Документ)
- Любой машиночитаемый продукт. В контексте веба — веб-страница, включающая текст, гиперссылки и другие элементы.
- Feature Data (Данные о признаках)
- Характеристики, связанные со ссылкой. Включают признаки самой ссылки (Link Features), исходного документа (Source Document) и целевого документа (Target Document).
- Feature Vector (Вектор признаков)
- Структурированное представление Feature Data для конкретной ссылки, используемое моделью машинного обучения.
- Link Selection Data (Данные о выборе ссылок)
- Данные, указывающие количество выборов (кликов) для конкретных ссылок, полученные от пользовательских устройств.
- Model (Модель)
- Динамическая модель (например, ML-модель), которая предсказывает вероятность выбора ссылки. Может включать общие правила (General Rules) и правила для конкретных документов (Document-specific Rules).
- Positive/Negative Instances (Положительные/Отрицательные примеры)
- Данные для обучения модели. Выбор ссылки (клик) считается Positive Instance. Отсутствие выбора других ссылок на той же странице считается Negative Instances.
- Reasonable Surfer Model (Модель Разумного Серфера)
- Модель, которая предполагает, что при доступе к документу серфер будет переходить по некоторым ссылкам с более высокой вероятностью, чем по другим. (Упоминается в описании).
- User Behavior Data (Данные о поведении пользователей)
- Информация о действиях пользователей, включая навигационные действия (клики по ссылкам), язык, интересы. Может собираться через браузер или browser assistant.
- Weight (Вес ссылки)
- Значение, присвоенное ссылке на основе Модели. Отражает вероятность того, что ссылка будет выбрана. Используется для модификации расчета ранга.
Ключевые утверждения (Анализ Claims)
Анализ сосредоточен на Claim 1 (независимый пункт), который определяет ядро изобретения.
Claim 1: Описывает метод ранжирования и предоставления результатов поиска.
- Генерация Меры (Measure): Система генерирует меру, указывающую вероятность того, что ссылки с определенными признаками (particular feature data) будут выбраны.
- Этот процесс включает идентификацию link selection data (данных о кликах) для множества документов, содержащих ссылки с этими признаками.
- Мера (вероятность клика) генерируется на основе этих данных о кликах.
- Генерация Ранга (Rank) Документа: После генерации меры система рассчитывает ранг для конкретного документа.
- Определяется, что входящая ссылка на этот документ обладает этими конкретными feature data.
- Определяется вес (weight) этой входящей ссылки на основе сгенерированной Меры.
- Ранг документа генерируется на основе этого веса и весов других входящих ссылок.
- Применение в Поиске: Система идентифицирует документы по поисковому запросу и предоставляет информацию о документе на основе сгенерированного ранга.
Ядром изобретения является метод обучения модели с использованием наблюдаемых пользовательских кликов и атрибутов ссылок для прогнозирования вероятности клика. Эта вероятность затем используется в качестве веса при расчете ранга целевого документа. Это явно связывает поведение пользователей и характеристики ссылок с расчетом ранжирования.
Claim 4, 8, 9 (Зависимые): Уточняют, что Feature Data могут включать не только признаки самой ссылки, но и признаки исходных документов (source documents) и/или целевых документов (target documents).
Claim 6, 7 (Зависимые): Приводят примеры признаков ссылки: контекст (слова до или после ссылки), слова в анкорном тексте и количество слов в анкорном тексте.
Где и как применяется
Изобретение глубоко интегрировано в процессы индексирования и расчета статических сигналов ранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение Feature Data. Система анализирует и сохраняет характеристики каждой ссылки (позицию, шрифт, анкор, контекст, URL и т.д.) во время индексирования и рендеринга.
(Офлайн-процессы / Сбор данных)
Параллельно система собирает User Behavior Data (например, через браузеры или browser assistant), фиксируя, какие ссылки пользователи выбирают, а какие игнорируют.
RANKING – Ранжирование (Офлайн-процессы / Анализ Ссылок)
Основное применение патента. Это не ранжирование в реальном времени, а периодический расчет глобальных рангов документов (например, PageRank).
- Генерация Модели: Model Generating Unit использует собранные Feature Data и User Behavior Data для обучения модели машинного обучения.
- Расчет Весов: Model Applying Unit применяет модель для расчета Link Weights для всех ссылок в веб-графе.
- Расчет Рангов: Система пересчитывает статический ранг документов с использованием этих модифицированных весов (например, итеративный расчет PageRank).
RANKING – Ранжирование (Онлайн-процессы)
Во время обработки поискового запроса система использует предварительно рассчитанные ранги документов (которые уже учитывают модель Reasonable Surfer) как один из сигналов для сортировки результатов.
Входные данные:
- Feature Data (признаки ссылок, исходных и целевых документов).
- User Behavior Data (данные о кликах и не-кликах).
Выходные данные:
- Модель прогнозирования вероятности клика.
- Link Weights (w), присвоенные ссылкам.
- Document Ranks (r(A)) (модифицированные оценки авторитетности).
На что влияет
- Все типы ссылок: Влияет на вес всех исходящих и входящих ссылок (внутренних и внешних) в индексе.
- Структура сайта и навигация: Критически влияет на вес ссылок в навигации, футерах, боковых панелях по сравнению с контекстными ссылками в основном контенте.
- Реклама и аффилиатные ссылки: Патент отмечает, что баннерная реклама является примером ссылок, которые вряд ли будут выбраны, что подразумевает снижение их веса (если они участвуют в расчете ранга).
Когда применяется
- Генерация модели и расчет рангов: Это периодические офлайн-процессы, обновляющие глобальные оценки авторитетности для всего индекса. Модель является динамической и обновляется по мере поступления новых данных.
- Использование рангов: Результаты расчета (финальные ранги документов) используются в режиме реального времени при ответе на поисковые запросы.
Пошаговый алгоритм
Процесс А: Генерация Модели и Расчет Рангов (Офлайн/Периодический)
- Сбор данных: Сбор User Behavior Data и Feature Data в репозиторий.
- Определение примеров обучения: Анализ поведения пользователей. Если пользователь кликнул по ссылке X на странице W, это генерирует Positive Instance для X и Negative Instances для остальных ссылок на W.
- Генерация векторов признаков: Для каждой ссылки создается Feature Vector, включающий все ее релевантные признаки (позиция, шрифт, анкор и т.д.).
- Построение Модели: Обучение модели машинного обучения (например, logistic regression, decision tree) на основе примеров и векторов. Модель генерирует общие правила и правила для конкретных документов/сайтов.
- Генерация весов ссылок: Применение модели для присвоения Link Weight (w) каждой ссылке в индексе. Вес отражает вероятность ее выбора разумным серфером.
- Расчет рангов документов: Вычисление рангов документов с использованием модифицированного алгоритма. Патент предлагает формулу (Eqn. 1):
r(A) = α/N + (1-α)(w₁*r(B₁)/|B₁| + … + wₙ*r(Bₙ)/|Bₙ|)
Где r(A) — ранг документа A; B₁…Bₙ — ссылающиеся документы; w₁…wₙ — веса ссылок из B на A; |Bₙ| — количество исходящих ссылок из Bₙ.
Процесс Б: Обработка Поискового Запроса (Реальное время)
- Получение запроса и идентификация документов: Система находит релевантные документы.
- Определение рангов: Система извлекает предварительно рассчитанные ранги документов (из Процесса А).
- Сортировка и генерация выдачи: Документы сортируются (используя ранг как один из сигналов), и формируются результаты поиска.
Какие данные и как использует
Данные на входе
Патент детально описывает множество признаков (Feature Data), используемых для обучения модели:
Признаки Ссылки (Link Features):
- Структурные и Визуальные факторы (Ключевые):
- Позиция ссылки (в списке HTML, в основном тексте, выше/ниже первого экрана (above or below the first screenful), сбоку, в футере, в сайдбаре).
- Если в списке: позиция ссылки в списке.
- Размер шрифта анкорного текста.
- Цвет и атрибуты шрифта (курсив, серый, тот же цвет, что и фон).
- Тип ссылки (например, текстовая или image link).
- Контентные факторы:
- Анкорный текст: количество слов, сами слова, коммерциализированность (commerciality) анкора.
- Контекст ссылки: несколько слов до и/или после ссылки.
- Тематический кластер анкора.
- Технические факторы:
- Ведет ли ссылка на тот же хост/домен.
- Короче ли URL цели, чем URL источника (если тот же домен).
- Встраивает ли URL ссылки другой URL (для редиректа).
- Мультимедиа факторы:
- Если ссылка-изображение: соотношение сторон изображения (aspect ratio).
Признаки Исходного/Целевого Документа (Source/Target Document Features):
- Технические факторы: URL, Веб-сайт, Хост/Домен. Длина URL целевого документа.
- Контентные факторы (Источник): Слова в документе/заголовке; Тематический кластер документа; Степень соответствия тематики документа тематике анкора.
- Ссылочные факторы (Источник): Количество ссылок в документе.
Поведенческие и Пользовательские факторы (User Behavior Data):
- Навигационные действия (клики по ссылкам, введенные адреса, заполненные формы).
- Язык пользователя.
- Интересы пользователя (например, из закладок или истории посещений).
- Введенные пользователями запросы.
Какие метрики используются и как они считаются
- Link Weight (w): Основная метрика патента. Представляет собой вероятность клика по ссылке. Рассчитывается моделью машинного обучения на основе Feature Vector ссылки.
- Document Rank (r(A)): Метрика авторитетности документа (модифицированный PageRank). Рассчитывается итеративно по формуле (Eqn. 1), которая включает Link Weight (w).
- Алгоритмы машинного обучения: Для построения модели используются стандартные методы: naive bayes (наивный байес), decision tree (дерево решений), logistic regression (логистическая регрессия) или hand-tailored approach.
Выводы
- Переход от «Случайного Серфера» к «Разумному Серферу»: Google не считает все ссылки на странице равнозначными при передаче ранжирующего сигнала (PageRank). Алгоритм ранжирования основан на вероятности того, что ссылка будет реально использована (кликнута).
- Вес ссылки определяется ее признаками и контекстом: Признаки, которые влияют на кликабельность ссылки (ее позиция на странице, размер и цвет шрифта, анкорный текст, окружающий контекст), становятся факторами, определяющими вес, который эта ссылка передаст.
- Критическая роль User Behavior Data: Модель обучается на реальных данных о том, как пользователи взаимодействуют со ссылками. Это делает систему динамичной и устойчивой к типам ссылок, которые пользователи обычно игнорируют.
- Дисконтирование неиспользуемых ссылок: Ссылки, расположенные в невыгодных позициях (футеры, сайдбары), а также ссылки, которые по своей природе редко используются или являются рекламными, получают низкий вес и передают меньше ранга.
- Машинное обучение для определения веса: Вес ссылки определяется не жесткими правилами, а моделью машинного обучения, которая агрегирует множество различных признаков (Feature Data) в единую оценку вероятности клика.
Практика
Best practices (это мы делаем)
- Приоритет контекстных ссылок в основном контенте: Размещайте наиболее важные внутренние и внешние ссылки в основном теле документа (main content). Модель с большей вероятностью присвоит высокий вес ссылкам, расположенным на видном месте и окруженным релевантным контентом.
- Оптимизация размещения ссылок (Positioning): Важные ссылки должны размещаться ближе к началу документа, выше «линии сгиба» (above the fold). Позиция является ключевым признаком (Feature Data).
- Оптимизация визуального оформления и UX: Ссылки должны быть визуально заметными (цвет, размер шрифта). Хороший UX, который направляет пользователя к полезным ссылкам, коррелирует с лучшей передачей ссылочного веса, так как визуальные признаки анализируются моделью.
- Использование релевантных и привлекательных анкоров: Используйте четкий, релевантный и мотивирующий к клику анкорный текст. Модель учитывает слова в анкоре, их коммерциализированность и тематику.
- Стратегия линкбилдинга: При получении внешних ссылок фокусируйтесь не только на авторитетности донора, но и на размещении ссылки. Ссылка, которая реально получает трафик и естественно вписана в контент, передаст максимальный вес.
Worst practices (это делать не надо)
- Массовое размещение ссылок в «слепых зонах»: Покупка внешних ссылок или размещение внутренних ссылок в футерах или нерелевантных блоках в сайдбаре. Согласно Reasonable Surfer Model, такие ссылки получат минимальный вес.
- Маскировка ссылок: Патент явно упоминает цвет ссылки, совпадающий с цветом фона, как признак. Такие ссылки будут иметь крайне низкий вес из-за минимальной вероятности клика.
- Нерелевантная перелинковка: Размещение ссылок, тематически не связанных с контекстом документа. Модель учитывает совпадение топиков источника и анкора, и при их отсутствии снизит вес ссылки.
- Игнорирование CTR ссылок: Создание ссылок, которые пользователи игнорируют. Если по ссылкам не кликают, User Behavior Data приведет к снижению их веса в модели.
Стратегическое значение
Этот патент описывает фундаментальный механизм оценки ссылок в Google. Он подтверждает стратегический сдвиг в оценке ссылок: от количества к качеству взаимодействия и контексту размещения. Для SEO это означает, что линкбилдинг и внутренняя архитектура должны быть тесно интегрированы с UX и контент-стратегией. Ссылки, которые выглядят естественно, полезны для пользователя и стимулируют переходы, являются наиболее ценными.
Практические примеры
Сценарий: Сравнение двух внешних ссылок с одинаково авторитетных доноров
Сайт А и Сайт Б (оба с высоким PageRank) ссылаются на ваш сайт.
- Ссылка с Сайта А (Футер): Размещена в футере, мелким шрифтом, среди 50 других ссылок.
- Анализ Модели: Feature Data (позиция: футер, размер шрифта: мал) указывают на низкую заметность.
- Результат: Модель предсказывает низкую вероятность клика. Ссылке присваивается низкий вес (Weight). Она передает минимальный авторитет.
- Ссылка с Сайта Б (Основной контент): Размещена в первом абзаце статьи, с релевантным анкором, выделена стандартным цветом.
- Анализ Модели: Feature Data (позиция: начало контента, релевантный анкор, контекст) указывают на высокую заметность и релевантность.
- Результат: Модель предсказывает высокую вероятность клика. Ссылке присваивается высокий вес (Weight). Она передает значительный авторитет.
Вопросы и ответы
Что такое модель «Разумного Серфера» (Reasonable Surfer Model) и чем она отличается от «Случайного Серфера»?
Модель Случайного Серфера (основа классического PageRank) предполагает, что пользователь с равной вероятностью перейдет по любой ссылке на странице. Модель Разумного Серфера, описанная в патенте, признает, что пользователи выбирают ссылки с разной вероятностью. Вероятность зависит от того, насколько ссылка заметна, релевантна и привлекательна. Вес (PageRank) передается пропорционально этой вероятности.
Означает ли этот патент, что CTR ссылки является прямым фактором ранжирования?
Да, опосредованно. Фактором является предсказанная вероятность клика, которую рассчитывает модель машинного обучения. Эта модель обучается на исторических данных о кликах (User Behavior Data) и признаках ссылок (Feature Data). Эта предсказанная вероятность используется как вес ссылки (Link Weight) при расчете PageRank.
Как Google собирает User Behavior Data о кликах по ссылкам?
Патент упоминает, что данные могут быть получены от веб-браузера или помощника браузера (browser assistant), такого как плагин или DLL. Эти инструменты могут записывать данные о том, какие документы посещает пользователь и какие ссылки он выбирает, и отправлять эту информацию на сервер (например, через браузер Chrome).
Какие признаки ссылки (Feature Data) наиболее важны согласно патенту?
Патент не назначает веса конкретным признакам, а использует машинное обучение для определения их важности. Однако он приводит множество примеров: позиция на странице (верх/низ, сайдбар/футер, выше/ниже первого экрана), размер шрифта, цвет (включая совпадение с фоном), анкорный текст (длина, слова, коммерциализированность), окружающий контекст и тематическая связь между источником и целью.
Как этот патент влияет на ценность сквозных ссылок (site-wide links), например, в футере?
Он значительно снижает их ценность по сравнению с контекстными ссылками. Ссылки в футере обычно имеют низкую вероятность клика из-за их расположения. Модель Разумного Серфера присвоит таким ссылкам очень низкий вес, и они будут передавать минимальное количество PageRank, независимо от авторитетности ссылающегося сайта.
Применяется ли этот механизм к внутренней перелинковке?
Да, патент не делает различий между внутренними и внешними ссылками. Механизм применяется ко всему ссылочному графу. Это означает, что распределение внутреннего PageRank также зависит от вероятности клика по ссылкам в навигации, контенте и сквозных блоках. Оптимизация кликабельности внутренней перелинковки критически важна.
Если ссылка новая и по ней еще нет данных о кликах, как определяется ее вес?
Модель использует Feature Data. Если ссылка имеет признаки, которые исторически ассоциируются с высокой вероятностью клика (например, в основном контенте, релевантный анкор), модель предскажет высокий вес на основе общих правил (General Rules), даже без истории кликов конкретно по этой ссылке.
Влияет ли тематическая релевантность донора на вес ссылки?
Да. Патент указывает, что тематический кластер исходного документа и его соответствие тематике анкорного текста являются признаками (Features). Если тематики связаны, вероятность клика («разумного серфера») выше, что приводит к увеличению веса ссылки.
Что такое Document-specific Rules и как они работают?
Это правила, которые модель генерирует для конкретных сайтов или шаблонов страниц. Например, если на новостном сайте пользователи очень часто кликают по ссылкам в блоке «Главные новости», модель может сгенерировать правило, присваивающее ссылкам в этом конкретном блоке повышенный вес, адаптируясь к дизайну этого сайта.
Является ли это заменой классическому PageRank?
Нет, это модификация PageRank. Алгоритм расчета остается итеративным и основанным на ссылочном графе, но формула расчета изменяется (Eqn. 1). Вместо равномерного распределения веса между исходящими ссылками, вводится коэффициент веса (w) для каждой ссылки, основанный на Модели Разумного Серфера.