Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

Описание

Какую задачу решает

Патент решает проблему разреженности данных (data sparsity) о поведении пользователей в рамках одной поисковой системы (например, в специализированном вертикальном поиске или для нового контента). Недостаток данных делает поведенческие метрики ненадежными. Одновременно система решает проблему потенциального смещения (bias), которое может возникнуть при заимствовании данных из другой системы (например, основного веб-поиска), где пользователи могут иметь иные предпочтения и используются другие алгоритмы ранжирования.

Что запатентовано

Запатентован метод агрегации пользовательской обратной связи из разных источников для модификации ранжирования. Система объединяет Primary User Feedback Data (данные из текущей системы) и Secondary User Feedback Data (данные из внешней системы с другим алгоритмом ранжирования). Ключевым элементом является механизм взвешивания: вес вторичных данных уменьшается по мере накопления первичных данных до определенного порога (Smoothing Factor), что позволяет использовать преимущества внешних данных, минимизируя риск смещения.

Как это работает

Система работает следующим образом:

Сбор данных: Собираются поведенческие данные (например, клики, длительность взаимодействия) для ресурса в ответ на запрос из первичной и вторичной поисковых систем.
Определение веса: Рассчитывается вес (Weight) для вторичных данных на основе объема первичных данных и Smoothing Factor. Если первичных данных мало, вес высок.
Агрегация: Первичные данные объединяются с взвешенными вторичными данными для расчета комбинированной метрики качества (Combined Quality Metric).
Модификация ранжирования: Исходный ранг ресурса корректируется на основе этой комбинированной метрики.

Актуальность для SEO

Высокая. Поведенческие факторы, особенно метрики вовлеченности (Dwell Time), остаются критически важными для ранжирования. Проблема разреженности данных актуальна для свежего контента и вертикальных поисков. Механизмы интеграции сигналов между разными платформами Google (Web, Video, News, YouTube) являются ключевыми для обеспечения качества выдачи в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он демонстрирует, что поведенческие сигналы, особенно Targeted Interactions (длительные взаимодействия), являются переносимыми между разными системами Google. Контент, который хорошо зарекомендовал себя в одной среде (например, в Веб-поиске), может получить начальное преимущество в другой (например, в Поиске по Видео), пока там не накопится достаточно собственных данных. Это подчеркивает важность кросс-платформенной оптимизации вовлеченности.

Детальный разбор

Термины и определения

Primary User Feedback Data (Первичные данные обратной связи): Поведенческие данные, собранные в той поисковой системе, которая выполняет текущее ранжирование (использует Primary Ranking Algorithm).
Secondary User Feedback Data (Вторичные данные обратной связи): Поведенческие данные, собранные из другой поисковой системы, которая использует иной алгоритм ранжирования (Secondary Ranking Algorithm).
User Interaction (I) (Взаимодействие пользователя): Выбор пользователем (например, клик) поискового результата.
Targeted Interaction (TI) (Целевое взаимодействие): Взаимодействие пользователя с ресурсом, при котором длительность взаимодействия удовлетворяет определенному порогу (например, просмотр видео более 1 минуты или пребывание на сайте более 30 секунд). Аналог long click или метрики, основанной на Dwell Time.
Impression (IMP) (Показ): Презентация результата поиска пользователю.
Smoothing Factor (smooth) (Фактор сглаживания): Пороговое значение количества первичных данных. Определяет точку, после которой система перестает учитывать вторичные данные.
Weight (Вес): Коэффициент, применяемый к вторичным данным перед агрегацией. Определяет степень влияния внешних данных.
Combined Quality Metric (CQM) (Комбинированная метрика качества): Итоговая метрика, рассчитанная на основе агрегации первичных и взвешенных вторичных данных.
Quality Metrics (Метрики качества): Метрики, рассчитываемые на основе пользовательских взаимодействий. Примеры: TQM, TIQM, IMPQM (детализированы в разделе 4.2).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод комбинирования данных из систем с разными алгоритмами ранжирования.

Система получает результаты поиска по запросу, ранжированные с помощью primary ranking algorithm.
Получаются primary user feedback data для ресурса (данные, собранные в контексте первичного алгоритма).
Получаются secondary user feedback data для того же ресурса (данные, собранные в контексте другого, different secondary ranking algorithm).
К вторичным данным применяется вес (weight). Вес основан, по крайней мере частично, на пороговом количестве (threshold quantity, т.е. Smoothing Factor) первичных данных.
Первичные и взвешенные вторичные данные агрегируются.
Ранг ресурса модифицируется на основе агрегированных данных.

Ядро изобретения — это метод интеграции поведенческих сигналов, собранных в разных контекстах ранжирования, с контролируемым влиянием внешних данных.

Claim 2 (Зависимый от 1): Уточняет тип данных.

Данные включают взаимодействия, продолжительность которых удовлетворяет порогу (Targeted Interactions). Это подтверждает фокус на качестве взаимодействия (Dwell Time).

Claims 3, 4, 5 (Зависимые от 2): Детализируют расчет веса, определяя его зависимость от объемов данных.

Вес дополнительно основывается на количестве взаимодействий как в первичных (d1), так и во вторичных (d2) данных (Claim 3).
Вес может быть обратно пропорционален количеству взаимодействий во вторичных данных (d2) (Claim 4).
Вес может быть обратно пропорционален количеству взаимодействий в первичных данных (d1) (Claim 5).

Примечание о вариативности: Claims 3-5 защищают широкий спектр формул расчета веса. Хотя в описании патента (Description) приводится конкретный пример формулы, удовлетворяющий Claim 5 (зависимость от d1), система может использовать и другие формулы, учитывающие также d2, как защищено Claim 4.

Где и как применяется

Изобретение применяется на финальных этапах ранжирования для корректировки позиций на основе поведенческих сигналов.

INDEXING / Analysis System (Обработка логов)
На этом этапе (или в параллельной системе анализа) происходит сбор, обработка и хранение User Feedback Data из различных поисковых вертикалей в Tracking Logs. Данные индексируются по парам (Запрос, Ресурс).

RANKING – Ранжирование / RERANKING – Переранжирование
Основное применение патента. Quality Rank Modifier Engine работает на этих этапах для корректировки оценок, выданных основным Ranking Engine.

Получение данных: Для ресурса извлекаются первичные и вторичные поведенческие данные.
Расчет и Агрегация: Если первичных данных недостаточно (меньше Smoothing Factor), рассчитывается вес для вторичных данных и вычисляется Combined Quality Metric (CQM).
Модификация ранга: Исходные оценки ранжирования корректируются с учетом CQM.

Входные данные:

Запрос и Ресурс.
Первичные данные (n1, d1 – например, целевые взаимодействия и общее число взаимодействий/показов).
Вторичные данные (n2, d2).
Smoothing Factor (предопределенный порог).

Выходные данные:

Модифицированный ранг/оценка ресурса на основе CQM.

На что влияет

Вертикальные поиски: Наибольшее влияние на Google Видео, Картинки, Новости, где данных может быть меньше, чем в основном Веб-поиске. Данные из Веб-поиска часто выступают вторичным источником.
Свежий контент (Fresh Content): Помогает решить проблему «холодного старта» для нового контента, позволяя использовать данные из другой системы для начальной оценки качества.
Нишевые и длиннохвостые запросы: Запросы с разреженными данными.
Типы контента: Патент явно упоминает применение к видео (video resources, Claim 6) и веб-ресурсам (web resources, Claim 7).

Когда применяется

Триггер активации: Механизм комбинирования активируется, когда количество первичных данных (d1) меньше установленного порога (Smoothing Factor).
Исключения: Если d1 ≥ Smoothing Factor, вес вторичных данных равен нулю, и используются только первичные данные.

Пошаговый алгоритм

Процесс расчета комбинированной метрики качества (CQM) для ресурса в ответ на запрос.

Инициализация: Система идентифицирует ресурсы-кандидаты и определяет Smoothing Factor (smooth) для требуемой метрики.
Получение первичных данных: Извлекаются Primary User Feedback Data. Определяются n1 (числитель метрики, например, TI) и d1 (знаменатель метрики, например, I или IMP).
Проверка порога: Проверяется условие d1 ≥ smooth.
- Если ДА: Weight = 0. Переход к шагу 6.
- Если НЕТ: Переход к шагу 4.
Получение вторичных данных: Извлекаются Secondary User Feedback Data (n2 и d2).
Расчет веса (Weight Calculation): Рассчитывается вес для вторичных данных. В примере реализации, описанном в патенте (Description), используется следующая формула: $Weight = min(1.0, max(0.0, \frac{smooth — d1}{d1}))$ (Примечание: Хотя эта формула зависит только от d1, патентные Claims 3-4 защищают и другие реализации, где формула может также учитывать d2).
Агрегация данных (Aggregation): Рассчитывается комбинированная метрика качества (CQM) путем взвешенного объединения: $CQM = \frac{n1 + Weight \cdot n2}{d1 + Weight \cdot d2}$ (Если на шаге 3 Weight=0, то CQM = n1/d1).
Модификация ранжирования: Полученное значение CQM используется для корректировки исходной оценки ранжирования ресурса.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании поведенческих факторов, собранных из логов разных поисковых систем.

Поведенческие факторы:
- User Interactions (Клики): Общее количество выборов результата (I).
- Targeted Interactions (Целевые взаимодействия): Количество взаимодействий, продолжительность которых превысила порог (TI). Это основано на Dwell Time или времени просмотра видео (Watch Time).
- Impressions (Показы): Количество показов результата в выдаче (IMP).
- Специфичные для видео: View Count (счетчик просмотров), User Ratings (рейтинги пользователей).

Какие метрики используются и как они считаются

Система рассчитывает метрики качества как отношение $\frac{n}{d}$ , где n – мера целевых взаимодействий, d – мера более широкого набора данных.

Примеры метрик из патента:

Targeted Interaction Quality Metric (TIQM): $TIQM = \frac{TI}{I}$
Отношение числа целевых взаимодействий (TI) к общему числу взаимодействий (I) с ресурсом. (Доля Long Clicks).
Impression Quality Metric (IMPQM): $IMPQM = \frac{TI}{IMP}$
Отношение числа целевых взаимодействий (TI) к числу показов (IMP) ресурса.
Traditional Quality Metric (TQM): $TQM = \frac{TI_r}{TI_{all}}$
Отношение числа целевых взаимодействий с ресурсом (TIr) к числу целевых взаимодействий с любым ресурсом по запросу (TIall).

Ключевые расчеты:

Smoothing Factor: Порог сглаживания. Патент приводит примеры: для TIQM порог может быть 10,000 взаимодействий. Значения могут различаться в зависимости от метрики и источника вторичных данных.
Weight (Вес): Рассчитывается для контроля влияния вторичных данных (см. формулу в разделе 3.3).

Выводы

Переносимость поведенческих сигналов: Google активно использует данные о поведении пользователей из одной поисковой системы (например, Веб-поиска или YouTube) для корректировки ранжирования в другой (например, Поиск по Видео или Картинкам). Это позволяет улучшить качество выдачи там, где собственных данных недостаточно.
Критическая важность Dwell Time (Targeted Interactions): Патент явно фокусируется на взаимодействиях, продолжительность которых превышает порог. Удовлетворенность пользователя, измеряемая через время взаимодействия, является ключевым сигналом качества.
Механизм сглаживания (Smoothing) и приоритет локальных данных: Влияние внешних данных контролируется. Оно максимально, когда собственных данных мало, и полностью исчезает, когда основная система накапливает достаточный объем данных (превышает Smoothing Factor). Контент должен доказать свою релевантность локальной аудитории.
Учет разных контекстов ранжирования: Система способна объединять данные, собранные в условиях работы разных алгоритмов ранжирования. Это позволяет интегрировать сигналы, минимизируя смещение, вызванное различиями в логике формирования выдачи и предпочтениях аудитории.
Решение проблемы «холодного старта»: Механизм помогает новому контенту или контенту по редким запросам быстрее занять адекватные позиции, заимствуя сигналы из более устоявшихся систем.

Практика

Best practices (это мы делаем)

Оптимизация под Dwell Time (Targeted Interactions): Это ключевая стратегия. Фокусируйтесь на создании контента, который максимально удерживает пользователя. Для статей это глубина проработки и удобство чтения (минимизация возврата на SERP), для видео – высокое удержание внимания (Watch Time). Метрика TIQM (доля долгих кликов) должна быть приоритетом.
Кросс-платформенная оптимизация вовлеченности: Обеспечивайте высокое качество взаимодействия с контентом везде. Хорошие поведенческие сигналы в Веб-поиске (Secondary Data) могут дать преимущество вашему контенту в вертикальных поисках (Primary System), и наоборот.
Анализ производительности в разных вертикалях: Отслеживайте, как ваш контент потребляется в Web Search, Image Search, Video Search, News. Успех в одной вертикали может способствовать росту в других, особенно на начальных этапах.
Быстрый старт для нового контента: При публикации нового контента стремитесь быстро получить качественные взаимодействия. Если контент покажет хорошие поведенческие метрики на одной платформе (например, YouTube или в блоке Новостей), эти данные могут быть использованы как Secondary Feedback для бустинга в основном поиске.

Worst practices (это делать не надо)

Накрутка кликов и Кликбейт (Clickbait): Стратегии, направленные на получение клика любой ценой, контрпродуктивны. Система фокусируется на Targeted Interactions. Короткие взаимодействия (Bounces) не дадут положительного вклада в метрики качества и могут их ухудшить.
Игнорирование пользовательского опыта (UX): Плохой дизайн, медленная загрузка, навязчивая реклама — все, что стимулирует пользователя быстро покинуть страницу, напрямую снижает вероятность Targeted Interaction.
Изолированная оптимизация: Рассмотрение SEO для Web и, например, YouTube или Google News как независимых процессов. Патент доказывает, что Google рассматривает поведенческие сигналы в комплексе и переносит их между системами.

Стратегическое значение

Патент подтверждает стратегию Google на повсеместное использование поведенческих данных для оценки качества и релевантности. Он демонстрирует техническое решение для интеграции сигналов между различными компонентами экосистемы Google (Web, Video, News, и т.д.). Долгосрочная SEO-стратегия должна быть направлена на максимизацию удовлетворенности пользователя (User Satisfaction), измеряемую через время и качество взаимодействия на всех платформах.

Практические примеры

Сценарий: Бустинг нового видео в Google Видео за счет данных из Веб-поиска

Контекст: Публикуется статья с встроенным качественным видео. Статья хорошо ранжируется в Веб-поиске (Secondary System).
Сбор Вторичных Данных: Пользователи Веб-поиска переходят на статью и долго смотрят видео. Google фиксирует это как Secondary User Feedback Data с высоким показателем Targeted Interactions.
Запрос в Google Видео (Primary System): Пользователь вводит релевантный запрос в Google Видео. Система видит, что для этого видео у нее еще мало собственных данных (d1 < Smoothing Factor).
Активация механизма: Система заимствует данные из Веб-поиска. Так как d1 мало, вес (Weight) данных из Веб-поиска высок.
Расчет CQM и Ранжирование: Комбинированная метрика качества (CQM) получается высокой за счет хороших данных из Веб-поиска. Видео получает буст и ранжируется выше в Google Видео.
Накопление Первичных Данных: Со временем видео набирает просмотры из Google Видео (d1 растет). Влияние данных из Веб-поиска снижается. Ранжирование стабилизируется на основе предпочтений пользователей Google Видео, когда d1 превысит Smoothing Factor.

Вопросы и ответы

Что такое «Targeted Interaction» и почему это важно для SEO?

Targeted Interaction — это взаимодействие пользователя с контентом, продолжительность которого превышает определенный порог (аналог Long Click или Dwell Time). Это критически важно, так как патент использует именно эти взаимодействия как основной индикатор качества и релевантности. Для SEO это означает, что необходимо не просто получить клик, а удержать пользователя на странице или обеспечить длительный просмотр видео.

Что такое «Primary» и «Secondary» данные в контексте этого патента?

Primary Data — это поведенческие данные, собранные в той поисковой системе, которая сейчас выполняет ранжирование (например, Google Картинки). Secondary Data — это данные о том же контенте, но собранные в другой системе (например, в Веб-поиске Google), которая использует другой алгоритм ранжирования. Система использует вторичные данные для дополнения первичных, если их недостаточно.

Всегда ли Google смешивает данные из разных поисковых систем?

Нет. Ключевым механизмом является «Фактор сглаживания» (Smoothing Factor). Внешние (Secondary) данные используются только тогда, когда собственных (Primary) данных недостаточно (меньше порогового значения). Как только основная система накапливает достаточно своих данных, влияние внешних данных снижается до нуля.

Как этот патент влияет на SEO для вертикальных поисков (Видео, Картинки, Новости)?

Он имеет прямое влияние. Он объясняет, как контент, популярный в основном веб-поиске, может получить преимущество в вертикальном поиске (и наоборот), особенно на начальном этапе или по нишевым запросам. Это подчеркивает необходимость кросс-форматной оптимизации и обеспечения высокого качества взаимодействия во всех средах.

Может ли популярное видео на YouTube хорошо ранжироваться в поиске Google благодаря этому патенту?

Да. Если видео демонстрирует отличные поведенческие метрики на YouTube (например, высокое время удержания), эти данные могут быть использованы как Secondary Feedback для улучшения его ранжирования в веб-поиске Google или вертикали Google Видео, особенно если у Google еще мало собственных данных об этом видео в контексте конкретного запроса.

Что произойдет, если контент популярен в одной системе, но не нравится пользователям в другой?

Изначально контент может получить буст в Системе А за счет хороших данных из Системы Б. Однако по мере накопления негативных первичных данных в Системе А, влияние данных из Системы Б будет снижаться. Когда первичных данных станет достаточно (достигнут Smoothing Factor), контент упадет в ранжировании в Системе А, отражая реальные предпочтения ее пользователей.

Какие метрики поведения наиболее важны согласно патенту?

Наиболее важны метрики, основанные на Targeted Interactions. Патент выделяет TIQM (доля длительных кликов от общего числа кликов) и IMPQM (доля длительных кликов от числа показов). Это указывает на приоритет качества взаимодействия и удовлетворенности пользователя над простым CTR.

Влияет ли этот патент на свежий контент (Freshness/QDF)?

Да, он помогает решить проблему «холодного старта». Новый контент имеет мало исторических данных. Этот механизм позволяет системе использовать данные из другого источника (например, из другой вертикали, где он появился раньше), чтобы оценить его качество и дать ему шанс занять высокие позиции сразу после индексации.

Как рассчитывается вес для внешних данных?

Вес рассчитывается по формуле, которая учитывает порог сглаживания (Smoothing Factor) и объем первичных данных. Основной принцип: чем меньше первичных данных, тем выше вес вторичных данных. Патент также защищает варианты, где вес может зависеть и от объема вторичных данных для нормализации.

Есть ли противоречия или вариативность в описании расчета веса (Weight) в патенте?

Существует вариативность. В основном описании (Description) приводится пример формулы, где вес зависит только от объема первичных данных (d1) и Smoothing Factor. Однако в Формуле изобретения (Claims 3-5) указано, что вес также может зависеть от объема вторичных данных (d2) и быть обратно пропорционален им. Это означает, что Google защищает несколько вариантов реализации этого механизма взвешивания.