Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

SEARCH RESULT INPUTS USING VARIANT GENERALIZED QUERIES (Использование вариантов обобщенных запросов в качестве входных данных для результатов поиска)

US9110975B1
Google LLC
2006-11-02
2015-08-18

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

Какую проблему решает

Патент решает проблему нехватки исторических поведенческих данных (например, click data, dwell time) для оценки релевантности документов по редким, новым или длиннохвостым (long-tail) запросам. Использование поведенческих сигналов эффективно для популярных запросов, но ненадежно при малом объеме данных. Изобретение позволяет использовать накопленную статистику по семантически похожим (обобщенным) запросам для улучшения ранжирования по исходному запросу.

Что запатентовано

Запатентована система, которая генерирует generalized quality of result statistic (обобщенную статистику качества результата) для документа путем агрегации поведенческих данных из вариантов исходного запроса. Если для пары запрос-документ нет исторических данных в модели, система создает обобщенные варианты запроса (например, путем удаления стоп-слов, использования синонимов, стемминга). Данные о кликах, связанные с этими вариантами, агрегируются и используются как входной сигнал для ранжирования по исходному запросу.

Как это работает

Система работает на основе предварительно построенной модели (Model), хранящей кортежи (tuples) вида <документ, запрос, данные>, где данные — это агрегированная статистика поведения пользователей. При получении нового запроса система проверяет наличие данных для документов в выдаче.

Поиск точного совпадения: Если данных нет, активируется Query Generalizer.
Генерация вариантов: Система создает варианты запроса, используя различные техники обобщения (удаление опциональных слов, стоп-слов, синонимы, стемминг, перестановки, частичное совпадение).
Поиск совпадений вариантов: Система ищет эти варианты в модели для данного документа.
Расчет статистики и весов: Поведенческие данные из найденных вариантов агрегируются. При этом данные понижаются в весе (down-weighted) в зависимости от степени отличия варианта от исходного запроса (используя match belief score или edit distance).
Применение: Итоговая generalized quality of result statistic используется как входной сигнал для модификации ранжирования.

Актуальность для SEO

Высокая. Обработка long-tail запросов и использование поведенческих факторов остаются критически важными для поисковых систем. Механизмы семантического понимания и агрегации сигналов, описанные в патенте (синонимы, стемминг, определение опциональных терминов), активно развиваются. Этот патент описывает фундаментальный подход к переносу знаний о поведении пользователей между семантически связанными запросами.

Важность для SEO

Патент имеет высокое значение для SEO-стратегии, особенно для продвижения по СЧ/НЧ и long-tail запросам. Он показывает, что удовлетворение интента пользователя (выраженное в положительных поведенческих сигналах, таких как long clicks) по одному запросу может напрямую влиять на ранжирование этой же страницы по множеству семантически близких запросов, даже если по ним еще не накоплена собственная статистика. Это подчеркивает важность работы над Topical Authority и качеством страницы в целом, а не только над оптимизацией под конкретный ключ.

Термины и определения

Click Data (Данные о кликах): Информация о взаимодействии пользователя с результатами поиска. Включает факт клика, позицию результата, а также время, проведенное пользователем на документе (dwell time) до возврата на страницу выдачи.
Edit Distance (Расстояние редактирования): Метрика для измерения различия между двумя запросами (например, исходным и обобщенным). Определяется как минимальное количество операций (вставка, удаление, замена термина), необходимых для преобразования одного запроса в другой. Используется для понижения веса данных при частичном совпадении запросов.
Generalized Quality of Result Statistic (Обобщенная статистика качества результата): Метрика качества документа для исходного запроса, рассчитанная путем агрегации user behavior data из одного или нескольких обобщенных (variant) запросов.
Generalized Query / Variant Query (Обобщенный / Вариантный запрос): Запрос, созданный путем модификации исходного пользовательского запроса с целью найти похожий запрос, для которого уже существуют исторические данные.
Long Click / Short Click (Длинный / Короткий клик): Классификация кликов на основе dwell time. Длинный клик обычно интерпретируется как признак релевантности документа, короткий клик — как признак отсутствия релевантности.
Match Belief Score (Оценка уверенности в совпадении): Метрика, оценивающая семантическую близость между исходным запросом и обобщенным запросом. Основана на типах и количестве обобщений, необходимых для совпадения. Используется для взвешивания данных: чем ниже оценка, тем меньше вес у поведенческих данных.
Model (Модель): База данных, агрегирующая информацию о поведении пользователей. Хранит записи (tuples) как минимум в формате <документ, запрос, данные>.
Optional Terms (Опциональные термины): Термины в запросе, удаление которых не меняет основного концепта (интента) запроса. Пример: удаление "Toyota" из "Toyota celica hatchback".
Partial Query Match (Частичное совпадение запроса): Ситуация, когда один или несколько терминов исходного запроса совпадают с одним или несколькими терминами запроса в модели.
Query Generalizer (Обобщитель запросов): Компонент системы, отвечающий за создание вариантов (обобщений) исходного запроса.
Stop Words (Стоп-слова): Часто встречающиеся слова (например, предлоги, союзы), которые обычно не несут самостоятельного смысла и могут быть удалены без изменения топика запроса.
Tuple (Кортеж): Запись в модели, связывающая документ, запрос и агрегированные поведенческие данные для этой пары.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод использования обобщенных запросов для ранжирования.

Система получает пользовательский запрос и генерирует начальный рейтинг документов.
Система определяет, что исходный запрос не соответствует ни одной записи в модели (model) запросов и документов.
В ответ на это система формирует один или несколько вариантов (variants) исходного запроса для генерации одного или нескольких других запросов, которые соответствуют записям в модели. Эти другие запросы отличаются от исходного.
Система выводит generalized quality of result statistic для первого документа на основе данных, связанных с этими другими запросами в модели. Эти данные указывают на агрегированное поведение пользователей (aggregate user behavior) в отношении этого документа, когда он был результатом поиска по этим другим запросам.
Система предоставляет эту статистику в качестве входных данных для последующего процесса ранжирования документов по исходному запросу.

Claim 5 (Зависимый от 1): Уточняет методы создания вариантов запроса.

Вариант запроса формируется путем выполнения одного или нескольких действий: замена терминов синонимами, изменение порядка терминов (перестановка) или замена терминов их основами (стемминг).

Claim 4 (Зависимый от 1): Уточняет процесс взвешивания.

Вывод статистики включает модификацию статистики качества результата на основе уровня уверенности (level of certainty) для каждого из сгенерированных запросов (т.е. применение match belief score).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, связывая офлайн-обработку данных с онлайн-ранжированием.

INDEXING / Офлайн-процессы
На этом этапе происходит построение Модели (Model Building). Система анализирует логи взаимодействия пользователей с поисковой выдачей (result selection logs), агрегирует click data (включая dwell time) и сохраняет их в виде кортежей <документ, запрос, данные>. Также может происходить предварительная обработка запросов, например, создание версий без стоп-слов.

RANKING – Ранжирование
На этом этапе генерируется начальный рейтинг (Initial Ranking) документов на основе стандартных IR-сигналов.

RERANKING – Переранжирование
Основное применение патента. Компонент Rank Modifier использует данные из Модели для корректировки начального рейтинга.

Проверка наличия данных: Система проверяет, есть ли в Модели данные для исходного запроса и документа.
Активация обобщения: Если данных нет или недостаточно, активируется Query Generalizer.
Генерация и поиск вариантов: Создаются варианты запроса, ищутся совпадения в Модели.
Расчет статистики: Вычисляется generalized quality of result statistic с учетом весов (match belief score, edit distance).
Модификация рейтинга: Статистика используется для переранжирования и создания финального рейтинга (Final Ranking).

Входные данные:

Исходный пользовательский запрос.
Начальный рейтинг документов (Initial Ranking).
Модель (Model) с агрегированными поведенческими данными.

Выходные данные:

Generalized quality of result statistic для одного или нескольких документов.
Финальный рейтинг документов (Final Ranking).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие, новые и длиннохвостые (long-tail) запросы, по которым недостаточно собственной статистики поведения пользователей.
Типы контента: Влияет на любые типы документов, по которым собирается статистика кликов (веб-страницы, изображения, видео, товары и т.д.).
Тематики: Влияние универсально, но особенно заметно в нишах с большим разнообразием формулировок запросов для одного и того же интента.

Когда применяется

Алгоритм применяется при выполнении следующих условий:

Условие активации: Когда для пары исходный запрос-документ отсутствует или недостаточно исторических поведенческих данных в Модели.
Условие успешного применения: Когда удается сгенерировать один или несколько вариантов (обобщений) исходного запроса, которые присутствуют в Модели для данного документа.

Пошаговый алгоритм

Процесс А: Обработка запроса и переранжирование (Онлайн)

Получение запроса и начального рейтинга: Система получает запрос и генерирует Initial Ranking.
Выбор документа: Система итерирует по документам в начальном рейтинге.
Проверка Модели (Exact Match): Проверяется, есть ли в Модели кортеж для точного совпадения исходного запроса и документа.
- Если ДА: Рассчитать статистику качества на основе этих данных. Перейти к шагу 8.
- Если НЕТ: Активировать Query Generalizer. Перейти к шагу 4.
Генерация вариантов запроса: Система применяет техники обобщения последовательно или параллельно: удаление стоп-слов, опциональных терминов, замена синонимами, стемминг, перестановки, частичное совпадение.
Поиск вариантов в Модели: Система ищет сгенерированные варианты в кортежах, связанных с данным документом.
Выбор наилучшего совпадения (Опционально): Если найдено несколько вариантов, может быть выбран вариант с наивысшим Match Belief Score (наименьшее количество и сложность обобщений).
Расчет обобщенной статистики: Система агрегирует поведенческие данные из найденных кортежей. Применяется понижающий коэффициент (down-weighting) на основе Match Belief Score или Edit Distance.
Модификация ранжирования: Рассчитанная generalized quality of result statistic используется компонентом Rank Modifier для корректировки позиции документа.
Повторение: Повторить для следующего документа (шаг 2).

Процесс Б: Построение Модели (Офлайн)

Сбор данных: Компонент Tracking Component записывает взаимодействия пользователей (запрос, клик, dwell time) в Result Selection Logs.
Агрегация данных: Логи обрабатываются, данные агрегируются по парам запрос-документ (например, подсчет long clicks и short clicks).
Сохранение в Модели: Данные сохраняются в виде кортежей <документ, запрос, данные>.
Предварительная обработка (Опционально): Для существующих кортежей могут создаваться дополнительные кортежи с обобщенными версиями запросов (например, без стоп-слов), и данные могут пропагироваться между ними.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных и метаданных запросов.

Поведенческие факторы (User Behavior Data): Ключевые данные. Включают Click Data, Dwell time (время на документе), классификацию кликов (Long Click, Short Click). Также упоминаются другие данные: позиция клика, информация о сессии, IR-оценки показанных результатов, заголовки и сниппеты, cookie пользователя, IP-адрес, User Agent.
Контентные/Лингвистические факторы: Используются для процесса обобщения: списки стоп-слов, базы данных синонимов, алгоритмы стемминга.

Какие метрики используются и как они считаются

Match Belief Score: Оценка семантической близости. Рассчитывается путем применения штрафов (penalties) за каждое необходимое обобщение (например, штраф за удаление стоп-слова, штраф за синоним). Штрафы могут перемножаться при комбинировании обобщений.
Edit Distance (ed): Метрика различия между запросами (количество вставок/удалений/замен терминов). Используется при частичном совпадении.
Click Fraction (f): Взвешенная доля кликов для пары запрос-документ. Может рассчитываться как: $f = \frac{\#wc(query, document)}{\#c(query)}$ (где #wc – сумма взвешенных кликов, #c – общее число кликов).
Down-weighted Click Fraction (df): Пониженная в весе доля кликов. Используется для моделирования потери семантического контекста при частичном совпадении. Рассчитывается с использованием экспоненциального затухания на основе edit distance (ed): $df(nq, uq) = f(nq, uq) \times (1+ed(nq, uq))^{-k}$ (где nq – запрос из модели, uq – исходный запрос, k > 1).
Final Click Fraction (ff): Итоговая доля кликов для документа при частичном совпадении. Рассчитывается на основе вектора V, содержащего нормализованные суммы df для каждого термина исходного запроса: $ff = \frac{(median(V) + \alpha min(V))}{1+\alpha}$ (где α – константа).

Агрегация поведенческих сигналов между запросами: Патент подтверждает, что Google активно использует поведенческие данные (user behavior data, click data) не только для конкретного запроса, но и агрегирует их из семантически связанных запросов. Это позволяет системе оценивать качество документа даже при отсутствии прямых исторических данных.
Важность удовлетворения интента (User Satisfaction): Основой механизма являются данные о кликах и dwell time (long clicks). Положительные поведенческие сигналы на странице по одному запросу улучшают её ранжирование по множеству других связанных запросов.
Механизмы семантического обобщения: Система использует конкретные лингвистические и статистические методы для определения связи между запросами: синонимы, стемминг, игнорирование стоп-слов и опциональных терминов, а также частичное совпадение. Это не простое совпадение ключевых слов, а попытка найти запросы с аналогичным интентом.
Взвешивание на основе уверенности: Система не доверяет обобщенным данным слепо. Используются метрики уверенности (Match Belief Score) и семантической дистанции (Edit Distance). Чем дальше обобщенный запрос от оригинала, тем меньше вес его поведенческих данных. Применяются сложные формулы взвешивания, включая экспоненциальное затухание.
Обработка Long-Tail запросов: Этот механизм критически важен для ранжирования по НЧ и редким запросам. Он позволяет страницам, хорошо отвечающим на более общие или популярные запросы в теме, получать преимущество в ранжировании по связанным длиннохвостым запросам.
Пропагация данных при уточнении запроса: Патент также описывает механизм переноса поведенческих данных от уточненного запроса к исходному в рамках одной сессии, что усиливает сигналы релевантности для более общих запросов.

Best practices (это мы делаем)

Фокус на Topical Authority и широком охвате темы: Создавайте контент, который всесторонне покрывает тему и отвечает на различные варианты запросов (синонимы, разные формулировки). Если страница получает положительные поведенческие сигналы по популярным запросам кластера, она получит буст по всем связанным long-tail запросам за счет механизма обобщения.
Оптимизация под User Satisfaction (Long Clicks): Обеспечьте максимальное удовлетворение интента пользователя, чтобы стимулировать long clicks и минимизировать short clicks. Это главный источник данных для Модели, описанной в патенте. Качество поведенческих факторов напрямую влияет на quality of result statistic.
Использование синонимов и вариаций в контенте: Естественное использование синонимов и различных форм слов (стемминг) в тексте и заголовках помогает системе лучше ассоциировать страницу с различными вариантами запросов, увеличивая вероятность того, что страница будет рассмотрена при обобщении.
Анализ семантического кластера: При анализе эффективности страницы учитывайте её производительность по всему кластеру связанных запросов, а не только по целевому ключу. Улучшение позиций по одному запросу в кластере может быть результатом агрегации сигналов из других запросов этого же кластера.

Worst practices (это делать не надо)

Узкая оптимизация под точное вхождение ключа: Создание контента, оптимизированного только под одну конкретную формулировку запроса, неэффективно. Система обобщает запросы, и если страница нерелевантна семантическим вариантам, она не сможет воспользоваться агрегированными поведенческими данными.
Игнорирование поведенческих факторов: Стратегии, направленные на получение клика любой ценой (кликбейт) без последующего удовлетворения интента (что приводит к short clicks), будут пессимизироваться. Эти негативные сигналы также агрегируются и могут ухудшить ранжирование по всему кластеру запросов.
Создание разрозненных страниц под каждый НЧ запрос (Doorways): Попытка создать отдельные слабые страницы под каждую вариацию запроса менее эффективна, чем создание одной сильной страницы, которая агрегирует поведенческие сигналы из множества вариаций.

Стратегическое значение

Патент подчеркивает переход от ранжирования на основе точного совпадения запроса к ранжированию на основе семантической близости и агрегированных поведенческих сигналов. Он демонстрирует, как Google справляется с разреженностью данных в long-tail поиске. Для SEO это означает, что построение тематического авторитета и фокус на качестве взаимодействия пользователя с контентом являются фундаментальными факторами. Поведенческие сигналы становятся переносимым активом страницы в рамках всей темы.

Практические примеры

Сценарий: Использование данных из синонимичного запроса

Ситуация: Продвигается страница интернет-магазина по новому запросу "купить автомобиль с пробегом" (Query 1). Исторических данных мало.
Модель Google: В Модели есть много данных по запросу "купить авто бу" (Query 2) для этой же страницы, и они положительные (много long clicks).
Работа алгоритма: Система распознает "автомобиль" как синоним "авто" и "с пробегом" как семантически близкое к "бу". Она генерирует Query 2 как вариант Query 1.
Взвешивание: Рассчитывается Match Belief Score. Так как использовались синонимы, score может быть, например, 0.8.
Применение: Положительные поведенческие данные из Query 2 используются для расчета generalized quality of result statistic для Query 1, но с понижающим коэффициентом 0.8.
Результат: Страница получает буст в ранжировании по запросу "купить автомобиль с пробегом" благодаря хорошей истории по "купить авто бу".

Сценарий: Использование данных из частичного совпадения (Partial Match)

Ситуация: Продвигается страница по запросу "рецепт яблочного пирога с корицей быстро" (Query 1). Данных нет.
Модель Google: В Модели есть данные для этой страницы по запросу "рецепт яблочного пирога" (Query 2).
Работа алгоритма: Система определяет Query 2 как частичное совпадение для Query 1.
Взвешивание: Рассчитывается Edit Distance. Для превращения Query 1 в Query 2 нужно удалить 3 слова ("с корицей быстро"). Edit distance = 3.
Применение: Поведенческие данные из Query 2 используются для Query 1, но с применением экспоненциального затухания на основе Edit Distance=3 (вес будет значительно понижен).
Результат: Страница получает небольшой буст по Query 1, так как она релевантна основной части запроса.

Что такое "Модель" (Model) в контексте этого патента и какие данные она хранит?

Модель — это база данных, которая агрегирует исторические данные о поведении пользователей. Она хранит записи (кортежи) в формате <документ, запрос, данные>, где "данные" – это метрики взаимодействия, такие как количество кликов, время пребывания на сайте (dwell time) и классификация кликов (long/short clicks). Эта модель служит источником знаний о том, какие документы пользователи считали релевантными для конкретных запросов в прошлом.

В каких случаях активируется механизм обобщения запросов?

Механизм обобщения (Query Generalization) активируется, когда система определяет, что для исходного запроса пользователя и конкретного документа в выдаче недостаточно или полностью отсутствуют исторические поведенческие данные в Модели. Это типично для редких, новых или длиннохвостых (long-tail) запросов. Цель обобщения — найти похожий запрос, по которому статистика уже есть.

Какие методы Google использует для обобщения запроса?

Патент описывает несколько ключевых методов: удаление стоп-слов (например, предлогов); удаление опциональных терминов (слов, не меняющих интент); замена терминов синонимами; стемминг (приведение слов к основе); и изменение порядка слов (перестановка). Также упоминается частичное совпадение запросов (Partial Query Match), когда совпадают только некоторые термины.

Как система определяет, насколько можно доверять данным из обобщенного запроса?

Система использует метрики уверенности, такие как Match Belief Score или Edit Distance. Match Belief Score понижается за каждое примененное обобщение (например, использование синонима штрафуется сильнее, чем удаление стоп-слова). Edit Distance измеряет количество изменений, необходимых для преобразования одного запроса в другой. Чем ниже уверенность или больше дистанция, тем сильнее понижается вес (down-weighting) поведенческих данных, часто с использованием экспоненциального затухания.

Что такое экспоненциальное затухание (exponential decay) при частичном совпадении запросов?

Это метод понижения веса поведенческих данных, используемый, когда исходный запрос совпадает с запросом из модели лишь частично. Вес данных уменьшается экспоненциально с увеличением Edit Distance (количества несовпадающих терминов). Это делается для того, чтобы предотвратить переоценку релевантности при слишком свободных совпадениях и учесть потерю семантического контекста.

Как этот патент влияет на стратегию продвижения по НЧ и long-tail запросам?

Он критически важен для НЧ-продвижения. Патент показывает, что для успешного ранжирования по long-tail запросам необходимо иметь страницу, которая уже хорошо себя зарекомендовала (имеет положительные поведенческие сигналы) по более популярным или семантически близким запросам. Стратегия должна фокусироваться на создании авторитетных страниц (Topical Authority), которые агрегируют положительные сигналы со всего кластера, что позволит им ранжироваться по НЧ-запросам даже без прямых исторических данных по ним.

Означает ли этот патент, что точное вхождение ключевых слов больше не важно?

Точное вхождение остается важным фактором ранжирования, но этот патент показывает, что поведенческие сигналы могут быть перенесены между разными формулировками одного интента. Если страница идеально оптимизирована под точное вхождение, но получает негативные поведенческие сигналы (short clicks), эти сигналы могут ухудшить её ранжирование по всем связанным запросам. Важнее удовлетворить интент, стоящий за разными формулировками.

Что такое пропагация данных при уточнении запроса (Query Refinement Propagation)?

Это механизм, описанный в патенте, при котором поведенческие данные переносятся от уточненного запроса к исходному в рамках одной пользовательской сессии. Например, если пользователь ввел "ресторан", не нашел нужного, затем уточнил "итальянский ресторан Москва центр" и совершил long click на документе, этот положительный сигнал может быть засчитан для этого документа и по исходному запросу "ресторан".

Как SEO-специалисту использовать знания из этого патента для улучшения контента?

Необходимо фокусироваться на создании контента, который максимально удовлетворяет интент пользователя (стимулирует long clicks). Контент должен естественно включать синонимы, различные словоформы и отвечать на смежные вопросы. Это позволит странице накапливать положительные поведенческие сигналы из максимально широкого спектра запросов, которые затем будут агрегироваться системой для улучшения ранжирования по всему семантическому кластеру.

Может ли этот механизм привести к тому, что в выдаче появятся менее релевантные результаты?

Теоретически да, если система некорректно определит семантическую связь между запросами или если поведенческие данные из обобщенного запроса не отражают релевантность для исходного запроса. Однако для минимизации этого риска Google использует строгие механизмы взвешивания (Match Belief Score, Edit Distance), которые значительно понижают вес данных при низкой уверенности в семантической близости запросов.

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей

Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.

US8498974B1
2013-07-30

Поведенческие сигналы
Мультиязычность
Персонализация

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи

Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.

US20130246381A1
2013-09-19

Персонализация
Поведенческие сигналы
SERP

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы