Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

RANKING SEARCH RESULTS BASED ON SIMILAR QUERIES (Ранжирование результатов поиска на основе похожих запросов)

US9009146B1
Google LLC
2012-05-21
2015-04-14

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

Какую проблему решает

Патент решает проблему нехватки данных о поведении пользователей (User Behavior Data, например, кликов и времени пребывания на странице) для точного ранжирования результатов по новым, редким или длиннохвостым запросам. Стандартные алгоритмы ранжирования, опирающиеся на поведенческие сигналы для оценки релевантности, неэффективны при отсутствии этих данных (Insufficient User Behavior Data). Изобретение позволяет улучшить качество выдачи для таких запросов, используя данные из семантически близких запросов с богатой историей.

Что запатентовано

Запатентована система, которая при недостаточности поведенческих данных для исходного запроса идентифицирует и оценивает схожесть исторических запросов. Система использует сложный механизм взвешивания терминов (учитывая их важность, синонимы, порядок и целостность составных фраз) для расчета оценки схожести (Match Score). Затем она агрегирует User Behavior Data из наиболее похожих запросов и использует эти данные для генерации статистик качества результатов (Quality of Result Statistic), которые влияют на ранжирование исходного запроса.

Как это работает

Система работает следующим образом:

Проверка достаточности данных: Определяется, достаточно ли User Behavior Data для исходного запроса.
Взвешивание терминов запроса: Если данных недостаточно, терминам исходного запроса присваиваются веса в зависимости от их типа: обязательные (Regular/Variant), опциональные (Optional) или стоп-слова (Stopword).
Расчет схожести: Исторические запросы сравниваются с исходным. Рассчитывается Match Score (используя аддитивные и мультипликативные оценки), учитывая веса терминов и применяя штрафы за отсутствие терминов, нарушение порядка слов или «разрыв» составных фраз (Broken Compound Terms).
Выбор и агрегация данных: Выбираются наиболее похожие запросы. Их User Behavior Data комбинируются (например, через взвешенное среднее или ограниченное агрегирование).
Переранжирование: Комбинированные данные используются для расчета Quality of Result Statistic для документов, которые затем используются для корректировки их позиций в выдаче.

Актуальность для SEO

Высокая. По мере роста голосового поиска и появления уникальных запросов, проблема нехватки исторических данных остается крайне актуальной. Способность Google использовать поведенческие сигналы из смежных запросов для оценки релевантности является ключевым компонентом современных систем ранжирования, особенно для обеспечения качества в «длинном хвосте».

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он показывает, что эффективность сайта по популярным и смежным запросам может напрямую влиять на его ранжирование по редким или новым запросам в той же тематике. Это подчеркивает важность построения тематического авторитета (Topical Authority) и комплексного удовлетворения интента пользователей в рамках всего кластера запросов, а не только оптимизации под конкретные ключевые слова.

Термины и определения

User Behavior Data (Данные о поведении пользователей): Данные, отражающие взаимодействие пользователей с результатами поиска. В патенте упоминаются click data (клики) и время пребывания (dwell time) на документе (long clicks, short clicks).
Historical Query (Исторический запрос): Запрос, ранее отправленный поисковой системе, для которого собраны User Behavior Data.
Input Query (Входной запрос): Текущий запрос пользователя, для которого система выполняет ранжирование.
Quality of Result Statistic (Статистика качества результата): Метрика, производная от User Behavior Data, указывающая на релевантность документа конкретному запросу. Используется как входной сигнал для процесса ранжирования.
Match Score (Оценка схожести): Числовое значение (например, от 0.0 до 1.0), определяющее степень семантической схожести между Input Query и Historical Query.
AMS (Absolute Match Score) Tally (Счетчик абсолютной оценки схожести): Аддитивный (суммирующий) счетчик весов совпадающих терминов при расчете схожести запросов.
MMS (Multiplicative Match Score) Tally (Счетчик мультипликативной оценки схожести): Мультипликативный (перемножающий) счетчик весов и штрафов при расчете схожести запросов.
Regular Term (Обычный термин): Важный или необходимый термин в запросе. Получает высокий вес (например, 1.0). Должен точно совпадать.
Variant Term (Вариативный термин): Важный термин, который может совпадать точно или через варианты (стемминг, синонимы, диакритические варианты). Получает высокий вес.
Required Term (Обязательный термин): Термин (обычно Regular или Variant), который должен присутствовать (точно или в виде варианта) в историческом запросе, чтобы он считался похожим.
Optional Term (Опциональный термин): Термин, не являющийся необходимым для понимания основного интента запроса. Получает средний вес.
Stopword Term (Стоп-слово): Артикли, предлоги, союзы. Получают низкий вес.
Compound Term (Составной термин): Коллекция из двух или более терминов, которые вместе передают определенную концепцию (например, "new york").
Broken Compound Term (Разбитый составной термин): Ситуация, когда Compound Term из входного запроса присутствует в историческом запросе, но его концепция нарушена (например, изменен порядок слов или вставлены другие слова).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод использования схожих запросов для ранжирования, включая строгие условия фильтрации.

Для документа, найденного по запросу пользователя (user-submitted query), система оценивает (scoring) один или несколько других запросов на основе их схожести с исходным.
Оценка схожести включает:
- Получение разных типов терминов исходного запроса (опциональные, обязательные/regular, стоп-слова) и их весов.
- Определение, содержит ли другой запрос точное совпадение для каждого обязательного (required term) термина. Если нет – запрос удаляется из рассмотрения.
- Расчет оценки схожести (match score) для оставшихся запросов путем корректировки оценки на вес каждого совпавшего термина. Все корректировки выполняются одной и той же операцией (либо сложение, либо умножение).
Выбираются один или несколько других запросов на основе их оценок схожести.
Выводится статистика качества результата (quality of result statistic) для документа на основе данных о поведении пользователей, связанных с выбранными запросами.
Эта статистика передается в процесс ранжирования документов для исходного запроса.

Ключевой момент интерпретации: Система жестко фильтрует кандидатов — если обязательный термин отсутствует, запрос не рассматривается. Это гарантирует сохранение основного интента.

Claim 9 (Зависимый от 1): Детализирует расчет оценки схожести с использованием двух метрик.

Расчет двух оценок: Мультипликативной (multiplicative match score) на основе умножения весов и Абсолютной (absolute match score) на основе сложения весов.
Выбор того, использовать ли Абсолютную оценку, Мультипликативную оценку или их комбинацию в качестве итоговой оценки схожести, основывается на сравнении длины входного запроса и длины другого запроса.

Claim 11 (Зависимый от 1): Добавляет концепцию вариативных терминов.

Система также получает вариативные термины (variant terms) и их варианты (variants) с соответствующими весами. Расчет оценки схожести включает добавление веса вариативного термина, если он присутствует в другом запросе.

Где и как применяется

Изобретение применяется на стыке понимания запросов и ранжирования, используя предварительно обработанные данные о поведении пользователей.

INDEXING – Индексирование и извлечение признаков
На этом этапе (или в смежных офлайн-процессах) происходит сбор и агрегация User Behavior Data (клики, dwell time) для исторических запросов. Эти данные сохраняются в репозитории.

QUNDERSTANDING – Понимание Запросов
Система анализирует входной запрос для определения типов его терминов (Regular, Variant, Optional, Stopword) и генерации вариантов (синонимов, стемминга). Также на этом этапе могут идентифицироваться составные термины (Compound Terms) с помощью Compound Term Identification Engine.

RANKING – Ранжирование / RERANKING – Переранжирование
Основное место применения патента. Query Results Rank Modifier (или Rank Modifier Engine) вмешивается в процесс ранжирования.

Триггер: Система проверяет достаточность User Behavior Data для входного запроса. Если данных недостаточно, активируется механизм поиска похожих запросов.
Оценка схожести: Query Scoring Engine рассчитывает Match Scores между входным запросом и кандидатами исторических запросов, используя детальный алгоритм взвешивания и штрафов.
Агрегация данных: Система выбирает лучшие исторические запросы и комбинирует их User Behavior Data, используя один из методов агрегации (например, взвешенное среднее).
Расчет метрик и Ранжирование: Из агрегированных данных выводятся Quality of Result Statistics для документов. Эти статистики передаются в Ranking Engine как дополнительный сигнал для определения финального порядка результатов.

Входные данные:

Входной запрос и его результаты (с IR-scores).
Типы терминов входного запроса и их веса.
База исторических запросов и связанные с ними User Behavior Data.
Данные о синонимах, стемминге и диакритических вариантах.
Идентификаторы и оценки уверенности для Compound Terms.

Выходные данные:

Quality of Result Statistics для документов, основанные на комбинированных данных похожих запросов.
Скорректированный (переранжированный) набор результатов поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие, новые, длиннохвостые (long-tail) запросы или запросы с высокой степенью уникальности, по которым еще не накоплена статистика поведения пользователей.
Конкретные типы контента: Влияет на все типы контента, где используются поведенческие факторы для ранжирования (веб-страницы, товары в e-commerce).
Языковые особенности: Патент явно учитывает языковые особенности, такие как использование диакритических знаков (diacritical variants), и адаптирует расчет схожести в зависимости от строгости их использования в конкретном регионе (locale).

Когда применяется

Триггер активации: Основное условие активации — недостаточность (insufficiency) данных о поведении пользователей для исторического запроса, идентичного входному запросу.
Условия достаточности: Достаточность может определяться количеством уникальных пользователей, общим объемом данных, статистическим анализом или классификацией запроса.
Применение в реальном времени: Процесс сравнения запросов и агрегации данных происходит в реальном времени во время обработки запроса пользователя.

Пошаговый алгоритм

Этап 1: Инициализация и Проверка Данных

Получение входного запроса.
Проверка достаточности данных. Система определяет, есть ли достаточный объем User Behavior Data для идентичного исторического запроса.
- Если ДА: Использовать эти данные для расчета Quality of Result Statistics и перейти к Этапу 5.
- Если НЕТ: Перейти к Этапу 2.

Этап 2: Взвешивание Терминов Входного Запроса

Определение типов терминов. Каждый термин классифицируется как Regular, Variant, Optional или Stopword.
Присвоение весов. Каждому типу присваивается соответствующий вес.
Идентификация вариантов. Для Variant Terms генерируются варианты (синонимы, стемминг) с весами, основанными на степени схожести, с учетом локали (для диакритических вариантов).

Этап 3: Расчет Сходства Запросов

Выбор исторического запроса для сравнения.
Сравнение терминов и фильтрация. Система итерирует по терминам входного запроса:
- Если обязательный термин (Required Term) не найден (ни точно, ни как вариант) в историческом запросе, этот исторический запрос исключается из рассмотрения.
Расчет промежуточных оценок. Для оставшихся запросов веса совпадений и штрафы за отсутствующие опциональные термины аккумулируются в AMS (сложение) и MMS (умножение).
Применение штрафов за структуру. Применяются штрафы, если термины в историческом запросе находятся в другом порядке (Out of Order Penalty) или если Compound Terms из входного запроса «разбиты» (Broken Compound Penalty).
Определение итогового Match Score. Финальная оценка определяется как AMS, MMS или их линейная аппроксимация, часто в зависимости от разницы в длине запросов.
Повторение для других исторических запросов.

Этап 4: Выбор и Комбинирование Данных

Выбор похожих запросов. Выбираются исторические запросы с наивысшими Match Scores.
Комбинирование User Behavior Data. Данные выбранных запросов агрегируются для каждого документа. Методы могут включать:
- Взвешенное среднее (Weighted Average).
- Ограниченное агрегирование (каждый запрос добавляет не более порогового значения данных).
- Агрегирование до достижения уровня уверенности (Confidence Level).

Этап 5: Финализация и Ранжирование

Расчет Quality of Result Statistics. На основе комбинированных данных рассчитываются метрики качества для документов.
Корректировка оценок (Capping/Squashing). Оценки могут быть ограничены сверху (capping) для снижения риска ложных совпадений или скорректированы (squashing), если контент документа не подтверждает термины запроса.
Передача в Ranking Engine. Финальные Quality of Result Statistics отправляются в систему ранжирования.

Какие данные и как использует

Данные на входе

Поведенческие факторы (User Behavior Data): Критически важные данные. Используются агрегированные данные по историческим запросам: клики (click data), время пребывания на документе (dwell time, long/short clicks). Также может использоваться информация о сессии, местоположении пользователя, языке.
Контентные/Лингвистические факторы: Данные о синонимах, стемминге, диакритических вариантах. Используются для определения вариантов (variants) терминов.
Структурные факторы (Запроса): Порядок слов в запросе, идентификация составных терминов (Compound Terms).
Системные данные: Предварительно рассчитанные IR-scores документов для входного запроса.

Какие метрики используются и как они считаются

Основной фокус патента — расчет схожести запросов и комбинирование данных.

Метрики схожести запросов:

Веса терминов (Term Weights): Присваиваются на основе типа термина. Например: Regular/Variant=1.0; Optional=0.4-0.6; Stopword=0.1-0.2. Веса вариантов зависят от степени схожести.
AMS (Absolute Match Score): Аддитивная метрика. Сумма весов совпавших терминов.

Поведенческие данные доминируют, даже если они заимствованы: Google активно стремится использовать User Behavior Data для ранжирования. Если прямых данных нет, система готова использовать данные из похожих запросов, считая их достаточно надежным индикатором релевантности.
Сложный механизм оценки схожести запросов: Схожесть не является простым совпадением ключевых слов. Система использует многоуровневое взвешивание (Regular, Optional, Stopword), учитывает синонимы и стемминг (Variants), а также строго наказывает за нарушение порядка слов и разрыв концепций (Broken Compound Terms).
Обязательные термины как фильтр интента: Патент подчеркивает, что если обязательный (required/regular) термин отсутствует в историческом запросе, такой запрос может быть полностью исключен из рассмотрения. Это защитный механизм против заимствования данных из нерелевантных источников.
Адаптивное комбинирование данных: Система не полагается на один метод агрегации. Описаны различные подходы (взвешенное среднее, ограниченное агрегирование, агрегирование до порога уверенности), что указывает на гибкость в использовании заимствованных данных в зависимости от контекста и уровня доверия к схожести.
Влияние Head Terms на Long Tail: Успешное ранжирование и положительные поведенческие сигналы по высокочастотным (Head) или среднечастотным запросам создают базу данных, которая затем используется для ранжирования связанных с ними низкочастотных (Long Tail) запросов.

Best practices (это мы делаем)

Укрепление Topical Authority через удовлетворение интента: Сосредоточьтесь на полном удовлетворении пользовательского интента по всем запросам в рамках тематического кластера. Положительные поведенческие сигналы (высокий CTR, длительное время взаимодействия) по одним запросам могут улучшить ранжирование по другим, семантически связанным запросам, благодаря механизму заимствования данных.
Тщательная проработка семантического ядра и синонимов: Поскольку система активно использует Variant Terms (синонимы, стемминг) для поиска похожих запросов, важно включать релевантные синонимы и различные формы ключевых слов в контент. Это увеличивает вероятность того, что ваш контент будет признан релевантным для широкого спектра формулировок.
Оптимизация под концепции (Compound Terms): Работайте над контентом так, чтобы он четко отвечал на концепции, а не просто на набор слов. Система штрафует за «разрыв» составных терминов (Broken Compound Terms) при поиске похожих запросов. Это подтверждает важность оптимизации под сущности и их взаимосвязи.
Фокус на обязательных терминах (Core Intent): Убедитесь, что контент четко соответствует обязательным терминам (Required Terms) целевых запросов. Поскольку отсутствие этих терминов в похожих запросах приводит к их исключению, это подчеркивает их критичность для определения основного интента.

Worst practices (это делать не надо)

Изолированная оптимизация под НЧ-запросы: Оптимизация страниц исключительно под один редкий НЧ-запрос без учета его связи с более широкой темой неэффективна. Если по смежным, более популярным запросам сайт показывает плохие поведенческие факторы, это негативно скажется и на НЧ-запросе.
Игнорирование порядка слов и естественности языка: Создание контента, который содержит ключевые слова, но игнорирует естественный порядок слов или разрывает устоявшиеся фразы. Система применяет штрафы (Out of Order Penalty, Broken Compound Penalty) при оценке схожести, что снижает вероятность использования данных из таких неестественных запросов.
Манипуляции с поведенческими факторами на редких запросах: Попытки искусственно улучшить поведенческие факторы для редких запросов имеют ограниченный эффект, так как система активирует механизм заимствования только тогда, когда данных недостаточно для достижения порога уверенности (Confidence Level).

Стратегическое значение

Патент подтверждает стратегию Google по масштабированию оценки релевантности с помощью поведенческих данных. Для SEO это означает, что невозможно рассматривать запросы изолированно. Ранжирование становится функцией от общего качества взаимодействия пользователей с сайтом в рамках всей тематики. Стратегия должна быть направлена на построение авторитета в теме, где каждая страница усиливает другую, генерируя положительные сигналы, которые Google может использовать для ранжирования смежных запросов, даже если они появляются впервые.

Практические примеры

Сценарий: Ранжирование нового запроса о продукте

Входной запрос (Input Query): "iPhone 17 Pro Max титановый корпус отзывы" (Новый запрос, данных нет).
Анализ запроса:
- Required Terms: iPhone, 17, Pro, Max, титановый, корпус, отзывы.
- Compound Terms: "iPhone 17 Pro Max", "титановый корпус".
Поиск похожих запросов (Historical Queries):
- Q1: "iPhone 16 Pro Max отзывы" (Высокий Match Score, много данных).
- Q2: "iPhone 17 Pro титановый" (Высокий Match Score, меньше данных).
- Q3: "Отзывы корпус титановый Samsung S26" (Низкий Match Score, обязательный термин "iPhone" отсутствует - исключен).
Комбинирование данных: Система агрегирует данные о кликах из Q1 и Q2. Допустим, сайт TechRadar.com имеет отличные поведенческие метрики по Q1 и Q2.
Результат: TechRadar.com получает высокий Quality of Result Statistic для входного запроса и ранжируется высоко, несмотря на отсутствие прямых исторических данных по точному запросу "iPhone 17 Pro Max титановый корпус отзывы".

Что произойдет, если в моем запросе есть обязательный термин, которого нет в историческом запросе?

Согласно патенту (в частности, Claim 1), если обязательный термин (required term, к которым относятся regular и variant terms) из входного запроса отсутствует в историческом запросе, такой исторический запрос полностью исключается из рассмотрения. Это означает, что его поведенческие данные не будут использоваться для ранжирования входного запроса. Это критически важный механизм для сохранения релевантности и предотвращения заимствования данных из запросов с другим интентом.

Как система определяет, является ли термин обязательным, опциональным или стоп-словом?

Патент не детализирует механизм классификации терминов, но подразумевает, что это происходит на этапе понимания запроса (Query Understanding). На практике это определяется с помощью NLP-моделей, которые анализируют контекст запроса, частотность терминов, их роль в языке и связь с сущностями. Ключевые слова, определяющие основную тему или сущность, обычно классифицируются как обязательные, тогда как модификаторы или общие слова могут быть опциональными.

Насколько сильно штрафуется изменение порядка слов в похожем запросе?

Система применяет штраф (Out of Order Penalty), если термины исторического запроса переставлены относительно входного запроса. Патент предполагает, что штраф может зависеть от степени нарушения порядка. Более того, если изменение порядка слов разрывает составной термин (Compound Term), применяется отдельный, потенциально более строгий штраф (Broken Compound Penalty). Это подчеркивает важность естественного порядка слов и целостности фраз.

Что такое AMS и MMS и почему используются обе метрики?

AMS (Absolute Match Score) — это аддитивная метрика (сумма весов совпавших терминов), а MMS (Multiplicative Match Score) — мультипликативная (произведение весов и штрафов). MMS гораздо сильнее наказывает за отсутствие опциональных терминов или наличие штрафов, так как умножение на число меньше 1.0 быстро уменьшает общую оценку. Система может использовать AMS, MMS или их комбинацию (линейную аппроксимацию) для финальной оценки схожести, часто выбирая метод в зависимости от разницы в длине сравниваемых запросов.

Может ли этот механизм привести к тому, что результаты по широкому запросу будут ранжироваться по моему узкому запросу?

Да, если широкий запрос признан достаточно похожим на узкий, и по широкому запросу накоплено много положительных поведенческих данных. Однако система использует механизмы защиты: требование наличия обязательных терминов и штрафы за отсутствие опциональных терминов (через MMS) призваны минимизировать риск подмешивания слишком общих или нерелевантных результатов.

Как комбинируются данные из нескольких похожих запросов?

Патент описывает несколько методов. Наиболее распространенный — взвешенное среднее (weighted average), где вклад данных каждого запроса пропорционален его оценке схожести (Match Score). Также описаны методы ограниченного агрегирования, где вклад каждого запроса (кроме лучшего) ограничен порогом, и агрегирование до достижения необходимого уровня уверенности (Confidence Level).

Влияет ли этот патент на стратегию построения ссылок?

Прямого влияния нет, так как патент сфокусирован на поведенческих данных (кликах, времени пребывания), а не на ссылочных сигналах. Однако он усиливает важность получения качественного трафика, который генерирует положительные поведенческие сигналы. Если ссылки приводят релевантный трафик, который хорошо взаимодействует с контентом, это косвенно усиливает базу User Behavior Data, которую система может использовать.

Как этот патент связан с Topical Authority?

Связь очень сильная. Если сайт постоянно удовлетворяет интент пользователей по множеству запросов в определенной тематике, он накапливает большой объем положительных поведенческих данных по этим историческим запросам. Когда появляется новый или редкий запрос в этой же теме, система с высокой вероятностью найдет похожие исторические запросы, ведущие на этот авторитетный сайт, и использует его данные для повышения ранжирования.

Что такое Capping и Squashing оценок?

Это механизмы финальной корректировки рассчитанных статистик качества (Quality of Result Statistics). Capping (ограничение сверху) используется для снижения риска переоценки документа из-за потенциально ложных совпадений запросов. Squashing (сжатие/корректировка) может понизить оценку, если контент документа слабо соответствует некоторым терминам входного запроса, даже если заимствованные поведенческие данные высоки.

Учитывает ли система языковые и региональные особенности при поиске похожих запросов?

Да, патент явно упоминает учет региональных особенностей (locale), особенно в контексте использования диакритических знаков (diacritical variants). Система может разрешать или запрещать диакритические варианты, или изменять их вес в зависимости от того, насколько строго они используются в данном регионе. Это позволяет более точно определять схожесть запросов в разных языках.

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей

Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.

US8498974B1
2013-07-30

Поведенческие сигналы
Мультиязычность
Персонализация

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

US8185544B2
2012-05-22

Персонализация
Поведенческие сигналы
SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов

Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.

US8200694B1
2012-06-12

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP