Как Google комбинирует временные тренды и контекстуальный анализ для определения схожести поисковых запросов

MULTIPLE CORRELATION MEASURES FOR MEASURING QUERY SIMILARITY (Множественные меры корреляции для измерения схожести запросов)

US8478699B1
Google LLC
2010-04-30
2013-07-02

Семантика и интент

Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.

Какую проблему решает

Патент решает проблему ограниченности систем, которые используют только один метод для определения схожести запросов (например, только на основе логов запросов или только временных паттернов). Использование единственного метода снижает качество и точность генерации связанных запросов. Изобретение направлено на улучшение понимания семантической связи между запросами для таких функций, как поисковые подсказки (Query Suggestions), расширение запросов (Query Expansion) и подбор ключевых слов для рекламы (Expanded Broad Match).

Что запатентовано

Запатентована система для измерения схожести запросов путем комбинирования множества различных показателей корреляции. Суть изобретения заключается в использовании обученной модели машинного обучения (Linear Model) для взвешивания и объединения разнородных сигналов схожести, таких как временная корреляция (Temporal Correlation) и дистрибутивная схожесть (Distributional Similarity), в единую, более надежную оценку (Combined Correlation Score).

Как это работает

Система работает следующим образом:

Получение данных: Система получает исходный запрос (Q1) и набор кандидатов (Q2).
Генерация оценок: Различные алгоритмы вычисляют свои оценки схожести (Correlation Scores). Например, один анализирует временные тренды в новостях и блогах (Temporal Correlation), а другой — контекст использования терминов в веб-документах (Distributional Similarity).
Комбинация: Linear Model (например, логистическая регрессия), предварительно обученная на данных асессоров (human annotated goldstandard), взвешивает и комбинирует эти оценки в единый Combined Correlation Score.
Ранжирование: Кандидаты ранжируются на основе итоговой комбинированной оценки.

Актуальность для SEO

Высокая. Понимание взаимосвязи запросов является фундаментальной задачей поиска. Хотя конкретные модели эволюционировали (например, к нейронным сетям), базовый принцип объединения разнородных сигналов (временных, контекстных) с помощью машинного обучения остается стандартом в современных системах Information Retrieval. Описанные методы дистрибутивной семантики являются основой современных векторных моделей.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он описывает фундаментальные механизмы, которые Google использует для понимания семантической связи и контекста запросов. Это напрямую влияет на то, как контент ассоциируется с различными формулировками (Query Expansion) и какие связанные запросы будут показаны. Понимание принципов Distributional Similarity и Temporal Correlation критически важно для построения семантического ядра и контент-стратегии.

Термины и определения

Combined Correlation Score (Комбинированная оценка корреляции): Итоговая оценка схожести между двумя запросами, полученная путем объединения нескольких Correlation Scores с помощью Linear Model.
Context Terms (Контекстные термины): Термины из корпуса текстов, которые появляются в непосредственной близости (например, в окне из 3 слов) от заданного термина запроса.
Context Vector (Контекстный вектор): Векторное представление термина запроса. Элементы вектора представляют собой частоты (frequency value) появления различных Context Terms рядом с этим термином в корпусе.
Corpus (Корпус): Большой структурированный набор текстов, используемый для анализа. Примеры: веб-документы (Internet resources), логи запросов (search query log), новостные статьи (news articles), записи в блогах (blog entries).
Distributional Similarity (Дистрибутивная схожесть): Мера схожести, основанная на гипотезе, что термины, встречающиеся в похожих контекстах, имеют схожее значение. Рассчитывается путем анализа статистики совместной встречаемости слов в корпусе.
Linear Model (Линейная модель): Модель машинного обучения (например, логистическая регрессия или лог-линейная модель), используемая для взвешивания и комбинирования различных Correlation Scores. Обучается на данных асессоров (human annotated goldstandard).
Query Vector (Вектор запроса): Векторное представление всего запроса. Генерируется путем комбинации (например, через геометрическое среднее) Context Vectors всех терминов, входящих в запрос.
Temporal Correlation / Time Series Similarity (Временная корреляция): Мера схожести, основанная на сравнении временных рядов появления терминов или запросов. Учитывает, насколько часто два запроса используются в одни и те же периоды времени.

Ключевые утверждения (Анализ Claims)

Примечание: Формулировки Claims в этом патенте достаточно специфичны, особенно в отношении временной корреляции, что является результатом процесса утверждения патента.

Claim 1 (Независимый пункт): Описывает метод определения схожести на основе временной корреляции в разных источниках.

Система получает первый запрос (Q1) и множество вторых запросов (Q2s).
Определяется Temporal correlation score между Q1 и каждым Q2.
Ключевое утверждение: Определение основано на сравнении временного ряда появления терминов Q1 в первом корпусе (Новостные статьи) и временного ряда появления терминов Q2 во втором, отличном корпусе (Записи в блогах).
Сравнение учитывает документы с временными метками (timestamps) в одном и том же временном периоде.
Вычисляется Similarity score на основе этого Temporal correlation score, и Q2s ранжируются.

Этот пункт защищает специфический метод кросс-корпусного временного анализа, который может выявлять корреляции между тем, что обсуждается в СМИ, и тем, что обсуждается в блогах.

Claim 2 (Зависимый от 1): Добавляет дистрибутивную схожесть и механизм комбинации (ядро изобретения).

Определяется Distributional similarity score между Q1 и Q2. Он основан на сравнении частот совместно встречающихся терминов (контекста).
Итоговый Similarity score основан как на Distributional similarity score, так и на Temporal correlation score (из Claim 1).
Итоговая оценка вычисляется с помощью обученной Linear model.

Этот пункт вводит механизм комбинирования двух принципиально разных типов схожести (контекстной и временной) с использованием машинного обучения.

Claim 5 (Зависимый от 2): Детализирует процесс расчета Distributional similarity score.

Для каждого термина в запросе выбираются Context terms из корпуса на основе метрики расстояния (близости слов).
Для каждого термина генерируется Context vector, содержащий частоты этих Context terms.
Генерируется Query vector для всего запроса путем комбинирования Context vectors его терминов.
Distributional similarity score определяется путем сравнения Query vectors Q1 и Q2.

Где и как применяется

Изобретение применяется в основном на этапе понимания запросов, используя данные, подготовленные во время индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных:

Анализ больших текстовых корпусов (веб, новости, блоги) для сбора статистики совместной встречаемости слов (для Distributional Similarity).
Генерация и сохранение Context Vectors для терминов.
Анализ временных меток в корпусах и логах запросов для построения временных рядов (для Temporal Correlation).

QUNDERSTANDING – Понимание Запросов
Основная область применения. Система использует описанные механизмы для:

Query Suggestion: Генерация подсказок и связанных запросов.
Query Expansion: Автоматическое расширение запроса синонимами или связанными терминами.
Query Categorization: Определение тематики запроса.
Sponsored Search: Предложение рекламодателям связанных ключевых слов (expanded broad match).

На этом этапе Linear Model комбинирует рассчитанные метрики схожести.

Входные данные:

Исходный запрос (Q1) и кандидаты (Q2s).
Различные корпуса (Веб, Новости, Блоги, Логи запросов).
Предварительно рассчитанные Context Vectors и данные временных рядов.
Обученная Linear Model.

Выходные данные:

Ранжированный список связанных запросов (Q2s) с итоговыми Combined Correlation Scores.

На что влияет

Специфические запросы: Особенно влияет на неоднозначные запросы, где механизм генерации Query Vector помогает в разрешении неоднозначности (disambiguation), и на трендовые запросы, где Temporal Correlation играет ключевую роль.
Конкретные ниши: Сильно влияет на динамичные ниши (новости, технологии), где связь между запросами может быстро меняться со временем.

Когда применяется

В реальном времени: При вводе запроса пользователем для генерации мгновенных подсказок (auto-complete) или при обработке запроса для его расширения.
После выполнения поиска: Для генерации блоков "Связанные запросы" или "People Also Ask".
Офлайн: Для предварительного расчета векторов, анализа временных рядов и обучения Linear Model.

Пошаговый алгоритм

Процесс А: Расчет Distributional Similarity

Сбор контекста: Для каждого термина в запросе (например, "bank") система анализирует большой корпус текстов и выбирает Context terms, которые появляются рядом (например, в окне из 3 слов: "money", "river", "account").
Генерация Context Vector: Для термина создается вектор, содержащий частоты его Context terms. V("bank") = [money: 100, river: 50, account: 80].
Генерация Query Vector: Система комбинирует Context Vectors всех терминов запроса (например, "bank account"). В патенте предлагается использовать геометрическое среднее (Geometric Mean).
Разрешение неоднозначности (Disambiguation): При комбинации V("bank") и V("account") элементы, присутствующие в обоих векторах (например, "money"), усиливаются (так как геометрическое среднее аппроксимирует операцию "И"), а уникальные (например, "river") ослабляются или обнуляются. Это формирует точный контекст запроса.
Сравнение векторов: Distributional Similarity Score рассчитывается путем сравнения Query Vectors двух запросов с использованием метрик (например, cosine similarity).

Процесс Б: Расчет Temporal Correlation

Построение временных рядов: Система анализирует корпуса с временными метками (Новости и Блоги).
Сравнение рядов: Сравнивается временной ряд активности терминов первого запроса в Новостях с временным рядом активности терминов второго запроса в Блогах за один и тот же период.
Вычисление оценки: Рассчитывается коэффициент корреляции между двумя временными рядами.

Процесс В: Комбинация и Ранжирование

Получение оценок: Система получает Distributional Similarity Score (из А) и Temporal Correlation Score (из Б) для пары запросов.
Применение модели: Обученная Linear Model принимает эти оценки на вход.
Вычисление итоговой оценки: Модель вычисляет Combined Correlation Score, используя веса, полученные в процессе обучения на данных асессоров.
Ранжирование: Кандидаты сортируются по итоговой оценке.

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы: Используются большие текстовые корпусы (corpus). Система анализирует текст и позиционную близость слов (distance metric, например, окно в 3 слова) для определения Context Terms.
Временные факторы: Используются временные метки (timestamps) в специфических корпусах: новостные статьи (news articles) и записи в блогах (blog entries). Также могут использоваться логи запросов (search query log).
Поведенческие факторы (косвенно): Для обучения Linear Model используются данные, аннотированные людьми (human annotated goldstandard), отражающие человеческое восприятие релевантности (например, по 5-балльной шкале Лайкерта).

Какие метрики используются и как они считаются

Метрики схожести векторов: Для сравнения Query Vectors используются: cosine similarity, dot-product, mutual information, Jensen Shannon divergence, dice coefficient.
Методы вычислений:
- Geometric Mean (Геометрическое среднее): Используется для комбинирования Context Vectors в Query Vector. Формула: $qv_j = \left(\prod_{i=1}^{n} v_{ij}\right)^{\frac{1}{n}}$
Статистические методы: Для определения условной независимости (conditional independence) терминов (например, для идентификации фраз типа "New York") используются: tf-idf, mutual information, $\chi^2$ (Chi-squared test), t-student test, Pointwise Mutual Information (PMI).
Алгоритмы машинного обучения: Linear Model (logistic regression, log-linear model) используется для комбинации финальных оценок.

Комбинация сигналов эффективнее отдельных методов: Ключевой вывод — объединение разнородных сигналов (контекст + время) с помощью машинного обучения дает более точную оценку схожести запросов, чем использование любого из них по отдельности.
Критическая важность контекста (Distributional Similarity): Смысл запроса для Google определяется не самими ключевыми словами, а тем, в окружении каких слов эти термины используются в масштабах интернета (в корпусе). Это фундаментальный принцип семантического поиска.
Сложный механизм разрешения неоднозначности (Disambiguation): Использование геометрического среднего для объединения Context Vectors в единый Query Vector является мощным инструментом для разрешения неоднозначности. Система отдает приоритет тем контекстам, которые являются общими для всех терминов в запросе.
Роль временных данных (Temporal Correlation): Система учитывает тренды. Запросы могут считаться связанными, если они одновременно набирают популярность. Патент особо выделяет анализ корреляций между разными источниками (Новости и Блоги) как важный сигнал.
Зависимость от качества данных и обучения: Эффективность системы зависит от размера и качества анализируемых корпусов, а также от качества данных асессоров (human annotated goldstandard), на которых обучается Linear Model.

Best practices (это мы делаем)

Анализ и оптимизация контекстуального окружения (Distributional Context): Анализируйте, в окружении каких терминов используются ваши ключевые слова в авторитетных источниках. Включайте эти сопутствующие термины (Context Terms) в ваш контент естественным образом. Это поможет Google сформировать точный Query Vector для вашей страницы.
Создание семантически богатого контента: Фокусируйтесь на Topical Authority. Используйте синонимы, связанные сущности и слова, которые часто встречаются вместе с основными терминами (co-occurring terms). Это укрепляет Distributional Similarity между вашим контентом и целевыми запросами.
Разрешение неоднозначности (Disambiguation): Если вы таргетируете многозначные термины, активно используйте уточняющий контекст. Это поможет системе правильно интерпретировать значение термина при генерации Query Vector (в соответствии с механизмом геометрического среднего).
Учет трендов и Newsjacking (Temporal Correlation): Создавайте контент, соответствующий возникающим трендам. Активное присутствие в новостях и обсуждениях в блогах в период пикового интереса может усилить Temporal Correlation между вашим контентом и актуальными запросами.

Worst practices (это делать не надо)

Keyword Stuffing и неестественный текст: Повторение ключевых слов в отрыве от естественного контекста не поможет сформировать релевантный Query Vector и нарушает принципы естественной совместной встречаемости слов.
Фокус только на прямом вхождении запроса: Стратегии, основанные исключительно на точном совпадении ключевых слов (exact match), игнорируют принципы Distributional Similarity. Google оценивает схожесть на уровне векторов, а не совпадения строк.
Игнорирование семантического окружения: Создание контента для ключевого слова в изоляции от связанных тем. Если ваш контент не соответствует общему контексту использования термина в вебе (Corpus), его релевантность будет низкой.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от анализа ключевых слов к пониманию смысла через контекст (семантический поиск). Distributional Similarity является основой для многих современных NLP-моделей (включая векторные эмбеддинги). Для SEO это означает, что построение авторитета в теме и создание контента, который глубоко раскрывает её с использованием естественного языка и связанных понятий, является ключевой долгосрочной стратегией.

Практические примеры

Сценарий: Разрешение неоднозначности (Disambiguation) запроса

Запрос: Пользователь вводит "Java developer".
Анализ терминов: Система анализирует термины "Java" (многозначный: язык, остров, кофе) и "developer".
Context Vectors:
- V("Java") содержит контекстные слова: [programming, code, island, indonesia, coffee, cup].
- V("developer") содержит контекстные слова: [programming, code, software, job, building].
Генерация Query Vector (Geometric Mean): Система комбинирует векторы. Геометрическое среднее действует как фильтр: усиливаются только общие контекстные слова ([programming, code]). Слова [island, indonesia, coffee, cup, building] ослабляются или обнуляются.
Результат: Итоговый Query Vector четко указывает на контекст разработки ПО. Система предложит подсказки типа "Java developer salary", игнорируя подсказки про путешествия или кофе.

Что такое Дистрибутивная схожесть (Distributional Similarity) и почему она важна для SEO?

Это принцип, согласно которому слова, встречающиеся в похожих контекстах, имеют схожее значение. Для SEO это критически важно, потому что Google определяет смысл вашего контента не по плотности ключевых слов, а по тому, какие слова их окружают. Чтобы ранжироваться, ваш контент должен использовать термины в том же контексте, в котором они используются в авторитетных источниках (корпусе).

Как именно система объединяет векторы отдельных слов в вектор запроса?

Патент предлагает использовать геометрическое среднее (Geometric Mean) для объединения Context Vectors отдельных терминов. Этот метод работает как логическое "И" (AND): он усиливает те контекстные элементы, которые являются общими для всех терминов в запросе, и ослабляет или удаляет уникальные. Это позволяет эффективно разрешать неоднозначность.

Как работает разрешение неоднозначности (Disambiguation) в этом патенте?

Рассмотрим запрос "Apple". Его вектор содержит контексты [fruit, computer, phone]. Если запрос "Apple pie", вектор "pie" содержит [fruit, recipe, bake]. При комбинации через геометрическое среднее общий контекст [fruit] усиливается, а [computer, phone] исчезают. Таким образом, система понимает, что речь идет о фрукте, а не о компании.

Что такое Временная корреляция (Temporal Correlation) и как она учитывается?

Это мера того, насколько часто два запроса используются в одни и те же периоды времени. Патент описывает сравнение активности терминов в разных корпусах (например, в Новостях и Блогах) за один период. Если два разных запроса одновременно становятся популярными, система может посчитать их связанными, даже если их семантический контекст не пересекается напрямую.

Что означает использование "Линейной модели" (Linear Model) для комбинации оценок?

Это означает, что система использует модель машинного обучения (например, логистическую регрессию) для определения оптимальных весов для каждого типа схожести (временной и дистрибутивной). Модель обучается на примерах, размеченных асессорами (human annotated goldstandard), чтобы итоговая комбинированная оценка максимально соответствовала человеческому восприятию релевантности.

Использует ли Google этот патент сейчас, учитывая появление BERT и MUM?

Базовые принципы комбинации разнородных сигналов, дистрибутивной и временной схожести остаются фундаментальными. Современные системы (BERT, MUM) используют более сложные нейросетевые архитектуры вместо линейных моделей и более продвинутые методы генерации векторных эмбеддингов, но они строятся на идеях дистрибутивной семантики, заложенных в этом патенте.

Как SEO-специалист может повлиять на Context Vector своего контента?

Путем целенаправленного использования связанных терминов и сущностей в тексте. Необходимо изучить семантическое ядро и определить слова, которые часто встречаются вместе с основными ключевыми словами в вашей нише. Естественное включение этих слов в ваш контент поможет сформировать четкий и релевантный контекстный вектор.

Влияет ли этот патент на блоки "People Also Ask" (PAA) и "Related Searches"?

Да, напрямую. Эти блоки генерируются на основе метрик схожести запросов. Описанный в патенте механизм, комбинирующий контекст и время, позволяет Google находить наиболее релевантные и актуальные связанные вопросы и запросы для исходного ввода пользователя.

Что такое "корпус" текстов, упоминаемый в патенте?

Это очень большой набор структурированных текстов, используемый для анализа статистики использования языка. В патенте упоминаются веб-документы, новостные статьи и записи в блогах. На практике это весь индекс Google, а также специализированные индексы (например, Новости).

Как система определяет, какие слова объединять в фразы (n-граммы)?

Патент упоминает использование статистических тестов (например, PMI или $\chi^2$ ) для определения условной независимости терминов. Если термины часто встречаются вместе (например, "New" и "York"), они считаются зависимыми и обрабатываются как единое целое (combined query term) при генерации векторов.

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)

Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.

US12314275B2
2025-05-27

Семантика и интент

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google анализирует поведение пользователей для выбора разнообразных связанных запросов и диверсификации контента на выдаче

Google использует механизм для диверсификации предложений на странице результатов (например, связанных запросов или рекламных блоков), основанный на анализе сессий пользователей. Система отбирает подсказки, которые часто следуют за исходным запросом (высокая «Utility»), но при этом редко следуют друг за другом (высокая «Diversity»). Это позволяет покрыть разные намерения пользователя, исходящие из одного неоднозначного запроса.

US8631030B1
2014-01-14

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий

Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.

US7840407B2
2010-11-23

Поведенческие сигналы
Семантика и интент
Структура сайта

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту

Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.

US9244985B1
2016-01-26

EEAT и качество
Поведенческие сигналы
SERP

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP