Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

CLUSTERING QUERY REFINEMENTS BY INFERRED USER INTENT (Кластеризация уточнений запроса по предполагаемому намерению пользователя)

US8423538B1
Google LLC
2010-11-02
2013-04-16

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

Какую проблему решает

Патент решает проблему отбора и организации поисковых подсказок (связанных запросов). Для популярных или многозначных запросов существуют сотни вариантов уточнений, но место на странице выдачи ограничено. Система призвана обеспечить разнообразие (diversity) подсказок, группируя их по различным информационным потребностям (интентам). Например, для запроса "mars" система стремится показать подсказки, относящиеся к планете, римскому богу и шоколадному батончику, а не только к самой популярной теме.

Что запатентовано

Запатентован метод кластеризации уточнений запроса (Query Refinements) на основе предполагаемого намерения пользователя. Суть изобретения заключается в построении графа (смоделированного как Марковская цепь), который объединяет данные о совместной встречаемости запросов в сессиях (session co-occurrence) и данные о кликах по документам (click-through information). Уточнения запросов кластеризуются на основе вероятности того, что они приведут пользователя к одному и тому же набору документов.

Как это работает

Система функционирует следующим образом:

Сбор данных: Идентифицируются уточнения запроса (запросы, следующие за исходным в одной сессии) и документы, на которые кликали пользователи (Document Set).
Построение графа (Марковская модель): Строится граф, где узлами являются исходный запрос, его уточнения и кликнутые документы. Связи (ребра) устанавливаются между запросами, если они встречаются в одной сессии, и между запросами и документами, если по ним были клики.
Расчет вероятностей перехода: Веса ребер рассчитываются как вероятности перехода (Transition Probabilities) между состояниями (узлами).
Моделирование поведения (Random Walk): Для каждого уточнения рассчитывается вектор вероятности посещения (Visit Probability Vector) документов. Это достигается путем моделирования случайного блуждания по графу. Документы являются поглощающими состояниями (absorbing states).
Кластеризация: Уточнения запросов группируются на основе схожести их векторов вероятности посещения. Если два разных запроса с высокой вероятностью приводят к одним и тем же документам, они попадают в один кластер (общий интент).

Актуальность для SEO

Высокая. Понимание интента пользователя и обеспечение разнообразия выдачи и подсказок являются центральными задачами современных поисковых систем. Описанный механизм, комбинирующий анализ сессий и кликов для определения семантической близости запросов, остается крайне актуальным для понимания того, как Google интерпретирует взаимосвязи между темами и интентами.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Хотя он напрямую описывает механизм работы поисковых подсказок, а не ранжирования основного поиска, он раскрывает фундаментальный подход Google к пониманию интента пользователя. Он демонстрирует, как Google использует поведенческие данные (сессии и клики) для построения карты информационных потребностей вокруг темы. Понимание этих механизмов критически важно для построения Topical Authority и оптимизации пути пользователя.

Термины и определения

Absorbing State (Поглощающее состояние): Состояние в Марковской цепи, из которого невозможно выйти. В данном патенте узлы документов (и узел off-topic) являются поглощающими.
Co-occurring Queries (Q(r)) (Совместно встречающиеся запросы): Набор запросов, которые встречаются в той же сессии, что и данный запрос (r).
Document Escape Probability (ε) (Вероятность перехода к документу): Параметр модели, определяющий вероятность того, что пользователь перейдет из состояния запроса в состояние документа (кликнет на результат), а не введет новый запрос (1-ε).
Document Set (D(r)) (Набор документов): Набор документов, которые были показаны в ответ на запрос (r) и получили клики пользователей.
Graph (G(q)) (Граф): Структура данных, моделирующая поведение пользователя. Включает узлы для исходного запроса (q), его уточнений (R(q)) и кликнутых документов (D(r)).
Markov Model (Марковская модель / Цепь Маркова): Стохастическая модель, описывающая последовательность событий, в которой вероятность каждого события зависит только от состояния, достигнутого в предыдущем событии. Используется для интерпретации графа G(q).
Off-topic node (f) (Узел смены темы): Поглощающее состояние, добавленное в модель для учета дрейфа интента пользователя (когда пользователь переключается на тему, не связанную с исходным запросом).
Query Refinement (R(q)) (Уточнение запроса): Запрос (r), который следует за исходным запросом (q) в рамках одной пользовательской сессии.
Transition Probability Matrix (P) (Матрица вероятностей перехода): Матрица, определяющая вероятности перехода между состояниями (узлами) в Марковской модели.
Transient State (Переходное состояние): Состояние в Марковской цепи, из которого возможен выход. В данном патенте узлы запросов являются переходными.
Visit Probability Vector (Вектор вероятности посещения): Вектор, рассчитываемый для каждого уточнения запроса. Показывает вероятность достижения каждого из поглощающих состояний (документов) при старте из данного уточнения. Используется для кластеризации.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько ключевых независимых пунктов, описывающих основной и расширенный методы кластеризации.

Claim 1 (Независимый пункт): Описывает базовый метод кластеризации уточнений запроса.

Идентификация уточнений запроса (R(q)) и их наборов документов (D(r)).
Построение графа G с узлами для запроса, уточнений и документов. Ребра соединяют запрос с уточнениями, уточнения с документами и уточнения с совместно встречающимися запросами.
Построение матрицы вероятностей перехода (P) для графа G. Вероятности рассчитываются на основе частоты кликов (для ребер запрос-документ) и частоты совместной встречаемости в сессиях (для ребер запрос-запрос), с использованием параметра $\epsilon$ (вероятность перехода к документу).
Расчет вектора вероятности посещения (Visit Probability Vector) для каждого уточнения на основе матрицы P.
Кластеризация уточнений путем разделения векторов вероятности посещения на подмножества.
Получение поисковых подсказок на основе этих кластеров.

Ядро изобретения — это использование комбинированной модели (сессии + клики) в виде Марковской цепи для определения схожести интентов через вероятности достижения одних и тех же документов.

Claim 2 (Независимый пункт): Описывает расширенный метод, включающий учет дрейфа интента.

Процесс аналогичен Claim 1, но структура графа G модифицируется.
В граф добавляется узел смены темы (off-topic node f).
Добавляются ребра от каждого уточнения запроса к узлу f.
Матрица вероятностей перехода P рассчитывается с учетом вероятности перехода в состояние f. Эта вероятность зависит от того, как часто после данного уточнения пользователи вводят запросы, не являющиеся уточнениями исходного запроса (т.е. уходят от темы).
Далее следуют расчет векторов вероятности посещения и кластеризация.

Этот пункт защищает механизм учета смены темы, что позволяет более точно моделировать поведение пользователя и избегать ошибочного объединения запросов из-за транзитивных связей при дрейфе интента.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно в офлайн-обработке данных и на финальных этапах формирования выдачи.

QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основная работа алгоритма происходит здесь. Система анализирует логи запросов (search query log) и данные о кликах для построения графа G(q), расчета матрицы P и выполнения кластеризации. Результатом является заранее подготовленная база данных кластеризованных уточнений запросов для множества исходных запросов.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Онлайн-процессы)
Когда пользователь вводит запрос, система обращается к заранее рассчитанным данным. Кластеры используются для отбора (selection) и размещения (placement) поисковых подсказок на странице результатов. Цель — обеспечить разнообразие (diversity) подсказок, выбирая представителей из разных кластеров интентов.

Входные данные:

Логи поисковых запросов (разделенные на сессии).
Данные о кликах (какие документы были выбраны для каких запросов).
Исходный запрос (q).
Параметры модели (например, $\epsilon$ , количество кластеров k).

Выходные данные:

Набор кластеров уточнений запроса (refinement clusters).
Поисковые подсказки (Search Suggestions), представленные пользователю на SERP.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие или неоднозначные запросы (например, "mars", "jaguar"), где существует множество различных интентов. Для узкоспециализированных запросов влияние меньше.
Организация SERP: Влияет на блок "Связанные запросы" (Related Searches) или поисковые подсказки (Search Suggestions). Патент упоминает, что кластеризация может улучшить размещение подсказок (например, группировка по колонкам для разных интентов).

Когда применяется

Алгоритм применяется, когда необходимо сгенерировать набор разнообразных и релевантных поисковых подсказок для данного запроса. Расчеты производятся периодически в офлайн-режиме для обновления базы кластеров. Отображение результатов происходит при каждом запросе пользователя, для которого существуют заранее рассчитанные кластеры и достаточно данных в логах.

Пошаговый алгоритм

Процесс кластеризации уточнений запроса (на основе Algorithm 1 в патенте).

Инициализация и сбор данных:
- Определить набор уточнений R(q) для исходного запроса q (запросы, следующие за q в сессиях).
- Определить набор кликнутых документов D(r) для каждого уточнения r.
- Определить совместно встречающиеся запросы Q(r).
Построение графа G(q):
- Создать узлы для q, всех r из R(q) и всех d из D(r).
- Создать ребра: (q, r), (r, d) и (r_i, r_j), если r_j входит в Q(r_i).
- (Опционально) Добавить узел смены темы (f) и ребра (r, f).
Инициализация матрицы вероятностей перехода (P): Рассчитать вероятности для каждого ребра на основе частот кликов (n_d) и сессий (n_s), используя параметр $\epsilon$ . (См. формулы в разделе 4.2).
Расчет предельных распределений (Pⁿ): Вычислить многошаговые вероятности перехода путем возведения матрицы P в степень n (Pⁿ). Это моделирует случайное блуждание (random walk) и определяет вероятность достижения поглощающих состояний (документов). Параметр n (количество шагов) выбирается для достижения сходимости (обычно достаточно n=3-7).
Извлечение векторов вероятности посещения (L): Для каждого уточнения r_i извлечь из Pⁿ строку, соответствующую вероятностям достижения каждого документа d. Это формирует Visit Probability Vector для r_i.
Кластеризация векторов (R): Применить алгоритм кластеризации (например, complete-link clustering) к набору векторов L, используя меру схожести (например, cosine similarity). Цель — сгруппировать уточнения, которые ведут к схожим наборам документов.
Генерация подсказок: Выбрать представителей из полученных кластеров для отображения в качестве поисковых подсказок, обеспечивая разнообразие интентов.

Какие данные и как использует

Данные на входе

Патент опирается исключительно на поведенческие данные, извлеченные из логов поисковой системы.

Поведенческие факторы:
- Логи запросов (Search Query Logs): Используются для идентификации сессий и последовательности запросов. Это позволяет определить уточнения запросов (Query Refinements) и совместно встречающиеся запросы (Co-occurring Queries).
- Данные о кликах (Click-through data): Используются для определения набора документов (Document Set) для каждого запроса и частоты кликов по конкретным документам (n_d).

Патент не упоминает использование контентных, ссылочных, технических или иных факторов ранжирования.

Какие метрики используются и как они считаются

Система вычисляет вероятности в рамках Марковской модели.

Метрики:

n_d(d|r_i): Количество кликов, полученных документом d в ответ на запрос r_i.
n_s(r_i, r_j): Количество сессий, в которых совместно встречаются запросы r_i и r_j.
$\epsilon$ (Document Escape Probability): Заданный параметр (в патенте упоминаются значения 0.5-0.7 как эффективные), определяющий баланс между кликами на документы и вводом новых запросов.

Расчеты (Transition Probability Matrix P):

Вероятность перехода от запроса к документу (P[r_i, d]): Пропорциональна доле кликов на документ d среди всех кликов для запроса r_i, умноженной на $\epsilon$ .
$P[r_i, d] = \epsilon \times \frac{n_d(d|r_i)}{\sum_{d_k \in D(r_i)} n_d(d_k|r_i)}$
Вероятность перехода от запроса к запросу (P[r_i, r_j]): Пропорциональна доле сессий с r_i и r_j среди всех сессий, содержащих r_i, умноженной на (1- $\epsilon$ ). (Формула зависит от того, используется ли базовая модель или модель с учетом смены темы).
Базовая модель (Claim 1):
$P[r_i, r_j] = (1-\epsilon) \times \frac{n_s(r_i, r_j)}{\sum_{r_k \in R(q) \cap Q(r_i)} n_s(r_i, r_k)}$
Вероятность смены темы (P[r_i, f]) (Claim 2): Рассчитывается как доля переходов из r_i к запросам, не входящим в R(q) (т.е. не связанным с исходной темой), умноженная на (1- $\epsilon$ ).
Поглощающие состояния: Для всех документов d, P[d, d] = 1.

Комбинированный подход к определению интента: Патент подчеркивает, что для определения схожести интентов недостаточно анализировать только клики или только сессии по отдельности. Ключевая инновация — объединение этих данных в единую графовую модель (Марковскую цепь).
Интент определяется через достижимый контент: Основная гипотеза патента состоит в том, что два запроса отражают один и тот же интент, если они в конечном итоге приводят пользователя к одному и тому же набору документов. Это измеряется через Visit Probability Vectors.
Моделирование поведения пользователя через случайное блуждание: Использование Марковской модели с поглощающими состояниями (документами) позволяет смоделировать путь пользователя и определить, какой контент наиболее характерен для конкретного уточнения запроса.
Важность разнообразия (Diversity): Цель алгоритма — не просто найти самые популярные подсказки, а кластеризовать их для обеспечения разнообразия представленных интентов, что улучшает пользовательский опыт.
Учет дрейфа интента (Intent Drift): Введение off-topic node показывает, что Google осознает проблему смены темы внутри одной сессии и активно моделирует это поведение, чтобы избежать неверной кластеризации транзитивно связанных, но тематически разных запросов.
Зависимость от поведенческих данных: Модель полностью построена на анализе логов запросов и кликов, что подчеркивает критическую важность поведенческих факторов для понимания семантики и взаимосвязей между запросами в глазах Google.

Best practices (это мы делаем)

Построение Topical Authority через покрытие интентов: Создавайте контент, который покрывает все кластеры интентов, выявленные Google вокруг основной темы. Анализируйте блоки "Related Searches" – они часто отражают эти кластеры. Если ваш сайт авторитетен по всем аспектам темы, он с большей вероятностью будет соответствовать различным путям пользователя.
Оптимизация под сессии, а не отдельные запросы: Думайте о том, как пользователь исследует тему. Какие запросы он может вводить до и после посещения вашей страницы? Убедитесь, что ваш сайт предоставляет исчерпывающую информацию или четкие пути для дальнейшего исследования темы, чтобы поддерживать тематическую сессию.
Улучшение CTR и удовлетворенности кликов: Поскольку клики (Document Set) являются поглощающими состояниями и определяют схожесть запросов, критически важно, чтобы пользователи кликали на ваш сайт и были удовлетворены контентом (завершали поиск). Это укрепляет связь между запросом и вашим документом в графе.
Анализ пересечения контента: Изучайте, какие сайты ранжируются по запросам из одного кластера интентов. Если разные запросы (например, "venus" и "jupiter") приводят к схожему типу контента (например, статьи о планетах), это подтверждает их принадлежность к одному кластеру, и вам нужно оптимизировать свой контент под этот общий интент.

Worst practices (это делать не надо)

Фокус только на одном аспекте широкой темы: Если вы оптимизируете сайт под широкую тему (например, "Jaguar"), но игнорируете основные кластеры интентов, вы ограничиваете свою релевантность в глазах системы, которая стремится к разнообразию.
Игнорирование пути пользователя и дрейфа интента: Создание тупиковых страниц, которые не поддерживают дальнейшее исследование темы, может негативно сказаться на восприятии сайта как релевантного в рамках целевой сессии.
Создание поверхностного контента (Thin Content): Контент, который заставляет пользователей возвращаться в Google и уточнять запрос, генерирует поведенческие данные, указывающие на то, что ваш контент не удовлетворяет ни одному из кластеров интентов и не является "поглощающим состоянием".

Стратегическое значение

Этот патент подтверждает стратегический переход Google от анализа отдельных ключевых слов к пониманию поведения пользователей и их намерений. Он демонстрирует, как Google строит карту тем и интентов, основываясь на том, как реальные пользователи ищут информацию и какой контент они потребляют. Для SEO это означает, что построение авторитетности в теме (Topical Authority) требует не просто наличия статей по ключевым словам, а понимания того, как эти ключевые слова связаны в сознании пользователя и в поведенческих паттернах поиска.

Практические примеры

Сценарий: Оптимизация сайта по теме "Mars"

Анализ интентов: SEO-специалист анализирует поисковые подсказки и связанные запросы для "Mars" и видит группы: (1) "Mars planet", "Water on Mars", "Mars Rover"; (2) "Mars God of War", "Mars Roman Mythology"; (3) "Mars Bar", "Mars Chocolate".
Понимание механизма: Специалист понимает, что эти группы сформированы, потому что пользователи, ищущие (1), редко ищут (3) в той же сессии, и кликают на совершенно разные документы.
Действия (для сайта о космосе):
- Убедиться, что на сайте есть высококачественный контент, отвечающий на все запросы кластера (1).
- Организовать контент так, чтобы пользователь мог легко перемещаться между статьями о Марсе, воде на Марсе и марсоходах (поддерживая сессию и удовлетворяя интент).
- Не пытаться агрессивно оптимизировать статьи о планете под запросы типа "Mars Chocolate", так как они принадлежат к другому кластеру интентов.
Ожидаемый результат: Сайт становится авторитетным источником для кластера интентов (1). Пользователи, интересующиеся космосом, чаще кликают на этот сайт и завершают на нем поиск, укрепляя его позиции в графе для этого интента.

Как система определяет, что два запроса имеют одинаковый интент?

Система не интерпретирует интент напрямую. Вместо этого она использует поведенческие данные как прокси. Согласно патенту, два запроса считаются схожими по интенту, если они часто встречаются в одних и тех же сессиях И если они в конечном итоге приводят пользователей к одному и тому же набору документов. Это измеряется путем сравнения их векторов вероятности посещения (Visit Probability Vectors).

Что важнее для определения схожести запросов: общие клики или совместная встречаемость в сессии?

Важны оба фактора. Патент специально разработан для объединения этих двух типов данных в единую модель (Марковскую цепь). Общие клики указывают на схожесть контента, а совместная встречаемость в сессии указывает на связь в поведении пользователя. Вес между ними регулируется параметром $\epsilon$ (вероятность перехода к документу).

Как этот патент влияет на ранжирование моего сайта?

Напрямую этот патент не описывает алгоритм ранжирования основного поиска (синих ссылок). Он описывает механизм кластеризации для поисковых подсказок (Related Searches). Однако он дает критически важное понимание того, как Google интерпретирует взаимосвязи между запросами и интентами. Если ваш сайт помогает пользователю успешно завершить сессию по определенному кластеру интентов, это укрепляет его релевантность этой теме.

Что такое "дрейф интента" (Intent Drift) и как Google его учитывает?

Дрейф интента — это ситуация, когда пользователь меняет тему поиска в рамках одной сессии (например, ищет "Pluto" планету, а затем "Pluto the dog"). Google учитывает это с помощью специального узла смены темы (off-topic node f) в графе. Если после какого-то запроса пользователи часто уходят на несвязанные темы, вероятность перехода в состояние 'f' увеличивается, что предотвращает ошибочное связывание разных тем.

Как я могу использовать эти знания для улучшения Topical Authority?

Используйте этот механизм для картирования ландшафта интентов в вашей нише. Определите основные кластеры запросов (анализируя подсказки и связанные запросы). Убедитесь, что ваш сайт полностью покрывает контентом каждый целевой кластер и обеспечивает удобную навигацию внутри него. Это позволит вашему сайту стать основным "поглощающим состоянием" (источником кликов) для данного кластера интентов.

Что означает, что документы являются "поглощающими состояниями"?

В контексте этой Марковской модели это означает, что когда пользователь кликает на документ, он удовлетворяет свою информационную потребность (по крайней мере временно), и блуждание по графу для этого пути заканчивается. Система измеряет вероятность того, что пользователь закончит свой путь на конкретном документе, стартовав с определенного запроса.

Почему используется именно complete-link clustering?

Патент упоминает, что методы кластеризации, подверженные "эффекту цепочки" (chaining), такие как single-link, работают плохо из-за дрейфа интента и транзитивных связей между запросами. Complete-link clustering гарантирует, что все элементы внутри кластера действительно похожи друг на друга (измеряется по наименее схожей паре), что лучше подходит для выявления плотных групп схожих интентов.

Происходит ли кластеризация в реальном времени?

Нет. Процесс построения графа, расчета Марковской модели и кластеризации требует значительных вычислительных ресурсов и выполняется офлайн путем анализа больших объемов логов поисковых запросов. В реальном времени поисковая система использует уже готовые, предварительно рассчитанные кластеры для формирования блока связанных запросов на SERP.

Может ли мой сайт попасть в несколько кластеров интентов?

Да. Если ваш сайт является широким ресурсом (например, Википедия), его разные документы могут быть целевыми (поглощающими состояниями) для разных кластеров интентов. Например, одна статья релевантна кластеру "Mars Planet", а другая — кластеру "Mars God".

Использует ли Google анализ текста страниц для этой кластеризации?

Согласно данному патенту — нет. Описанный метод кластеризации полагается исключительно на поведенческие данные: логи сессий и данные о кликах. Схожесть определяется через поведение пользователей, а не через семантический анализ контента документов или текста запросов.

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска

Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.

US20170277702A1
2017-09-28

Семантика и интент
Local SEO
Персонализация

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP