Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

SYSTEMS AND METHODS FOR PROVIDING SEARCH QUERY REFINEMENTS (Системы и методы предоставления уточнений поисковых запросов)

US8065316B1
Google LLC
2004-09-30
2011-11-22

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

Какую проблему решает

Патент решает проблему неэффективности поиска, вызванную плохо сформулированными запросами пользователей — слишком общими, двусмысленными (ambiguous) или чрезмерно конкретными. Цель — автоматизировать процесс предложения релевантных уточнений (refinement suggestions), чтобы помочь пользователю быстрее найти нужную информацию, предлагая концептуально независимые и понятные варианты развития поиска.

Что запатентовано

Запатентована система для генерации предложений по уточнению запросов (например, блок "Related Searches"). Система собирает данные о последовательных запросах пользователей (исходный запрос source query и последующий уточняющий запрос refinement query), определяет семантическое значение этих уточнений и кластеризует их по концепциям. Затем для каждого кластера выбирается наиболее репрезентативный запрос, который предлагается пользователям.

Как это работает

Система работает в несколько этапов:

Сбор данных: Анализируются логи запросов для выявления пар "исходный запрос" -> "уточняющий запрос", введенных одним пользователем в течение короткого времени (например, 2 минуты). Подсчитывается частота (association counter) каждой пары.
Характеризация: Для понимания смысла каждого уточняющего запроса генерируется composite term vector. Это делается путем анализа терминов в топовых результатах поиска по этому запросу ИЛИ путем анализа других запросов, которые ведут на эти результаты.
Кластеризация: Уточняющие запросы группируются на основе близости их composite term vectors. Это объединяет семантически схожие запросы в один кластер.
Выбор представителя: Для каждого кластера выбирается один репрезентативный запрос. Это может быть самый частый запрос в кластере или запрос, ближайший к centroid (семантическому центру) кластера.
Ранжирование и показ: Кластеры ранжируются по важности (например, суммарной частоте запросов) и качеству (например, compactness кластера), и их репрезентативные запросы показываются пользователю.

Актуальность для SEO

Высокая. Генерация связанных запросов (Related Searches) является стандартной функцией Google Поиска. Методы, описанные в патенте (анализ сессий, кластеризация концепций на основе результатов поиска), лежат в основе понимания интента пользователя и навигации по теме. Хотя конкретные методы векторизации (например, TF-IDF) могли быть заменены нейросетевыми эмбеддингами, базовая архитектура остается актуальной. Участие Пола Хаара (Paul Haahr) подчеркивает фундаментальность этого подхода.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он раскрывает механизмы, с помощью которых Google определяет взаимосвязи между запросами и сегментирует интент пользователя на основе реального поведения. Понимание того, как формируются и кластеризуются уточнения, критически важно для построения Topical Authority и оптимизации контент-стратегии под целые сессии (User Journey), а не только отдельные запросы.

Термины и определения

Source Query (Исходный запрос): Первый запрос, введенный пользователем в поисковой сессии.
Refinement Query (Уточняющий запрос): Последующий запрос, введенный тем же пользователем после исходного запроса в течение определенного времени.
Association Counter (Счетчик ассоциаций): Метрика, отслеживающая, сколько раз конкретный Refinement Query следовал за конкретным Source Query.
Term Vector (Вектор терминов): Математическое представление документа или запроса в многомерном пространстве, где каждое измерение соответствует отдельному термину, а значение измерения — весу этого термина (например, на основе TF-IDF).
Composite Term Vector (Композитный вектор терминов): Вектор, представляющий концепцию Refinement Query. Генерируется путем суммирования Term Vectors топовых документов, найденных по этому запросу (взвешенных по релевантности документа).
Centroid (Центроид): Взвешенный центр кластера Term Vectors. Используется для определения наиболее репрезентативного запроса в кластере.
Compactness (Компактность кластера): Мера того, насколько семантически близки друг к другу запросы внутри кластера. Может определяться как стандартное отклонение расстояния векторов запросов от Centroid.
Representative Refinement Query (Репрезентативный запрос уточнения): Один запрос, выбранный из кластера для представления всей группы пользователю.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации предложений по уточнению запроса.

Система получает первый и второй (отличающийся) запросы и идентифицирует второй как уточнение первого на основе предопределенных критериев.
Собирается множество предложений по уточнению для первого запроса.
Подсчитывается количество раз (частота), когда каждое предложение ранее было идентифицировано как уточнение первого запроса.
Предложения сохраняются и кластеризуются.
Из конкретного кластера выбирается потенциальное предложение. Выбор основан на идентификации того предложения, частота которого выше, чем у других предложений в этом кластере.
Выбранное предложение передается клиенту в ответ на будущий запрос, соответствующий первому.

Claim 2 и 3 (Зависимые): Уточняют критерии идентификации уточнения. Идентификация основывается на том, получен ли второй запрос в течение предопределенного периода времени (например, 2 минуты) после первого.

Claim 8 (Зависимый): Детализирует процесс характеризации и кластеризации.

Выполняются поиски для каждого предложения по уточнению для идентификации документов.
В документах идентифицируются термины и им присваиваются веса.
Генерируются term vectors для документов.
Кластеризация основывается на этих term vectors.

Claim 14 (Зависимый от 12): Описывает альтернативный метод выбора представителя кластера (в отличие от метода максимальной частоты в Claim 1).

Генерируется centroid для каждого кластера.
Оценивается каждое предложение в кластере на основе расстояния его term vector от centroid.
Выбирается предложение с наивысшей оценкой (т.е. наиболее близкое к центру).

Где и как применяется

Изобретение в основном функционирует на этапе понимания запросов, используя данные из индекса и логов поведения пользователей.

INDEXING – Индексирование и извлечение признаков
На этом этапе индексируются документы и рассчитываются веса терминов (например, IDF), которые необходимы для генерации Term Vectors в процессе характеризации.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система выполняет сложный процесс анализа данных для понимания взаимосвязей между запросами.

Сбор данных (Онлайн): Система непрерывно анализирует Query Logs и данные сессий для выявления пар Source Query -> Refinement Query.
Обработка данных (Офлайн): Процессы характеризации (генерация Composite Term Vectors), кластеризации и выбора репрезентативных запросов выполняются преимущественно офлайн. Результаты сохраняются в базе данных уточнений.

METASEARCH – Метапоиск и Смешивание
В реальном времени, когда пользователь вводит запрос, система обращается к заранее подготовленной базе данных уточнений. Отобранные предложения отображаются на странице результатов поиска (например, в блоке "Related Searches").

Входные данные:

Исторические логи поисковых запросов и данные сессий.
Индекс документов (для выполнения поисков и анализа контента/ссылающихся запросов).
(Опционально) Данные о пользователе (язык) и стране/регионе.

Выходные данные:

База данных ассоциаций между исходными запросами и отранжированным списком кластеризованных предложений по уточнению.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на двусмысленные (ambiguous) запросы (например, "jaguar") и широкие (broad) запросы (например, "bikes"), где пользователям часто требуется сузить тему или выбрать направление поиска.
Языковые и географические ограничения: Система может генерировать специфические уточнения для разных регионов и языков, если эти данные учитываются при сборе ассоциаций (Claim 4).

Когда применяется

Триггеры активации (Сбор данных): Ассоциация между двумя запросами фиксируется, если второй запрос введен в течение предопределенного периода времени (predetermined time period) после первого (например, 2 минуты).
Условия применения (Обработка): Алгоритм применяется к запросам, для которых накоплено достаточное количество данных о переформулировках. Патент упоминает возможность удаления редких уточнений ("tail") и использование Топ-N уточнений (например, 50-100).

Пошаговый алгоритм

Алгоритм состоит из нескольких ключевых этапов.

Этап 1: Сбор данных об уточнениях (Refinement Data Collection)

Получение запросов: Система получает и логирует Source Query (Q1), а затем Refinement Query (Q2) от того же пользователя.
Проверка критериев: Проверяется, был ли Q2 введен в течение заданного времени после Q1.
Обновление Ассоциации: Если критерии выполнены, создается или обновляется ассоциация (Q1 -> Q2). Association Counter для этой пары увеличивается. Опционально учитываются язык и регион.

Этап 2: Характеризация Уточнений (Characterization)

Выполнение поиска: Для каждого собранного Q2 выполняется поиск и извлекается Топ-N результатов (документов).
Генерация векторов документов: Для каждого документа генерируется Term Vector. Патент предлагает два метода (FIG. 6 и FIG. 7):
- Метод А (Анализ контента): Вектор основан на терминах внутри документа с использованием весов (например, TF-IDF).
- Метод Б (Анализ ссылающихся запросов): Вектор основан на терминах из других запросов, которые ссылаются на этот документ.
Нормализация: Term Vectors нормализуются (например, L2 norm).
Генерация Композитного Вектора: Генерируется Composite Term Vector для Q2 путем суммирования векторов документов. Векторы документов масштабируются в зависимости от их релевантности (relevancy score) или позиции в выдаче.
Очистка: Из композитного вектора удаляются термины с низким весом.

Этап 3: Кластеризация (Clustering)

Расчет расстояний: Вычисляются расстояния (например, Евклидово расстояние) между Composite Term Vectors всех уточнений для Q1.
Формирование кластеров: Применяется алгоритм кластеризации (например, иерархическая агломеративная кластеризация) для группировки семантически схожих уточнений.

Этап 4: Выбор Репрезентативных Запросов (Selection)

Вычисление Центроида: Для каждого кластера может быть вычислен Centroid (взвешенный центр векторов).
Выбор представителя: Для каждого кластера выбирается один Representative Refinement Query. Патент предлагает варианты:
- Метод А (Частота): Выбирается запрос с максимальным Association Counter внутри кластера (Claim 1).
- Метод Б (Центральность): Рассчитывается оценка, например: (Association Counter) / (Расстояние от Centroid). Выбирается запрос с наивысшей оценкой (Claim 14).

Этап 5: Ранжирование Кластеров (Ranking)

Расчет Компактности: Может быть рассчитана Compactness кластера (например, стандартное отклонение от центроида).
Расчет Оценки Кластера (Cluster Score): Рассчитывается финальная оценка. Варианты:
- Метод А (Суммарная частота): Оценка = сумма Association Counters всех запросов в кластере.
- Метод Б (Частота и Компактность): Оценка = (Сумма Association Counters) / Compactness. Это повышает ранг семантически четких кластеров.
Финальный выбор: Кластеры ранжируются по оценке. Топ-K репрезентативных запросов выбираются для показа.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Логи запросов (Query Logs) и данные сессий. Система анализирует последовательность запросов и время между ними для выявления переходов от Source Query к Refinement Query.
Контентные факторы: Текст документов из индекса. Используется для генерации Term Vectors (Метод характеризации А).
Ссылочные/Запросные факторы: Данные о том, какие запросы ведут на конкретные документы. Используется для генерации Term Vectors (Метод характеризации Б).
Пользовательские и Географические факторы: Язык пользователя (user profile) и страна/регион (country/region variables) могут использоваться для сегментации данных.

Какие метрики используются и как они считаются

Association Counter (Count): Частота, с которой пара запросов (Q1 -> Q2) встречалась в логах в течение заданного времени (например, 2 минуты).
Веса терминов (Term Weights): Используются для создания векторов. Упоминается TF-IDF. Формула веса: $w(tf) \cdot idf$ .
Relevancy Score: Оценка релевантности документа или его позиция в выдаче. Используется для взвешивания вклада документа в Composite Term Vector.
Расстояние между векторами: Мера схожести между запросами (например, Евклидово расстояние). Используется для кластеризации и расчета расстояния до Centroid.
Compactness (Компактность): Стандартное отклонение расстояния векторов запросов в кластере от Centroid.
Оценка Репрезентативного Запроса: Может рассчитываться как $\frac{\text{Count}}{\text{Distance from Centroid}}$ .
Cluster Score (Оценка кластера): Может рассчитываться как $\frac{\text{Sum of Counts}}{\text{Compactness}}$ .

Анализ сессий как основа для понимания интента: Патент подтверждает, что Google активно использует последовательность действий пользователя в рамках одной сессии для понимания его намерений и взаимосвязей между запросами. Уточнения генерируются на основе реального поведения.
Сходство SERP = Семантическое сходство запросов: Ключевой механизм — определение близости запросов через анализ Топ-N результатов поиска (Composite Term Vectors). Если два разных запроса возвращают похожие документы, система считает их семантически близкими и объединяет в один кластер.
Два метода определения семантики запроса: Система может определять семантику, анализируя контент ранжирующихся документов (Метод А) ИЛИ анализируя другие запросы, которые ведут на эти документы (Метод Б). Это подчеркивает многогранность подхода Google к пониманию контента и запросов.
Цель — концептуальное разнообразие и четкость: Процесс кластеризации направлен на выявление различных направлений поиска. Система предпочитает семантически "плотные" кластеры (используя метрику Compactness), что гарантирует четкость предложений.
Выбор оптимального ярлыка (Labeling): Система использует сложные методы (например, близость к Centroid) для выбора наилучшей формулировки для кластера. Это может привести к тому, что менее частотная, но более точная формулировка будет выбрана в качестве предложения.

Best practices (это мы делаем)

Анализ "Related Searches" как карты интентов: Активно используйте блок "Related Searches". Согласно патенту, эти предложения являются репрезентативными запросами из концептуальных кластеров, основанных на реальном поведении пользователей. Это прямое указание на то, как Google сегментирует интент.
Оптимизация под сессии и User Journey: Анализируйте, как пользователи перемещаются по вашей теме. Создавайте контент, который отвечает на исходный запрос и предвосхищает вероятные уточнения (Refinement Queries). Это соответствует оптимизации под всю сессию.
Построение Topical Authority через покрытие кластеров: Структурируйте контент так, чтобы он отражал ключевые кластеры интентов в вашей нише. Если Google выделяет несколько различных направлений уточнения для вашего основного запроса, авторитетный сайт должен покрывать их все.
Мониторинг сходства SERP: Используйте инструменты для анализа пересечения выдачи по разным запросам. Если вы видите высокое сходство SERP, это сигнал, что Composite Term Vectors запросов близки, и их можно таргетировать одной страницей.
Усиление семантической плотности (Связь с Методом А): Создавайте контент, насыщенный релевантными терминами, чтобы генерировать сильные Term Vectors, соответствующие целевому кластеру.
Стремление стать ответом на множество запросов (Связь с Методом Б): Создавайте комплексные страницы (Pillar Pages), которые ранжируются по широкому пулу связанных запросов. Это повышает их значимость при характеризации запросов на основе ссылающихся запросов.

Worst practices (это делать не надо)

Изолированная оптимизация под один запрос: Фокусировка на одном ключевом слове без учета связанных запросов и общего интента кластера. Система анализирует связи, поэтому игнорирование контекста сессии неэффективно.
Создание отдельных страниц под близкие синонимы: Если вариации запроса имеют высокую степень сходства SERP (близкие векторы), они принадлежат одному кластеру. Создание отдельных страниц может привести к каннибализации.
Игнорирование поведенческих сигналов: Если пользователи часто покидают ваш сайт и переформулируют запрос (pogo-sticking), это генерирует данные (Refinement Data), которые могут указывать системе на нерелевантность вашего контента.

Стратегическое значение

Этот патент подчеркивает стратегическую важность перехода от оптимизации под ключевые слова к оптимизации под темы и интенты (Topic Clustering). Он демонстрирует, что Google обладает сложной системой для картирования пространства запросов, основанной как на поведении пользователей, так и на анализе контента через призму SERP. Долгосрочная SEO-стратегия должна фокусироваться на создании авторитетности в рамках целых тематических кластеров, выявленных Google.

Практические примеры

Сценарий: Оптимизация сайта о велосипедах

Анализ исходного запроса: SEO-специалист анализирует запрос "bikes" (велосипеды).
Изучение уточнений (Related Searches): Он видит подсказки: "motorbikes", "mountain bikes", "bmx bikes".
Интерпретация (на основе патента): Специалист понимает, что это репрезентативные запросы из разных концептуальных кластеров. "Motorbikes" (мотоциклы) семантически далек от остальных, так как его Composite Term Vector сильно отличается (другие результаты поиска).
Анализ кластеров велосипедов: Специалист проверяет сходство SERP для "mountain bikes" и "bmx bikes". Он видит, что результаты разные, что подтверждает наличие отдельных кластеров.
Действия: Создаются отдельные разделы (хабы) для "Mountain Bikes" и "BMX Bikes". Контент в каждом хабе оптимизируется так, чтобы быть максимально релевантным для Centroid своего кластера, покрывая все подтемы внутри него.
Ожидаемый результат: Сайт лучше соответствует ожиданиям пользователей на разных этапах поиска и укрепляет свою релевантность по этим тематическим направлениям.

Является ли этот патент описанием блока "Связанные запросы" (Related Searches)?

Да, этот патент описывает фундаментальную механику, которая используется для генерации блока "Связанные запросы". Он объясняет, как Google собирает данные о том, как пользователи уточняют поиск, кластеризует эти данные по смыслу и выбирает лучшие формулировки для показа. Это подтверждает, что Related Searches основаны на реальном поведении пользователей.

Как Google определяет, что второй запрос является уточнением первого?

Основной критерий, описанный в патенте, — это временной интервал. Если пользователь вводит второй запрос вскоре после первого (упоминается примерный лимит в 2 минуты), система считает это поисковой сессией и классифицирует второй запрос как Refinement Query. Эта связь фиксируется для последующего анализа.

Как Google понимает смысл запросов для их кластеризации?

Система использует метод семантической характеризации, создавая Composite Term Vector. Для этого она анализирует Топ-N результатов поиска по запросу. Смысл определяется либо через анализ контента этих результатов (Метод А), либо через анализ других запросов, которые ведут на эти результаты (Метод Б). Запросы с близкими векторами группируются вместе.

Что важнее для SEO: Метод А (анализ контента) или Метод Б (анализ ссылающихся запросов)?

Оба метода важны и подчеркивают разные аспекты SEO. Метод А подчеркивает важность качества контента и использования семантически релевантных терминов на странице. Метод Б подчеркивает важность того, чтобы страница отвечала на широкий пул связанных запросов (Topical Authority) и была признана релевантной для разных формулировок.

Всегда ли самое популярное уточнение выбирается для показа?

Не всегда. Хотя частота (Count) является важным фактором (Claim 1), патент также описывает выбор наиболее репрезентативного запроса (Claim 14). Для этого рассчитывается Centroid (семантический центр) кластера. Предпочтение может отдаваться запросу, который ближе к Centroid, так как он лучше отражает общую тему кластера.

Что такое "компактность" (Compactness) кластера и почему она важна?

Compactness — это мера смысловой плотности кластера. Если кластер плотный, это означает, что все запросы в нем очень близки по смыслу. Система может повышать рейтинг плотных кластеров при финальном ранжировании предложений, так как они представляют четко определенные концепции и более полезны для пользователей.

Как этот патент влияет на подбор семантического ядра?

Он подтверждает необходимость анализа реальных путей пользователя через изучение Related Searches. Семантическое ядро должно строиться как карта кластеров интентов, а не просто список ключевых слов. Необходимо выявлять репрезентативные запросы для каждого значимого кластера в вашей нише и обеспечивать их покрытие контентом.

Использует ли Google по-прежнему TF-IDF, как описано в патенте?

Патент был подан в 2004 году и упоминает TF-IDF как пример расчета весов. Современные системы Google (BERT, MUM) используют гораздо более сложные методы, такие как нейронные эмбеддинги, для генерации векторов. Однако общая логика процесса (характеризация -> векторизация -> кластеризация) остается актуальной.

Что делать, если я вижу два очень похожих ключевых слова? Создавать одну страницу или две?

Руководствуйтесь принципами этого патента: проверьте сходство SERP (Search Engine Results Page). Если результаты сильно пересекаются, это означает, что их Composite Term Vectors близки, и Google поместил их в один кластер. В этом случае лучше создать одну сильную страницу. Если результаты разные, требуются отдельные страницы.

Учитывает ли система язык и регион при генерации уточнений?

Да, патент описывает вариант реализации (Claim 4), в котором данные об уточнениях собираются и ассоциируются с учетом переменных профиля пользователя или интерфейса, таких как язык и страна/регион. Это позволяет генерировать более релевантные предложения для разных аудиторий.

Как Google кластеризует новостные результаты для генерации блоков "Связанные темы" и "Категории"

Google анализирует результаты поиска по новостям и группирует статьи, освещающие одно и то же событие, в кластеры. Затем система извлекает общие ключевые слова из этих кластеров для формирования блока "Связанные темы" (Related Topics), помогая уточнить запрос. Одновременно определяется широкая категория новостей (например, "Спорт"), из которой предлагается дополнительный контент для расширения контекста.

US11194868B1
2021-12-07

Семантика и интент
Свежесть контента
SERP

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends

Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.

US8145623B1
2012-03-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)

Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.

US9317605B1
2016-04-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы