Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

DETERMINING QUERY SUGGESTIONS (Определение поисковых подсказок)

US9594851B1
Google LLC
2013-02-07
2017-03-14

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

Какую проблему решает

Патент решает задачу прогнозирования следующего шага пользователя в процессе поиска информации (User Journey). Система стремится определить, какие запросы пользователь, вероятно, захочет ввести после просмотра определенного документа (веб-страницы). Цель — улучшить пользовательский опыт, предлагая контекстные подсказки (query suggestions), основанные на коллективном опыте предыдущих пользователей, которые просматривали этот или похожий контент.

Что запатентовано

Запатентован метод определения поисковых подсказок на основе просмотренного документа. Система анализирует исторические данные (Log Files), чтобы найти пары: «просмотренный документ» и «последующий запрос» (subsequent query). Для контента документа и текста запроса создаются векторные представления (feature representations). Затем система обучается (training a query suggestion rule) путем совместного встраивания (joint embedding) этих векторов в пространство сокращенной размерности (reduced dimensionality space). В этом пространстве определяется мера сходства (similarity measure), отражающая семантическую связь и вероятность совместной встречаемости.

Как это работает

Механизм работает в двух режимах: обучение и применение.

Обучение (Офлайн): Система анализирует логи, извлекая пары (Документ, Последующий Запрос). Контент и запросы преобразуются в векторы признаков (например, с использованием n-грамм, TF-IDF). Эти векторы совместно встраиваются в низкоразмерное пространство с помощью методов машинного обучения (упоминается LORETA). Цель обучения — чтобы документы и релевантные последующие запросы находились близко друг к другу в этом пространстве.
Применение (Онлайн): Когда пользователь просматривает новый документ, система генерирует его вектор признаков и отображает его в обученное пространство. Затем она находит векторы запросов, которые находятся на наименьшем расстоянии от вектора документа. Эти запросы предлагаются пользователю как подсказки.

Актуальность для SEO

Высокая. Понимание пути пользователя, предсказание намерений и контекстный поиск являются ключевыми направлениями развития поисковых систем. Методы векторного представления (embeddings) и анализа семантической близости лежат в основе современных NLP-технологий Google. Этот патент описывает фундаментальный подход к использованию этих методов для генерации контекстных подсказок на основе поведения.

Важность для SEO

Влияние на SEO высокое (8.5/10). Хотя патент напрямую не описывает алгоритм ранжирования, он критически важен для понимания того, как Google интерпретирует контент в контексте более широкой сессии пользователя. Он показывает, что Google оценивает не только релевантность страницы запросу, но и то, какие следующие интенты она порождает. Это влияет на стратегию создания контента, направленную на полное покрытие темы и оптимизацию всего пути пользователя (User Journey).

Термины и определения

Document Visited (Просмотренный документ): Документ (например, веб-страница), который пользователь просматривал непосредственно перед вводом следующего запроса.
Embedding (Встраивание, Эмбеддинг): Процесс отображения признаков (слов, документов, запросов) в векторное пространство, обычно сокращенной размерности.
Feature Representation (Представление признаков): Векторное представление контента документа или запроса. Может быть разреженным (sparse) и включать слова, n-граммы, TF-IDF-веса.
Joint Embedding (Совместное встраивание): Техника совместного встраивания разнородных объектов (в данном случае, документов и запросов) в одно и то же векторное пространство для отражения их статистических и семантических взаимосвязей.
Log Files (Лог-файлы): Исторические данные о посещенных документах и введенных запросах, включая временные метки и идентификаторы сессий. Используются для обучения модели.
LORETA (Online Learning in the Manifold of Low-Rank Matrices): Упомянутый в патенте метод онлайн-обучения для изучения низкоранговых матриц. Используется для эффективного обучения меры сходства и создания эмбеддингов, применяя оптимизацию на многообразиях.
Query Suggestion Rule (Правило поисковых подсказок): Обученная модель (включая параметры эмбеддинга и меру сходства), которая позволяет оценивать (скорить) потенциальные запросы на основе контента просматриваемого документа.
Reduced Dimensionality Space (Пространство сокращенной размерности): Векторное пространство, в которое встраиваются признаки документов и запросов. Оно имеет значительно меньше измерений, чем исходное пространство признаков.
Retraction (Ретракция): Математическая операция в методе LORETA, используемая для эффективного возвращения обновленного вектора на многообразие низкоранговых матриц после шага градиентного спуска.
Similarity Measure/Score (Мера сходства/Оценка сходства): Метрика, определяемая в Reduced Dimensionality Space, которая указывает на вероятность совместной встречаемости (likelihood of co-occurrence) или семантическую связь между документом и запросом.
Subsequent Query (Последующий запрос): Запрос, введенный пользователем после просмотра определенного документа в рамках одной сессии или временного окна.
Triplet (Тройка): Набор данных для обучения ранжированию: документ (w), более релевантный последующий запрос (q+), и менее релевантный запрос (q-).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения и применения системы для генерации подсказок.

Идентификация обучающего примера: пары (просмотренный документ, последующий запрос).
Генерация представлений признаков: создание первого вектора (для документа) и второго вектора (для запроса).
Обучение Query Suggestion Rule: Включает совместное встраивание (jointly embedding) признаков документа и запроса в reduced dimensionality space. Это встраивание индуцирует расстояния между эмбеддингами, которые отражают семантическую связь (semantic relationship) между контентом документа и запроса.
Применение модели к новому документу:
- Получение локатора (document locator) нового документа.
- Генерация третьего вектора (для нового документа).
- Отображение (mapping) третьего вектора в reduced dimensionality space.
- Нахождение эмбеддингов запросов, расположенных близко к эмбеддингу нового документа (на основе расстояний).
- Идентификация предлагаемых запросов на основе найденных эмбеддингов.

Claim 4 (Зависимый от 1): Детализирует процесс обучения с использованием ранжирования (Learning to Rank).

Правило обучается так, чтобы оценка сходства для более релевантной пары была выше, чем для менее релевантной пары, плюс некая константа (margin). Это стандартный подход, использующий сравнение пар (Pairwise LTR).

Формула: $S(w_i, q_i^+) > S(w_i, q_i^-) + c$

Claim 14 (Независимый пункт): Аналогичен Claim 1, подтверждая ключевую роль Query Suggestion Rule в обучении модели совместного эмбеддинга и ее применении для отображения нового документа в обученное пространство.

Где и как применяется

Изобретение в основном относится к этапам понимания запросов и взаимодействия с пользователем, но требует предварительной обработки данных на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает контент документов (из Content Database) и генерирует feature representations (векторы признаков), которые будут использоваться для обучения модели. Это включает NLP-обработку, извлечение n-грамм, расчет весов (например, TF-IDF).

QUNDERSTANDING – Понимание Запросов
Основное применение патента.

Анализ логов (Офлайн): Обработка Log Files для идентификации пар (Документ, Последующий Запрос) и генерации обучающих данных (включая тройки для LTR).
Обучение модели (Офлайн): Query suggestion rule trainer использует эти данные для обучения Query Suggestion Rule и создания Reduced Dimensionality Space (эмбеддингов).
Генерация подсказок (Онлайн): Когда пользователь просматривает документ (в браузере или приложении), Query suggestion rule engine использует обученную модель для предсказания релевантных последующих запросов.

Входные данные (Обучение):

Логи поисковых сессий (Log Files).
Контент документов (Content Database).

Входные данные (Применение):

Идентификатор (document locator, например, URL) или контент текущего просматриваемого документа.

Выходные данные:

Набор предложенных запросов (Suggested queries), релевантных контенту просматриваемого документа.

На что влияет

Типы контента: Влияет на любой тип контента, который просматривается пользователями перед тем, как они возвращаются к поиску (статьи, товары, форумы, мультимедиа).
Специфические запросы: Наиболее полезно для информационных и исследовательских сессий, где пользователи изучают тему в несколько этапов. Также применимо для коммерческих запросов (например, предложение поиска аксессуаров или конкурентов при просмотре основного товара).
Конкретные ниши: Применяется универсально. В патенте упоминаются примеры из технологий, развлечений (узнать имя знаменитости на фото), коммерции, образования.

Когда применяется

Алгоритм применяется в момент просмотра пользователем документа или при действиях, указывающих на намерение начать новый поиск.

Триггеры активации: Просмотр документа, перемещение курсора в строку поиска, переход на страницу поиска после просмотра документа.
Условия работы: Система должна иметь возможность идентифицировать просматриваемый документ и иметь обученную модель.
Фильтрация обучающих данных (Claims 5, 6): При обучении применяются пороги для отбора пар:
- Временной лимит между просмотром документа и последующим запросом (например, 1-10 минут).
- Отсутствие промежуточных событий (например, посещение другого документа без возврата).
- Частота совместной встречаемости пары в логах (порог от 2 до 50 раз или определенный процент от всех последующих запросов).

Пошаговый алгоритм

Процесс А: Обучение Query Suggestion Rule (Офлайн)

Сбор данных: Определение пар (просмотренный документ, последующий запрос) из Log Files.
Фильтрация данных: Применение порогов (время, частота) для отбора надежных обучающих пар.
Подготовка словаря: Определение словарей (отдельно для документов и запросов). Расширение словарей n-граммами и ограничение их размера на основе дискриминационной способности терминов (например, удаление стоп-слов, Information Gain).
Генерация признаков: Извлечение feature representations (векторов) для документов и запросов на основе подготовленных словарей (например, Bag of Words, TF-IDF).
Итеративное обучение и встраивание: Обучение Query Suggestion Rule.
- Идентификация троек: (Документ $w$ , Релевантный запрос $q^+$ , Нерелевантный запрос $q^-$ ).
- Итеративное совместное встраивание векторов в Reduced Dimensionality Space.
- Цель обучения (LTR): максимизация разницы в оценках сходства $S(w, q^+)$ и $S(w, q^-)$ . Используются методы онлайн-обучения, такие как LORETA, включающие градиентный спуск и ретракцию.
Определение меры сходства: Финализация Similarity Measure в обученном пространстве.
Сохранение модели: Сохранение обученной Query Suggestion Rule.

Процесс Б: Генерация подсказок (Онлайн)

Получение контекста: Система получает document locator текущего просматриваемого документа.
Генерация признаков: Извлечение контента документа и генерация его feature representation (вектора).
Отображение в пространство: Применение обученной Query Suggestion Rule для отображения вектора документа в Reduced Dimensionality Space.
Поиск ближайших запросов: Нахождение векторов запросов, которые имеют наибольшую меру сходства (наименьшее расстояние) с вектором документа в этом пространстве.
Ранжирование и выбор подсказок: Оценка потенциальных запросов с помощью Similarity Score. Выбор Топ-N запросов.
Предоставление подсказок: Отправка выбранных Suggested queries пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Log Files, содержащие историю посещений документов и последующих запросов. Включают данные о сессиях и временные метки. Это основной источник данных для установления связи между документами и запросами.
Контентные факторы: Содержимое просмотренных документов (текст). Используется для генерации document features.
Текстовые данные запросов: Текст последующих запросов. Используется для генерации query features.

Какие метрики используются и как они считаются

Feature Representations (Векторы признаков): Используются различные методы для генерации векторов:
- Binary (бинарное присутствие термина).
- Count-oriented (частота термина).
- Weighted (взвешенная частота). Упоминается TF-IDF как схема взвешивания, придающая больший вес терминам, частым в документе, но редким в корпусе.
Similarity Measure/Score (S): Мера сходства в Reduced Dimensionality Space. В патенте приводится пример расчета как внутреннего произведения спроецированных векторов: $S(Aw, Bq) = w^T A B^T q$ (где A и B — обученные матрицы проекции).
Методы машинного обучения:
- Joint Embedding: Для изучения геометрии пространства, отражающей статистические отношения.
- Learning to Rank (LTR): Использование троек (w, q+, q-) и функции потерь (например, online ranking hinge loss) для оптимизации модели, чтобы релевантные запросы ранжировались выше.
- LORETA: Конкретный алгоритм онлайн-обучения для эффективной работы с низкоранговыми матрицами при создании эмбеддингов (Metric Learning).

Контент оценивается в контексте сессии: Google анализирует не только содержание страницы изолированно, но и то, какие действия она провоцирует у пользователей. Система агрегирует данные о том, что ищут люди после просмотра вашего контента.
Предсказание следующего интента (Next Intent): Система стремится предсказать следующий шаг пользователя. Это означает, что Google может определить, какая информация отсутствует на странице или каков логический следующий этап в исследовании темы, основываясь на поведении пользователей.
Семантическая связь за пределами ключевых слов: Благодаря использованию embeddings и Reduced Dimensionality Space, система может предлагать запросы, которые семантически связаны с контентом, даже если ключевые слова этих запросов отсутствуют на странице. Патент приводит примеры: предложить поиск «ремни» при просмотре страницы о брюках.
Сила поведенческих данных: Алгоритм основан на агрегации поведенческих данных (Log Files). То, как большинство пользователей взаимодействует с контентом, формирует Query Suggestion Rule.
Обобщение данных: Модель способна обобщать опыт. Если пользователи часто ищут X после документа A, система может предложить X после просмотра похожего документа B, даже если пара (B, X) никогда не встречалась в логах.

Best practices (это мы делаем)

Проектирование пути пользователя (User Journey Mapping): Анализируйте, откуда приходят пользователи и куда они, вероятно, захотят пойти дальше. Создавайте контент, который предвосхищает их следующие вопросы или потребности. Если ваша страница порождает необходимость в дополнительном поиске, лучше предоставить эту информацию сразу или дать четкую навигацию к ней на вашем сайте.
Полное раскрытие темы (Topical Completeness): Стремитесь к созданию контента, который исчерпывающе отвечает на информационную задачу. Если пользователи часто вводят один и тот же последующий запрос после вашей страницы, это сигнал, что эту тему нужно добавить на страницу или создать связанный контент.
Оптимизация под сессии, а не отдельные запросы: Рассматривайте SEO-стратегию как оптимизацию всей поисковой сессии. Цель — стать конечной точкой для пользователя или авторитетным хабом, который направляет его дальше внутри вашего ресурса, а не возвращает обратно в поиск Google.
Использование семантически связанных терминов и сущностей: Убедитесь, что ваш контент богат семантически связанными терминами, n-граммами и сущностями. Это поможет системе создать более точное векторное представление (embedding) вашего документа и связать его с релевантными последующими запросами.

Worst practices (это делать не надо)

Создание тупиковых страниц (Dead-end content): Контент, который не дает полного ответа и вынуждает пользователя немедленно вернуться в поиск для уточнения. Google зафиксирует этот возврат и последующий запрос, что может сигнализировать о неполноте вашего контента.
Игнорирование связанных интентов: Фокусировка только на одном узком запросе без учета смежных тем и следующих шагов. Например, писать обзор продукта без упоминания аксессуаров или решения проблем, если логи показывают, что пользователи часто ищут это после.
Поверхностный или кликбейтный контент: Страницы, которые не удовлетворяют интент, будут провоцировать быстрый возврат в поиск и ввод уточняющих запросов. Эти поведенческие паттерны будут зафиксированы и использованы системой.

Стратегическое значение

Этот патент подтверждает стратегическую важность понимания и оптимизации всего пути пользователя (User Journey). Google активно использует машинное обучение и поведенческие данные для моделирования этого пути. Стратегическое преимущество получают сайты, которые способны удовлетворить не только первичный интент пользователя, но и предвосхитить и удовлетворить его последующие потребности. Это также подчеркивает важность построения Topical Authority, так как авторитетные ресурсы чаще являются конечной точкой в информационном поиске.

Практические примеры

Сценарий 1: Оптимизация статьи в блоге о путешествии

Текущая страница: «Лучшие пляжи на Крите».
Анализ (Гипотетический): Исторические данные (Log Files) показывают, что после просмотра подобных страниц пользователи часто ищут «аренда авто Крит» или «отели Крит все включено». Google обучается связывать эти запросы со статьей.
Действие SEO: Включить в статью разделы о транспорте и проживании на Крите, или разместить внутренние ссылки на соответствующие подробные статьи на вашем сайте.
Ожидаемый результат: Уменьшение возврата пользователей в поиск Google для этих последующих запросов. Повышение удовлетворенности пользователя и улучшение поведенческих сигналов сайта.

Сценарий 2: Оптимизация карточки товара (E-commerce)

Текущая страница: Карточка товара «Цифровая камера Sony A7 IV».
Анализ (Гипотетический): Логи показывают, что пользователи часто вводят последующие запросы: «лучший объектив для Sony A7 IV» или «сравнение Sony A7 IV и Canon R6».
Действие SEO: Добавить на карточку товара блок с рекомендуемыми аксессуарами (объективы) и ссылку на сравнительный обзор с основными конкурентами.
Ожидаемый результат: Увеличение среднего чека за счет кросс-продаж и удержание пользователя от ухода на сайты конкурентов или обзорщиков для сравнения.

Что такое «Joint Embedding» документов и запросов, описанное в патенте?

Это процесс машинного обучения, при котором разнородные объекты — текст документа и текст запроса — отображаются в единое векторное пространство сокращенной размерности. В этом пространстве расстояние между векторами отражает их семантическую или статистическую связь. Если пользователи часто вводят запрос Q после просмотра документа D, система обучится размещать векторы D и Q близко друг к другу.

Может ли система предложить запрос, ключевых слов которого нет на странице?

Да, это одно из ключевых преимуществ описанного метода. Поскольку связь устанавливается на основе исторических данных о поведении пользователей и семантического анализа через эмбеддинги, система может выучить ассоциации, не очевидные из текста. Например, если пользователи часто ищут «рецепт соуса песто» после просмотра страницы о «выращивании базилика», система предложит этот запрос, даже если слово «песто» не упоминается.

Откуда Google берет данные для обучения этой модели?

Система использует Log Files — исторические записи о поисковых сессиях пользователей. Эти логи содержат информацию о том, какие документы были просмотрены и какие запросы были введены после них в рамках определенного временного окна или сессии. Патент указывает, что эти данные могут быть анонимизированы.

Как это влияет на мою контент-стратегию?

Это подчеркивает необходимость перехода от создания контента под отдельные ключевые слова к созданию контента, который обслуживает целую сессию или задачу пользователя (User Journey). Необходимо анализировать путь пользователя и предвосхищать его следующие вопросы. Если ваш контент не отвечает на эти вопросы, пользователь вернется в поиск, и Google зафиксирует этот «последующий запрос».

Как система определяет, является ли последующий запрос релевантным или нет?

В процессе обучения система использует фильтры частотности и методы ранжирования (Learning to Rank). Запросы, которые часто встречаются после просмотра документа, считаются положительными примерами (q+). Система формирует тройки, включая менее релевантный запрос (q-), и обучается давать более высокую оценку сходства релевантным парам (q+), чем нерелевантным (q-).

Влияет ли этот патент на ранжирование моего сайта в основной выдаче?

Патент напрямую описывает генерацию подсказок, а не ранжирование. Однако он влияет косвенно. Он дает понимание того, как Google анализирует удовлетворенность пользователя вашим контентом. Если пользователь вынужден искать дальше (генерируя subsequent query), это может быть сигналом о неполноте контента, что может учитываться системами оценки качества.

Что такое LORETA и почему это важно?

LORETA — это упомянутый в патенте алгоритм для эффективного обучения эмбеддингов (Metric Learning). Его важность заключается в том, что он позволяет обучать сложные модели на огромных объемах данных (миллиарды документов и запросов) в режиме онлайн, используя оптимизацию на многообразиях низкоранговых матриц. Это делает реализацию описанной системы масштабируемой и эффективной.

Может ли этот механизм работать для новых или малопопулярных сайтов?

Да. Хотя обучение зависит от массовых логов, применение модели работает для любого документа. Благодаря механизму эмбеддинга система может обобщать знания. Если контент нового сайта семантически похож на контент популярных сайтов (т.е. их векторы близки в пространстве), система сможет сгенерировать релевантные подсказки, используя данные, полученные от других сайтов.

Где пользователь может увидеть результаты работы этого алгоритма?

Эти подсказки могут появляться в различных интерфейсах: в строке поиска браузера (если он интегрирован с поисковой системой), на странице поиска при возврате к ней (например, блоки «Люди также ищут»), или как подсказки нулевого символа (Zero-input suggestions), когда пользователь только активирует строку поиска.

Как защититься от того, чтобы Google не предлагал запросы, ведущие к конкурентам, при просмотре моей страницы?

Полностью защититься нельзя, если пользователи действительно ищут конкурентов после вашей страницы (например, для сравнения цен). Однако можно минимизировать это, предоставив исчерпывающую информацию на своей странице. Если пользователи ищут сравнение, предоставьте его сами. Удовлетворение интента на вашей странице снижает вероятность возврата в поиск.

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google комбинирует временные тренды и контекстуальный анализ для определения схожести поисковых запросов

Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.

US8478699B1
2013-07-02

Семантика и интент

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)

Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.

US12314275B2
2025-05-27

Семантика и интент

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO