Как Google анализирует историю поисковых запросов для устранения неоднозначности имен и генерации контекстных подсказок

NAME DISAMBIGUATION USING CONTEXT TERMS (Устранение неоднозначности имен с использованием контекстных терминов)

US9830379B2
Google LLC
2010-11-29
2017-11-28

Семантика и интент

Google использует систему для устранения неоднозначности имен людей. Анализируя исторические данные о том, какие запросы (как включающие имя, так и нет) приводили пользователей на одни и те же ресурсы, система кластеризует различные контексты имени (например, разные люди с одним именем). Для каждого контекста выбирается лучший уточняющий термин, который затем предлагается пользователю в качестве поисковой подсказки.

Какую проблему решает

Патент решает проблему неоднозначности (ambiguity) имен людей в поисковых запросах. Поскольку одно имя может относиться к разным людям (например, "Джон Смит" может быть исследователем, ботаником или спортсменом), стандартная выдача часто содержит смешанные результаты. Это затрудняет поиск, так как пользователи не всегда знают, как эффективно уточнить запрос. Изобретение автоматизирует выявление различных контекстов имени и предлагает пользователю релевантные уточнения (Query Suggestions).

Что запатентовано

Запатентована система для автоматического устранения неоднозначности имен путем генерации контекстуализированных поисковых подсказок. Система анализирует исторические логи запросов (Historical Data), чтобы определить, какие термины ассоциируются с различными контекстами имени. Эти контекстные термины (Context Terms) кластеризуются для выявления отдельных сущностей или различных аспектов (disjoint aspects) жизни одной сущности. Для каждого кластера выбирается репрезентативный термин (Representative Term), используемый для создания подсказок.

Как это работает

Ключевой механизм основан на анализе связи между ресурсами и историей запросов:

Сбор контекстных терминов: Для имени идентифицируются релевантные ресурсы. Система анализирует логи запросов, которые приводили к этим ресурсам. Критически важно, что извлекаются термины как из запросов, содержащих имя (First Queries), так и из запросов, НЕ содержащих имя (Second Queries).
Кластеризация: Списки контекстных терминов от разных ресурсов группируются на основе сходства (например, Cosine Similarity). Каждый кластер представляет отдельный контекст.
Выбор репрезентативного термина: Внутри каждого кластера термины ранжируются по многофакторной модели (учитывая релевантность, авторитетность источников (Authority Score), уникальность термина (IDF) и частоту использования в запросах). Лучший термин выбирается как представитель контекста.
Генерация подсказок: Когда пользователь вводит неоднозначное имя, система предлагает уточнения в формате [Имя + Репрезентативный термин].

Актуальность для SEO

Высокая. Устранение неоднозначности сущностей (Entity Disambiguation) является фундаментальной задачей современного поиска и критически важно для работы Knowledge Graph. Описанный механизм, использующий поведение пользователей для определения контекста, активно применяется в Google Autocomplete и блоках уточнения запросов (Query Refinements) для навигации по сложным интентам.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO-стратегии, особенно для Entity SEO и управления репутацией (ORM). Он раскрывает механизм того, как Google определяет основные контексты сущности, полагаясь в значительной степени на исторические данные поиска, а не только на контент. Понимание критической роли Second Queries (запросов без имени) подтверждает важность построения Topical Authority для правильной ассоциации сущности с её контекстом.

Термины и определения

Context Terms (Контекстные термины): Термины, указывающие на конкретное использование имени человека (конкретного человека или аспект его жизни). Извлекаются преимущественно из логов запросов.
Context Term List (Список контекстных терминов): Набор Context Terms, сгенерированный для конкретного ресурса, связанного с именем.
Context Term Vector of Weights (Вектор весов контекстных терминов): Численное представление Context Term List. Элементы вектора соответствуют терминам, а их значения — весам (например, Relevance Score). Используется для кластеризации.
First Queries (Первые запросы): Запросы из логов, которые включают имя человека И для которых определенный ресурс признан релевантным выше первого порога (first relevance threshold).
Historical Data (Исторические данные): Логи поисковых запросов и данные о взаимодействии пользователей с результатами.
Representative Term (Репрезентативный термин): Контекстный термин, выбранный путем ранжирования как наилучший описатель для целого кластера контекстов.
Second Queries (Вторые запросы): Запросы из логов, которые НЕ включают имя человека, НО для которых тот же самый ресурс признан релевантным выше второго порога (second relevance threshold).
Similarity Score (Оценка схожести): Метрика, определяющая близость между двумя векторами контекстных терминов (например, Cosine Similarity).
Similarity Threshold (Порог схожести): Минимальная оценка схожести, необходимая для объединения двух векторов/кластеров. Может динамически снижаться.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации контекстных подсказок для имени.

Система генерирует Context Term Lists для имени. Генерация включает строго определенный процесс для каждого связанного ресурса:
- Выбор First Queries (содержат имя, ресурс релевантен).
- Извлечение сопутствующих терминов из них.
- Выбор Second Queries (НЕ содержат имя, ресурс релевантен).
- Извлечение терминов из них.
- Формирование Context Term List из объединенных терминов.
Система кластеризует эти списки. Кластеризация является итеративным процессом определения меры схожести между парами списков и их объединения.
Система выбирает Representative Term для каждого кластера.
При получении имени в качестве запроса система генерирует Query Suggestions, комбинируя имя с репрезентативными терминами.

Ядро изобретения — это использование как запросов, включающих имя, так и запросов, не включающих его, но ведущих на те же ресурсы, для определения контекста сущности.

Claim 3 (Зависимый от 1): Уточняет реализацию списков и кластеризации.

Списки представлены как Context Term Vector of Weights (веса — это Relevance Scores). Кластеризация включает расчет Similarity Scores. Пары векторов, чья схожесть превышает Similarity Threshold, объединяются.

Claim 4 (Зависимый от 3): Уточняет, что объединение векторов происходит путем их суммирования.

Claim 5 (Зависимый от 3): Указывает, что Similarity Threshold может снижаться после одной или нескольких итераций кластеризации. Это позволяет формировать более крупные кластеры вокруг доминирующих интерпретаций.

Claim 7 (Зависимый от 4): Описывает выбор Representative Term как процесс ранжирования терминов внутри кластера и выбора лучшего.

Claims 8-11 (Зависимые от 7): Детализируют критерии ранжирования терминов для выбора Representative Term:

Claim 8 (База): Сумма Relevance Scores термина внутри кластера.
Claim 9 (Пессимизация): Снижение оценки пропорционально IDF (Inverse Document Frequency). Общие термины менее полезны для уточнения.
Claim 10 (Бустинг Авторитета): Повышение оценки пропорционально Authority Score ресурсов-источников термина.
Claim 11 (Бустинг Поведения): Повышение оценки, если термин часто встречался в запросах вместе с именем (сильный сигнал пользовательского восприятия).

Где и как применяется

Изобретение требует значительной офлайн-обработки данных и применяется в реальном времени на этапе понимания запросов.

INDEXING & DATA ACQUISITION – Индексирование и Сбор данных
Система использует Resource Index и рассчитывает метрики авторитетности (Authority Score) ресурсов. Критически важным компонентом являются Historical Data (логи запросов), которые служат основным источником для анализа.

QUNDERSTANDING – Понимание Запросов (Офлайн-процессинг)
Основная часть работы алгоритма. Name Processing Subsystem выполняет анализ логов, генерацию Context Term Lists, их кластеризацию и выбор Representative Terms. Результаты сохраняются в базе данных Name Context Data. Это формирует глубокое понимание контекстов сущностей.

QUNDERSTANDING – Понимание Запросов (Онлайн)
В реальном времени система определяет, является ли входящий запрос именем человека и является ли он неоднозначным (т.е. не хватает ли контекста для однозначной интерпретации).

METASEARCH / RERANKING (Генерация SERP Features)
Если запрос признан неоднозначным, система извлекает сохраненные Representative Terms и генерирует Query Suggestions для отображения пользователю (например, в Autocomplete или блоках уточнений на SERP).

Входные данные:

Логи поисковых запросов (Historical Data).
Индекс ресурсов (Resource Index).
Оценки авторитетности ресурсов (Authority Scores).

Выходные данные:

База Name Context Data (кластеры и репрезентативные термины).
Query Suggestions (в реальном времени).

На что влияет

Специфические запросы: Влияет на запросы, состоящие из имен людей (именованных сущностей), особенно если эти имена неоднозначны.
Конкретные типы контента: Влияет на видимость контента, посвященного людям — биографии, новости, профили, научные статьи.
Управление репутацией (ORM/SERM): Напрямую влияет на то, какие подсказки увидит пользователь при поиске человека или бренда, определяя доминирующие контексты.

Когда применяется

Триггеры активации (Онлайн): Когда поисковая система идентифицирует введенный запрос как имя человека И определяет, что запрос является неоднозначным.
Условия работы (Офлайн): Процесс генерации контекстов выполняется периодически на основе накопленных исторических данных и обновленного индекса.
Фильтрация: В патенте упоминаются меры для предотвращения генерации оскорбительных подсказок, включая фильтры и требования к минимальной авторитетности (minimum authority metric) и качеству (minimum quality metric) ресурсов.

Пошаговый алгоритм

Алгоритм состоит из офлайн-генерации контекстов и онлайн-генерации подсказок.

Фаза А: Офлайн-генерация контекстов и репрезентативных терминов

А1. Генерация списков контекстных терминов (для каждого имени)

Сбор данных: Идентификация Топ-K ресурсов, связанных с именем.
Обработка ресурсов: Для каждого ресурса анализируются логи запросов (Historical Data).
Идентификация First Queries: Выбираются запросы, которые содержат имя И для которых ресурс достаточно релевантен (превышает первый порог).
Извлечение терминов (Тип 1): Из First Queries извлекаются сопутствующие термины.
Идентификация Second Queries: Выбираются запросы, которые НЕ содержат имя, НО для которых этот же ресурс достаточно релевантен (превышает второй порог).
Извлечение терминов (Тип 2): Из Second Queries извлекаются термины.
Формирование Списка и Вектора: Термины Типа 1 и 2 объединяются в Context Term List. Список преобразуется в Context Term Vector of Weights (веса = Relevance Scores).

А2. Кластеризация

Нормализация (Опционально): Термины нормализуются (синонимы, стемминг) (Claim 6).
Расчет схожести: Вычисляются попарные Similarity Scores между векторами. Используется, например, косинусное сходство.
Итеративное объединение:
- Пары векторов, чья схожесть превышает Similarity Threshold, объединяются (суммируются).
- Проверяется условие завершения. Если нет, порог схожести может быть снижен (Claim 5), и процесс повторяется.

А3. Выбор репрезентативных терминов

Ранжирование терминов: Внутри каждого кластера термины ранжируются. Базовая оценка — сумма Relevance Scores.
Корректировка оценки:
- Пессимизация на основе IDF (общие термины понижаются) (Claim 9).
- Бустинг на основе Authority Score источников (Claim 10).
- Бустинг, если термин часто использовался в запросах с именем (Claim 11).
Выбор: Термин с наивысшей оценкой выбирается как Representative Term.
Сохранение: Данные сохраняются в Name Context Data.

Фаза Б: Онлайн-генерация поисковых подсказок

Получение запроса: Система получает запрос пользователя.
Идентификация и проверка: Система определяет, является ли запрос неоднозначным именем.
Генерация подсказок: Извлекаются сохраненные Representative Terms и формируются Query Suggestions ([Имя + Термин]).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Критические): Historical Data (логи запросов). Это основной источник данных. Анализируется, какие запросы (First и Second Queries) ведут на какие ресурсы, и какие термины совместно встречаются с именем в запросах (Claim 11).
Факторы Авторитетности (Authority Score): Предварительно рассчитанные оценки авторитетности ресурсов. Используются для повышения веса контекстных терминов из авторитетных источников (Claim 10) и для фильтрации спама.
Контентные факторы (Косвенно/Опционально): Контент ресурсов используется для определения их базовой релевантности. Также патент (Claim 2) упоминает возможность извлечения контекстных терминов непосредственно из контента (например, через TF-IDF), хотя фокус сделан на логах запросов.

Какие метрики используются и как они считаются

Relevance Score (Оценка релевантности): Вес контекстного термина в векторе. Используется как базовая метрика для ранжирования терминов.
Relevance Threshold (Порог релевантности): Используется для отбора First и Second Queries (минимальный ранг или оценка релевантности ресурса по запросу).
Similarity Score (Оценка схожести): Метрика для кластеризации. Пример из патента — Косинусное сходство (Cosine Similarity) между векторами $C_i$ и $C_j$ : $sim(C_{i},C_{j})=\frac{c_{i}\cdot c_{j}}{||c_{i}||\cdot||c_{j}||}$
Similarity Threshold (Порог схожести): Порог для объединения кластеров. Может динамически снижаться.
IDF (Inverse Document Frequency): Используется для пессимизации общеупотребительных терминов при выборе Representative Term (Claim 9).

Поведение пользователей формирует контекст сущности: Ключевой вывод — Google активно использует логи запросов (Historical Data) для понимания контекста сущностей. То, как пользователи ищут информацию, напрямую формирует кластеры ассоциаций вокруг имени.
Критическая роль запросов без упоминания имени (Second Queries): Для определения контекста система анализирует запросы, которые не содержат имя, но ведут на тот же ресурс. Это подтверждает важность Topical Authority: ресурс должен быть релевантен теме в целом, а не только при прямом поиске по имени сущности.
Автоматическая кластеризация контекстов: Система автоматически разделяет разные значения имени (разных людей или разные аспекты деятельности) на кластеры, что позволяет диверсифицировать подсказки и избегать доминирования одного значения.
Многофакторный выбор репрезентативного термина: Выбор термина для подсказки — это сложный процесс ранжирования. Система предпочитает термины, которые являются релевантными, достаточно уникальными (штраф по IDF), исходят из авторитетных источников (бустинг по Authority Score) и подтверждены поведением пользователей (бустинг за совместное использование в запросах).
Авторитетность влияет на определение контекста: Сайты с высоким Authority Score имеют большее влияние на то, какие именно термины будут выбраны для описания контекста сущности в подсказках.

Best practices (это мы делаем)

Построение Topical Authority через охват Second Queries: При создании контента о сущности (человеке/бренде) убедитесь, что он покрывает все ключевые аспекты и связанные темы. Контент должен быть релевантен не только запросу с именем, но и тематическим запросам без имени. Это укрепит связь ресурса с нужным контекстным кластером.
Стимулирование правильных ассоциаций (Интеграция SEO и PR): Поскольку термины, часто используемые в запросах вместе с именем, получают повышение (Claim 11), важно стимулировать формирование правильных поисковых привычек у аудитории через PR и маркетинг (например, [Имя + Ключевая Компетенция]).
Повышение авторитетности ресурсов (E-E-A-T): Работайте над повышением Authority Score ваших ресурсов. Термины с авторитетных сайтов имеют преимущество при выборе Representative Term (Claim 10).
Использование специфичных и четких дескрипторов: Поскольку общие термины пессимизируются с помощью IDF (Claim 9), используйте четкие, специфичные термины для описания деятельности сущности. Это повышает их шансы стать репрезентативными.
Разделение контекстов для многогранных сущностей: Если персона или бренд имеют несколько направлений деятельности, создавайте четко разделенный контент (например, в разных разделах сайта). Это поможет Google сформировать отдельные кластеры для каждого направления.

Worst practices (это делать не надо)

Создание поверхностного контента, оптимизированного только под имя: Страницы, релевантные только прямым запросам (First Queries) и не отвечающие на тематические запросы без имени (Second Queries), будут слабее участвовать в формировании контекстных кластеров.
Смешивание несвязанных контекстов: Создание контента, который смешивает информацию о разных людях с одним именем или слишком много разнородных аспектов на одной странице. Это затрудняет кластеризацию и "размывает" контекст.
Игнорирование авторитетности источников: Размещение информации о сущности только на низкоавторитетных сайтах снижает вес связанных с ней контекстных терминов.
Накрутка подсказок низкого качества: Попытки манипулировать логами запросов с помощью ботов рискованны, так как система учитывает качество и авторитетность ресурсов и применяет фильтры для предотвращения злоупотреблений.

Стратегическое значение

Патент подтверждает стратегический переход от оптимизации под ключевые слова к оптимизации под сущности (Entity-Based SEO) и контексты. Он демонстрирует, как Google использует данные о поведении пользователей для построения семантических связей и понимания мира. Долгосрочная SEO-стратегия должна фокусироваться на управлении тем, как поисковая система интерпретирует сущность, что достигается через построение Topical Authority и управление поисковым спросом.

Практические примеры

Сценарий: Разделение контекстов для эксперта с распространенным именем

Мы продвигаем эксперта "Алекс Смит", специалиста по кибербезопасности. Существует также известный спортсмен Алекс Смит.

Цель: Сформировать четкий кластер для нашего эксперта и добиться появления подсказки "Алекс Смит кибербезопасность".

Укрепление Topical Authority (Second Queries): Создаем экспертный контент в блоге Алекса, который ранжируется по тематическим запросам без имени (например, "анализ уязвимости CVE-XXXX", "лучшие практики пентестинга"). Система ассоциирует эти термины с ресурсом Алекса.
Стимулирование прямых ассоциаций (First Queries): Через PR-активности и выступления стимулируем запросы, связывающие имя и контекст (например, "Алекс Смит утечка данных 2025").
Повышение авторитетности (Authority Score): Публикуем статьи Алекса на авторитетных внешних площадках (например, Хабр, профильные СМИ) и получаем на них ссылки.
Ожидаемый результат: Система формирует отдельный кластер, связывающий Алекса Смита с терминами "кибербезопасность", "пентестинг", "CVE". Благодаря высокой авторитетности ресурсов и прямым пользовательским запросам (Бустинг по Claim 10 и 11), термин "кибербезопасность" получает высокий ранг и становится Representative Term, вытесняя или дополняя подсказки о спортсмене.

Как Google определяет контекстные термины (Context Terms)? Это анализ контента страницы?

Основной механизм, описанный в патенте (Claim 1), базируется не на анализе контента, а на анализе исторических логов запросов (Historical Data). Контекстные термины — это слова, которые пользователи использовали в запросах (как с именем, так и без него), которые привели их на определенный ресурс. Контент страницы важен для обеспечения релевантности этим запросам, но сами термины берутся из поведения пользователей.

Что такое "First Queries" и "Second Queries" и почему они критически важны?

First Queries включают имя (например, "Джон Смит исследователь"). Second Queries — запросы без имени (например, "основатель Джеймстауна"), ведущие на тот же ресурс. Они критически важны, так как позволяют установить прочную семантическую связь между именем и контекстом. Использование Second Queries подтверждает Topical Authority ресурса по теме, а не только по имени.

Как авторитетность сайта (Authority Score) влияет на поисковые подсказки?

Авторитетность влияет напрямую (Claim 10). При выборе Representative Term для подсказки система повышает вес терминов, исходящих из авторитетных источников. Это означает, что информация на трастовых сайтах сильнее влияет на то, какие ассоциации Google будет предлагать пользователям для данной сущности.

Как система выбирает лучший термин для подсказки из множества вариантов?

Используется многофакторное ранжирование внутри кластера. Система предпочитает термины с высокой релевантностью, которые часто используются пользователями в запросах с именем (Claim 11) и исходят из авторитетных источников (Claim 10). При этом слишком общие термины пессимизируются с помощью IDF (Claim 9).

Как SEO-специалист может повлиять на то, какие подсказки покажет Google для имени или бренда?

Необходимо работать над укреплением желаемых контекстных кластеров. Это достигается созданием авторитетного контента, который отвечает как на First Queries, так и на Second Queries, связанные с нужным контекстом. Также важно стимулировать естественный поисковый спрос по желаемым фразам (например, через PR), так как это сильный сигнал для системы (Claim 11).

Как система разделяет информацию о разных людях с одинаковым именем?

Это достигается за счет кластеризации (Clustering). Система собирает списки контекстных терминов из разных ресурсов и группирует их на основе схожести. Ресурсы об исследователе будут иметь схожие термины (например, "экспедиция", "карта"), формируя один кластер, а ресурсы о ботанике — другие (например, "Кью Гарденс", "растения"), формируя второй кластер.

Как быстро обновляются эти контексты и подсказки?

Основная работа по анализу логов, кластеризации и выбору терминов происходит офлайн. Это означает, что изменения в поведении пользователей или появление нового контента отразятся на подсказках не мгновенно, а после очередного цикла пересчета и обновления базы данных Name Context Data.

Что такое нормализация контекстных терминов?

Нормализация (упомянутая в описании и Claim 6) — это процесс приведения похожих терминов к единой форме (например, синонимы, стемминг: "фотограф", "фотография" -> "фотограф"). Это делается перед кластеризацией для повышения её эффективности, позволяя системе понять, что разные формулировки относятся к одному контексту.

Как этот патент связан с Topical Authority?

Он напрямую подтверждает важность Topical Authority. Механизм Second Queries требует, чтобы ресурс был авторитетным источником по теме в целом. Чтобы ваш контент хорошо работал в этой системе, он должен покрывать тему настолько глубоко, чтобы отвечать на запросы, связанные с контекстом, даже без упоминания основного имени сущности.

Может ли система разделять разные аспекты жизни одного и того же человека?

Да. Патент указывает, что разные контексты могут относиться не только к разным людям, но и к разрозненным аспектам (disjoint aspects) жизни одного человека. Например, для актера могут быть сформированы отдельные кластеры, связанные с его кинокарьерой и его политической активностью, если эти аспекты достаточно различны в логах запросов.

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google идентифицирует и ранжирует людей, связанных с запросом, и различает однофамильцев с помощью контекста

Google использует механизм для определения людей, наиболее релевантных поисковому запросу. Система анализирует контекст вокруг имен в документах, используя «термины классификации» (например, должности, локации, email), чтобы сгруппировать упоминания и различить людей с одинаковыми именами (дисамбигуация). Это позволяет точно идентифицировать сущности и организовать выдачу вокруг них.

US9245022B2
2016-01-26

Семантика и интент
Индексация
SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей

Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.

US10110701B2
2018-10-23

Knowledge Graph
Поведенческие сигналы
Персонализация

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR

Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.

US9569432B1
2017-02-14

SERP
Поведенческие сигналы
Персонализация

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP