Как Google использует поведение пользователей и анализ SERP для определения контекстно-зависимых синонимов

DETERMINING QUERY TERM SYNONYMS WITHIN QUERY CONTEXT (Определение синонимов термов запроса в контексте запроса)

US7636714B1
Google LLC
2005-03-31
2009-12-22

Google анализирует логи запросов, чтобы понять, как пользователи переформулируют свои запросы в рамках одной сессии. Система выявляет слова, которые пользователи заменяют друг на друга в одинаковых контекстах, и валидирует их, проверяя, возвращают ли оба варианта запроса схожие результаты поиска. Эти контекстные синонимы затем используются для автоматического расширения или изменения запросов пользователей.

Какую проблему решает

Патент решает фундаментальную проблему информационного поиска: традиционные тезаурусы и словари неэффективны для расширения запросов, поскольку синонимичность часто полностью зависит от контекста. Например, «music» не является общим синонимом «loops», но является хорошим синонимом в контексте запроса [free loops for flash movie]. Изобретение предлагает автоматизированный, основанный на данных метод для идентификации таких контекстно-зависимых синонимов, повышая полноту поиска (Recall) без ручного создания лексических баз.

Что запатентовано

Запатентована система и метод для автоматического определения синонимов термов запроса с учетом контекста. Суть изобретения заключается в анализе логов поисковых запросов (Query Logs), сгруппированных по пользовательским сессиям. Система идентифицирует пары запросов, которые отличаются только одной фразой, но имеют идентичный контекст (окружающие слова). Эти фразы становятся кандидатами в синонимы и валидируются с помощью строгих статистических тестов, основанных на частоте переформулировок пользователями и степени пересечения результатов поиска (SERP Overlap).

Как это работает

Система работает в два этапа: офлайн-генерация и онлайн-применение.

Офлайн-анализ: Логи запросов анализируются для идентификации сессий. Из запросов генерируются Pseudo-queries (псевдо-запросы) путем замены фразы на токен (например, [gm : car prices]). Запросы с одинаковым Pseudo-query группируются, а отличающиеся фразы (например, «used» и «new») становятся кандидатами.
Валидация: Кандидаты проверяются статистически: как часто пользователи меняют фразу в сессии и насколько похожи результаты поиска по обоим запросам. Рассчитывается оценка уверенности (Evidence Score).
Онлайн-применение: При получении запроса система использует валидированные синонимы для создания измененного запроса (Altered Query). Это может быть расширение через оператор OR (дизъюнкция), прямая замена терма или использование синонима для корректировки ранжирования.

Актуальность для SEO

Критически высокая. Понимание контекста и семантической эквивалентности является фундаментом современного поиска. Хотя статистические методы, описанные в патенте, сегодня дополнены или заменены нейросетевыми моделями (BERT, MUM), базовые принципы — использование контекста для определения значения слова и валидация через поведение пользователей и схожесть SERP — остаются центральными для систем Query Understanding.

Важность для SEO

Патент имеет фундаментальное значение для SEO (9/10). Он описывает конкретный механизм, лежащий в основе перехода от лексического к семантическому поиску. Это напрямую влияет на исследование ключевых слов и стратегию контента: необходимо понимать, какие термины Google считает взаимозаменяемыми в конкретном контексте на основе поведения пользователей, а не полагаться на словари. Анализ пересечения выдачи (SERP Overlap) становится ключевой тактикой для понимания интента и кластеризации запросов.

Термины и определения

Altered Query (Измененный запрос): Запрос, полученный путем замены фразы в исходном запросе на синоним (кандидат).
Candidate Synonym (Кандидат в синонимы): Фраза, которая потенциально может заменить исходную фразу в определенном контексте. Идентифицируется через анализ Pseudo-queries.
Context (Контекст): Слова, окружающие фразу в запросе, и их позиция. Контекст может быть общим (:) или специфическим, например, (word1 : word2).
Evidence Score (Оценка уверенности): Итоговая метрика (от 0 до 1.0), рассчитываемая на основе взвешенной суммы статистических тестов. Отражает уверенность системы в валидности синонима в данном контексте.
Phrase (Фраза): Один или несколько последовательных термов в запросе.
Pseudo-query (Псевдо-запрос): Шаблон запроса, созданный путем замены Phrase на токен (например, «:»). Используется для идентификации запросов с одинаковым контекстом. Пример: [gm : car prices].
Query Logs (Логи запросов): Хранилище исторических поисковых запросов, включающее User ID, временные метки и списки топовых результатов поиска (Doc IDs/URLs).
Session (Сессия): Последовательность запросов от одного пользователя в течение определенного временного интервала (например, один час).

Ключевые утверждения (Анализ Claims)

Патент описывает как процесс генерации синонимов, так и несколько различных способов их применения (Claims 1, 11, 16).

Claim 1 (Независимый пункт): Описывает применение синонимов через расширение запроса (Query Expansion via Disjunction).

Система получает поисковый запрос.
Выбирается терм. Оставшиеся термы и позиция выбранного терма определяют контекст.
Подбирается терм-замена (синоним). Критерий: этот синоним ранее встречался в логах в той же самой позиции относительно тех же оставшихся термов (т.е. в идентичном контексте).
Создается Altered Query путем замены исходного терма на дизъюнкцию (OR) исходного терма и синонима. (Например, [gm cars] -> [(gm OR general motors) cars]).
Генерируются результаты для Altered Query.

Claim 16 (Независимый пункт): Описывает применение через прямую замену (Direct Substitution).

Шаги 1-3 аналогичны Claim 1.
Создается Altered Query путем прямой замены исходного терма на синоним (без дизъюнкции). (Например, [gm cars] -> [general motors cars]).
Генерируются результаты для Altered Query.

Claim 11 (Независимый пункт): Описывает применение через модификацию ранжирования (Ranking Modification).

Шаги 1-3 аналогичны Claim 1.
Генерируются результаты для исходного запроса и их ранжирование.
Ранжирование модифицируется на основе того, содержат ли результаты поиска терм-замену (синоним). (Позволяет повышать документы с синонимом без явного переписывания запроса).

Claims 2 и 3 (Зависимые): Детализируют офлайн-процесс генерации и валидации синонимов.

Анализируются Query Logs для идентификации термов, появляющихся в одинаковом контексте.
Определяется количество общих результатов поиска для пары запросов, отличающихся только этими термами.
Термы признаются синонимами в данном контексте, если количество общих результатов превышает порог.

Где и как применяется

Изобретение является ключевым компонентом этапа понимания запросов.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Он включает два процесса:

Офлайн-анализ (Генерация синонимов): Система периодически анализирует Query Logs, поведение пользователей в сессиях и схожесть SERP для построения базы данных контекстно-зависимых синонимов. Это включает расчет Evidence Score.
Онлайн-обработка (Переписывание запросов): При получении запроса система интерпретирует его контекст, ищет применимые синонимы в базе данных и выполняет Query Rewriting/Expansion (расширение, замена) или принимает решение о модификации ранжирования.

RANKING – Ранжирование
На этом этапе используется переписанный запрос. Кроме того, согласно Claim 11, система может использовать наличие валидированного синонима в документе как сигнал для модификации Ranking Score.

Входные данные (Офлайн):

Query Logs (текст запроса, User ID, временные метки).
Списки топовых результатов поиска (Document IDs/URLs) для запросов в логах.

Выходные данные (Офлайн):

База данных валидированных синонимов с указанием контекста и Evidence Score.

Входные данные (Онлайн):

Входящий запрос пользователя.
База данных синонимов.

Выходные данные (Онлайн):

Altered Query или модифицированные сигналы ранжирования.

На что влияет

Специфические запросы: Наибольшее влияние на многословные запросы (mid-tail и long-tail), где контекст четко определен. В патенте упоминается, что запросы короче трех слов могут исключаться из анализа из-за недостатка контекста.
Языковые ограничения: Метод не зависит от языка, так как основан на статистическом анализе логов, а не на лингвистических правилах.

Когда применяется

Офлайн-анализ: Выполняется периодически (например, еженедельно). Требует накопления достаточного объема данных для статистической значимости (упоминается необходимость минимум 1000 запросов с фразой).
Онлайн-применение: Активируется в реальном времени, если входящий запрос соответствует контексту, для которого существует валидированный синоним, и Evidence Score этого синонима превышает установленный порог (например, >0.6 для автоматического расширения).

Пошаговый алгоритм

Процесс А: Офлайн-генерация и валидация синонимов

Сбор и сортировка данных: Сбор Query Logs. Сортировка по User ID и времени для организации запросов в сессии. Фильтрация коротких запросов (<3 слов).
Генерация Pseudo-queries: Для каждого запроса создание всех возможных Pseudo-queries путем замены фразы на токен (:), оставляя минимум два слова контекста.
Компиляция информации: Создание записей для каждого Pseudo-query, включающих исходный запрос, замененную фразу и топ результатов поиска. Фиксация случаев, когда разные фразы используются в одном Pseudo-query в рамках одной сессии.
Идентификация кандидатов: Группировка записей по Pseudo-query. Идентификация различных фраз на месте токена как Candidate Synonyms.
Сбор статистики: Для каждой пары (Фраза А, Синоним Б) в каждом контексте собирается статистика:
- TDQ: Общее количество уникальных запросов с А.
- i) Existence: Количество запросов с А, для которых запрос с Б также существует в логах.
- ii) Commonality Data Available: Количество пар, для которых есть данные о результатах.
- iii/iv) High/Low Commonality: Количество пар с минимум 3 / минимум 1 общим результатом.
- v/vi) Session Successor/Predecessor: Количество переключений А->Б / Б->А в сессиях.
Квалификация и Оценка (Qualification): Применение статистических тестов (FIG. 3).
1. Проверка предварительных условий (например, >65% пар имеют 1+ общий результат; частота замены >1/2000).
2. Расчет метрик (frequently_alterable, frequently_much_in_common, frequently_altered, high_altering_ratio) с использованием функции Scale.
3. Расчет итоговой оценки Evidence Score.
Сохранение: Сохранение синонимов, превысивших пороговый Evidence Score, в базу данных.

Процесс Б: Онлайн-применение синонимов

Получение запроса: Система получает запрос.
Анализ контекста и поиск синонимов: Поиск валидированных синонимов в базе данных для фраз в текущем контексте.
Принятие решения: На основе Evidence Score система выбирает метод применения: расширение (Claim 1), замена (Claim 16) или модификация ранжирования (Claim 11).
Генерация и выполнение Altered Query: Создание и выполнение измененного запроса или корректировка ранжирования.

Какие данные и как использует

Данные на входе

Патент полностью полагается на анализ исторических данных из логов поиска.

Поведенческие факторы (Критически важно):
- Query Logs: Текст запросов.
- User ID и Временные метки: Используются для группировки запросов в Sessions.
- Последовательность запросов в сессии: Анализ порядка запросов для выявления переформулировок (замены одного терма на другой в том же контексте).
Системные данные (SERP Data):
- Результаты поиска (Document IDs/URLs): Списки топовых результатов для запросов из логов. Используются для оценки семантической близости через расчет пересечения выдачи (SERP Overlap).

Какие метрики используются и как они считаются

Система использует набор статистических тестов для расчета Evidence Score. TDQ = Total Distinct Queries.

frequently_alterable (i/TDQ): Доля запросов, для которых измененный запрос (с синонимом) также существует в логах.
frequently_much_in_common (iv/ii или iii/ii): Доля пар запросов (исходный и измененный), которые имеют значительное количество общих результатов поиска. Ключевой индикатор семантической близости.
frequently_altered (v/TDQ): Доля запросов, после которых пользователь ввел измененный запрос в той же сессии.
high_altering_ratio (v/vi): Отношение частоты замен А на Б к частоте замен Б на А. Позволяет определить предпочтительный терм.

Расчет итоговой оценки (Evidence Score):

Метрики нормализуются с помощью функции Scale и агрегируются (с весами):

$soft_and = freq_alterable + 2 * freq_much_in_common + 0.5 * freq_altered + high_altering_ratio$

Финальная оценка рассчитывается как:

$E v i d e n c e = 1.0 - e x p (- s o f t_{a} n d Выводы Контекст определяет синонимичность: Ключевой вывод — Google не использует универсальные словари. Является ли слово синонимом, определяется исключительно контекстом (окружающими словами в запросе). Поведение пользователей (User Behavior) как источник истины: Система изучает язык, наблюдая за тем, как пользователи переформулируют запросы в рамках одной сессии (Session). Если пользователи часто заменяют А на Б, это сильный сигнал синонимичности. Совпадение результатов поиска (SERP Overlap) как валидатор: Ключевым критерием семантической близости является пересечение результатов поиска (метрика frequently_much_in_common). Если разные запросы возвращают схожий набор документов, они решают одну и ту же задачу. Многообразие применения: Система может применять синонимы по-разному: через расширение запроса (OR), прямую замену терма или модификацию ранжирования. Выбор зависит от рассчитанной оценки уверенности (Evidence Score). Автоматизация и статистика: Метод полностью автоматизирован и основан на строгом статистическом анализе больших данных (логов), что обеспечивает масштабируемость и объективность.Практика Best practices (это мы делаем) Анализ совпадения выдачи (SERP Overlap) для кластеризации: Сделайте анализ SERP Overlap стандартной практикой. Если два запроса показывают высокое пересечение результатов (например, >60-70%), Google считает их семантически идентичными (согласно метрике frequently_much_in_common). Такие запросы следует таргетировать на одну страницу. Изучение реальных пользовательских запросов и переформулировок: Анализируйте данные GSC, Google Trends, PAA и подсказки, чтобы понять, как пользователи ищут информацию и какие термины они считают взаимозаменяемыми (сигнал frequently_altered). Это дает представление о том, как система видит вашу нишу. Использование контекстуально релевантных синонимов в контенте: Насыщайте тексты естественными вариациями ключевых слов и синонимами, которые уместны в контексте темы. Это повышает релевантность контента для расширенных запросов, которые Google генерирует автоматически. Фокус на Интенте, а не на Точном Вхождении: Поскольку Google активно переписывает запросы, концентрация на полном ответе на информационную потребность пользователя важнее, чем оптимизация под конкретную формулировку. Worst practices (это делать не надо) Использование синонимов из словаря без учета контекста: Механическое добавление синонимов из тезауруса неэффективно. Google валидирует синонимы только в том случае, если они используются взаимозаменяемо пользователями в конкретном контексте. Игнорирование контекста и окружающих слов (Co-occurrence): Оптимизация страницы под изолированный термин без обеспечения правильного контекстного окружения снижает эффективность, так как система может неверно интерпретировать значение термина или не найти для него валидированных синонимов. Создание отдельных страниц для близких синонимов (Каннибализация): Создание разных страниц для терминов, которые Google считает контекстуальными синонимами (высокий SERP Overlap), приведет к каннибализации, так как система видит их как один интент. Стратегическое значение Этот патент является одним из фундаментальных документов, подтверждающих переход Google от лексического поиска к семантическому. Он демонстрирует, как Google использует «мудрость толпы» (анализ поведения миллионов пользователей) и анализ данных (SERP Overlap) для построения динамической и контекстно-зависимой карты языка. Для SEO это означает, что долгосрочная стратегия должна быть направлена на понимание интента пользователя во всех его проявлениях и вариациях, а не на оптимизацию под фиксированный набор ключевых фраз. Практические примеры Сценарий: Определение синонимии для аббревиатуры Анализ логов (Офлайн): Google видит в логах следующие запросы: User 1: [gm car prices], затем [general motors car prices] User 2: [best gm vehicles] User 3: [general motors vehicles reviews] Генерация Pseudo-queries: Система создает Pseudo-query [: car prices] и [: vehicles]. Идентификация кандидатов: В этих контекстах «gm» и «general motors» идентифицируются как кандидаты в синонимы. Валидация: Система видит, что пользователи переключаются между терминами в сессии (User 1), и что результаты поиска для [gm car prices] и [general motors car prices] сильно пересекаются (например, 8 из 10 общих результатов). Оценка: Рассчитывается высокий Evidence Score (например, 0.9). Применение (Онлайн): Когда новый пользователь вводит [gm cars], Google автоматически расширяет запрос до [(gm OR general motors) cars] (Claim 1). Результат для SEO: Страница, оптимизированная под «General Motors», будет ранжироваться по запросам, содержащим только «GM».Вопросы и ответы Как Google определяет, что два слова являются синонимами согласно этому патенту? Google не использует словари. Система анализирует два ключевых фактора в логах запросов. Во-первых, поведение пользователей: как часто они заменяют одно слово на другое в рамках одной сессии в одинаковом контексте. Во-вторых, пересечение результатов поиска (SERP Overlap): если запросы с разными словами возвращают похожие наборы документов, это свидетельствует о семантической близости. Что такое «контекст» и почему он так важен? Контекст — это слова, окружающие фразу в запросе. Патент подчеркивает, что синонимичность почти всегда зависит от контекста. Например, «driver» может означать программу в контексте «download printer driver» или человека в контексте «hire taxi driver». Система генерирует синонимы только для специфических контекстов, чтобы избежать некорректных замен. Что такое Pseudo-query и как он используется? Pseudo-query — это шаблон запроса, где одна фраза заменена на токен (например, [apple : problems]). Он используется для идентификации контекста и группировки запросов, которые отличаются только в этой позиции (например, [apple iphone problems] и [apple macbook problems]). Это позволяет системе анализировать, какие слова пользователи вставляют в этот слот. Как система определяет качество синонима? Система рассчитывает оценку уверенности (Evidence Score) от 0 до 1.0 с помощью сложной формулы. Эта формула учитывает несколько метрик: как часто измененный запрос встречается в логах (frequently_alterable), как часто он имеет общие результаты с исходным (frequently_much_in_common), как часто пользователи сами делают такую замену в сессии (frequently_altered), и в каком направлении чаще происходит замена (high_altering_ratio). Если Google считает два слова синонимами, нужно ли мне создавать отдельные страницы для каждого из них? Не обязательно. Если система высоко уверена в синонимичности (высокий Evidence Score), она, скорее всего, автоматически расширит запрос с помощью оператора OR. В этом случае одна сильная страница будет ранжироваться по обоим вариантам. Создание отдельных страниц может привести к каннибализации. Как этот патент влияет на подбор ключевых слов? Он смещает фокус с поиска изолированных ключевых слов на идентификацию контекстов и семантических кластеров. Необходимо понимать, в каком окружении используется ключевое слово и какие другие термины пользователи считают эквивалентными в этом окружении, основываясь на реальном поведении (Search Behavior), а не на словарях. Может ли мой сайт ранжироваться по запросу, который не содержит моих ключевых слов? Да. Если ваш контент содержит термины, которые Google идентифицировал как контекстуальные синонимы для терминов в запросе пользователя, система может расширить запрос (Claim 1) или модифицировать ранжирование (Claim 11) и показать ваш сайт в результатах. Влияет ли этот механизм на все запросы? Механизм фокусируется на запросах, имеющих достаточный контекст (обычно 3 слова и более) и достаточный объем данных в логах для анализа. Для коротких (1-2 слова) или очень редких запросов этот метод может не применяться из-за недостатка данных или контекста. Как Google защищается от того, чтобы не связывать просто связанные слова как синонимы (например, «парус» и «ветер»)? Защита обеспечивается двумя механизмами. Во-первых, требуется, чтобы слова занимали одну и ту же позицию в запросе (одинаковый Pseudo-query). Во-вторых, требуется значительное пересечение результатов поиска (frequently_much_in_common). «Парус» и «ветер» редко взаимозаменяемы в запросах и ведут к разным результатам. Актуален ли этот патент в эпоху BERT и нейронных сетей? Да, базовые принципы крайне актуальны. Хотя современные модели (BERT, MUM) используют более сложные методы для определения контекста (через векторы), данные, описанные в патенте (поведение пользователей при переформулировании и схожесть SERP), остаются критически важными сигналами для обучения, валидации и работы поисковых систем.Похожие патенты Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов. US8965875B1 2015-02-24 Поведенческие сигналы Семантика и интент EEAT и качество Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя. US9183297B1 2015-11-10 Семантика и интент Как Google встраивает синонимы и контекст непосредственно в поисковый индекс на этапе индексирования Google использует механизм для повышения релевантности поиска путем определения синонимов на основе контекста документа во время индексирования. Система встраивает эти синонимы, включая сложные многословные замены (N-to-M), непосредственно в инвертированный индекс. Это позволяет поисковой системе находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету. US9037591B1 2015-05-19 Индексация Семантика и интент Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу. US7617205B2 2009-11-10 Поведенческие сигналы Семантика и интент SERP Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса. US8392441B1 2013-03-05 Семантика и интентПопулярные патенты Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover). US9195703B1 2015-11-24 Персонализация Поведенческие сигналы Семантика и интент Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей. US8762363B1 2014-06-24 Семантика и интент Поведенческие сигналы SERP Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов. US20190278836A1 2019-09-12 Семантика и интент Персонализация EEAT и качество Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне). US9244977B2 2016-01-26 Персонализация Семантика и интент Поведенческие сигналы Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки). US20180357238A1 2018-12-13 Семантика и интент Поведенческие сигналы Персонализация Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score) Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие. US8615514B1 2013-12-24 Поведенческие сигналы Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ. US11379527B2 2022-07-05 Семантика и интент Поведенческие сигналы Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи. US9178848B1 2015-11-03 Local SEO SERP Ссылки Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя. US8538970B1 2013-09-17 Персонализация Поведенческие сигналы SERP Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов. US6526440B1 2003-02-25 Ссылки Антиспам SERPseohardcore$

Как Google использует поведение пользователей и анализ SERP для определения контекстно-зависимых синонимов

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Какие данные и как использует

Данные на входе

Какие метрики используются и как они считаются

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты