Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

METHODS AND APPARATUS FOR DETERMINING EQUIVALENT DESCRIPTIONS FOR AN INFORMATION NEED (Методы и аппаратура для определения эквивалентных описаний информационной потребности)

US6941293B1
Google LLC
2002-02-01
2005-09-06

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

Какую проблему решает

Патент решает фундаментальную проблему поиска: одна и та же информационная потребность (information need) может быть выражена разными способами (разными словами, фразами, акронимами). Пользователи могут не знать всех возможных формулировок, что ограничивает полноту получаемых ими результатов. Изобретение направлено на автоматическое выявление этих эквивалентных описаний (equivalent descriptions) без ручного вмешательства.

Что запатентовано

Запатентована система автоматического определения эквивалентных описаний (синонимов) для информационной потребности. Суть изобретения заключается в анализе больших массивов данных, таких как логи поисковых запросов (query logs) и анкорные тексты (anchor text), для выявления паттернов эквивалентности. Система ищет ситуации, где разные описания используются в одном и том же контексте или относятся к одному и тому же объекту.

Как это работает

Система использует два основных подхода:

Анализ логов запросов: Система сортирует запросы по пользователю и времени. Анализируются последовательные (adjacent) запросы одного пользователя. Если два подряд идущих запроса имеют общие термины (контекст), то различающиеся термины считаются кандидатами в синонимы (например, Q1: «palo alto hotels», Q2: «palo alto inns»; кандидаты: hotels/inns).
Анализ анкорных текстов: Система группирует анкорные тексты по документу, на который они ссылаются. Если разные анкорные тексты ссылаются на одну страницу и имеют общие термины, то различающиеся термины также считаются кандидатами.

Для каждой пары кандидатов рассчитывается оценка (score) на основе частоты встречаемости. Если оценка превышает порог, пара признается эквивалентной. Также предусмотрен механизм исключения альтернатив (например, конкурентов).

Актуальность для SEO

Высокая. Хотя патент подан в 2002 году, он описывает фундаментальные механизмы автоматического распознавания синонимов, что является критически важной частью современного понимания запросов (Query Understanding). Авторы патента (включая Джеффа Дина и Ноама Шазира) — ключевые фигуры в развитии поиска Google. Несмотря на то что современные методы (например, векторные представления, BERT, MUM) ушли далеко вперед, описанные принципы анализа поведения пользователей и структуры веба для понимания языка остаются актуальными и могут использоваться для обучения современных моделей.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он демонстрирует, как Google систематически учится понимать язык, выходя за рамки точного совпадения ключевых слов. Это подчеркивает важность семантического охвата и использования естественного языка как в контенте, так и в анкорных текстах. Понимание этих механизмов подтверждает, что оптимизация под узкий набор точных ключевых фраз менее эффективна, чем работа над тематической релевантностью и контекстом.

Термины и определения

Adjacent Queries (Последовательные/Смежные запросы): Запросы, поданные одним и тем же пользователем в течение короткого промежутка времени или подряд (в рамках одной сессии). В патенте упоминается окно из двух или пяти последовательных запросов.
Alternatives (Альтернативы): Описания, которые связаны, но не являются эквивалентными (например, конкурирующие бренды: Hertz и Avis). Патент описывает механизм для их исключения из списка синонимов.
Anchor Text Unit (Единица анкорного текста): Текст гиперссылки в документе, который используется как описание целевого документа.
Candidate Pair (Пара кандидатов / Кандидатная пара): Два термина или фразы, которые потенциально являются эквивалентными описаниями одной и той же информационной потребности. Выявляются путем анализа различий в схожих описаниях.
Equivalent Descriptions (Эквивалентные описания): Различные способы выражения одной и той же информационной потребности (синонимы, акронимы, близкие по смыслу фразы).
Information Need (Информационная потребность): Цель пользователя при поиске информации.
Query Log (Лог запросов): Запись истории поисковых запросов, обычно включающая UserID, время запроса и текст запроса. Используется как основной источник данных для анализа поведения пользователей.
Score (Оценка): Числовое значение, рассчитываемое для пары кандидатов, отражающее уверенность системы в их эквивалентности. Основано на частоте встречаемости.
Threshold (Пороговое значение): Заданный уровень оценки (Score), при превышении которого пара кандидатов признается эквивалентной.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает общий метод определения эквивалентных описаний на основе списка запросов.

Система получает список запросов от пользователей.
Идентифицируется Candidate Pair путем нахождения двух запросов, относящихся к одной и той же Information Need.
Рассчитывается оценка (Score) для пары кандидатов в зависимости от частоты их появления в списке.
Если оценка превышает порог (Threshold), каждая часть пары признается эквивалентным описанием.

Claim 2 (Зависимый от 1): Уточняет метод идентификации Candidate Pair.

Пара кандидатов идентифицируется путем нахождения двух запросов, содержащих хотя бы один общий термин. Части запросов, которые не являются общими, формируют пару кандидатов.

Claim 3 (Зависимый от 1): Описывает метод идентификации акронимов.

Система сравнивает символы термина в первом запросе с первыми буквами последовательности терминов во втором запросе. Если они совпадают (например, FDA и Food Drug Administration), термин и последовательность терминов признаются парой кандидатов.

Claim 4 (Зависимый от 1): Уточняет метод расчета оценки.

Оценка рассчитывается как отношение частоты встречаемости всей пары кандидатов (Freq(A->B)) к частоте встречаемости одной из частей этой пары (Freq(A)) в общем списке.

Claim 7 и 8 (Зависимые от 1): Описывают механизм исключения альтернатив (related entities) из списка эквивалентов (synonyms).

Система исключает пару кандидатов, если определено, что одна часть является альтернативой, а не эквивалентом другой. Это определяется путем анализа коллекций документов и выявления списков или таблиц, где обе части пары часто встречаются вместе. Высокая частота совместного упоминания в таких структурах указывает на то, что это Alternatives (например, Hertz и Avis).

Claim 17 (Независимый пункт): Описывает конкретный метод определения синонимов на основе логов поисковых запросов.

Получение списка поисковых запросов.
Сортировка списка сначала по пользователю (UserID), затем по времени подачи запроса.
Выбор набора последовательных запросов (adjacent queries) от одного пользователя.
Идентификация двух запросов из набора, имеющих хотя бы один общий термин.
Идентификация различающихся частей этих запросов как пары кандидатов в синонимы.
Расчет оценки на основе частоты и признание синонимами при превышении порога.

Claim 23 (Независимый пункт): Описывает метод определения эквивалентных описаний на основе анкорных текстов.

Создание списка единиц анкорного текста (anchor text units).
Определение подмножества списка, которое относится к одной и той же информационной потребности (т.е. ссылается на один и тот же документ).
Нахождение в подмножестве двух анкорных текстов с общими терминами.
Идентификация различающихся частей как пары кандидатов.
Расчет оценки и сравнение с порогом.

Где и как применяется

Изобретение применяется в основном на этапах индексирования и понимания запросов для построения базы знаний о языке.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор и анализ Anchor Text. Система анализирует тексты ссылок и целевые URL. Анкорные тексты группируются по целевым документам, и запускается офлайн-процесс поиска эквивалентных описаний на основе этих данных (Claim 23).

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Он включает два процесса:

Офлайн-анализ (Построение базы синонимов): Система периодически обрабатывает Query Logs. Анализируется поведение пользователей, в частности, переформулировки запросов в рамках одной сессии (Claim 17). Этот анализ, вместе с анализом анкоров, позволяет автоматически генерировать базу данных синонимов и эквивалентных фраз.
Обработка запроса в реальном времени (Применение синонимов): Компонент обработки запросов использует созданную базу данных для расширения или переписывания входящего запроса пользователя, чтобы улучшить полноту (Recall) и релевантность результатов.

Входные данные:

Query Logs (UserID, Date/Time, Query Text).
База данных Anchor Text и соответствующих им целевых URL.
(Для исключения альтернатив) Коллекция документов для анализа совместной встречаемости терминов.

Выходные данные:

База данных пар эквивалентных описаний (синонимов, акронимов) с соответствующими оценками уверенности (Scores).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, где существует множество способов описания концепции, продукта или услуги (информационные, коммерческие запросы). Также сильно влияет на запросы с акронимами.
Контентные факторы: Влияет на оценку контента. Страницы, использующие синонимы ключевых слов, могут быть признаны релевантными запросам, где эти синонимы не используются напрямую.
Ссылочные факторы: Влияет на интерпретацию анкорного текста. Вариативность анкоров, указывающих на одну страницу, используется как источник данных для обучения системы.

Когда применяется

Условия работы алгоритма: Алгоритм работает в офлайн-режиме и требует наличия достаточного объема данных (логов запросов или анкорных текстов) для статистического анализа.
Триггеры активации: Активация анализа происходит, когда обнаруживаются паттерны схожести (общие термины) в связанных описаниях (последовательных запросах одного пользователя или в анкорных текстах, ведущих на один документ).
Пороговые значения: Эквивалентность устанавливается только тогда, когда рассчитанная оценка (Score) для пары кандидатов превышает заданный порог. В патенте упоминается примерное значение 0.1 для одного из вариантов реализации. Также могут применяться пороги минимальной частоты встречаемости пары.

Пошаговый алгоритм

Алгоритм А: Анализ логов запросов (Claim 17)

Сбор данных: Получение списка поисковых запросов (Query Log).
Нормализация и Сортировка: Сортировка лога по UserID и времени подачи запроса.
Выборка последовательности: Выбор набора последовательных запросов (adjacent queries) от одного пользователя (например, 2 или 5 подряд идущих запросов).
Поиск контекста: Идентификация двух запросов в наборе, которые содержат хотя бы один общий термин.
Извлечение кандидатов: Идентификация различающихся терминов в этих двух запросах как пары кандидатов в синонимы (candidate synonym pair). (Также применяется логика поиска акронимов из Claim 3).
Расчет оценки: Вычисление Score для пары. Например, как отношение частоты этой конкретной переформулировки к общей частоте встречаемости первого термина пары.
Валидация: Сравнение оценки с пороговым значением (Threshold).
Применение: Если оценка выше порога, пара признается синонимами и сохраняется в базе данных.

Алгоритм Б: Анализ анкорных текстов (Claim 23)

Сбор данных: Создание списка единиц анкорного текста (anchor text units).
Группировка: Организация анкорных текстов по документу, на который они указывают (целевой URL).
Поиск контекста: В рамках одной группы (ссылающихся на один документ) поиск анкорных текстов, содержащих общие термины.
Извлечение кандидатов: Идентификация различающихся терминов как пары кандидатов.
Расчет оценки и Валидация: Аналогично Алгоритму А.

Алгоритм В: Исключение альтернатив (Claims 7, 8)

Анализ коллекции документов: Для валидированной пары кандидатов выполняется поиск в большой коллекции документов.
Идентификация структур: Поиск списков, таблиц или других структур в документах, содержащих обе части пары.
Расчет совместной встречаемости: Определение частоты, с которой обе части появляются вместе в этих структурах.
Принятие решения: Если частота совместной встречаемости высока (превышает порог), пара классифицируется как Alternatives (related entities), а не эквиваленты (synonyms), и исключается из базы синонимов.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Query Logs. Система анализирует последовательность действий пользователя (переформулировку запросов) в рамках одной сессии. Используются UserID, временные метки и текст запросов.
Ссылочные факторы (Ключевые): Anchor Text. Система анализирует текст входящих ссылок и их целевые URL.
Контентные и Структурные факторы: Используются для механизма исключения альтернатив (Алгоритм В). Анализируется контент документов на предмет наличия структурированных данных (списков и таблиц), где совместно упоминаются термины-кандидаты.

Какие метрики используются и как они считаются

Частота пары (Frequency of Candidate Pair): Количество раз, когда наблюдается конкретная пара кандидатов в анализируемом наборе данных (например, количество переходов от Q1 к Q2).
Частота термина (Frequency of Term): Общее количество раз, когда одна из частей пары встречается во всем наборе данных.
Score (Оценка эквивалентности): В одном из вариантов реализации рассчитывается как отношение: $Score = \frac{Frequency\ of\ Candidate\ Pair}{Frequency\ of\ Term\ A}$ . (Патент отмечает, что пары могут рассматриваться как однонаправленные: A->B не равно B->A).
Score (Оценка альтернативности): Рассчитывается для определения, являются ли термины альтернативами. Основано на отношении частоты совместного упоминания в списках/таблицах к частоте упоминания одного из терминов в этих структурах.
Thresholds (Пороги): Используются для фильтрации результатов как по оценке эквивалентности, так и по минимальной частоте встречаемости.

Автоматическое обучение синонимам: Google активно использует автоматизированные методы для изучения синонимов, акронимов и эквивалентных фраз, не полагаясь только на словари или ручную разметку. Это позволяет системе адаптироваться к изменениям в языке.
Поведение пользователей как источник истины: Переформулировка запросов пользователем в рамках одной сессии (когда контекст сохраняется, а термины меняются) является мощным сигналом для определения эквивалентности. Система предполагает, что пользователь уточняет запрос для удовлетворения той же самой information need.
Анкорный текст как сигнал эквивалентности: Вариативность анкорных текстов, указывающих на один и тот же URL, также используется для выявления синонимов, при условии, что в этих текстах есть общие контекстные слова.
Контекст критичен: Эквивалентность определяется только при наличии общего контекста (общих терминов) в сравниваемых описаниях (запросах или анкорах).
Различие между синонимами и альтернативами: Патент четко различает эквивалентные термины (synonyms) и альтернативные/связанные сущности (alternatives/related entities). Описан конкретный механизм для исключения альтернатив путем анализа их совместной встречаемости в структурированных данных (списках, таблицах) внутри документов.
Статистический подход: Решение об эквивалентности принимается на основе статистических данных (частот и соотношений), а не только лингвистического анализа.

Best practices (это мы делаем)

Использование естественных синонимов в контенте: Создавайте контент, используя разнообразную лексику и естественные синонимы для ключевых понятий. Патент подтверждает, что Google обладает механизмами для распознавания этой эквивалентности, что улучшает ранжирование по широкому спектру связанных запросов.
Вариативность анкорных текстов (внутренних и внешних): Используйте разнообразные, но релевантные анкорные тексты. Если разные анкоры с общим контекстом указывают на одну страницу (например, «обзор iPhone 15» и «тест камеры iPhone 15»), это помогает системе лучше понять содержание страницы и взаимосвязь терминов (Алгоритм Б).
Структурирование альтернатив: При описании схожих сущностей (например, сравнение разных моделей телефонов или разных авиакомпаний) используйте списки и таблицы. Это помогает Google корректно идентифицировать их как Alternatives, а не как синонимы, согласно механизму исключения (Алгоритм В).
Оптимизация под акронимы: Убедитесь, что полные расшифровки акронимов присутствуют в тексте. Система способна автоматически связывать акронимы с их полными формами, анализируя логи запросов (Claim 3).
Анализ внутренних логов поиска: Анализируйте, как пользователи переформулируют запросы на вашем собственном сайте. Это может дать ценные инсайты о синонимах, актуальных для вашей аудитории, повторяя логику Алгоритма А.

Worst practices (это делать не надо)

Одержимость точным соответствием (Exact Match Keywords): Фокусировка исключительно на использовании одного варианта ключевого слова в ущерб читабельности и естественности. Система распознает эквиваленты, поэтому такая стратегия ограничивает охват.
Искусственная унификация анкоров: Попытки использовать строго одинаковый анкорный текст во всех входящих ссылках. Это лишает систему ценных данных о вариативности описаний и может выглядеть неестественно.
Игнорирование контекста при использовании синонимов: Использование синонимов без сохранения общего контекста. Механизмы патента полагаются на наличие общих терминов для установления эквивалентности.

Стратегическое значение

Этот патент является одним из фундаментальных документов, описывающих переход Google от лексического поиска (по точным словам) к семантическому (по смыслу). Он показывает, как анализ огромных массивов данных о поведении пользователей и структуре веба позволяет автоматически понимать язык. Для SEO это означает, что стратегия должна строиться вокруг тем и интентов (information needs), а не вокруг фиксированного набора ключевых слов, так как система способна самостоятельно определять equivalent descriptions.

Практические примеры

Сценарий 1: Обучение синонимам через переформулировку запроса

Действие пользователя: Пользователь ищет «как починить экран ноутбука». Результаты его не удовлетворяют.
Уточнение: Через 10 секунд тот же пользователь ищет «как заменить матрицу ноутбука».
Анализ системой (Алгоритм А): Система видит два последовательных запроса от одного пользователя. Общие термины: «как», «ноутбука». Различающиеся термины: «починить экран» и «заменить матрицу».
Результат: Система идентифицирует «починить экран» -> «заменить матрицу» как пару кандидатов. Если этот паттерн повторяется у многих пользователей и Score превышает порог, эти фразы будут признаны эквивалентными.

Сценарий 2: Использование вариативности анкоров

Ситуация: Существует авторитетная страница о породе собак Кавалер Кинг Чарльз Спаниель.
Входящие ссылки: Сайт А ссылается с анкором «уход за Кавалер Кинг Чарльз Спаниелем». Сайт Б ссылается с анкором «уход за ККЧС».
Анализ системой (Алгоритм Б): Система видит два анкора, указывающих на одну страницу. Общий термин: «уход за». Различающиеся термины: «Кавалер Кинг Чарльз Спаниелем» и «ККЧС».
Результат: Система идентифицирует их как пару кандидатов и может научиться, что ККЧС является эквивалентным описанием (акронимом) для этой породы.

Как именно система определяет, что два разных запроса относятся к одной и той же информационной потребности?

Патент предлагает два основных индикатора. Первый — это анализ поведения пользователя: если запросы поданы одним пользователем последовательно (adjacent queries) и имеют общие термины, предполагается, что пользователь переформулирует запрос для той же цели. Второй — это анализ анкорных текстов: если разные анкорные тексты указывают на один и тот же документ и имеют общие термины, они также считаются относящимися к одной потребности.

Означает ли этот патент, что больше не нужно заботиться о точном вхождении ключевых слов?

Да, этот патент подтверждает, что фокусироваться на точном вхождении одного варианта ключевой фразы не является оптимальной стратегией. Система автоматически изучает синонимы и эквивалентные фразы. Гораздо важнее использовать естественный язык, покрывать тему всесторонне и использовать релевантные синонимы в контенте для улучшения общего семантического охвата.

Как рассчитывается оценка (Score) для пары кандидатов в синонимы?

Один из описанных методов расчета — это отношение частоты встречаемости пары кандидатов к общей частоте встречаемости одной из частей этой пары. Например, чтобы оценить пару «hotels» -> «inns», система смотрит, как часто пользователи меняют «hotels» на «inns» в схожем контексте, и делит это число на общее количество запросов, содержащих «hotels». Это нормализует оценку и показывает вероятность замены.

Может ли система ошибочно принять связанные сущности (например, конкурентов) за синонимы?

Да, такая опасность существует. Однако патент специально описывает механизм для исключения таких «альтернатив» (Claims 7, 8). Система анализирует, как часто эти термины встречаются вместе в списках или таблицах в других документах. Если часто (например, Hertz и Avis в списке прокатных контор) — это альтернативы, а не синонимы.

Как этот патент влияет на стратегию построения ссылок (Link Building)?

Он подчеркивает ценность естественного и вариативного профиля анкорных текстов. Разнообразие релевантных анкоров, указывающих на вашу страницу, помогает Google лучше понять ее содержание и выучить новые эквивалентные описания для вашего контента. Искусственное зацикливание на одном коммерческом анкоре не рекомендуется.

Как система распознает акронимы?

Патент описывает специфический метод (Claim 3): система сравнивает буквы акронима в одном запросе с первыми буквами последовательности слов в другом запросе, поданном тем же пользователем. Например, если пользователь сначала ищет «FDA», а затем «Food Drug Administration», система сопоставит F-Food, D-Drug, A-Administration и определит их как пару кандидатов.

Насколько быстро система изучает новые синонимы?

Патент описывает процесс анализа логов запросов и анкорных текстов как офлайн-процесс (batch processing). Это означает, что обучение происходит периодически, по мере накопления и обработки данных. Система не обучается мгновенно на основе одного действия пользователя; требуется накопление статистически значимого количества повторений паттерна.

Заменяют ли современные нейронные сети (BERT, MUM) механизмы этого патента?

Современные модели используют более сложные методы (например, векторные представления) для понимания синонимии и контекста. Однако данные, описанные в патенте (логи поведения пользователей и анкорные тексты), по-прежнему являются критически важными сигналами для обучения и валидации этих нейронных сетей. Принципы, заложенные в этом патенте, остаются фундаментом.

Что такое «порог» (Threshold) и как он определяется?

Порог — это минимальная оценка (Score), необходимая для того, чтобы система признала пару кандидатов эквивалентными. Он используется для фильтрации шума и случайных совпадений. Патент не указывает точного метода определения порога, упоминая лишь примерное значение 0.1 в одном из вариантов. На практике порог устанавливается эмпирически.

Влияет ли этот механизм на внутреннюю перелинковку?

Да. Принципы анализа анкорных текстов применимы как к внешним, так и к внутренним ссылкам. Использование вариативных, контекстуально богатых анкоров во внутренней перелинковке помогает системе лучше понять структуру сайта и семантические связи между страницами, а также способствует распознаванию эквивалентных описаний.

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

US9183297B1
2015-11-10

Семантика и интент

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования

Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.

US8862572B2
2014-10-14

Поведенческие сигналы
Ссылки

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню

Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.

US9053177B1
2015-06-09

SERP
Ссылки
Структура сайта

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта

Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.

US9208233B1
2015-12-08

Ссылки
Семантика и интент
Индексация

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы