SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

METHOD AND APPARATUS FOR GENERATING LEXICAL SYNONYMS FOR QUERY TERMS (Метод и аппарат для генерации лексических синонимов для терминов запроса)
  • US9183297B1
  • Google LLC
  • 2009-08-24
  • 2015-11-10
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

Описание

Какую проблему решает

Патент решает проблему ограничений существующих систем генерации синонимов. Системы на основе тезаурусов часто игнорируют контекст и не покрывают все вариации. Системы, основанные исключительно на статистическом анализе (поведение пользователей, общие результаты), могут пропускать очевидные лексические варианты (стемминг, аббревиатуры, разное написание), если для них недостаточно данных или если стандартные алгоритмы стемминга слишком консервативны. Изобретение улучшает полноту поиска (Recall), надежно распознавая эти лексические синонимы.

Что запатентовано

Запатентована система, которая специально идентифицирует лексические синонимы — слова, имеющие структурную или морфологическую связь. Ядром изобретения является механизм дифференцированного подхода к валидации: если между терминами обнаружена лексическая связь (например, общий корень, отношение акроним-расшифровка, разница в пунктуации), система снижает пороги статистической уверенности, необходимые для признания этих терминов синонимами. Это позволяет агрессивнее учитывать лексические варианты при обработке запроса.

Как это работает

Система работает в несколько этапов:

  1. Анализ кандидатов (Офлайн): Система анализирует логи запросов для выявления потенциальных пар синонимов на основе поведения пользователей (Session Switching) и общих результатов поиска (Common Results).
  2. Лексический анализ (Офлайн): Система проверяет структурные отношения между терминами, используя набор детекторов: Pseudostemming (агрессивный стемминг), проверка акронимов, анализ аббревиатур, нормализация пунктуации и диакритических знаков.
  3. Корректировка порогов: Если обнаруживается лексическое отношение, система применяет скорректированный (пониженный) порог статистических доказательств для валидации.
  4. Валидация и Скоринг: Вычисляется оценка уверенности (Evidence Score). Если она превышает выбранный порог, кандидат принимается как синоним.
  5. Применение (Онлайн): При получении запроса система использует валидированные синонимы для генерации измененного запроса (altered query).

Актуальность для SEO

Высокая. Понимание синонимов, стемминга и лексических вариантов является фундаментальной задачей современных систем понимания запросов (Query Understanding) и NLP. Хотя конкретные алгоритмы могли эволюционировать (например, с интеграцией нейронных сетей), базовый принцип комбинирования лексических и статистических сигналов для нормализации языка остается критически важным.

Важность для SEO

Патент имеет высокое значение для SEO (85/100). Он детально описывает механизмы, с помощью которых Google нормализует различные варианты написания ключевых слов (формы слова, аббревиатуры, пунктуация). Это напрямую влияет на подход к сбору семантического ядра и оптимизации контента. Понимание этих механизмов позволяет SEO-специалистам сосредоточиться на интенте и качестве контента, а не на переборе всех возможных морфологических форм, так как система поиска спроектирована для их автоматического и агрессивного учета.

Детальный разбор

Термины и определения

Lexical Synonym (Лексический синоним)
Термин, имеющий структурное или лексическое сходство с исходным термином. Примеры: стемминг, акронимы, аббревиатуры, различия в пунктуации, пробелах (Compounding/Decompounding) или диакритических знаках.
Altered Query (Измененный запрос)
Новый запрос, сгенерированный путем замены термина в исходном запросе на синоним или добавления синонима к запросу.
Pseudostemming (Псевдостемминг)
Агрессивная техника стемминга. Определяет связь, если слова отличаются на одну правку ИЛИ если соотношение длины общего префикса к максимальной длине слова превышает порог (например, 0.5), И при этом Edit-Distance оставшихся частей слова ниже другого порога (например, 0.4).
Edit-Distance (Расстояние редактирования)
Метрика различия между двумя строками (минимальное количество операций вставки, удаления или замены символов).
Session Switching (Переключение в сессии)
Поведенческий сигнал, когда пользователь заменяет один термин другим в рамках одной поисковой сессии. Используется для статистической валидации синонимов.
Common Results (Общие результаты)
Метрика, определяющая, как часто исходный и измененный запросы возвращают общие результаты поиска. Используется для валидации синонима.
Pseudo-query (Псевдозапрос)
Шаблон запроса, созданный путем замены фразы на токен. Используется для анализа контекста и поиска пар запросов, различающихся только этой фразой (например, [gm : car prices]).
Evidence Score (Оценка уверенности)
Итоговая оценка, рассчитываемая на основе статистических тестов (например, soft_and), определяющая степень уверенности системы в синонимичности двух терминов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод дифференцированной обработки лексических синонимов.

  1. Система получает запрос с первым термином.
  2. Идентифицирует синонимы. Процесс включает:
    1. Определение, удовлетворяют ли первый термин и второй термин (кандидат) критериям, связанным с определенным классом связанных терминов (т.е. являются ли они лексически связанными).
    2. В ответ на это (ДА), система выбирает порог (threshold), который отличается от порога по умолчанию (используемого для терминов без лексической связи).
    3. Генерация оценки (score) для пары терминов путем оценки их взаимосвязи (например, на основе Session Switching и Common Results).
    4. Определение того, что второй термин является синонимом, на основе применения оценки к выбранному (отличному от стандартного) порогу.
  3. Генерация измененного запроса (altered query) с использованием второго термина.
  4. Обработка измененного запроса.

Ядро изобретения — система определяет, является ли пара слов лексически связанной. Если да, то для их валидации как синонимов используется измененный (подразумевается, более низкий) порог уверенности. Это означает, что системе требуется меньше статистических доказательств, чтобы принять лексический вариант как синоним.

Claim 2 (Зависимый от 1): Уточняет «определенный класс связанных терминов». Это: термины с общим корнем (common stem), различия в пунктуации или пробелах, акронимы, термины в пределах заданного edit-distance, различия в акцентах и аббревиатуры.

Claim 3 и 4 (Зависимые от 1): Уточняют критерии определения лексической связи. Расчет edit-distance (Claim 3) или идентификация общего префикса и сравнение его длины с длиной терминов (Claim 4 – механизм Pseudostemming).

Где и как применяется

Изобретение применяется преимущественно на этапе понимания запросов, используя данные, собранные из логов поиска.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Он включает два подпроцесса:

  1. Офлайн-генерация базы синонимов: Система анализирует query logs, идентифицирует потенциальные синонимы (статистически и лексически), рассчитывает evidence scores и валидирует синонимы, используя дифференцированные пороги в зависимости от типа связи (лексическая или нет).
  2. Онлайн-обработка запроса: Когда пользователь вводит запрос, система обращается к сгенерированной базе синонимов. Если найдены валидированные синонимы, система создает altered queries (путем расширения или замены).

RANKING – Ранжирование
На этом этапе система выполняет поиск по altered queries, чтобы найти документы, соответствующие расширенному пониманию интента.

INDEXING – Индексирование и извлечение признаков
Лексические методы (стемминг, нормализация пунктуации) также могут применяться при индексировании контента для нормализации терминов в индексе.

Входные данные:

  • Логи запросов (Query Logs), включающие User ID, временные метки, текст запроса и списки топовых результатов (для расчета Common Results).
  • Алгоритмы лексического анализа (стеммеры, расчет edit-distance и т.д.).

Выходные данные:

  • База данных валидированных синонимов с оценками уверенности.
  • Altered queries, используемые для поиска.

На что влияет

  • Специфические запросы: Наибольшее влияние на запросы, содержащие аббревиатуры, акронимы, термины с вариативным написанием (например, с дефисом или без, слитное/раздельное написание).
  • Языковые особенности: Влияет на языки с богатой морфологией (через стемминг и Pseudostemming), языки с диакритическими знаками и языки с составными словами (например, германские языки через Compounding/Decompounding).

Когда применяется

  • Условия (Офлайн): Генерация синонимов активируется при обработке логов запросов. Применение пониженных порогов происходит только тогда, когда система идентифицирует специфическую лексическую связь между терминами.
  • Триггеры активации (Онлайн): Когда система обнаруживает в запросе термин, для которого в базе данных существует валидированный синоним (лексический или иной) с достаточной оценкой уверенности.

Пошаговый алгоритм

Процесс А: Офлайн-генерация и валидация синонимов

  1. Сбор данных и подготовка: Сбор логов запросов. Сортировка по User ID и времени для идентификации сессий. Генерация pseudo-queries путем замены фраз на токены.
  2. Идентификация кандидатов и сбор статистики: Группировка запросов по pseudo-query. Фразы, которыми они отличаются, становятся кандидатами. Для каждой пары рассчитывается статистика Session Switching и Common Results.
  3. Лексический анализ (Детекция): Для каждой пары кандидатов (Термин А, Термин Б) проверяется наличие лексической связи с помощью набора детекторов:
    1. Decompounding/Compounding: Равны ли термины после удаления пунктуации и пробелов?
    2. Acronyms: Совпадает ли Термин А с первыми буквами фразы Термина Б (с учетом edit-distance порога, например, 0.25 от максимальной длины)?
    3. Pseudostemming: Отличаются ли термины на 1 правку? ИЛИ есть ли общий префикс (порог 0.5) и малое edit-distance между остатками (порог 0.4)?
    4. Abbreviations: Равны ли термины после удаления гласных (с учетом edit-distance порога, например, 0.25)?
    5. Diacriticals/Standard Stemming: Являются ли термины вариантами после стандартного стемминга или удаления диакритических знаков?
  4. Классификация и Выбор порога:
    • Если на шаге 3 обнаружена лексическая связь: Выбираются пониженные пороги для статистических метрик. (Например, требование Common Results может быть снижено до нуля для акронимов; требование Session Switching может быть снижено в 3 раза для Compounding).
    • Иначе: Используются стандартные (более высокие) пороги.
  5. Расчет оценки и Валидация: Расчет итоговой оценки уверенности (Evidence Score) на основе статистики из шага 2. Сравнение оценки с выбранным порогом из шага 4. Если оценка выше порога, синоним валидируется.

Какие данные и как использует

Данные на входе

Система использует комбинацию структурных, поведенческих и системных данных.

  • Структурные факторы (Лексические данные): Анализируется структура самих терминов: наличие общих префиксов, расстояние редактирования (edit-distance), наличие пунктуации, пробелов, гласных, диакритических знаков.
  • Поведенческие факторы: Используются логи запросов (Query Logs). Ключевой сигнал — Session Switching (частота, с которой пользователи меняют один термин на другой в рамках одной сессии).
  • Системные данные: Используются списки топовых результатов для исходного и измененного запросов для расчета метрики Common Results.

Какие метрики используются и как они считаются

Лексические метрики (для определения класса связи):

  • Edit-distance ratio: Расстояние редактирования, деленное на максимальную длину строк. Пороги, упомянутые в патенте: 0.25 (для акронимов/аббревиатур), 0.4 (для остатков в Pseudostemming).
  • Common prefix ratio: Длина общего префикса, деленная на максимальную длину строк. Порог, упомянутый в патенте: 0.5 (для Pseudostemming).

Статистические метрики (для расчета Evidence Score):

Патент приводит примеры метрик, которые используются для расчета итоговой оценки:

  • frequently_alterable: Доля запросов, для которых измененный запрос также существует в логах.
  • frequently_much_in_common: Доля пар запросов, которые имеют достаточное количество общих результатов (например, 3).
  • frequently_altered: Частота Session Switching от исходного к измененному запросу.
  • high_altering_ratio: Отношение частоты переключения в прямом направлении к обратному.

Функции расчета итоговой оценки:

  • Функция масштабирования (Scale function): Используется для нормализации статистических метрик на основе базового (base) и высокого (high) значений.

Выводы

  1. Приоритет лексической связи над статистической: Ключевой вывод — Google рассматривает лексическое сходство как сильный индикатор семантической связи. Обнаружение такой связи повышает доверие системы к синониму.
  2. Дифференцированная валидация (Claim 1): Система использует адаптивные пороги валидации. Для лексических синонимов требуется значительно меньше статистических подтверждений (поведение пользователей, общие результаты), чем для контекстуальных синонимов.
  3. Агрессивный стемминг (Pseudostemming): Google использует не только стандартные стеммеры, но и агрессивную технику Pseudostemming, основанную на длине общего префикса и edit-distance. Это позволяет связывать больше морфологических форм и даже исправлять опечатки (разница в 1 правку).
  4. Специализированные детекторы: Система использует набор конкретных техник для разных классов: удаление гласных для аббревиатур, сопоставление первых букв для акронимов, игнорирование пунктуации/пробелов (Compounding/Decompounding) для составных слов.
  5. Языковая адаптивность: Система учитывает специфику разных языков, включая обработку диакритических знаков и морфологии (например, составные слова в германских языках).

Практика

Best practices (это мы делаем)

  • Фокус на интенте, а не на форме слова: Сосредоточьтесь на создании контента, отвечающего на намерение пользователя, не беспокоясь о покрытии всех морфологических форм ключевых слов (единственное/множественное число, падежи). Механизмы стемминга и Pseudostemming позволяют Google автоматически учитывать эти варианты.
  • Естественное использование акронимов и аббревиатур: Используйте общепринятые акронимы и аббревиатуры в контенте. Система специально разработана для их идентификации (Acronym/Abbreviation Detection) и применяет к ним низкие пороги валидации. Рекомендуется при первом упоминании указывать полную форму.
  • Консистентность и стандартное написание: Используйте корректное и консистентное написание слов и брендов. Хотя система нормализует пунктуацию и пробелы (Compounding/Decompounding), лучше придерживаться общепринятых норм. Не нужно специально создавать варианты с разной пунктуацией.
  • Мультиязычное SEO: При работе с языками, использующими диакритические знаки, используйте их корректно. Система способна нормализовать их (сопоставить с вариантами без акцентов), но правильное написание улучшает UX и авторитетность контента.

Worst practices (это делать не надо)

  • Keyword Stuffing вариациями: Перенасыщение текста различными формами одного слова, аббревиатурами или вариантами написания. Это неэффективно, так как Google агрессивно нормализует их на этапе понимания запроса.
  • Создание отдельных страниц под лексические варианты: Создание разных страниц для ранжирования по запросам, отличающимся только формой слова или пунктуацией. Система консолидирует эти запросы, что может привести к каннибализации.
  • Использование нестандартных аббревиатур: Использование узкоспециализированных или нестандартных сокращений без их расшифровки может привести к тому, что система не сможет установить лексическую связь (если детекторы не сработают) и не найдет достаточно статистических данных для валидации.

Стратегическое значение

Этот патент подтверждает, что Google вкладывает значительные ресурсы в нормализацию языка на этапе Query Understanding. Для SEO это означает, что техническая работа по микро-оптимизации под конкретные словоформы уступает место стратегической работе по созданию качественного контента, охватывающего тему (Topical Authority). Система стремится понять смысл, а не просто сопоставить строки. Наличие механизмов повышенного доверия к лексическим связям гарантирует, что базовые языковые вариации будут обработаны корректно.

Практические примеры

Сценарий 1: Оптимизация страницы для медицинской услуги (Акронимы)

  • Задача: Оптимизировать страницу под запрос, связанный с МРТ.
  • Применение патента: Система Google применит Acronym Detection и определит лексическую связь между "МРТ" и "Магнитно-резонансная томография". Из-за этой связи пороги для статистического подтверждения будут снижены (патент указывает, что требование Common Results может быть снижено до нуля для акронимов).
  • Действия SEO: Использовать оба термина на странице естественно: "Услуги Магнитно-резонансной томографии (МРТ)". Не создавать отдельные страницы под [цена МРТ] и [цена магнитно-резонансная томография].
  • Ожидаемый результат: Страница будет эффективно ранжироваться по обоим вариантам запроса.

Сценарий 2: Обработка запроса с вариативным написанием (Compounding)

  • Задача: Ранжироваться по запросу [интернет магазин]. Пользователи также ищут [интернет-магазин].
  • Применение патента: Система применит механизм Compounding/Decompounding, удалит пунктуацию и пробелы и определит, что термины лексически идентичны. Требование Session Switching может быть снижено (например, до 1/3 от стандартного).
  • Действия SEO: Использовать наиболее грамматически правильный вариант написания в контенте. Не нужно пытаться использовать оба варианта.
  • Ожидаемый результат: Google нормализует запрос пользователя и найдет релевантную страницу независимо от наличия или отсутствия дефиса в запросе.

Вопросы и ответы

Что такое "лексические синонимы" в контексте этого патента и чем они отличаются от обычных?

Лексические синонимы имеют явную структурную или морфологическую связь с исходным словом: общий корень, акронимы, аббревиатуры, различия в пунктуации или акцентах. Ключевое отличие в обработке: Google больше "доверяет" лексическим синонимам и значительно снижает пороги статистического подтверждения (поведение пользователей, общие результаты), необходимые для их валидации, по сравнению с обычными (контекстуальными) синонимами.

Что такое Pseudostemming и чем он отличается от обычного стемминга?

Pseudostemming — это более агрессивная техника. В отличие от стандартных стеммеров, опирающихся на лингвистические правила, Pseudostemming использует метрики схожести строк. Два слова считаются псевдостемами, если они отличаются всего на 1 правку ИЛИ если у них достаточно длинный общий префикс и небольшое расстояние редактирования (edit-distance) между оставшимися частями слов. Это позволяет связать больше словоформ и даже исправлять опечатки.

Нужно ли мне использовать все возможные варианты написания ключевого слова на странице (например, с дефисом и без)?

Нет, это не требуется. Патент описывает механизм Compounding/Decompounding, который нормализует различия в пунктуации и пробелах. Система удаляет эти элементы и сравнивает базовые строки. Если они совпадают, термины считаются лексическими синонимами с высоким уровнем доверия и низкими требованиями к валидации. Используйте грамматически правильный вариант.

Как Google определяет, что аббревиатура или акроним соответствует полному названию?

Для акронимов система проверяет, совпадают ли буквы акронима с первыми буквами слов в полной фразе, допуская небольшое edit-distance (порог 0.25). Для аббревиатур система использует другой подход: удаляет все гласные из обоих терминов и сравнивает оставшиеся согласные, также используя порог edit-distance. Например, "hrs" и "hours" после удаления гласных становятся "hrs".

Стоит ли создавать отдельные страницы под единственное и множественное число ключевого слова?

В подавляющем большинстве случаев нет. Стемминг и Pseudostemming предназначены для идентификации таких связей как лексических синонимов с низким порогом валидации. Google объединит эти запросы и покажет наиболее релевантную страницу. Создавать отдельные страницы стоит только тогда, когда интент пользователя кардинально различается для единственного и множественного числа.

Если результаты поиска по двум лексическим вариантам сильно отличаются, примет ли Google их как синонимы?

Да, это возможно. Патент явно указывает, что для некоторых классов лексических синонимов (например, акронимов и составных слов) требование к наличию общих результатов (Common Results) может быть снижено до нуля. Если лексическая связь сильна, система может принять синоним, даже если результаты поиска разные.

Что такое "session switching" и "common results"?

Session switching — это поведенческий сигнал, когда пользователь в рамках одной сессии меняет один запрос на другой, отличающийся только одним термином (например, ввел [gm cars], а затем [general motors cars]). Common results — это метрика, показывающая, сколько общих документов находится в топе выдачи по этим двум запросам. Оба сигнала используются для статистической валидации синонимов.

Влияет ли этот патент на мультиязычный поиск?

Да, очень сильно. В патенте особо упоминается обработка диакритических знаков (акцентов) и языковых особенностей, таких как составные слова (Compounding) в германских языках. Также упоминается использование языкоспецифичных правил стемминга (род/число). Это критично для качественного поиска в языках с богатой морфологией.

На каком этапе поиска применяется этот механизм?

Генерация и валидация синонимов происходит преимущественно офлайн путем анализа логов. Применение этих синонимов (переписывание запроса) происходит онлайн на этапе Query Understanding (Понимание запросов), до того как запрос отправляется на этап основного ранжирования.

Каково стратегическое значение этого патента для SEO?

Стратегическое значение заключается в подтверждении перехода от оптимизации под точные вхождения ключевых слов к оптимизации под интенты и темы. Патент доказывает, что Google обладает мощными механизмами для игнорирования лексических и морфологических различий. Это позволяет SEO-специалистам сосредоточиться на качестве контента и развитии авторитетности в теме (Topical Authority), а не на микроменеджменте словоформ.

Похожие патенты

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует поведение пользователей и анализ SERP для определения контекстно-зависимых синонимов
Google анализирует логи запросов, чтобы понять, как пользователи переформулируют свои запросы в рамках одной сессии. Система выявляет слова, которые пользователи заменяют друг на друга в одинаковых контекстах, и валидирует их, проверяя, возвращают ли оба варианта запроса схожие результаты поиска. Эти контекстные синонимы затем используются для автоматического расширения или изменения запросов пользователей.
  • US7636714B1
  • 2009-12-22
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует анализ самой длинной общей подпоследовательности (LCS) для определения лексических синонимов и вариантов слов
Google использует метод Longest Common Subsequence (LCS) для идентификации лексически близких слов, таких как словоформы, аббревиатуры и составные слова. Система вычисляет самую длинную общую последовательность символов между двумя терминами и сравнивает её длину с длиной более длинного термина. Если коэффициент схожести и расстояние редактирования соответствуют порогам, слова считаются кандидатами в синонимы, что улучшает понимание запросов.
  • US8001136B1
  • 2011-08-16
  • Семантика и интент

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Популярные патенты

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко
Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.
  • US8521725B1
  • 2013-08-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR
Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.
  • US10922326B2
  • 2021-02-16
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату
Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.
  • US9355158B2
  • 2016-05-31
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

seohardcore