SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google находит синонимы для транслитерированных запросов с помощью обратного языкового маппинга

TRANSLITERATION FOR QUERY EXPANSION (Транслитерация для расширения запроса)
  • US8521761B2
  • Google LLC
  • 2009-07-15
  • 2013-08-27
  • Мультиязычность
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для идентификации синонимов слов, написанных транслитом (например, хинди, написанное латиницей). Поскольку транслитерация не имеет строгих правил орфографии, одно и то же слово может иметь много вариантов написания. Система определяет, какие слова являются транслитерацией, а затем пытается восстановить исходное слово на языке оригинала. Если разные варианты написания на латинице указывают на одно и то же слово на хинди, они считаются синонимами и используются для расширения запроса.

Описание

Какую проблему решает

Патент решает проблему обработки поисковых запросов, содержащих транслитерированные термины. Транслитерация — это представление слов одного языка с использованием алфавита другого (например, слова на хинди, написанные латиницей). В отличие от стандартной орфографии, транслитерация не имеет единых правил, что приводит к множеству вариантов написания одного и того же слова (например, "chakrabarti" и "chakrabarty"). Традиционные системы поиска синонимов плохо справляются с такими вариантами. Изобретение улучшает поиск, позволяя системе распознавать эти варианты как синонимы и расширять запрос пользователя, чтобы найти релевантные документы, использующие альтернативные написания.

Что запатентовано

Запатентована система идентификации синонимов для транслитерированных терминов с целью расширения запроса (Query Expansion). Основной механизм заключается в обратном маппинге (отображении) транслитерированных терминов из целевого языка (например, английского) обратно в язык оригинала (например, хинди). Если два разных транслитерированных термина указывают на одно и то же слово в языке оригинала, они идентифицируются как кандидаты в синонимы (candidate synonyms).

Как это работает

Система работает в несколько этапов:

  • Идентификация транслитераций: Система анализирует веб-ресурсы, чтобы найти слова на целевом языке (например, латиница), которые с высокой вероятностью являются транслитерацией из языка оригинала. Это делается путем сравнения частоты встречаемости слова на локальных ресурсах (например, домены .in) с глобальной частотой.
  • Обратный маппинг: Идентифицированные термины обрабатываются транслитератором для их преобразования обратно в язык оригинала.
  • Поиск синонимов: Система ищет пересечения. Если несколько вариантов написания на целевом языке (например, "sreeram", "shriram") указывают на одно и то же слово в языке оригинала, они помечаются как синонимы.
  • Расширение запроса: При получении запроса с транслитерированным термином система использует найденные синонимы для расширения запроса (например, "sreeram OR shriram") или для идентификации релевантных документов, содержащих эти синонимы.

Актуальность для SEO

Высокая. Транслитерация широко используется в регионах с языками, не основанными на латинице (Индия, Ближний Восток, Азия), особенно при отсутствии удобных методов ввода на родном языке. Способность Google эффективно обрабатывать такие запросы критически важна для качества поиска в этих регионах. Описанные методы остаются актуальными для улучшения понимания многоязычных и мультискриптовых запросов.

Важность для SEO

Патент имеет высокое значение для международного SEO, особенно в регионах, где распространена транслитерация. Он объясняет, как Google нормализует различные варианты написания неанглийских слов, записанных латиницей. Для SEO-специалистов это означает, что система может автоматически связывать разные варианты ключевых слов, что влияет на исследование семантики, контент-стратегию и оценку релевантности в этих рынках.

Детальный разбор

Термины и определения

Candidate Synonyms (Кандидаты в синонимы)
Термины на целевом языке, которые идентифицированы как альтернативные варианты написания (транслитерации) одного и того же слова на языке оригинала.
Confidence Value (Мера уверенности)
Метрика, используемая для оценки надежности кандидата в синонимы. Может зависеть от количества общих слов на языке оригинала, оценок транслитерации и частоты встречаемости термина.
Query Expansion (Расширение запроса)
Процесс добавления дополнительных терминов (например, синонимов) к исходному запросу для улучшения полноты поисковой выдачи.
Source Language (Язык оригинала)
Язык, с которого слово было изначально транслитерировано (например, Хинди).
Target Language (Целевой язык)
Язык (и алфавит), используемый для написания транслитерированного слова (например, Английский/Латиница).
Transliteration (Транслитерация)
Представление слова из одного алфавита (скрипта) с помощью другого алфавита, часто основанное на фонетическом звучании.
Transliteration Score (Оценка транслитерации)
Числовая оценка, генерируемая при маппинге термина из целевого языка в язык оригинала, отражающая вероятность того, что данный термин является корректной транслитерацией.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации синонимов для транслитерированных терминов.

  1. Идентификация транслитераций: Система идентифицирует множество транслитерированных терминов на целевом языке. Это включает сложный процесс фильтрации:
    1. Поиск терминов, состоящих только из символов целевого языка.
    2. Вычисление статистики для каждого термина: отношение вероятности его появления на ресурсах, связанных с локалью языка оригинала, к вероятности его появления на любых ресурсах.
    3. Сравнение статистики с порогом. Если порог превышен, термин считается транслитерацией.
  2. Маппинг: Каждый идентифицированный транслитерированный термин отображается (маппится) на один или несколько терминов на языке оригинала.
  3. Идентификация синонимов: Для первого транслитерированного термина (Term A) система находит вторые транслитерированные термины (Term B), которые являются кандидатами в синонимы. Условие: Term B должен маппиться хотя бы на один термин на языке оригинала, на который также маппится Term A.

Ядро изобретения — использование языка оригинала как посредника для нахождения синонимов в целевом языке. Ключевым элементом также является статистический метод идентификации того, какие слова вообще являются транслитерациями.

Claim 4 (Зависимый от 1): Уточняет, что маппинг осуществляется посредством процесса транслитерации из целевого языка в язык оригинала.

Claim 5, 6, 7, 8 (Зависимые): Детализируют использование мер уверенности (Confidence Value) и оценок транслитерации (Transliteration Score).

  • Синонимы выбираются, только если их Confidence Value превышает порог (Claim 5).
  • Confidence Value может быть функцией от количества общих терминов на языке оригинала (Claim 6).
  • Процесс маппинга генерирует Transliteration Score (Claim 7).
  • Confidence Value может быть функцией от Transliteration Scores обоих терминов и вероятности появления второго термина в веб-ресурсах (Claim 8).

Claim 10, 11 (Зависимые): Описывают применение для расширения запроса.

  • Система получает запрос, расширяет его синонимами и отправляет в поисковую систему (Claim 10).
  • Система может предложить расширенные запросы пользователю на выбор (Claim 11).

Claim 12, 13 (Зависимые): Описывают альтернативное применение: маппинг на стороне документа.

  • Поисковая система идентифицирует документ, который содержит синоним термина из запроса, но не содержит сам термин из запроса.
  • Система модифицирует оценку (score) этого документа, используемую для ранжирования. Это позволяет находить документы с альтернативными написаниями без явного расширения запроса, но потенциально с пониженным весом.

Где и как применяется

Изобретение применяется в основном на этапах понимания запросов и ранжирования, используя предварительно вычисленные данные.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор данных для идентификации транслитераций. Система анализирует веб-ресурсы, вычисляет частоту встречаемости слов и определяет их связь с конкретными локалями (например, по домену верхнего уровня).

QUNDERSTANDING – Понимание Запросов
Основное место применения. Система выполняет офлайн-процессы для:

  1. Идентификации списка транслитерированных терминов с использованием статистического анализа.
  2. Выполнения обратного маппинга (транслитерации) для создания базы данных соответствий между целевым языком и языком оригинала.
  3. Генерации списка кандидатов в синонимы (candidate synonyms) и расчета их мер уверенности (Confidence Values).

В реальном времени, при получении запроса, система использует эту базу данных для расширения запроса (Query Expansion) или для предложения альтернативных запросов.

RANKING – Ранжирование
Если используется расширение запроса, система ранжирует результаты по расширенному запросу. Если используется маппинг на стороне документа (Claims 12, 13), то на этапе ранжирования система может идентифицировать документы, содержащие синонимы, и соответствующим образом модифицировать их Information Retrieval score.

Входные данные:

  • Веб-ресурсы и их связь с локалями.
  • Словари и модели транслитерации между целевым языком и языком оригинала.
  • Запрос пользователя.

Выходные данные:

  • Список транслитерированных терминов.
  • База данных синонимов для транслитерированных терминов с Confidence Values.
  • Расширенный запрос или модифицированные оценки ранжирования для документов.

На что влияет

  • Специфические запросы: Влияет на запросы, содержащие имена собственные, названия продуктов, песен, фильмов и технические термины на языке оригинала, записанные с использованием алфавита целевого языка.
  • Языковые и географические ограничения: Наибольшее влияние в регионах, где язык оригинала не использует алфавит целевого языка и где распространены транслитерации (например, Индия (Хинди/Английский), страны Ближнего Востока (Арабский/Английский), Россия (Русский/Английский или наоборот)).

Когда применяется

  • Триггеры активации: Когда система идентифицирует, что термин в запросе присутствует в базе данных предварительно вычисленных транслитерированных синонимов.
  • Условия применения: Применяется, если для термина существуют кандидаты в синонимы с достаточно высокой мерой уверенности (Confidence Value).

Пошаговый алгоритм

Алгоритм состоит из офлайн-процесса подготовки данных и онлайн-процесса обработки запроса.

Процесс А: Офлайн-подготовка базы синонимов (на основе FIG. 3)

  1. Сбор данных и Идентификация транслитераций:
    1. Анализ веб-ресурсов для поиска терминов на целевом языке.
    2. Для каждого термина вычисление статистики: P(термин|локаль оригинала) / P(термин|любая локаль).
    3. Фильтрация: Если статистика превышает порог, термин добавляется в список транслитерированных терминов.
  2. Обратный маппинг:
    1. Для каждого термина в списке выполняется транслитерация обратно в язык оригинала.
    2. Генерация одного или нескольких вариантов на языке оригинала с соответствующими оценками транслитерации (Transliteration Score).
  3. Идентификация синонимов и Расчет уверенности:
    1. Для пары транслитерированных терминов (Term A, Term B) проверяется, есть ли у них общее слово на языке оригинала (Origin X).
    2. Если ДА, Term B становится кандидатом в синонимы для Term A.
    3. Вычисляется мера уверенности (Confidence Value) для пары (A, B). Она может учитывать Transliteration Scores (A->X, B->X) и частоту встречаемости Term B.
    4. Фильтрация: Если Confidence Value превышает порог, синоним сохраняется в базе.

Процесс Б: Обработка запроса в реальном времени (на основе FIG. 4)

  1. Получение запроса: Система получает запрос, содержащий транслитерированный термин (Term A).
  2. Поиск синонимов: Система ищет Term A в подготовленной базе синонимов.
  3. Применение (Вариант 1 - Расширение запроса):
    1. Система генерирует расширенный запрос, добавляя высокоуверенные синонимы (Term B, Term C...). Например: "Term A OR Term B OR Term C".
    2. Расширенный запрос отправляется в поисковую систему.
    3. (Опционально) Расширенные запросы могут быть предложены пользователю на выбор.
  4. Применение (Вариант 2 - Маппинг на стороне документа):
    1. Исходный запрос отправляется в поисковую систему.
    2. Поисковая система идентифицирует документы, которые содержат синонимы (Term B), но не содержат Term A.
    3. Оценка ранжирования (score) этих документов модифицируется (обычно понижается, так как это не точное совпадение).
  5. Предоставление результатов: Пользователю возвращаются результаты поиска.

Альтернативный алгоритм (на основе FIG. 5)

Патент также описывает альтернативный подход без использования обратного маппинга:

  1. Генерация обучающей выборки: Создается группа возможных транслитерированных синонимов на целевом языке.
  2. Обучение модели: Вероятностная модель обучается на этой выборке, чтобы изучить вероятности вариаций написания (орфографических различий) между синонимами.
  3. Применение модели: Модель применяется к конкретному транслитерированному термину для прямой идентификации его синонимов на целевом языке.

Какие данные и как использует

Данные на входе

  • Географические факторы: Критически важные данные. Система использует ассоциацию веб-ресурсов с локалями (например, через домены верхнего уровня), чтобы определить вероятность того, что слово является транслитерацией.
  • Контентные факторы: Частота встречаемости слов в корпусе веб-документов (глобальная и локальная).
  • Системные данные: Модели машинного обучения для транслитерации между языками.

Какие метрики используются и как они считаются

  • Статистика идентификации транслитерации: Отношение вероятности появления термина на ресурсах, связанных с локалью языка оригинала, к вероятности его появления на любых ресурсах. Формула (упрощенно): P(Term∣SourceLocale)P(Term∣AnyLocale)\frac{P(Term|SourceLocale)}{P(Term|AnyLocale)}P(Term∣AnyLocale)P(Term∣SourceLocale)​.
  • Transliteration Score: Оценка, возвращаемая моделью транслитерации при обратном маппинге.
  • Confidence Value: Агрегированная метрика для оценки качества синонима. Может включать Transliteration Scores и вероятность появления термина в вебе (probability of occurrence).
  • Пороговые значения: Используются для фильтрации транслитераций на этапе идентификации и для фильтрации синонимов по Confidence Value.

Выводы

  1. Нормализация орфографии для транслитераций: Патент предоставляет конкретный механизм, позволяющий Google справляться с огромным разнообразием написаний слов при транслитерации. Система не полагается на словари или логи запросов, а использует статистический анализ и машинную транслитерацию для автоматического выявления синонимов.
  2. Язык оригинала как источник истины: Ключевая идея — использовать обратный маппинг в язык оригинала для подтверждения семантической связи. Если разные написания на целевом языке указывают на одно и то же слово в оригинале, они считаются эквивалентными.
  3. Идентификация транслитераций на основе локали: Метод идентификации того, является ли слово транслитерацией, основан на географическом распределении контента. Слова, непропорционально часто встречающиеся в определенном регионе (связанном с языком оригинала), считаются транслитерациями.
  4. Гибкость применения (Query Expansion vs. Document Mapping): Система может как расширять запрос, так и выполнять "мягкое" сопоставление на уровне документа. Маппинг на стороне документа позволяет находить альтернативные написания, но при этом модифицировать (обычно понижать) их вес в ранжировании, сохраняя приоритет за точным совпадением.
  5. Важность мер уверенности: Система не просто находит синонимы, но и оценивает их надежность с помощью Confidence Values, учитывая качество транслитерации и частоту использования термина в вебе.

Практика

Best practices (это мы делаем)

  • Исследование транслитерированных ключевых слов: При работе на рынках, где распространена транслитерация (например, Индия, Ближний Восток), необходимо исследовать не только ключевые слова на языке оригинала, но и их популярные транслитерированные варианты на английском (или другом целевом языке).
  • Использование доминирующих вариантов написания: Хотя Google может распознавать синонимы, рекомендуется использовать наиболее распространенные и общепринятые варианты транслитерации в контенте. Это повышает вероятность того, что система присвоит этому варианту высокий Confidence Value и он будет эффективно работать в поиске.
  • Мониторинг локального контента: Анализируйте, как локальные пользователи и авторитетные локальные сайты (блоги, СМИ) пишут ключевые термины транслитом. Это поможет понять предпочтительные варианты написания, которые система, вероятно, уже изучила.
  • Консистентность внутри сайта: Старайтесь использовать единый вариант транслитерации для одного и того же термина на всем сайте, чтобы избежать путаницы для пользователей и упростить обработку для поисковых систем.

Worst practices (это делать не надо)

  • Игнорирование транслитерации: Оптимизация только под язык оригинала в регионах с высокой долей транслитерированных запросов приведет к потере значительной части трафика.
  • Спам всеми возможными вариантами (Keyword Stuffing): Не нужно пытаться перечислить все возможные варианты транслитерации на одной странице. Благодаря этому патенту, Google способен самостоятельно связать основные варианты. Перечисление всех вариантов ухудшит читаемость и может быть воспринято как спам.
  • Использование редких или неестественных транслитераций: Использование слишком редких вариантов написания может быть неэффективным, так как система может не иметь достаточной уверенности (Confidence Value) для их связи с более популярными синонимами.

Стратегическое значение

Этот патент подчеркивает важность адаптации SEO-стратегий под лингвистические особенности региона. Он демонстрирует, что Google разрабатывает специализированные решения для обработки языка за пределами стандартных англоязычных моделей. Для международного SEO это означает необходимость глубокого понимания того, как пользователи ищут информацию в конкретной стране, включая использование смешанных языков и транслитерации. Стратегия должна учитывать, что релевантность в таких регионах определяется не только значением слова, но и его написанием и контекстом использования.

Практические примеры

Сценарий: Оптимизация страницы фильма для индийского рынка

Компания запускает новый фильм на хинди и хочет оптимизировать веб-сайт для привлечения трафика как на хинди, так и на английском (транслит).

  1. Исследование: SEO-специалист исследует, как пользователи ищут название фильма. Он обнаруживает, что название на хинди (например, चक्रवती) транслитерируется на английский несколькими способами: "Chakrabarti" (наиболее популярный), "Chakrabarty" и "Chakravarti".
  2. Оптимизация контента: Специалист решает использовать доминирующий вариант "Chakrabarti" в заголовках (Title, H1) и основном тексте страницы на английском языке.
  3. Ожидаемый результат (благодаря патенту):
    • Пользователь ищет "Chakrabarti movie". Страница ранжируется высоко (точное совпадение).
    • Пользователь ищет "Chakrabarty movie". Google использует механизм обратного маппинга, определяет, что "Chakrabarty" и "Chakrabarti" указывают на चक्रवती. Система либо расширяет запрос до ("Chakrabarti" OR "Chakrabarty"), либо выполняет маппинг на стороне документа. Страница также ранжируется, возможно, с чуть меньшим весом, если используется маппинг документа.
  4. Вывод: Оптимизация под доминирующий вариант позволила охватить и альтернативные варианты написания без необходимости спамить ими на странице.

Вопросы и ответы

Касается ли этот патент только английского языка и хинди?

Нет. Хинди (язык оригинала) и английский (целевой язык) используются в патенте в качестве примеров. Описанный механизм применим к любой паре языков, где происходит транслитерация. Это могут быть арабский/английский, русский/английский, китайский/английский и любые другие комбинации, где алфавиты различаются и пользователи часто прибегают к транслитерации.

Как Google определяет, что слово является транслитерацией, а не обычным словом на целевом языке?

Патент описывает статистический метод. Система сравнивает частоту использования слова на веб-ресурсах, связанных с локалью языка оригинала (например, на индийских сайтах), с глобальной частотой. Если слово встречается непропорционально часто в определенном регионе, система с высокой вероятностью классифицирует его как транслитерацию из языка этого региона.

Что такое обратный маппинг (reverse mapping) в контексте этого патента?

Это процесс преобразования транслитерированного слова из целевого языка (например, английского) обратно в его вероятную форму на языке оригинала (например, хинди). Это ключевой шаг для нахождения синонимов: если два разных английских написания приводят к одному и тому же слову на хинди, они считаются синонимами.

Должен ли я использовать все варианты транслитерации на своей странице?

Нет, это не рекомендуется. Патент как раз направлен на то, чтобы избавить от этой необходимости. Лучшая стратегия — использовать наиболее распространенный и общепринятый вариант транслитерации. Google должен автоматически связать его с альтернативными вариантами. Использование слишком большого количества вариантов ухудшит читаемость контента.

Как система решает, какой синоним лучше, если их несколько?

Система рассчитывает меру уверенности (Confidence Value) для каждого синонима. Эта метрика может учитывать качество обратной транслитерации (Transliteration Score) и общую частоту использования синонима в интернете. Более распространенные и фонетически точные варианты обычно получают более высокую оценку.

Что такое маппинг на стороне документа (Document-side mapping) и чем он отличается от расширения запроса?

При расширении запроса (Query Expansion) система изменяет сам запрос пользователя, добавляя синонимы (например, "A OR B"). При маппинге на стороне документа запрос остается неизменным, но система ищет документы, содержащие синонимы. Если такой документ найден, он считается релевантным, но его оценка ранжирования может быть модифицирована (понижена), поскольку он не содержит точного термина из запроса.

Влияет ли этот механизм на поиск на языке оригинала?

Патент фокусируется на обработке запросов на целевом языке (например, английском), содержащих транслитерацию. Однако, в Claim 9 упоминается возможность идентификации терминов на языке оригинала как кандидатов в синонимы для транслитерированного термина. Это может использоваться для кросс-языкового поиска.

Может ли система ошибочно связать два разных слова как синонимы?

Да, это возможно, если два разных слова на языке оригинала имеют очень похожее звучание и, следовательно, схожие транслитерации, которые система может спутать при обратном маппинге. Однако использование Confidence Values и пороговых значений предназначено для минимизации таких ошибок.

Как этот патент связан с BERT или нейронными сетями?

Патент был подан в 2009 году, задолго до широкого распространения современных трансформерных моделей типа BERT. Описанные методы основаны на статистическом анализе и традиционных моделях машинной транслитерации. Современные системы Google, вероятно, используют более продвинутые нейросетевые подходы для транслитерации и понимания запросов, но базовые принципы, заложенные в этом патенте (идентификация на основе локали, использование языка оригинала как источника истины), остаются актуальными.

Как мне узнать, какие варианты транслитерации Google считает синонимами для моего ключевого слова?

Прямого инструмента для этого нет. Можно провести серию тестовых запросов с различными вариантами написания и проанализировать выдачу. Если выдача очень похожа и содержит документы с разными вариантами написания в топе, это сильный индикатор того, что Google связал эти термины как синонимы, возможно, используя механизм из этого патента.

Похожие патенты

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2009-01-06
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
  • US8762358B2
  • 2014-06-24
  • Мультиязычность

  • Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части
Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.
  • US8392441B1
  • 2013-03-05
  • Семантика и интент

Как Google Autocomplete обрабатывает запросы, смешивающие разные языки и форматы ввода (например, иероглифы, пиньинь и английский)
Google использует механизм для генерации поисковых подсказок (Autocomplete), когда пользователь вводит запрос, смешивая разные языки или системы письма. Система создает альтернативные, "неоднозначные" представления ввода, запрашивает подсказки и фильтрует их. Это позволяет корректно интерпретировать сложный ввод (например, сочетание китайских иероглифов, пиньиня и английских слов) и предлагать релевантные варианты.
  • US20120203541A1
  • 2012-08-09
  • Мультиязычность

  • Семантика и интент

Популярные патенты

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
  • US20140372873A1
  • 2014-12-18
  • Структура сайта

  • Техническое SEO

  • Ссылки

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами
Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.
  • US20250209127A1
  • 2025-06-26
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы
Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.
  • US8392435B1
  • 2013-03-05
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

seohardcore