
Google применяет методы статистического машинного перевода (SMT) для расширения запросов в рамках одного языка. Система обучается на параллельных корпусах данных (например, пары Запрос-Сниппет из логов поиска), чтобы находить парафразы и контекстуально релевантные синонимы. Это позволяет Google точно понимать намерение пользователя, даже если ключевые слова многозначны, и улучшать результаты поиска за счет добавления правильных синонимов.
Патент решает проблему многозначности слов (полисемии) при расширении поисковых запросов. Традиционные методы (например, использование тезаурусов) часто добавляют синонимы, которые не соответствуют контексту запроса, что ухудшает релевантность выдачи. Например, для запроса "How to ship a box" слово 'ship' может быть ошибочно расширено синонимом 'boat' (корабль) вместо 'send' (отправить). Изобретение направлено на выбор синонимов, которые семантически корректны в рамках заданного контекста.
Запатентована система для контекстно-зависимого расширения запросов с использованием методов Статистического Машинного Перевода (Statistical Machine Translation, SMT). Ключевая особенность заключается в применении SMT не для перевода между разными языками, а для монолингвального перефразирования — "перевода" исходного запроса в расширенный запрос на том же языке. Система генерирует синонимы и выбирает наиболее подходящий, основываясь на контексте (соседних словах) исходного запроса.
Система обучается на параллельных корпусах (Parallel Corpus), где исходный и целевой "языки" представляют собой разные формулировки одного и того же намерения на одном языке. Предлагается три метода создания таких корпусов:
После обучения модель SMT используется для генерации синонимов. Это может происходить онлайн или офлайн. В офлайн-режиме система генерирует Карту Контекстов (Context Map), которая хранит синонимы и контексты, в которых они применимы. При получении нового запроса система использует эту карту для выбора синонима, только если контекст в запросе совпадает с контекстом в карте.
Высокая. Понимание запросов и контекстно-зависимое расширение являются фундаментальными задачами современных поисковых систем. Хотя нейросетевые модели (такие как BERT и MUM) значительно продвинулись с момента подачи патента, базовые принципы, описанные здесь — использование SMT для перефразирования, важность контекста для разрешения неоднозначности и использование логов поиска (Query-Snippet) в качестве обучающих данных — остаются крайне актуальными в архитектуре поиска.
Патент имеет высокое значение (8/10). Он детально описывает механизмы, позволяющие Google выходить за рамки буквального совпадения ключевых слов и понимать семантические вариации запросов. Это напрямую влияет на стратегию подбора ключевых слов и контент-стратегию, подчеркивая важность естественного языка, тематического охвата и оптимизации под интент, а не под конкретные формулировки. Понимание этих механизмов критично для эффективного SEO в эпоху семантического поиска.
Claim 1 (Независимый пункт): Описывает офлайн-процесс генерации контекстно-зависимых синонимов.
SMT для перевода этого запроса в "переведенный" запрос (на том же языке, но с другими словами).Claim 9 (Независимый пункт): Описывает процесс расширения запроса в реальном времени с использованием ранее сгенерированных синонимов (например, из Context Map).
Claims 3, 4, 5 (Зависимые): Детализируют источники данных для обучения модели SMT, используемой в Claim 1.
Pivoting (перевод на второй язык и обратно).search result access log), где запросы — исходный язык, а сниппеты кликнутых документов — целевой.Claims 6, 7 (Зависимые от 5): Уточняют процесс использования логов поиска.
title), анкорные тексты (anchor terms), связанные с документом, или выдержку из документа.Изобретение применяется в основном на этапе понимания запросов для его обогащения перед передачей в систему ранжирования.
CRAWLING & INDEXING (Офлайн-процессы)
На этих этапах происходит сбор и обработка данных для обучения модели SMT:
Pivoting (Claim 4).search result access log) для генерации пар Запрос-Сниппет (Claim 5). Это включает анализ кликов, позиций и времени (Claim 6), а также извлечение заголовков и анкоров (Claim 7).Translation Model и Language Model.Context Map путем перевода большого количества запросов и сравнения результатов (Claim 1).QUNDERSTANDING – Понимание Запросов (Рантайм)
Это основной этап применения патента. При получении запроса система выполняет контекстно-зависимое расширение.
Context Map для поиска подходящих синонимов, чей контекст совпадает с текущим запросом (Claim 9).RANKING – Ранжирование
Система ранжирования получает на вход уже расширенный запрос, что позволяет найти больше релевантных документов, которые могли не содержать точных терминов исходного запроса.
Алгоритм применяется при выполнении следующих условий:
Context Map).Патент описывает два основных процесса: Офлайн-генерация карты контекстов и Рантайм-расширение запроса.
Процесс А: Офлайн-генерация Карты Контекстов (Context Map)
Translation Model и Language Model на подготовленных данных.Процесс Б: Рантайм-расширение запроса (Использование Context Map)
Context Map.Патент явно указывает на использование следующих типов данных для обучения системы:
recorded search query).position of the document).amount of time elapsed).snippet).title of the document).excerpt of the document).anchor terms associated with the document).Pivoting).Translation Model и Language Model.Context Map могут иметь оценку (score), производную от Translation Likelihood, рассчитанной во время генерации карты. Это используется для выбора лучшего синонима, если несколько подходят по контексту.Context Map. Может основываться на количестве совпадающих слов слева/справа или длине совпадающего контекста.Statistical Machine Translation) для решения фундаментальной задачи поиска — монолингвального расширения запросов и генерации парафразов.Context Map). Система не будет использовать синоним, если контекст запроса не совпадает с контекстом, в котором этот синоним был изучен.Title и Anchor Terms явно указаны как части сниппета, используемые для обучения (Claim 7). Это подчеркивает их роль не только как факторов ранжирования, но и как данных для обучения систем Query Understanding.Anchor terms также используются как обучающие данные. Внутренняя перелинковка и стратегия построения внешних ссылок должны использовать естественные и разнообразные анкоры, которые точно описывают целевую страницу в контексте ссылающегося контента.Этот патент подтверждает стратегический курс Google на переход от лексического поиска (сопоставление строк) к семантическому поиску (понимание смысла). Он детально описывает инфраструктуру для изучения и применения контекстно-зависимых синонимов в масштабе всего интернета. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании контента, который глубоко прорабатывает тему и соответствует естественным языковым паттернам пользователей, а не на поиске уязвимостей в алгоритмах сопоставления ключевых слов.
Сценарий: Оптимизация страницы о страховании автомобиля с учетом контекстного расширения
Context Map. Как этот патент связан с современными моделями, такими как BERT или MUM?
Этот патент (подан в 2008) описывает использование Statistical Machine Translation (SMT), которая была передовой технологией до эпохи глубокого обучения. Современные модели, такие как BERT и MUM, также решают задачу понимания контекста и разрешения неоднозначности, но делают это с помощью нейронных сетей (трансформеров) гораздо эффективнее. Однако базовые принципы — важность контекста и идея использования параллельных данных (например, Запрос-Сниппет) для обучения моделей понимания языка — остаются общими для обеих технологий.
Означает ли этот патент, что точное вхождение ключевых слов больше не важно?
Точное вхождение не потеряло актуальности полностью, но его значимость существенно снизилась. Благодаря системам расширения запросов, подобным описанной, Google может найти релевантный контент, даже если он не содержит точной формулировки запроса. Стратегически важнее обеспечить наличие разнообразной лексики, синонимов и LSI-терминов в правильном контексте, чем добиваться определенной плотности одного ключевого слова.
Как Google определяет, какой синоним выбрать, если контекст совпадает частично?
Патент упоминает, что при частичном совпадении контекстов может быть выбран синоним с самым длинным совпадающим контекстом. Также система может использовать оценку (score) синонима, которая рассчитывается на основе Translation Likelihood во время обучения модели SMT. Синоним с наивысшей оценкой и наилучшим совпадением контекста будет приоритетным.
Какова роль анкорных текстов (Anchor Terms) в этом патенте?
Anchor Terms играют важную роль как источник обучающих данных (Claim 7). При обучении на парах Запрос-Сниппет, анкорный текст, ведущий на кликнутый документ, может рассматриваться как часть "сниппета" (целевого языка). Это означает, что Google учится тому, как другие сайты описывают контент, и использует эти описания для понимания того, какие запросы и парафразы релевантны для данного документа.
Как использование пар Запрос-Сниппет влияет на SEO?
Это напрямую связывает поведение пользователей (клики) с обучением системы понимания запросов. Если ваш сниппет и заголовок точно соответствуют интенту запроса и получают клики с последующим длительным взаимодействием (Claim 6), вы фактически "учите" Google, что ваша формулировка является хорошим парафразом этого запроса. Это подчеркивает важность оптимизации сниппетов и обеспечения высокого качества контента для удержания пользователя.
Стоит ли использовать машинный перевод для генерации контента на своем сайте, основываясь на методе Pivoting?
Использовать метод Pivoting (перевод туда и обратно) можно как инструмент для поиска синонимов и идей для перефразирования во время написания контента. Однако использовать сырой результат машинного перевода в качестве контента не рекомендуется. Качество такого контента часто бывает низким, и он может не соответствовать стандартам качества Google. Цель SEO — создавать высококачественный, естественный текст, а не автоматически сгенерированные парафразы.
Что такое Context Map и можем ли мы ее увидеть?
Context Map — это внутренняя структура данных Google, описанная в патенте для хранения контекстно-зависимых синонимов. SEO-специалисты не имеют прямого доступа к этой карте. Однако мы можем наблюдать результаты ее работы, анализируя выдачу по многозначным запросам и замечая, какие типы контента ранжируются и какие синонимы Google, по-видимому, учитывает при обработке этих запросов.
Влияет ли позиция клика на обучение системы?
Да, патент явно указывает (Claim 6), что система может фильтровать записи из логов поиска на основе позиции документа (position of the document). Это может означать, что клики по результатам на высоких позициях имеют больший вес или используются иначе, чем клики по результатам на второй или третьей странице. Это логично, так как результаты на высоких позициях с большей вероятностью релевантны.
Как можно использовать информацию о методе Вопрос-Ответ (FAQ) на практике?
Если ваш контент отвечает на конкретные вопросы пользователей, структурируйте его явно в формате Q&A. Это может быть отдельный раздел FAQ или интеграция вопросов и ответов в основную статью. Поскольку Google использует такие данные для обучения своих моделей перефразирования, четкое сопоставление вопроса и ответа помогает системе понять, что ваш контент является релевантным ответом на определенный интент.
Применяется ли эта система для всех языков?
Хотя примеры в патенте приведены на английском (и китайском для пивотинга), технология Statistical Machine Translation является языконезависимой по своей природе. При наличии достаточного количества обучающих данных (параллельных корпусов, логов поиска) этот метод может быть применен для расширения запросов на любом языке. Эффективность будет зависеть от качества и объема доступных данных для конкретного языка.

Мультиязычность
Семантика и интент
Индексация

Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
EEAT и качество

Мультиязычность
Семантика и интент

Семантика и интент

Ссылки
Поведенческие сигналы
SERP

Персонализация
SERP
Ссылки

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультиязычность
Персонализация
