SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует статистический машинный перевод для определения синонимов с учетом контекста запроса

MACHINE TRANSLATION FOR QUERY EXPANSION (Машинный перевод для расширения запросов)
  • US9002869B2
  • Google LLC
  • 2008-03-17
  • 2015-04-07
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google применяет методы статистического машинного перевода (SMT) для расширения запросов в рамках одного языка. Система обучается на параллельных корпусах данных (например, пары Запрос-Сниппет из логов поиска), чтобы находить парафразы и контекстуально релевантные синонимы. Это позволяет Google точно понимать намерение пользователя, даже если ключевые слова многозначны, и улучшать результаты поиска за счет добавления правильных синонимов.

Описание

Какую проблему решает

Патент решает проблему многозначности слов (полисемии) при расширении поисковых запросов. Традиционные методы (например, использование тезаурусов) часто добавляют синонимы, которые не соответствуют контексту запроса, что ухудшает релевантность выдачи. Например, для запроса "How to ship a box" слово 'ship' может быть ошибочно расширено синонимом 'boat' (корабль) вместо 'send' (отправить). Изобретение направлено на выбор синонимов, которые семантически корректны в рамках заданного контекста.

Что запатентовано

Запатентована система для контекстно-зависимого расширения запросов с использованием методов Статистического Машинного Перевода (Statistical Machine Translation, SMT). Ключевая особенность заключается в применении SMT не для перевода между разными языками, а для монолингвального перефразирования — "перевода" исходного запроса в расширенный запрос на том же языке. Система генерирует синонимы и выбирает наиболее подходящий, основываясь на контексте (соседних словах) исходного запроса.

Как это работает

Система обучается на параллельных корпусах (Parallel Corpus), где исходный и целевой "языки" представляют собой разные формулировки одного и того же намерения на одном языке. Предлагается три метода создания таких корпусов:

  • Пары Запрос-Сниппет: Использование логов поиска, где запрос является "исходным языком", а сниппет кликнутого результата — "целевым".
  • Пары Вопрос-Ответ: Использование FAQ, где вопрос — исходный, а ответ — целевой язык.
  • Пивотинг (Pivoting): Перевод фразы на иностранный язык и обратно (например, EN -> CN -> EN) для генерации парафразов.

После обучения модель SMT используется для генерации синонимов. Это может происходить онлайн или офлайн. В офлайн-режиме система генерирует Карту Контекстов (Context Map), которая хранит синонимы и контексты, в которых они применимы. При получении нового запроса система использует эту карту для выбора синонима, только если контекст в запросе совпадает с контекстом в карте.

Актуальность для SEO

Высокая. Понимание запросов и контекстно-зависимое расширение являются фундаментальными задачами современных поисковых систем. Хотя нейросетевые модели (такие как BERT и MUM) значительно продвинулись с момента подачи патента, базовые принципы, описанные здесь — использование SMT для перефразирования, важность контекста для разрешения неоднозначности и использование логов поиска (Query-Snippet) в качестве обучающих данных — остаются крайне актуальными в архитектуре поиска.

Важность для SEO

Патент имеет высокое значение (8/10). Он детально описывает механизмы, позволяющие Google выходить за рамки буквального совпадения ключевых слов и понимать семантические вариации запросов. Это напрямую влияет на стратегию подбора ключевых слов и контент-стратегию, подчеркивая важность естественного языка, тематического охвата и оптимизации под интент, а не под конкретные формулировки. Понимание этих механизмов критично для эффективного SEO в эпоху семантического поиска.

Детальный разбор

Термины и определения

Statistical Machine Translation (SMT) (Статистический машинный перевод)
Метод машинного перевода, основанный на статистических моделях, параметры которых выводятся из анализа параллельных текстовых корпусов. В данном патенте применяется для монолингвального перефразирования.
Parallel Corpus (Параллельный корпус)
Набор текстов, где каждому тексту на исходном языке соответствует текст с тем же смыслом на целевом языке. В патенте это могут быть пары Запрос-Сниппет, Вопрос-Ответ или Фраза-Парафраз.
Translation Model (Модель перевода)
Компонент SMT, который определяет вероятность того, что данный текст на исходном языке соответствует тексту на целевом языке.
Language Model (Языковая модель)
Компонент SMT, который оценивает вероятность появления данной последовательности слов в целевом языке. Используется для выбора наиболее естественного перевода.
Query Expansion (Расширение запроса)
Процесс модификации исходного поискового запроса (например, путем добавления синонимов) для улучшения результатов поиска.
Context Map (Карта контекстов)
Структура данных, создаваемая офлайн. Хранит слова, их потенциальные синонимы (полученные через SMT) иassociated context (левый и правый контекст), в котором этот синоним применим.
Query-Snippet Pair (Пара Запрос-Сниппет)
Данные для обучения SMT, извлеченные из логов поиска. Запрос пользователя сопоставляется со сниппетом результата, на который пользователь кликнул.
Pivoting (Пивотинг)
Метод генерации парафразов путем перевода фразы на промежуточный (pivot) язык и обратно на исходный язык.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает офлайн-процесс генерации контекстно-зависимых синонимов.

  1. Система получает исходный поисковый запрос.
  2. Используется SMT для перевода этого запроса в "переведенный" запрос (на том же языке, но с другими словами).
  3. Идентифицируется первый термин в исходном запросе, который был заменен вторым термином в переведенном запросе.
  4. Определяется, совпадают ли контекстные термины (соседние слова) у первого и второго терминов.
  5. Если контекст совпадает, второй термин назначается синонимом первого термина специально для этого контекста.
  6. Эта связь сохраняется для будущего использования поисковой системой при расширении запросов.

Claim 9 (Независимый пункт): Описывает процесс расширения запроса в реальном времени с использованием ранее сгенерированных синонимов (например, из Context Map).

  1. Система получает новый поисковый запрос, содержащий первый термин.
  2. Система определяет, что первый термин связан со вторым термином (синонимом), который действителен при наличии определенного контекста.
  3. Система проверяет, присутствует ли этот необходимый контекст рядом с первым термином в текущем запросе.
  4. Если контекст совпадает, генерируется расширенный запрос, включающий второй термин (синоним).
  5. Расширенный запрос используется для поиска документов.

Claims 3, 4, 5 (Зависимые): Детализируют источники данных для обучения модели SMT, используемой в Claim 1.

  • Claim 3: Модель обучается на парах Вопрос-Ответ, где вопросы — исходный язык, ответы — целевой.
  • Claim 4: Модель обучается на парах Фраза-Парафраз, сгенерированных методом Pivoting (перевод на второй язык и обратно).
  • Claim 5: Модель обучается на парах Запрос-Сниппет из логов доступа к результатам поиска (search result access log), где запросы — исходный язык, а сниппеты кликнутых документов — целевой.

Claims 6, 7 (Зависимые от 5): Уточняют процесс использования логов поиска.

  • Claim 6: Записи в логах фильтруются на основе дополнительной информации: позиция документа в выдаче, время между показом результата и кликом, время на сайте (dwell time).
  • Claim 7: Сниппет (часть контента документа) может включать: заголовок документа (title), анкорные тексты (anchor terms), связанные с документом, или выдержку из документа.

Где и как применяется

Изобретение применяется в основном на этапе понимания запросов для его обогащения перед передачей в систему ранжирования.

CRAWLING & INDEXING (Офлайн-процессы)
На этих этапах происходит сбор и обработка данных для обучения модели SMT:

  • Сбор FAQ документов (Claim 3).
  • Сбор текстовых корпусов и выполнение перевода для Pivoting (Claim 4).
  • Сбор и анализ логов поиска (search result access log) для генерации пар Запрос-Сниппет (Claim 5). Это включает анализ кликов, позиций и времени (Claim 6), а также извлечение заголовков и анкоров (Claim 7).
  • Обучение Translation Model и Language Model.
  • Генерация Context Map путем перевода большого количества запросов и сравнения результатов (Claim 1).

QUNDERSTANDING – Понимание Запросов (Рантайм)
Это основной этап применения патента. При получении запроса система выполняет контекстно-зависимое расширение.

  • Система анализирует слова в запросе и их контекст.
  • Происходит обращение к Context Map для поиска подходящих синонимов, чей контекст совпадает с текущим запросом (Claim 9).
  • Альтернативно, может выполняться онлайн-перевод запроса с помощью SMT.

RANKING – Ранжирование
Система ранжирования получает на вход уже расширенный запрос, что позволяет найти больше релевантных документов, которые могли не содержать точных терминов исходного запроса.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие многозначные термины, где выбор правильного синонима критичен для понимания интента (например, информационные или неоднозначные коммерческие запросы).
  • Естественность языка: Система лучше обрабатывает естественно сформулированные запросы и парафразы, так как обучается на реальных данных о том, как связаны разные формулировки.

Когда применяется

Алгоритм применяется при выполнении следующих условий:

  • Наличие данных: Для термина в запросе существуют потенциальные синонимы, предварительно сгенерированные моделью SMT (например, хранящиеся в Context Map).
  • Совпадение контекста (Триггер активации): Контекст (соседние слова) термина в текущем запросе совпадает с контекстом, необходимым для применения конкретного синонима (Claim 9). Это ключевое условие для разрешения неоднозначности.

Пошаговый алгоритм

Патент описывает два основных процесса: Офлайн-генерация карты контекстов и Рантайм-расширение запроса.

Процесс А: Офлайн-генерация Карты Контекстов (Context Map)

  1. Сбор данных для обучения: Сбор параллельных корпусов одним из трех методов (Запрос-Сниппет, Вопрос-Ответ, Пивотинг).
  2. Фильтрация данных: При использовании логов поиска (Запрос-Сниппет) данные фильтруются по качеству (позиция клика, время).
  3. Обучение SMT: Обучение Translation Model и Language Model на подготовленных данных.
  4. Идентификация запросов для перевода: Выбор репрезентативного набора запросов (например, из логов).
  5. Перевод запросов: Применение обученной модели SMT для перевода каждого запроса в перефразированный запрос на том же языке.
  6. Сравнение и извлечение: Сравнение исходного и переведенного запросов для идентификации замененных слов (синонимов) и их контекста (левых и правых соседних слов).
  7. Сохранение в Context Map: Запись связи [Исходное слово -> Синоним, Левый контекст, Правый контекст] в базу данных.

Процесс Б: Рантайм-расширение запроса (Использование Context Map)

  1. Получение запроса: Система получает поисковый запрос от пользователя.
  2. Анализ запроса: Выделение слов и их контекста в запросе.
  3. Поиск в Context Map: Для слова из запроса система ищет потенциальные синонимы в Context Map.
  4. Сопоставление контекста: Система сравнивает контекст слова в текущем запросе с контекстами, ассоциированными с каждым потенциальным синонимом в карте.
  5. Выбор синонима: Выбирается синоним, чей контекст наилучшим образом совпадает с текущим. Могут использоваться пороги совпадения (например, совпадение определенного количества слов слева или справа).
  6. Расширение запроса: Выбранный синоним добавляется к запросу (например, с помощью оператора OR).
  7. Выполнение поиска: Расширенный запрос используется для поиска в корпусе документов.

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих типов данных для обучения системы:

  • Поведенческие факторы (Search Result Access Log):
    • Запросы пользователей (recorded search query).
    • Клики (доступ пользователя к документу).
    • Позиция документа в выдаче (position of the document).
    • Временные метки: время между показом и кликом, время на сайте (amount of time elapsed).
  • Контентные факторы (из кликнутых результатов):
    • Сниппеты (snippet).
    • Заголовки документов (title of the document).
    • Выдержки из текста документа (excerpt of the document).
  • Ссылочные факторы:
    • Анкорные тексты, связанные с документом (anchor terms associated with the document).
  • Структурированные данные:
    • Документы FAQ (для извлечения пар Вопрос-Ответ).
  • Лингвистические данные:
    • Текстовые корпуса на разных языках (для метода Pivoting).

Какие метрики используются и как они считаются

  • Translation Likelihood (Вероятность перевода): Основная метрика SMT. Оценивает, насколько вероятно, что выходной текст является переводом входного текста. Она комбинирует вероятности из Translation Model и Language Model.
  • Scoring Synonyms (Оценка синонимов): Синонимы в Context Map могут иметь оценку (score), производную от Translation Likelihood, рассчитанной во время генерации карты. Это используется для выбора лучшего синонима, если несколько подходят по контексту.
  • Context Matching (Сопоставление контекста): Метрика для определения совпадения контекста в текущем запросе с контекстом в Context Map. Может основываться на количестве совпадающих слов слева/справа или длине совпадающего контекста.
  • Null-word probability: Параметр конфигурации SMT, определяющий долю слов в исходном тексте, которым разрешено не иметь соответствия в целевом тексте. Патент предлагает устанавливать его высоким (например, 90%) при обучении на парах Вопрос-Ответ, так как ответы обычно длиннее вопросов.

Выводы

  1. SMT как механизм перефразирования: Патент демонстрирует использование сложной технологии (Statistical Machine Translation) для решения фундаментальной задачи поиска — монолингвального расширения запросов и генерации парафразов.
  2. Контекст для разрешения неоднозначности: Ключевым элементом является не просто генерация синонимов, а их привязка к конкретному контексту (Context Map). Система не будет использовать синоним, если контекст запроса не совпадает с контекстом, в котором этот синоним был изучен.
  3. Пользовательское поведение как обучающий сигнал: Один из основных методов обучения — анализ пар Запрос-Сниппет из логов поиска. Это подтверждает, что Google использует данные о кликах пользователей для обучения своих моделей понимания языка. Если пользователи кликают на результат, система учится, что сниппет этого результата является хорошим "переводом" (парафразом) запроса.
  4. Важность Заголовков и Анкоров: Title и Anchor Terms явно указаны как части сниппета, используемые для обучения (Claim 7). Это подчеркивает их роль не только как факторов ранжирования, но и как данных для обучения систем Query Understanding.
  5. Фильтрация обучающих данных: Система не доверяет всем кликам одинаково. Данные из логов фильтруются по позиции клика и времени взаимодействия (Claim 6), чтобы обеспечить высокое качество обучающего корпуса.

Практика

Best practices (это мы делаем)

  • Оптимизация Заголовков (Title) и Сниппетов под интент: Поскольку пары Запрос-Сниппет (включая Title) используются для обучения модели перефразирования, крайне важно, чтобы заголовки и мета-описания точно отражали содержание страницы и соответствовали интенту запроса. Это не только повышает CTR, но и помогает Google установить прочную семантическую связь между запросом и вашим контентом.
  • Использование естественного языка и синонимических рядов: Так как система ищет парафразы, следует использовать разнообразную лексику и естественно вписывать синонимы и связанные термины в контекст. Это увеличивает вероятность того, что контент будет признан релевантным для расширенного запроса.
  • Развитие тематической авторитетности (Topical Authority): Вместо фокусировки на отдельных ключевых словах, необходимо покрывать тему целиком. Это позволяет контенту соответствовать множеству перефразированных запросов, которые Google генерирует с помощью подобных систем.
  • Использование формата Вопрос-Ответ (FAQ): Патент явно упоминает использование FAQ для обучения. Структурирование контента в формате Q&A (с использованием соответствующей разметки) может помочь системе лучше понять содержание и установить связь между вопросами пользователей и вашими ответами.
  • Анализ и оптимизация анкорных текстов: Anchor terms также используются как обучающие данные. Внутренняя перелинковка и стратегия построения внешних ссылок должны использовать естественные и разнообразные анкоры, которые точно описывают целевую страницу в контексте ссылающегося контента.

Worst practices (это делать не надо)

  • Фокус на точном вхождении ключевых слов (Exact Match): Стратегии, основанные на повторении одной и той же формулировки ключевого слова, теряют эффективность. Google активно расширяет запросы, и чрезмерная оптимизация под одну фразу может выглядеть неестественно.
  • Игнорирование контекста при использовании синонимов: Нельзя бездумно заменять слова синонимами без учета контекста предложения. Система Google специально разработана для учета контекста, и его игнорирование может привести к потере релевантности.
  • Использование кликбейтных заголовков, не соответствующих контенту: Если пользователи быстро покидают страницу после клика на заголовок (низкий dwell time), система может отфильтровать эту пару Запрос-Сниппет из обучающих данных (Claim 6), или, что хуже, использовать ее как негативный пример.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на переход от лексического поиска (сопоставление строк) к семантическому поиску (понимание смысла). Он детально описывает инфраструктуру для изучения и применения контекстно-зависимых синонимов в масштабе всего интернета. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании контента, который глубоко прорабатывает тему и соответствует естественным языковым паттернам пользователей, а не на поиске уязвимостей в алгоритмах сопоставления ключевых слов.

Практические примеры

Сценарий: Оптимизация страницы о страховании автомобиля с учетом контекстного расширения

  1. Анализ запроса: Пользователь ищет "дешевая автостраховка". Слово "дешевая" (cheap) многозначно.
  2. Работа системы (Предположение): Google обращается к Context Map.
    • Контекст 1: Если контекст связан с качеством (например, "дешевые материалы"), синоним может быть "низкокачественный" (low-quality).
    • Контекст 2: Если контекст связан с ценой (например, "автостраховка"), синонимы могут быть "доступная" (affordable), "недорогая" (inexpensive).
  3. Расширение запроса: Google выбирает синонимы из Контекста 2 и расширяет запрос до [("дешевая" OR "доступная" OR "недорогая") AND "автостраховка"].
  4. Действия SEO-специалиста: Убедиться, что на странице используются различные термины для описания цены в правильном контексте. Вместо повторения "дешевая автостраховка", использовать фразы: "доступные тарифы на страхование авто", "как найти недорогой полис ОСАГО". Это повышает релевантность страницы для расширенного запроса.
  5. Оптимизация сниппета: Создать Title: "Доступная автостраховка 2025: Сравнение недорогих тарифов". Это помогает обучить модель связи между этими терминами.

Вопросы и ответы

Как этот патент связан с современными моделями, такими как BERT или MUM?

Этот патент (подан в 2008) описывает использование Statistical Machine Translation (SMT), которая была передовой технологией до эпохи глубокого обучения. Современные модели, такие как BERT и MUM, также решают задачу понимания контекста и разрешения неоднозначности, но делают это с помощью нейронных сетей (трансформеров) гораздо эффективнее. Однако базовые принципы — важность контекста и идея использования параллельных данных (например, Запрос-Сниппет) для обучения моделей понимания языка — остаются общими для обеих технологий.

Означает ли этот патент, что точное вхождение ключевых слов больше не важно?

Точное вхождение не потеряло актуальности полностью, но его значимость существенно снизилась. Благодаря системам расширения запросов, подобным описанной, Google может найти релевантный контент, даже если он не содержит точной формулировки запроса. Стратегически важнее обеспечить наличие разнообразной лексики, синонимов и LSI-терминов в правильном контексте, чем добиваться определенной плотности одного ключевого слова.

Как Google определяет, какой синоним выбрать, если контекст совпадает частично?

Патент упоминает, что при частичном совпадении контекстов может быть выбран синоним с самым длинным совпадающим контекстом. Также система может использовать оценку (score) синонима, которая рассчитывается на основе Translation Likelihood во время обучения модели SMT. Синоним с наивысшей оценкой и наилучшим совпадением контекста будет приоритетным.

Какова роль анкорных текстов (Anchor Terms) в этом патенте?

Anchor Terms играют важную роль как источник обучающих данных (Claim 7). При обучении на парах Запрос-Сниппет, анкорный текст, ведущий на кликнутый документ, может рассматриваться как часть "сниппета" (целевого языка). Это означает, что Google учится тому, как другие сайты описывают контент, и использует эти описания для понимания того, какие запросы и парафразы релевантны для данного документа.

Как использование пар Запрос-Сниппет влияет на SEO?

Это напрямую связывает поведение пользователей (клики) с обучением системы понимания запросов. Если ваш сниппет и заголовок точно соответствуют интенту запроса и получают клики с последующим длительным взаимодействием (Claim 6), вы фактически "учите" Google, что ваша формулировка является хорошим парафразом этого запроса. Это подчеркивает важность оптимизации сниппетов и обеспечения высокого качества контента для удержания пользователя.

Стоит ли использовать машинный перевод для генерации контента на своем сайте, основываясь на методе Pivoting?

Использовать метод Pivoting (перевод туда и обратно) можно как инструмент для поиска синонимов и идей для перефразирования во время написания контента. Однако использовать сырой результат машинного перевода в качестве контента не рекомендуется. Качество такого контента часто бывает низким, и он может не соответствовать стандартам качества Google. Цель SEO — создавать высококачественный, естественный текст, а не автоматически сгенерированные парафразы.

Что такое Context Map и можем ли мы ее увидеть?

Context Map — это внутренняя структура данных Google, описанная в патенте для хранения контекстно-зависимых синонимов. SEO-специалисты не имеют прямого доступа к этой карте. Однако мы можем наблюдать результаты ее работы, анализируя выдачу по многозначным запросам и замечая, какие типы контента ранжируются и какие синонимы Google, по-видимому, учитывает при обработке этих запросов.

Влияет ли позиция клика на обучение системы?

Да, патент явно указывает (Claim 6), что система может фильтровать записи из логов поиска на основе позиции документа (position of the document). Это может означать, что клики по результатам на высоких позициях имеют больший вес или используются иначе, чем клики по результатам на второй или третьей странице. Это логично, так как результаты на высоких позициях с большей вероятностью релевантны.

Как можно использовать информацию о методе Вопрос-Ответ (FAQ) на практике?

Если ваш контент отвечает на конкретные вопросы пользователей, структурируйте его явно в формате Q&A. Это может быть отдельный раздел FAQ или интеграция вопросов и ответов в основную статью. Поскольку Google использует такие данные для обучения своих моделей перефразирования, четкое сопоставление вопроса и ответа помогает системе понять, что ваш контент является релевантным ответом на определенный интент.

Применяется ли эта система для всех языков?

Хотя примеры в патенте приведены на английском (и китайском для пивотинга), технология Statistical Machine Translation является языконезависимой по своей природе. При наличии достаточного количества обучающих данных (параллельных корпусов, логов поиска) этот метод может быть применен для расширения запросов на любом языке. Эффективность будет зависеть от качества и объема доступных данных для конкретного языка.

Похожие патенты

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2009-01-06
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
  • US8762358B2
  • 2014-06-24
  • Мультиязычность

  • Семантика и интент

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов
Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.
  • US9183297B1
  • 2015-11-10
  • Семантика и интент

Популярные патенты

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика
Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.
  • US7716225B1
  • 2010-05-11
  • Ссылки

  • Поведенческие сигналы

  • SERP

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы
Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.
  • US20140188927A1
  • 2014-07-03
  • Персонализация

  • SERP

  • Ссылки

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования
Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.
  • US9684697B1
  • 2017-06-20
  • Поведенческие сигналы

  • SERP

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы
Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.
  • US8392435B1
  • 2013-03-05
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования
Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.
  • US8005811B2
  • 2011-08-23
  • Поведенческие сигналы

  • SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

seohardcore