SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса

EVALUATION OF SUBSTITUTE TERMS (Оценка заменяющих терминов)
  • US8682907B1
  • Google LLC
  • 2012-03-30
  • 2014-03-25
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.

Описание

Какую проблему решает

Патент решает две ключевые задачи в процессе переписывания запросов (Query Revision):

  1. Валидация синонимов: Определение того, является ли кандидатный термин хорошей заменой (синонимом или substitute term) для исходного термина. Это помогает избежать неверных замен (например, warrant вместо warranty).
  2. Оценка контекстов: Определение, является ли конкретный Query Context (соседние слова в запросе) значимым для применения правила подстановки. Система выявляет и удаляет бесполезные контексты (например, артикли типа "the"), которые не добавляют семантического значения, но замедляют обработку и могут вносить ошибки.

Что запатентовано

Запатентована система оценки качества правил подстановки (substitution rules) и их контекстов, основанная на анализе совместной встречаемости терминов (co-occurrence frequencies) в логах поисковых запросов. Изобретение использует принципы дистрибутивной семантики: сравниваются векторные представления терминов, построенные на основе частоты появления соседних слов. Это позволяет численно оценить семантическую близость синонимов и значимость контекстов.

Как это работает

Механизм работает в двух режимах:

  • Оценка синонимов: Сравнивается вектор совместной встречаемости исходного термина с вектором кандидата. Если векторы схожи (например, высокая косинусная близость), термины считаются взаимозаменяемыми.
  • Оценка контекстов (ядро патента): Сравнивается вектор термина в целом и вектор этого же термина, но только когда он появляется в заданном контексте. Вычисляется разница (delta vector). Если добавление контекста значительно смещает профиль встречаемости в сторону «важных» (например, с высоким IDF) слов, контекст признается значимым. Если смещение происходит в сторону общих слов, контекст считается бесполезным и добавляется в стоп-лист (Stop List).

Актуальность для SEO

Высокая. Описанные методы, основанные на дистрибутивной семантике и анализе контекста, являются фундаментальными для систем понимания естественного языка (NLP) и Query Understanding. Хотя современные нейросетевые модели (такие как BERT или MUM) используют более сложные механизмы для создания векторных представлений (embeddings), базовая логика оценки семантической близости и важности контекста на основе поведения пользователей остается критически важной.

Важность для SEO

Патент имеет значительное влияние на понимание SEO-стратегии (7/10). Он детально описывает механизм, с помощью которого Google оценивает взаимосвязи между словами и критическую роль контекста в интерпретации запросов на этапе QUNDERSTANDING. Это подчеркивает важность использования естественных паттернов совместной встречаемости слов в контенте и построения сильного семантического окружения вокруг ключевых тем.

Детальный разбор

Термины и определения

Co-occurrence Frequency (Частота совместной встречаемости)
Метрика, показывающая, как часто определенный термин появляется в поисковых запросах вместе с другим термином.
Context (Контекст запроса)
Условия, при которых применяется правило подстановки. Обычно это другие термины, которые должны присутствовать в запросе рядом с исходным термином (слева или справа).
Delta Vector (Дельта-вектор)
Вектор, представляющий разницу между двумя векторами совместной встречаемости. Используется для определения того, как меняется профиль термина при добавлении контекста.
IDF (Inverse Document Frequency, Обратная частота документа)
Мера того, насколько редким или распространенным является термин. Используется как один из способов оценки «важности» термина.
Importance Score (imp(x), Оценка важности)
Метрика для оценки значимости термина. Может рассчитываться на основе IDF или с помощью более сложной формулы, учитывающей частоту и документную частоту (DF) совместно встречающихся терминов.
Stop List (Стоп-лист контекстов)
Список контекстов, которые были идентифицированы как незначимые или вредные (bad contexts). Система переписывания запросов игнорирует правила подстановки, зависящие от этих контекстов.
Substitute Term (Заменяющий термин, Синоним)
Термин, который используется для замены исходного термина в запросе или добавляется к нему для расширения поиска.
Substitution Rule (Правило подстановки)
Правило, определяющее, какой термин может быть заменен другим, и при каких условиях (контексте). Например, dog → pet (:food).
Vector (Вектор совместной встречаемости)
Структура данных, где каждый элемент представляет собой частоту совместной встречаемости (Co-occurrence Frequency) определенного слова с базовым термином.

Ключевые утверждения (Анализ Claims)

Важно отметить, что все 36 пунктов формулы изобретения посвящены исключительно методу оценки контекстов, а не оценке синонимов (которая описана в патенте как фоновая технология).

Claim 1 (Независимый пункт): Описывает базовый метод оценки контекста.

  1. Система выбирает первый термин (исходный термин правила) и второй термин (контекст правила).
  2. Генерируется Первый Вектор: рассчитываются частоты совместной встречаемости (co-occurrence frequencies) для терминов, которые появляются в запросах с Первым Термином (в целом).
  3. Генерируется Второй Вектор: рассчитываются частоты совместной встречаемости для терминов, которые появляются в запросах, где Первый Термин находится рядом (adjacent) со Вторым Термином (в контексте).
  4. Векторы сравниваются.
  5. На основе сравнения вычисляется оценка (score) для Второго Термина как контекста для правила подстановки, основанного на Первом Термине.

Claim 2 (Зависимый): Детализирует процесс сравнения и оценки.

  1. Вычисляются изменения (дельты) в частотах совместной встречаемости между соответствующими элементами Первого и Второго Векторов (создается Delta Vector).
  2. Термины упорядочиваются в соответствии с величиной этих изменений.
  3. Вычисляется мера важности (measure of importance) для Топ-N терминов в этом порядке (т.е. терминов с наибольшими изменениями).

Claim 4 и 5 (Зависимые): Определяют формулу оценки контекста.

Оценка контекста вычисляется как взвешенная сумма изменений частот для Топ-N терминов. Весом для каждого изменения является мера важности соответствующего термина.

Формула оценки:

score=∑i=1NVi⋅imp(Termi)score = \sum_{i=1}^{N} V_i \cdot imp(Term_i)score=∑i=1N​Vi​⋅imp(Termi​)

Где ViV_iVi​ — это изменение частоты (дельта), а imp(Termi)imp(Term_i)imp(Termi​) — важность термина.

Claim 6, 7, 8 (Зависимые): Определяют способы расчета меры важности (Importance Score).

  • Claim 7: Важность термина равна его обратной частоте документа (IDF).
  • Claim 6: Важность термина x рассчитывается на основе частот терминов, которые совместно встречаются с ним в запросах, по сложной формуле:

imp(x)=1−∑i=1kHi⋅DF(Termi)imp(x) = 1 - \sum_{i=1}^{k} H_i \cdot DF(Term_i)imp(x)=1−∑i=1k​Hi​⋅DF(Termi​)

Где HiH_iHi​ — частота совместной встречаемости, а DF(Termi)DF(Term_i)DF(Termi​) — документная частота этого термина.

Claim 10, 11, 12 (Зависимые): Описывают применение результатов оценки.

Если вычисленная оценка удовлетворяет пороговому значению (т.е. оценка низкая), второй термин обозначается как «плохой контекст» (bad context). Этот контекст добавляется в Stop List. Этот стоп-лист предоставляется процессу переписывания запросов, который будет игнорировать правила подстановки, зависящие от этих плохих контекстов.

Где и как применяется

Изобретение применяется на этапе QUNDERSTANDING – Понимание Запросов.

Основная работа системы происходит офлайн, до получения запроса пользователем. Система (Substitute Term Engine и Vector Engine) анализирует логи запросов для генерации, валидации и очистки базы данных правил подстановки.

INDEXING – Индексирование и извлечение признаков
На этом этапе вычисляются метрики Document Frequency (DF) или Inverse Document Frequency (IDF) для терминов в индексе. Эти данные необходимы для расчета Importance Score.

QUNDERSTANDING – Понимание Запросов (Офлайн)

  1. Генерация кандидатов: Система анализирует Query Logs для выявления потенциальных синонимов и контекстов.
  2. Валидация синонимов: Используется метод сравнения векторов (Процесс А) для оценки качества кандидатов.
  3. Оценка контекстов: Используется метод сравнения векторов и оценки важности (Процесс Б, ядро патента) для определения значимости контекстов.
  4. Очистка: Незначимые контексты добавляются в Stop List.

QUNDERSTANDING – Понимание Запросов (Рантайм)
Во время обработки запроса пользователя Query Reviser Engine использует очищенную базу правил подстановки для генерации переписанных запросов. Stop List гарантирует, что неэффективные контекстные правила не будут применяться.

Входные данные:

  • Логи поисковых запросов (Query Logs Database).
  • Кандидатные правила подстановки и контексты.
  • Данные о документной частоте (DF) или IDF терминов.

Выходные данные:

  • Очищенная база правил подстановки (Substitution Rules Database).
  • Стоп-лист плохих контекстов (Stop List).
  • Оценки уверенности (Confidence scores) для правил подстановки.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы или запросы с ошибками/опечатками, где контекст критичен для правильной интерпретации интента (например, разница между "sheer music" (опечатка "sheet music") и "sheer fabric").
  • Точность переписывания запросов: Система повышает точность определения синонимов и гарантирует, что подстановки происходят только в релевантных контекстах.
  • Эффективность системы: Удаление бесполезных контекстов уменьшает размер базы данных правил и ускоряет обработку запросов.

Когда применяется

  • Оценка синонимов и контекстов: Происходит периодически в офлайн-режиме при обработке накопленных логов запросов и обновлении базы правил подстановки.
  • Использование результатов: Очищенные правила и стоп-листы используются в рантайме при обработке каждого запроса пользователя, к которому применимы правила переписывания.

Пошаговый алгоритм

Патент описывает два основных процесса.

Процесс А: Оценка синонима (Валидация правила подстановки)

  1. Выбор терминов: Выбирается исходный термин (Термин А) и кандидатный синоним (Термин Б).
  2. Генерация Вектора А: Анализируются логи запросов. Рассчитываются частоты совместной встречаемости для всех слов, которые появляются вместе с Термином А.
  3. Генерация Вектора Б: Рассчитываются частоты совместной встречаемости для всех слов, которые появляются вместе с Термином Б.
  4. Сравнение векторов: Вычисляется мера схожести между Вектором А и Вектором Б (например, Cosine Similarity).
  5. Оценка: Если схожесть превышает порог (например, 0.9), Термин Б считается хорошим синонимом для Термина А. Оценка уверенности правила повышается. (Пример: "frenchopen" и "french open").

Процесс Б: Оценка контекста (Ядро изобретения, Claims)

  1. Выбор правила и контекста: Выбирается исходный термин (Термин А) и контекст (Термин С). Например, правило sheer → sheet в контексте (:music).
  2. Генерация Вектора 1 (Общий): Рассчитываются частоты совместной встречаемости для слов, появляющихся с Термином А (sheer) в любых запросах.
  3. Генерация Вектора 2 (Контекстный): Рассчитываются частоты совместной встречаемости для слов, появляющихся в запросах, где Термин А находится рядом с Термином С (sheer music).
  4. Вычисление Дельта-вектора: Рассчитывается разница между Вектором 2 и Вектором 1.
  5. Идентификация Топ-N изменений: Дельта-вектор сортируется. Определяются Топ-N терминов, частота которых изменилась сильнее всего при добавлении контекста.
  6. Расчет Важности (Importance Score): Для каждого из Топ-N терминов рассчитывается его важность (например, с помощью IDF или формулы из Claim 6).
  7. Расчет Взвешенной Оценки Контекста: Вычисляется взвешенная сумма: изменения частот (дельты) умножаются на важность соответствующих терминов.
  8. Применение порога и Очистка: Если взвешенная оценка низкая (контекст не добавил значимых слов), Термин С признается плохим контекстом для Термина А и добавляется в Stop List.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Логи поисковых запросов (Query Logs). Это основной источник данных для вычисления частот совместной встречаемости (co-occurrence frequencies).
  • Данные Индекса (Контентные/Технические): Документная частота (Document Frequency, DF) или Обратная документная частота (Inverse Document Frequency, IDF) терминов. Эти данные извлекаются из основного поискового индекса и используются для расчета Importance Score.

Какие метрики используются и как они считаются

  • Co-occurrence Frequency: Подсчет количества появлений двух терминов в одном запросе, нормализованный на общее количество запросов или количество запросов с базовым термином.
  • Cosine Similarity (Косинусная близость): Используется для оценки схожести синонимов. Измеряет косинус угла между двумя векторами совместной встречаемости.
  • Delta (Изменение частоты): Разница между частотой совместной встречаемости термина в контексте и его частотой в целом.
  • Importance Score (imp(x)): Оценка важности термина. Рассчитывается либо как IDF термина, либо по сложной формуле (Claim 6), которая оценивает специфичность контекстного окружения термина.
  • Weighted Context Score: Финальная оценка значимости контекста. Рассчитывается как взвешенная сумма изменений частот (Delta), где весами выступают Importance Scores соответствующих терминов (Claim 4/5).

Выводы

  1. Дистрибутивная семантика для валидации синонимов: Google использует анализ совместной встречаемости слов в логах запросов для подтверждения семантической близости терминов. Если два слова постоянно появляются в окружении одних и тех же слов (имеют похожие векторы), система считает их синонимами.
  2. Контекст имеет решающее значение и измеряется количественно: Система активно и количественно оценивает, насколько соседние слова меняют смысл основного термина. Хороший контекст должен существенно изменять семантическое окружение термина.
  3. Оценка «Важности» слов (Importance Score): Google использует метрики (IDF или производные от DF), чтобы отличать специфичные/важные слова от общих/шумовых слов. Это является основой для оценки качества контекста.
  4. Критерии хорошего контекста: Контекст считается значимым, если его присутствие значительно увеличивает частоту появления «важных» (специфичных) слов рядом с основным термином. Если контекст увеличивает частоту общих слов, он признается бесполезным.
  5. Активная оптимизация системы понимания запросов: Google не просто накапливает правила переписывания, но и активно очищает их, удаляя неинформативные контексты (bad contexts) и создавая Stop Lists. Это повышает скорость и точность работы Query Reviser Engine.

Практика

Best practices (это мы делаем)

  • Фокус на естественной совместной встречаемости (Semantic Co-occurrence): При создании контента используйте слова и фразы, которые естественно появляются вместе в рамках обсуждаемой темы. Это помогает Google распознать семантическую валидность и контекст вашего контента через векторный анализ, так как значение слова определяется его окружением.
  • Обеспечение четкого контекста для неоднозначных терминов: Если вы используете термины с несколькими значениями (например, "Ягуар" как животное или как автомобиль), убедитесь, что окружающий текст (контекст) немедленно уточняет интент. Соседство с «важными» (специфичными для темы, с высоким Importance Score) словами помогает системе правильно интерпретировать смысл.
  • Построение тематического авторитета (Topical Authority): Глубокое раскрытие темы и охват связанных подтем гарантирует присутствие в тексте разнообразных и «важных» совместно встречающихся терминов. Это укрепляет контекстуальный профиль страницы и всего сайта.
  • Анализ семантического окружения: Изучайте, какие слова часто используются вместе с вашими целевыми запросами в авторитетных источниках и у конкурентов в ТОПе. Интеграция этих слов в ваш контент поможет синхронизировать его векторное представление с ожиданиями поисковой системы.

Worst practices (это делать не надо)

  • Keyword Stuffing и неестественное использование ключей: Нарушает естественные паттерны совместной встречаемости. Векторное представление такого контента будет выглядеть аномальным, что затрудняет определение его контекста и релевантности.
  • Неуместное использование синонимов: Попытки насильно включить синонимы в контент, где они не соответствуют контексту. Система анализа векторов (Процесс А) определит, что в данном окружении термин не является валидной заменой.
  • Игнорирование контекста: Создание контента по широким запросам без учета специфического контекста, который ищут пользователи. Это приводит к размытому векторному профилю страницы.
  • Фокус только на высокочастотных (общих) словах: Создание поверхностного контента, который не включает специфичные, низкочастотные термины, относящиеся к теме. Это снижает общую «важность» контекстного профиля.

Стратегическое значение

Патент подтверждает фундаментальную важность семантического поиска и анализа контекста. Он показывает, что Google не просто ищет совпадения ключевых слов, а строит и сравнивает сложные профили (векторы) того, как слова используются на практике (на основе Query Logs). Для SEO это означает, что стратегия должна быть направлена на создание контента, который демонстрирует естественное и глубокое владение темой, используя правильную терминологию в правильном контекстном окружении.

Практические примеры

Сценарий 1: Оптимизация для двусмысленного термина "Меркурий".

  1. Цель 1: Ранжироваться по запросам о планете.
    • Действие: Убедиться, что термин "Меркурий" на странице часто встречается рядом с «важными» словами: "планета", "солнечная система", "орбита", "космос".
    • Результат: Контекстный вектор для использования термина на этой странице будет схож с вектором запросов пользователей, ищущих планету. Система правильно интерпретирует контекст.
  2. Цель 2: Ранжироваться по запросам о химическом элементе (ртуть).
    • Действие: Использовать термин в окружении других «важных» слов: "ртуть", "металл", "жидкий", "токсичный", "химический элемент".
    • Результат: Система определит другой контекст. Правило подстановки Меркурий -> Ртуть будет активировано с большей вероятностью именно для этой страницы при соответствующих запросах.

Сценарий 2: Оценка контекста (Пример из патента FIG. 4)

  1. Анализ: Google оценивает правило, исправляющее опечатку: sheer → sheet (:music).
  2. Наблюдение: Система видит, что контекст (:music) сильно меняет окружение слова "sheer". Частота важных слов ("instrument", "piano", "lessons") резко возрастает (большой Delta Vector).
  3. Результат: Контекст признается хорошим.
  4. SEO-действие: При создании страницы о нотах («sheet music») необходимо убедиться, что в контенте естественно присутствуют эти важные термины, чтобы укрепить контекстуальную релевантность и помочь Google правильно интерпретировать тематику.

Вопросы и ответы

Что такое "Co-occurrence Frequency" и почему это важно для SEO?

Co-occurrence Frequency (Частота совместной встречаемости) — это метрика, показывающая, как часто два слова появляются вместе в одном запросе. Для SEO это критически важно, так как Google использует эти данные для построения векторных профилей слов (Дистрибутивная семантика). Создавая контент, который отражает естественные паттерны совместной встречаемости, вы помогаете Google лучше понять контекст и релевантность вашей страницы.

Как Google определяет, является ли синоним хорошим?

Google сравнивает векторные профили исходного слова и кандидата в синонимы. Если оба слова постоянно появляются в окружении одних и тех же слов в логах запросов (т.е. их векторы очень похожи, высокая Cosine Similarity), система считает замену валидной. Это означает, что Google оценивает синонимы на основе их фактического использования пользователями.

Что такое «плохой контекст» (bad context) согласно патенту?

Плохой контекст — это слово или фраза рядом с ключевым термином, которые не добавляют значимого семантического уточнения (например, артикли "the", "a"). Патент описывает механизм для выявления таких контекстов: если добавление контекста не приводит к увеличению частоты появления «важных» (специфичных) слов, контекст считается плохим и добавляется в Stop List.

Как Google определяет «важность» слова (Importance Score)?

Патент предлагает несколько методов. Самый простой — использование Обратной Документной Частоты (IDF): чем реже слово, тем оно важнее. Также описана более сложная формула (Claim 6), которая учитывает документную частоту (DF) совместно встречающихся слов. В SEO это означает, что использование специфичной для ниши терминологии повышает «важность» вашего контента.

Что такое Дельта-вектор (Delta Vector) и как он используется?

Delta Vector показывает разницу между тем, как слово используется в целом, и тем, как оно используется в конкретном контексте. Система анализирует, какие именно слова показали наибольший прирост частоты при добавлении контекста. Если прирост показали «важные» слова — контекст хороший; если общие слова — контекст плохой. Это позволяет численно измерить влияние контекста на смысл слова.

Означает ли этот патент, что нужно избегать общих слов в контенте?

Нет, общие слова необходимы для построения связного текста. Однако патент подчеркивает, что семантическую ценность и контекст определяют именно «важные» (специфичные) термины. Ваша SEO-стратегия должна гарантировать, что контент достаточно насыщен специфичной терминологией, чтобы сформировать четкий контекстуальный профиль.

Как этот патент связан с алгоритмами типа BERT или MUM?

Этот патент описывает фундаментальные технологии, основанные на дистрибутивной семантике и векторном анализе. Современные модели, такие как BERT и MUM, также создают векторные представления (embeddings) и глубоко анализируют контекст, но делают это с помощью более сложных нейросетевых архитектур. Логика, заложенная в этом патенте (важность контекста и сравнение векторов), остается актуальной.

Как я могу использовать идеи этого патента при создании контента?

Ключевая идея — фокус на тематической глубине и естественном использовании языка. Изучайте терминологию вашей ниши и убедитесь, что вы используете правильные слова в правильном окружении (коллокации). Обеспечивайте четкий контекст для неоднозначных терминов. Это поможет синхронизировать векторный профиль вашего контента с тем, как Google понимает эту тему.

Влияет ли этот механизм на обработку длинных (long-tail) запросов?

Да, очень сильно. Длинные запросы по своей природе содержат много контекста. Описанный механизм помогает системе точно оценивать, какие части запроса являются значимым контекстом, а какие — шумом. Это позволяет более точно определять интент пользователя и находить релевантные результаты.

Происходит ли анализ контекста в реальном времени при каждом запросе?

Нет, сам анализ (вычисление векторов, оценка важности, сравнение с порогами) происходит офлайн при обработке Query Logs. Результатом этого анализа является очищенная база правил подстановки и Stop List. Уже эти готовые данные используются в реальном времени системой переписывания запросов (Query Reviser Engine) для быстрой обработки запроса пользователя.

Похожие патенты

Как Google использует анализ совместной встречаемости слов в запросах для оценки качества синонимов и контекстов
Google оценивает, является ли один термин хорошей заменой (синонимом) для другого, анализируя, какие другие слова часто появляются рядом с ними в поисковых запросах. Система строит векторы частот совместной встречаемости для обоих терминов и сравнивает их. Высокое сходство векторов подтверждает качество замены. Этот же механизм используется для определения того, добавляет ли конкретный контекст значимое семантическое значение к правилу замены.
  • US8504562B1
  • 2013-08-06
  • Семантика и интент

Как Google использует контекст топ-результатов для валидации синонимов и расширения запросов
Google использует механизм для предотвращения ошибок при расширении запросов синонимами или однокоренными словами. Система генерирует потенциальные альтернативные термины, но добавляет их к запросу только если они подтверждаются контекстом. Контекст определяется анализом терминов, найденных в топовых результатах поиска по исходному запросу. Это гарантирует, что расширение запроса остается семантически релевантным.
  • US8055669B1
  • 2011-11-08
  • Семантика и интент

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует анализ контента в топе выдачи для активации "слабых" синонимов и уточнения запроса
Google анализирует термины, которые необычно часто встречаются в первоначальных результатах поиска (сверхпредставленные термины). Если такой термин является потенциальным, но слабым синонимом для слова из запроса, система активирует эту связь и перезапускает поиск с уточненным запросом. Это позволяет контекстуально улучшать запрос на лету, используя специализированную лексику, доминирующую в нише.
  • US9152698B1
  • 2015-10-06
  • Семантика и интент

  • SERP

Как Google встраивает синонимы и контекст непосредственно в поисковый индекс на этапе индексирования
Google использует механизм для повышения релевантности поиска путем определения синонимов на основе контекста документа во время индексирования. Система встраивает эти синонимы, включая сложные многословные замены (N-to-M), непосредственно в инвертированный индекс. Это позволяет поисковой системе находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету.
  • US9037591B1
  • 2015-05-19
  • Индексация

  • Семантика и интент

Популярные патенты

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке
Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.
  • US9129009B2
  • 2015-09-08
  • Ссылки

  • Семантика и интент

  • Техническое SEO

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей
Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.
  • US20250054045A1
  • 2025-02-13
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank
Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.
  • US7565630B1
  • 2009-07-21
  • Персонализация

  • SERP

  • Ссылки

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент
Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.
  • US8458196B1
  • 2013-06-04
  • EEAT и качество

  • Семантика и интент

seohardcore