
Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.
Патент решает проблему ограниченности систем, которые используют только один метод для определения схожести запросов (например, только на основе логов запросов или только временных паттернов). Использование единственного метода снижает качество и точность генерации связанных запросов. Изобретение направлено на улучшение понимания семантической связи между запросами для таких функций, как поисковые подсказки (Query Suggestions), расширение запросов (Query Expansion) и подбор ключевых слов для рекламы (Expanded Broad Match).
Запатентована система для измерения схожести запросов путем комбинирования множества различных показателей корреляции. Суть изобретения заключается в использовании обученной модели машинного обучения (Linear Model) для взвешивания и объединения разнородных сигналов схожести, таких как временная корреляция (Temporal Correlation) и дистрибутивная схожесть (Distributional Similarity), в единую, более надежную оценку (Combined Correlation Score).
Система работает следующим образом:
Correlation Scores). Например, один анализирует временные тренды в новостях и блогах (Temporal Correlation), а другой — контекст использования терминов в веб-документах (Distributional Similarity).Linear Model (например, логистическая регрессия), предварительно обученная на данных асессоров (human annotated goldstandard), взвешивает и комбинирует эти оценки в единый Combined Correlation Score.Высокая. Понимание взаимосвязи запросов является фундаментальной задачей поиска. Хотя конкретные модели эволюционировали (например, к нейронным сетям), базовый принцип объединения разнородных сигналов (временных, контекстных) с помощью машинного обучения остается стандартом в современных системах Information Retrieval. Описанные методы дистрибутивной семантики являются основой современных векторных моделей.
Патент имеет высокое значение для SEO (8/10). Он описывает фундаментальные механизмы, которые Google использует для понимания семантической связи и контекста запросов. Это напрямую влияет на то, как контент ассоциируется с различными формулировками (Query Expansion) и какие связанные запросы будут показаны. Понимание принципов Distributional Similarity и Temporal Correlation критически важно для построения семантического ядра и контент-стратегии.
Correlation Scores с помощью Linear Model.frequency value) появления различных Context Terms рядом с этим термином в корпусе.Internet resources), логи запросов (search query log), новостные статьи (news articles), записи в блогах (blog entries).Correlation Scores. Обучается на данных асессоров (human annotated goldstandard).Context Vectors всех терминов, входящих в запрос.Примечание: Формулировки Claims в этом патенте достаточно специфичны, особенно в отношении временной корреляции, что является результатом процесса утверждения патента.
Claim 1 (Независимый пункт): Описывает метод определения схожести на основе временной корреляции в разных источниках.
Temporal correlation score между Q1 и каждым Q2.timestamps) в одном и том же временном периоде.Similarity score на основе этого Temporal correlation score, и Q2s ранжируются.Этот пункт защищает специфический метод кросс-корпусного временного анализа, который может выявлять корреляции между тем, что обсуждается в СМИ, и тем, что обсуждается в блогах.
Claim 2 (Зависимый от 1): Добавляет дистрибутивную схожесть и механизм комбинации (ядро изобретения).
Distributional similarity score между Q1 и Q2. Он основан на сравнении частот совместно встречающихся терминов (контекста).Similarity score основан как на Distributional similarity score, так и на Temporal correlation score (из Claim 1).Linear model.Этот пункт вводит механизм комбинирования двух принципиально разных типов схожести (контекстной и временной) с использованием машинного обучения.
Claim 5 (Зависимый от 2): Детализирует процесс расчета Distributional similarity score.
Context terms из корпуса на основе метрики расстояния (близости слов).Context vector, содержащий частоты этих Context terms.Query vector для всего запроса путем комбинирования Context vectors его терминов.Distributional similarity score определяется путем сравнения Query vectors Q1 и Q2.Изобретение применяется в основном на этапе понимания запросов, используя данные, подготовленные во время индексирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных:
Distributional Similarity).Context Vectors для терминов.Temporal Correlation).QUNDERSTANDING – Понимание Запросов
Основная область применения. Система использует описанные механизмы для:
expanded broad match).На этом этапе Linear Model комбинирует рассчитанные метрики схожести.
Входные данные:
Context Vectors и данные временных рядов.Linear Model.Выходные данные:
Combined Correlation Scores.Query Vector помогает в разрешении неоднозначности (disambiguation), и на трендовые запросы, где Temporal Correlation играет ключевую роль.Linear Model.Процесс А: Расчет Distributional Similarity
Context terms, которые появляются рядом (например, в окне из 3 слов: "money", "river", "account").Context terms. V("bank") = [money: 100, river: 50, account: 80].Context Vectors всех терминов запроса (например, "bank account"). В патенте предлагается использовать геометрическое среднее (Geometric Mean).Distributional Similarity Score рассчитывается путем сравнения Query Vectors двух запросов с использованием метрик (например, cosine similarity).Процесс Б: Расчет Temporal Correlation
Процесс В: Комбинация и Ранжирование
Distributional Similarity Score (из А) и Temporal Correlation Score (из Б) для пары запросов.Linear Model принимает эти оценки на вход.Combined Correlation Score, используя веса, полученные в процессе обучения на данных асессоров.corpus). Система анализирует текст и позиционную близость слов (distance metric, например, окно в 3 слова) для определения Context Terms.timestamps) в специфических корпусах: новостные статьи (news articles) и записи в блогах (blog entries). Также могут использоваться логи запросов (search query log).Linear Model используются данные, аннотированные людьми (human annotated goldstandard), отражающие человеческое восприятие релевантности (например, по 5-балльной шкале Лайкерта).Query Vectors используются: cosine similarity, dot-product, mutual information, Jensen Shannon divergence, dice coefficient.Context Vectors в Query Vector. Формула: qvj=⎛∏i=1nvij⎞n1.conditional independence) терминов (например, для идентификации фраз типа "New York") используются: tf-idf, mutual information, χ2 (Chi-squared test), t-student test, Pointwise Mutual Information (PMI).Linear Model (logistic regression, log-linear model) используется для комбинации финальных оценок.Context Vectors в единый Query Vector является мощным инструментом для разрешения неоднозначности. Система отдает приоритет тем контекстам, которые являются общими для всех терминов в запросе.human annotated goldstandard), на которых обучается Linear Model.Context Terms) в ваш контент естественным образом. Это поможет Google сформировать точный Query Vector для вашей страницы.Distributional Similarity между вашим контентом и целевыми запросами.Query Vector (в соответствии с механизмом геометрического среднего).Temporal Correlation между вашим контентом и актуальными запросами.Query Vector и нарушает принципы естественной совместной встречаемости слов.Distributional Similarity. Google оценивает схожесть на уровне векторов, а не совпадения строк.Corpus), его релевантность будет низкой.Патент подтверждает стратегию Google по переходу от анализа ключевых слов к пониманию смысла через контекст (семантический поиск). Distributional Similarity является основой для многих современных NLP-моделей (включая векторные эмбеддинги). Для SEO это означает, что построение авторитета в теме и создание контента, который глубоко раскрывает её с использованием естественного языка и связанных понятий, является ключевой долгосрочной стратегией.
Сценарий: Разрешение неоднозначности (Disambiguation) запроса
Query Vector четко указывает на контекст разработки ПО. Система предложит подсказки типа "Java developer salary", игнорируя подсказки про путешествия или кофе.Что такое Дистрибутивная схожесть (Distributional Similarity) и почему она важна для SEO?
Это принцип, согласно которому слова, встречающиеся в похожих контекстах, имеют схожее значение. Для SEO это критически важно, потому что Google определяет смысл вашего контента не по плотности ключевых слов, а по тому, какие слова их окружают. Чтобы ранжироваться, ваш контент должен использовать термины в том же контексте, в котором они используются в авторитетных источниках (корпусе).
Как именно система объединяет векторы отдельных слов в вектор запроса?
Патент предлагает использовать геометрическое среднее (Geometric Mean) для объединения Context Vectors отдельных терминов. Этот метод работает как логическое "И" (AND): он усиливает те контекстные элементы, которые являются общими для всех терминов в запросе, и ослабляет или удаляет уникальные. Это позволяет эффективно разрешать неоднозначность.
Как работает разрешение неоднозначности (Disambiguation) в этом патенте?
Рассмотрим запрос "Apple". Его вектор содержит контексты [fruit, computer, phone]. Если запрос "Apple pie", вектор "pie" содержит [fruit, recipe, bake]. При комбинации через геометрическое среднее общий контекст [fruit] усиливается, а [computer, phone] исчезают. Таким образом, система понимает, что речь идет о фрукте, а не о компании.
Что такое Временная корреляция (Temporal Correlation) и как она учитывается?
Это мера того, насколько часто два запроса используются в одни и те же периоды времени. Патент описывает сравнение активности терминов в разных корпусах (например, в Новостях и Блогах) за один период. Если два разных запроса одновременно становятся популярными, система может посчитать их связанными, даже если их семантический контекст не пересекается напрямую.
Что означает использование "Линейной модели" (Linear Model) для комбинации оценок?
Это означает, что система использует модель машинного обучения (например, логистическую регрессию) для определения оптимальных весов для каждого типа схожести (временной и дистрибутивной). Модель обучается на примерах, размеченных асессорами (human annotated goldstandard), чтобы итоговая комбинированная оценка максимально соответствовала человеческому восприятию релевантности.
Использует ли Google этот патент сейчас, учитывая появление BERT и MUM?
Базовые принципы комбинации разнородных сигналов, дистрибутивной и временной схожести остаются фундаментальными. Современные системы (BERT, MUM) используют более сложные нейросетевые архитектуры вместо линейных моделей и более продвинутые методы генерации векторных эмбеддингов, но они строятся на идеях дистрибутивной семантики, заложенных в этом патенте.
Как SEO-специалист может повлиять на Context Vector своего контента?
Путем целенаправленного использования связанных терминов и сущностей в тексте. Необходимо изучить семантическое ядро и определить слова, которые часто встречаются вместе с основными ключевыми словами в вашей нише. Естественное включение этих слов в ваш контент поможет сформировать четкий и релевантный контекстный вектор.
Влияет ли этот патент на блоки "People Also Ask" (PAA) и "Related Searches"?
Да, напрямую. Эти блоки генерируются на основе метрик схожести запросов. Описанный в патенте механизм, комбинирующий контекст и время, позволяет Google находить наиболее релевантные и актуальные связанные вопросы и запросы для исходного ввода пользователя.
Что такое "корпус" текстов, упоминаемый в патенте?
Это очень большой набор структурированных текстов, используемый для анализа статистики использования языка. В патенте упоминаются веб-документы, новостные статьи и записи в блогах. На практике это весь индекс Google, а также специализированные индексы (например, Новости).
Как система определяет, какие слова объединять в фразы (n-граммы)?
Патент упоминает использование статистических тестов (например, PMI или χ2) для определения условной независимости терминов. Если термины часто встречаются вместе (например, "New" и "York"), они считаются зависимыми и обрабатываются как единое целое (combined query term) при генерации векторов.

Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Структура сайта

Поведенческие сигналы
Индексация
Семантика и интент

EEAT и качество
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
SERP

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Local SEO
Антиспам
Поведенческие сигналы

Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы
SERP
