
Google определяет схожесть поисковых запросов для генерации релевантных подсказок, используя модель взвешенных N-грамм. Каждой фразе (N-грамме) присваивается «семантический вес», основанный на её уникальности в документах (IDF) и в логах запросов пользователей (Entropy). Схожесть запросов вычисляется путем сравнения этих взвешенных векторов, гарантируя, что подсказки основаны на наиболее значимых терминах.
Патент решает задачу повышения релевантности и охвата (coverage) предлагаемых уточнений запроса (query suggestions или related searches). Существовавшие методы, такие как кластеризация запросов, могли давать слишком общие подсказки, а методы, основанные на простом совпадении текста, часто страдали от низкой релевантности. Цель — предложить пользователю семантически близкие запросы путем более точной оценки их схожести.
Запатентован метод определения семантической схожести между двумя поисковыми запросами для генерации уточнений. Суть метода заключается в представлении каждого запроса в виде вектора N-грамм (фраз), где каждая N-грамма взвешена по её «семантической важности» (Semantic Weight). Этот вес рассчитывается на основе комбинации Inverse Document Frequency (IDF) и Entropy (Энтропии), что позволяет определить наиболее значимые и уникальные термины в контексте запроса.
Система работает в несколько этапов:
N-grams (слова и словосочетания).Semantic Weight. Он основывается на IDF (насколько редка фраза в корпусе документов) и Entropy (насколько уникальна или предсказуема фраза в логах поисковых запросов).Высокая. Понимание запросов и генерация релевантных уточнений являются фундаментом современного поиска. Хотя сегодня Google использует продвинутые нейросетевые модели (BERT, MUM) для понимания семантики, базовые принципы, заложенные в этом патенте — взвешивание важности терминов на основе их уникальности (IDF) и контекстуальной значимости (Entropy из логов) — остаются актуальными концепциями в Information Retrieval.
Патент имеет значительное влияние на SEO (7.5/10). Он не описывает ранжирование документов, но дает критически важное понимание того, как Google измеряет семантическую близость между запросами. Это фундаментально для построения Topical Authority, исследования ключевых слов, кластеризации семантики и понимания того, как формируются блоки «Похожие запросы» (Related Searches). Понимание механизма Semantic Weight помогает определить, какие термины в нише являются определяющими для интента.
N-граммы в контексте последовательности слов. Рассчитывается на основе вероятности появления термина после предыдущего термина (например, Prob(wN|wN-1)), используя данные из логов поисковых запросов (training data). Позволяет оценить информативность фразы на основе реального поведения пользователей.N-грамма позволяет различать документы в корпусе. Чем реже встречается термин, тем выше его IDF и тем он уникальнее.N-грамм, особенно когда данных в обучающей выборке (логах запросов) недостаточно. Используется при расчете Entropy.N-граммы запроса, а значениями — их Semantic Weights.Semantic Weights для N-грамм.N-грамме и представляющее её уникальность и значимость для определения интента запроса. Является функцией от IDF и Entropy.Query Vectors.Claim 1 (Независимый пункт): Описывает основной метод определения схожести запросов.
N-грамм первого запроса (Q1).Semantic Weight для каждой N-граммы Q1. Ключевое условие: вес основан, по крайней мере частично, на Entropy N-граммы, которая оценивается из набора поисковых запросов (логов).N-грамм второго запроса (Q2) и расчет их весов.N-грамм Q1 со вторым вектором И (ii) схожести взвешенных N-грамм Q2 с первым вектором.Ядром изобретения является использование Entropy, рассчитанной по логам запросов, для взвешивания N-грамм и специфический двусторонний метод расчета финальной схожести.
Claim 3 (Зависимый от 1): Уточняет расчет семантического веса.
Semantic Weight основан на комбинации Inverse Document Frequency (IDF) N-граммы и Entropy N-граммы.Это определяет, что Semantic Weight является комплексной метрикой, учитывающей как редкость термина в документах (IDF), так и его уникальность/предсказуемость в потоке запросов (Entropy).
Claim 6 (Зависимый): Описывает применение результата.
query suggestion) для первого запроса.Изобретение применяется на этапе понимания запроса и использует данные, собранные на других этапах.
INDEXING – Индексирование и извлечение признаков
На этом этапе (или в ходе отдельного офлайн-процесса анализа корпуса документов) рассчитываются значения IDF для N-грамм, которые затем используются для расчета Semantic Weight.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система выполняет несколько задач:
Entropy N-грамм (вероятности следования слов друг за другом).IDF и Entropy для создания Semantic Importance Log.Входные данные:
IDF офлайн).Entropy офлайн).Semantic Importance Log (предварительно рассчитанные веса).Выходные данные:
Similarity Measurement) между Q1 и Q2.Similarity Measurement; только запросы, превышающие этот порог, предлагаются в качестве подсказок.Алгоритм состоит из двух основных частей: офлайн-подготовка данных и расчет схожести.
Процесс А: Офлайн-расчет семантических весов (Semantic Weight)
IDF для различных N-грамм.Katz backoff smoothing при недостатке данных. Расчет Энтропии для N-грамм.Semantic Weight как функции от IDF и Entropy (например, взвешенная сумма, в патенте упоминается пример 60% IDF + 40% Entropy). Сохранение весов в Semantic Importance Log.Процесс Б: Расчет схожести запросов (Онлайн или Офлайн)
N-грамм из Q1 и Q2 (N-Gram Extractor). (Опционально: исключение стоп-слов).Semantic Importance Log для получения Semantic Weight для каждой N-граммы.N-грамм и их весов (Vector Generator).N-граммы из V_A с вектором V_B (D(v_a_i, V_B)), и схожесть каждой N-граммы из V_B с вектором V_A (D(v_b_j, V_A)).Патент фокусируется на использовании данных об использовании языка и структуре запросов.
Inverse Document Frequency (IDF).Entropy. Система анализирует частоту и последовательность слов в реальных запросах.N-граммы (последовательности слов).Система вычисляет несколько ключевых метрик:
1. Entropy (Энтропия)
Katz backoff.2. IDF (Inverse Document Frequency)
N-граммы в корпусе документов.3. Semantic Weight (Семантический вес)
IDF и Entropy. Патент упоминает возможность взвешенной комбинации (например, 60% IDF + 40% Entropy).4. Similarity Measurement (Sim(V_A, V_B))
N-грамм одного вектора к другому:
N-граммой x и вектором Y. (Примечание: В патенте может подразумеваться нормализация этой суммы).Semantic Weight. Термины, которые являются редкими в целом (высокий IDF) и/или неожиданными/уникальными в контексте запросов пользователей (высокая Entropy), вносят больший вклад в смысл запроса.IDF измеряет уникальность в корпусе документов, а Entropy измеряет уникальность и предсказуемость в поведении пользователей. Это дает комплексную оценку значимости термина.Entropy).N-граммы вносят вклад в финальную оценку, пропорционально их семантическому весу.IDF (специфичные для ниши) и высокой Entropy. Это термины, которые наиболее точно определяют интент пользователя. Контент должен быть сфокусирован на этих терминах и сущностях.Semantic Weight при кластеризации запросов. Кластеры должны объединяться вокруг терминов с высоким весом (например, конкретные названия продуктов, услуг, сущностей), а не вокруг общих слов (имеющих низкий вес).IDF) неэффективно, так как их Semantic Weight может быть низким. Они несут меньше информации об интенте и не являются дискриминирующими.N-граммы и учитывает Entropy (основанную на реальных последовательностях в запросах), поэтому неестественные комбинации не будут иметь значимого веса.IDF) и всех пользователей (Entropy).Патент подтверждает стратегический сдвиг от лексического анализа к семантическому пониманию. Он демонстрирует, что уже в 2007 году Google разрабатывал сложные механизмы для взвешивания важности терминов на основе глобальной статистики. Для SEO это означает, что построение контент-стратегии должно основываться на глубоком понимании того, какие термины и фразы являются наиболее информативными и определяющими в конкретной тематике. Построение Topical Authority через охват ключевых N-грамм и связанных запросов является основой долгосрочной стратегии.
Сценарий: Анализ семантического веса для оптимизации страницы
Semantic Weight 0.79.Semantic Weight), чем общая фраза. Именно она определяет основной интент.Что такое «Семантический вес» (Semantic Weight) и как он рассчитывается?
Semantic Weight – это мера уникальности и важности N-граммы (фразы). Чем выше вес, тем более значима фраза для определения смысла запроса. Согласно патенту, он рассчитывается как комбинация двух метрик: IDF (Inverse Document Frequency), которая измеряет уникальность фразы в корпусе документов, и Entropy (Энтропия), которая измеряет уникальность или предсказуемость фразы в логах поисковых запросов пользователей.
Что такое Энтропия (Entropy) в контексте этого патента и чем она отличается от IDF?
Entropy измеряет уникальность и предсказуемость N-граммы на основе анализа логов поисковых запросов. Она рассчитывается через вероятность появления слов в определенной последовательности. В отличие от IDF, который смотрит на контент документов, Entropy смотрит на поведение пользователей. Это позволяет оценить информативность фразы, основываясь на том, как люди реально формулируют запросы.
Влияет ли этот патент напрямую на ранжирование моего сайта?
Нет, этот патент описывает механизм генерации поисковых подсказок (Web Search Refinement) путем сравнения запросов между собой, а не ранжирования документов. Однако он критически важен для понимания того, как Google интерпретирует семантическую близость запросов. Это знание напрямую влияет на стратегию построения семантического ядра и Topical Authority, что косвенно влияет на ранжирование.
Чем описанный метод отличается от стандартного TF-IDF для ранжирования документов?
Стандартный TF-IDF используется для оценки важности слова в документе относительно корпуса. Этот патент применяет векторную модель к самим запросам (а не документам) и вводит новый компонент для взвешивания — Entropy, основанную на логах запросов, чего нет в стандартном TF-IDF. Кроме того, формула расчета схожести здесь является двунаправленной и более сложной, чем часто используемая косинусная мера.
Актуален ли этот метод, учитывая появление BERT и MUM?
Концептуально он актуален. BERT и MUM также определяют важность слов в контексте, но делают это с помощью механизмов внимания в нейронной сети. Принципы, заложенные в этом патенте (IDF и Entropy), описывают статистические свойства языка, которые современные модели также должны учитывать, даже если они выучивают их имплицитно (скрыто) в процессе обучения.
Как SEO-специалисту определить, какие термины имеют высокий Semantic Weight?
Точные значения Semantic Weight недоступны, но можно использовать прокси-метрики. Термины с высоким весом обычно являются специфичными, низкочастотными (высокий IDF) и точно определяющими интент. Это часто названия конкретных сущностей, моделей или специфические информационные запросы. Анализ блоков "Related Searches" также помогает выявить высоковесные семантические связи, так как они генерируются подобными алгоритмами.
Как использовать концепцию Semantic Weight при кластеризации семантического ядра?
При кластеризации ядра следует группировать запросы, которые разделяют общие N-граммы с высоким предполагаемым Semantic Weight. Эти фразы являются "ядром" кластера. Запросы, которые содержат только общие слова с низким весом, не должны попадать в один кластер, даже если они лексически похожи. Это позволит создать более точную структуру сайта, соответствующую семантическому пониманию Google.
Что такое N-граммы и почему они используются вместо отдельных слов?
N-граммы — это последовательности из N слов (фразы). Они используются потому, что смысл часто заключен именно во фразах, а не в отдельных словах (например, "Нью Йорк" vs "Нью" и "Йорк"). Использование N-грамм позволяет системе точнее улавливать концепции, сущности и контекст в запросе. Это подчеркивает важность оптимизации контента под естественные словосочетания.
Что такое сглаживание по Кацу (Katz backoff smoothing) и зачем оно нужно?
Это статистический метод, используемый при расчете Entropy. Он необходим, потому что логи запросов могут не содержать достаточного количества примеров для всех возможных N-грамм (особенно редких). Сглаживание по Кацу позволяет оценить вероятность даже тех N-грамм, которые встречались редко, используя данные о более коротких N-граммах. Это делает языковую модель более устойчивой.
Что означает «двунаправленный» расчет схожести в формуле Sim(V_A, V_B)?
Это означает, что система не просто проверяет, насколько запрос A похож на запрос B. Формула рассчитывает схожесть N-грамм из A к B, а затем схожесть N-грамм из B к A, и агрегирует оба результата. Каждое сравнение взвешивается семантическим весом соответствующей N-граммы. Это обеспечивает более сбалансированную и точную оценку семантической близости.

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент

Семантика и интент
Мультиязычность

Индексация
Семантика и интент
Ссылки

Knowledge Graph
SERP
Семантика и интент

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
Мультимедиа
Персонализация

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Мультимедиа

Поведенческие сигналы
SERP
Семантика и интент

Персонализация
Индексация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Local SEO

Структура сайта
Техническое SEO
Ссылки

SERP
Персонализация
Поведенческие сигналы
