Как Google итеративно вычисляет «самодостаточность» фраз для определения главной темы запроса

Google использует итеративный алгоритм для анализа исторических логов запросов, чтобы вычислить «независимую от запроса оценку» (Query-Independent Score) для каждого слова или фразы. Эта оценка показывает, насколько вероятно сегмент является самостоятельным запросом или главной темой. Это помогает системе отличить ключевые концепции от модификаторов, точнее понять интент пользователя и улучшить подбор релевантного контента.

Описание

Какую задачу решает

Патент решает задачу определения относительной важности различных частей (сегментов) поискового запроса. Цель — алгоритмически идентифицировать, какие сегменты представляют собой основную тему (main topic) запроса, а какие являются модификаторами или менее значимыми терминами. Это необходимо для более точного понимания интента пользователя и улучшения выбора релевантного контента (включая рекламу).

Что запатентовано

Запатентован метод итеративного вычисления Query-Independent Scores (независимых от запроса оценок) для слов и фраз на основе анализа исторических логов запросов. Суть изобретения заключается в самообучающемся цикле, где глобальная значимость сегмента уточняется через анализ его локальной важности в контексте реальных запросов. Эти оценки используются для интерпретации новых запросов и расчета «самодостаточности» (Self-Sufficiency) запроса и контента.

Как это работает

Ключевой механизм — это итеративный алгоритм, основанный на взаимной зависимости двух оценок:

Инициализация: Всем сегментам присваиваются начальные Query-Independent Scores (QIS) (например, 0.5).
Расчет Зависимых Оценок: Для каждого запроса в логе вычисляются Query-Dependent Scores (QDS) его сегментов на основе их текущих QIS. Оценки нормализуются в рамках запроса.
Обновление Независимых Оценок: QIS сегмента обновляется путем усреднения его QDS по всем запросам, где он встречается.
Итерация: Процесс повторяется (новые QIS ведут к новым QDS, и наоборот) до стабилизации оценок. В результате сегменты, часто являющиеся главной темой (например, сущности), получают высокие оценки, а модификаторы (например, «лучший», «купить») — низкие.

Актуальность для SEO

Высокая. Понимание структуры запроса (Query Understanding) и определение значимости его компонентов является фундаментальной задачей современных поисковых систем. Статистические методы анализа N-грамм на основе больших данных остаются крайне актуальными и дополняют нейросетевые подходы в NLP для интерпретации интента.

Важность для SEO

Патент имеет высокое значение для SEO (75/100). Он описывает конкретный механизм, как Google определяет ядро запроса и отделяет его от модификаторов. Понимание того, какие термины система идентифицирует как «самодостаточные» и тематически значимые, критически важно для создания и оптимизации контента, чтобы точно соответствовать основной теме, идентифицированной системой.

Детальный разбор

Термины и определения

Segment (Сегмент): Слово или фраза (N-грамма), являющаяся частью запроса. Например, в запросе «hotels new york» сегментами являются «hotels», «new», «york» и «new york».
Query-Dependent Score (QDS) (Зависимая от запроса оценка): Оценка $t(q,t)$ , показывающая относительную важность сегмента (t) в контексте конкретного запроса (q). Нормализуется в рамках запроса.
Query-Independent Score (QIS) (Независимая от запроса оценка): Глобальная оценка $s(t)$ , показывающая внутреннюю значимость сегмента (t) независимо от конкретного запроса. Вычисляется итеративно на основе анализа множества запросов в логах.
Stand-alone Score (Оценка самостоятельности): Оценка сегмента в новом запросе, основанная на Query-Independent Score. Указывает на вероятность того, что сегмент представляет собой самостоятельный запрос и/или является главной темой (main topic) запроса.
Self-Sufficiency Score (Оценка самодостаточности): Агрегированная метрика для всего запроса или для набора ключевых слов контента (например, рекламы). Вычисляется путем применения функции (например, суммы) к Stand-alone Scores составляющих сегментов.
Historical Log of Queries (Исторический лог запросов): База данных прошлых запросов пользователей, используемая как обучающая выборка для алгоритма.
First Function / Second Function (Первая / Вторая функция): Функции агрегации. First Function используется для обновления QIS путем агрегации QDS (например, среднее арифметическое). Second Function используется для расчета Self-Sufficiency Score путем агрегации Stand-alone Scores (например, сумма).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод определения Stand-alone Score.

Система получает запрос и идентифицирует его сегменты.
Определяется Stand-alone Score для каждого сегмента. Это определение включает обработку исторического лога для вычисления Query-Independent Scores (QIS).
Итеративный процесс обработки лога:
1. Инициализация QIS.
2. Обработка запросов в логе: определение Query-Dependent Scores (QDS) для сегментов и их нормализация.
3. Корректировка QIS на основе агрегированных QDS с применением First Function.
4. Сохранение обновленных QIS.
5. Повторение (итерация) шагов b-d (обработка, корректировка, сохранение) с использованием обновленных QIS.
Использование финальных QIS для определения Stand-alone Score сегментов исходного запроса.

Ядром изобретения является итеративный цикл, где независимые оценки (QIS) влияют на расчет зависимых оценок (QDS) в рамках конкретных запросов, а агрегированные зависимые оценки, в свою очередь, обновляют независимые оценки.

Claim 3 (Зависимый): Уточняет, что First Function для обновления QIS может быть математическим средним (mathematical average).

Claim 4 и 5 (Зависимые): Детализируют расчет Self-Sufficiency Score.

Система применяет Second Function к Stand-alone Scores сегментов запроса, чтобы определить общий Self-Sufficiency Score запроса. Second Function может быть суммой (sum) (Claim 5).

Claim 6 (Зависимый): Описывает использование механизма для выбора контента (например, рекламы).

Система рассчитывает Self-Sufficiency Score для контента на основе QIS его ключевых слов и сравнивает его с Self-Sufficiency Score запроса для поиска соответствия и предоставления контента.

Claim 8 и 9 (Зависимые): Вводят пороговые значения (Thresholds) для применения механизма.

Claim 8: Контент может быть не допущен к аукциону, если его Self-Sufficiency Score (сумма оценок ключевых слов) ниже первого порога. Claim 9: Механизм сопоставления может не использоваться для выбора контента, если Self-Sufficiency Score запроса ниже второго порога.

Где и как применяется

Изобретение в основном применяется на этапе QUNDERSTANDING – Понимание Запросов и влияет на системы подбора контента (RANKING / METASEARCH).

QUNDERSTANDING – Понимание Запросов
Алгоритм работает в двух режимах:

Офлайн-вычисления (Подготовка данных): Итеративный алгоритм выполняется офлайн (периодически) для анализа Historical Log of Queries и вычисления Query-Independent Scores (QIS) для всех известных сегментов.
Онлайн-обработка (Интерпретация запроса): Когда поступает новый запрос, система сегментирует его и извлекает предварительно рассчитанные QIS (используя их как Stand-alone Scores). Это позволяет идентифицировать главную тему и рассчитать Self-Sufficiency Score запроса.

RANKING / METASEARCH (Выбор контента/Рекламы)
Система использует вычисленные оценки для подбора контента (например, в Content Management System для рекламы):

Вычисляется Self-Sufficiency Score для контента на основе QIS их ключевых слов.
Оценки запроса и контента сравниваются для определения релевантности и матчинга.
Используются пороги для фильтрации низкокачественных кандидатов или деактивации механизма матчинга.

Входные данные:

Офлайн: Historical Log of Queries.
Онлайн: Новый пользовательский запрос; База Query-Independent Scores; Инвентарь контента и его ключевые слова.

Выходные данные:

Query-Independent Scores (офлайн).
Stand-alone Scores и Self-Sufficiency Score запроса (онлайн).
Выбранный контент (например, реклама).

На что влияет

Специфические запросы: Наибольшее влияние на многословные (long-tail) запросы, где необходимо отделить ядро запроса (главную тему) от модификаторов и уточнений.
Подбор контента и Реклама: Напрямую влияет на системы подбора рекламы (например, Google Ads), предоставляя метрику Self-Sufficiency для оценки и сравнения запросов и ключевых слов объявлений.
Понимание фраз и сущностей: Помогает идентифицировать фразы (N-граммы), функционирующие как единое целое (например, «new york»), которые часто имеют более высокий QIS, чем составляющие их слова.

Когда применяется

Офлайн-вычисления: Периодически, для обновления базы Query-Independent Scores на основе свежих логов запросов.
Онлайн-обработка: В реальном времени при получении каждого нового запроса для его интерпретации и при выборе контента.
Пороговые значения: Активация механизма матчинга контента может зависеть от достижения пороговых значений Self-Sufficiency Score как для запроса, так и для контента (Claims 8 и 9).

Пошаговый алгоритм

Процесс А: Офлайн-вычисление Query-Independent Scores (Итеративный алгоритм)

Инициализация: Присвоить начальные Query-Independent Scores (QIS, $s(t)$ ) всем сегментам (t). Например, 0.5.
Начало итерации.
Вычисление Query-Dependent Scores (QDS): Для каждого запроса (q) в логе рассчитать QDS ( $t(q,t)$ ) для всех его сегментов. Расчет основан на текущих QIS (чем выше $s(t)$ , тем выше $t(q,t)$ ).
Нормализация: Нормализовать QDS внутри каждого запроса (q).
Обновление Query-Independent Scores: Пересчитать QIS ( $s(t)$ ) для каждого сегмента путем применения First Function (например, усреднения) ко всем QDS, которые этот сегмент получил в разных запросах.
Проверка сходимости и Итерация: Если оценки значительно изменились, вернуться к шагу 3. Если достигнута сходимость (оценки стабилизировались), завершить процесс.
Сохранение: Сохранить финальные QIS.

Процесс Б: Обработка нового запроса и выбор контента (Онлайн)

Получение и сегментация: Получить новый запрос и разбить его на сегменты.
Определение Stand-alone Scores: Извлечь сохраненные QIS (из Процесса А) для каждого сегмента.
Вычисление Self-Sufficiency Score запроса: Рассчитать общую оценку запроса, применив Second Function (например, сумму) к Stand-alone Scores сегментов.
Анализ кандидатов контента: Для кандидатов контента (например, рекламы) рассчитать их Self-Sufficiency Score на основе QIS их ключевых слов.
Фильтрация и Матчинг: Применить пороги (Claims 8 и 9) и сравнить Self-Sufficiency Score запроса с оценками кандидатов для выбора контента (может включать аукцион).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Логи): Критически важные данные — Historical Log of Queries. Алгоритм полностью полагается на статистический анализ того, как сегменты взаимодействуют друг с другом в реальных пользовательских запросах.
Контентные факторы (Лексические): Сегменты (слова и фразы/N-граммы), извлеченные из текста запросов. Также используются ключевые слова, ассоциированные с контентом (рекламой).

Какие метрики используются и как они считаются

Query-Independent Score (QIS, $s(t)$ ): Вычисляется итеративно. Обновляется путем применения First Function (например, mathematical average, Claim 3) к Query-Dependent Scores сегмента по всем запросам в логе.
Query-Dependent Score (QDS, $t(q,t)$ ): Вычисляется для сегмента внутри запроса на основе текущих QIS всех сегментов этого запроса, с последующей нормализацией. Условие расчета: чем выше QIS, тем выше QDS.
Stand-alone Score: Определяется на основе финальных QIS.
Self-Sufficiency Score: Вычисляется путем применения Second Function (например, sum, Claim 5) к Stand-alone Scores сегментов запроса или QIS ключевых слов контента.
Пороговые значения: Используются для фильтрации контента (Claim 8) и определения условий активации механизма матчинга (Claim 9).

Выводы

Статистическое понимание языка из логов: Google активно использует статистический анализ исторических логов для определения важности фраз (N-грамм). Важность не задается вручную, а вычисляется итеративно на основе реального использования.
Идентификация Ядра и Модификаторов: Механизм направлен на автоматическое определение ядра запроса (сегменты с высоким Stand-alone Score) и отделения его от модификаторов (сегменты с низким Stand-alone Score).
Концепция «Самодостаточности»: Self-Sufficiency Score позволяет оценить, насколько запрос является полным, специфичным и сфокусированным на конкретных темах.
Применение в подборе контента (Рекламы): Патент явно описывает использование этих метрик для оценки и сопоставления запросов и контента (рекламы). Система сравнивает профиль «самодостаточности» запроса с профилем ключевых слов контента и может использовать пороги для фильтрации.
Важность Фраз (N-грамм): Система оценивает значимость не только отдельных слов, но и целых фраз как единых сегментов, что критично для понимания сущностей и сложных концепций (например, «New York» как единое целое).

Практика

Best practices (это мы делаем)

Фокус на естественных и значимых фразах (N-граммах): Используйте в ключевых элементах (Title, H1, контент) фразы, которые являются самодостаточными и часто используются пользователями как самостоятельные запросы. Такие фразы будут иметь высокий Query-Independent Score (QIS).
Оптимизация под ядро запроса: При оптимизации под long-tail запросы убедитесь, что основная тема (ядро запроса, сегмент с высоким QIS) четко представлена и является фокусом страницы. Модификаторы важны для уточнения интента, но не должны затмевать ядро.
Анализ семантического ядра с учетом значимости: При сборе семантики отдавайте приоритет фразам, которые представляют собой законченные мысли, четкие интенты или конкретные сущности. Они, вероятно, имеют более высокий Stand-alone Score.
(Для PPC) Качество ключевых слов и Пороги: Учитывайте потенциальную «самодостаточность» ключевых слов в объявлениях. Использование слишком общих или незначимых ключевых слов может привести к тому, что объявление не пройдет порог Self-Sufficiency Score (Claim 8) и будет отфильтровано или получит низкий рейтинг в аукционе.

Worst practices (это делать не надо)

Игнорирование ядра запроса и фокус на модификаторах: Оптимизация страницы под второстепенные термины (например, «бесплатно», «лучший», «скидка») без акцента на основной продукт или услугу (основную тему с высоким QIS).
Использование неестественных конструкций и Keyword Stuffing: Сегменты, извлеченные из неестественного текста, вероятно, будут иметь низкие QIS, так как они редко встречаются в реальных логах запросов в таком виде.
Рассмотрение слов изолированно: Игнорирование важности фраз. Значимость фразы (например, «New York») может быть значительно выше, чем значимость отдельных слов («New» и «York») по отдельности.

Стратегическое значение

Патент подтверждает фундаментальную важность этапа Query Understanding и переход от анализа отдельных ключевых слов к оценке статистической и семантической значимости фраз (сегментов). Для долгосрочной SEO-стратегии важно понимать, какие концепции Google считает статистически «важными» и «самодостаточными» в конкретной нише, и строить контент вокруг этих концепций (Topics & Entities).

Практические примеры

Сценарий: Определение ядра запроса для оптимизации контента

Анализируемый запрос: «лучшие треккинговые ботинки для летнего похода»
Гипотетический анализ системой (QIS/Stand-alone Scores):
- «треккинговые ботинки»: Высокий (четкий объект, самодостаточный запрос).
- «летний поход»: Средне-высокий (конкретное условие, значимый сегмент).
- «лучшие»: Низкий (модификатор).
- «для»: Очень низкий (предлог).
Вывод системы: Главная тема запроса — «треккинговые ботинки», ключевое уточнение — «летний поход». Self-Sufficiency Score запроса высокий.
SEO-действие: Страница должна быть сфокусирована на основной теме («треккинговые ботинки») с явным учетом контекста («летний поход»). Заголовок (Title/H1) и структура должны четко отражать эти высокозначимые сегменты. Не следует делать акцент на слове «лучшие» в ущерб основной теме.

Вопросы и ответы

В чем ключевое различие между Query-Dependent Score (QDS) и Query-Independent Score (QIS)?

Query-Dependent Score (QDS) — это локальная оценка важности фразы внутри одного конкретного запроса, в контексте других слов этого запроса. Query-Independent Score (QIS) — это глобальная оценка, отражающая общую важность и самодостаточность фразы на основе анализа всего массива исторических запросов. QIS используется для расчета QDS, а QDS затем используются для итеративного обновления QIS.

Как именно работает итеративный алгоритм?

Он работает по принципу взаимного уточнения. Сначала всем фразам присваивается одинаковая глобальная оценка (QIS). Затем система анализирует реальные запросы и перераспределяет важность (QDS) между фразами внутри каждого запроса на основе их текущих QIS. После этого она обновляет QIS каждой фразы, усредняя ее QDS по всем запросам. Процесс повторяется до стабилизации: обновленные QIS ведут к более точным QDS, и наоборот.

Что означает «Самодостаточность» (Self-Sufficiency) фразы или запроса?

Для фразы (Stand-alone Score) это вероятность того, что она может быть использована как полноценный самостоятельный запрос или является главной темой. Для всего запроса (Self-Sufficiency Score) это агрегированная метрика (обычно сумма оценок сегментов), показывающая, насколько запрос является полным и специфичным. Чем выше оценка, тем более конкретный интент выражает запрос.

Как этот патент влияет на оптимизацию под long-tail запросы?

Он имеет прямое влияние. Для длинных запросов этот механизм помогает системе выделить ядро запроса (наиболее самодостаточный сегмент) и отделить его от модификаторов. SEO-специалистам необходимо убедиться, что их контент четко оптимизирован под это ядро, а не рассеивает фокус на второстепенные слова.

Патент упоминает использование этих оценок для выбора контента (Claim 6). Относится ли это только к рекламе?

В патенте это описывается в контексте Content Management System, что часто означает рекламу. Механизм сравнения Self-Sufficiency Score (Claim 6) и применение порогов (Claims 8 и 9) напрямую относятся к матчингу и фильтрации рекламы. Однако базовое вычисление Query-Independent Scores является частью общего Понимания Запросов (Query Understanding), что также влияет на органический поиск, улучшая интерпретацию интента.

Что означают пороги, упомянутые в Claims 8 и 9?

Claim 8 вводит порог качества для контента (рекламы): если Self-Sufficiency Score объявления слишком низкий (например, ключевые слова слишком общие), оно может быть не допущено к аукциону. Claim 9 вводит порог для запроса: если Self-Sufficiency Score запроса слишком низкий (например, запрос бессмысленный или слишком расплывчатый), описанный механизм матчинга может не применяться.

Как SEO-специалист может узнать Query-Independent Score для своих ключевых фраз?

Google не предоставляет эти оценки напрямую. Однако их можно аппроксимировать, анализируя частотность и то, насколько часто фраза используется самостоятельно. Чем чаще фраза используется как отдельный запрос и чем яснее она определяет тему или сущность, тем выше ее вероятный QIS. Общие слова и модификаторы имеют низкие оценки.

Связан ли этот механизм с распознаванием сущностей (Entity Recognition)?

Это не замена, а дополнение. Распознавание сущностей идентифицирует именованные объекты. Описанный механизм оценивает статистическую важность любых фраз (N-грамм). Сущности часто имеют высокий QIS, так как они самодостаточны, но механизм шире и охватывает также интенты, действия и темы, которые могут не быть сущностями в Knowledge Graph.

Как система обрабатывает новые слова или тренды?

Новым сегментам присваивается начальная оценка (например, 0.5). По мере того как новый термин набирает популярность и появляется в логах запросов, итеративный алгоритм обрабатывает эти данные. Если термин часто используется как основная тема, его Query-Independent Score вырастет в ходе последующих циклов пересчета (офлайн-процесса).

Как этот алгоритм учитывает порядок слов?

Алгоритм учитывает порядок слов, так как он анализирует фразы (N-граммы) как отдельные сегменты. Фраза «белый дом» будет иметь свой собственный Query-Independent Score, отличный от оценок слов «белый» и «дом» по отдельности и отличный от фразы «дом белый».