Google использует систему для определения значимости слов в поисковом запросе на основе контекста. Анализируя логи запросов, система выявляет термины, добавление которых статистически не меняет поисковую выдачу. Такие термины считаются малозначимыми в данном контексте. При обработке запроса Google может сделать эти термины необязательными (optional) для поиска и понизить их вес (down-weight) при ранжировании.
Описание
Какую задачу решает
Патент решает проблему снижения качества поиска из-за наличия в запросе «лишних слов» (extra words) — терминов, которые не помогают определить информационную потребность пользователя (terms of little significance). Это особенно актуально для длинных запросов (более 3-4 слов), склонных к избыточной спецификации. Эти термины могут негативно влиять на поиск двумя способами: (1) Сужать выборку документов, если требовать их обязательного присутствия (снижение полноты/Recall); (2) Искусственно завышать оценку релевантности документа при ранжировании (снижение точности/Precision). Патент предлагает механизм, превосходящий стандартные списки стоп-слов или анализ TF-IDF, так как он учитывает контекст, предотвращая ошибочное игнорирование важных слов.
Что запатентовано
Запатентована система для определения контекстно-зависимой значимости терминов запроса. Система анализирует логи запросов (Query Logs) в офлайн-режиме, сравнивая результаты поиска для пар запросов, отличающихся одним термином. Если результаты схожи, термин помечается как малозначимый в данном контексте. Эта информация сохраняется в Query Term Table и используется при обработке будущих запросов для модификации стратегии поиска и ранжирования.
Как это работает
Система работает в двух режимах:
- Офлайн-анализ: Система анализирует Query Logs и сравнивает выдачи (SERP) для пар запросов, отличающихся одним словом. Если выдачи в основном совпадают, слово помечается как малозначимое. Также определяются контексты-исключения (например, слово «free» обычно малозначимо, но значимо в контексте «sugar free»).
- Онлайн-обработка: При получении запроса система проверяет значимость терминов в их контексте по Query Term Table. Если термин малозначим:
- Отбор документов: Термин считается необязательным (optional).
- Ранжирование: Вес термина понижается (down weight) при расчете IR Score.
Актуальность для SEO
Высокая. Определение веса каждого слова в запросе на основе контекста — фундаментальная задача информационного поиска и понимания запросов (Query Understanding). Хотя современные ИИ-модели (BERT, MUM) используют более сложные нейросетевые методы для определения весов терминов, базовая концепция контекстно-зависимого взвешивания, описанная в этом патенте (исходная заявка от 2005 г.), лежит в основе работы поиска.
Важность для SEO
Патент имеет высокое значение (85/100). Он описывает конкретный механизм, позволяющий Google игнорировать или понижать значимость определенных ключевых слов в зависимости от контекста. Это напрямую влияет на стратегии работы с длинными запросами (long-tail). Понимание того, что не все ключевые слова имеют одинаковый вес и что их значимость динамична, критически важно. Стратегии, основанные на механическом включении всех слов из запроса (Exact Match), могут быть неэффективны, если Google считает часть из них малозначимыми.
Детальный разбор
Термины и определения
- Context (Контекст)
- Специфический термин или последовательность терминов, которые появляются непосредственно до и/или после анализируемого термина в запросе. Контекст определяет значимость термина. Обозначение (.) в патенте используется для указания на общий контекст (в любом месте запроса).
- Down Weight (Понижение веса)
- Процесс уменьшения вклада термина с малой значимостью в общую оценку (score) документа при ранжировании. Вес понижается, но остается больше нуля.
- Extra Term (Дополнительный термин)
- Термин, который присутствует в одном запросе из анализируемой пары, но отсутствует в другом.
- Information Retrieval (IR) Score (Оценка информационного поиска)
- Оценка релевантности документа запросу. Основывается на вхождениях терминов запроса, их весе, расположении в документе и других текстовых факторах.
- Optional (Необязательный)
- Статус термина запроса, имеющего малую значимость. При отборе документов (Document Selection) система не требует его обязательного присутствия в документе.
- Query Logs (Логи запросов)
- Журналы поисковых запросов пользователей и связанных данных (например, списков результатов поиска по этим запросам). Используются для офлайн-анализа.
- Query Term Table (Таблица терминов запроса)
- Структура данных, хранящая информацию о терминах, контекстах их малой значимости (Context(s) of little significance) и контекстах их значимости (Significant context(s)).
- Term with Little Significance (Термин с малой значимостью)
- Термин, который, вероятно, менее важен, чем другие термины в запросе, для определения информационной потребности пользователя в данном контексте. Также используется термин not significant.
Ключевые утверждения (Анализ Claims)
Патент US9483530B1 является продолжением (continuation) более ранних патентов. Формула изобретения (Claims) в данном патенте фокусируется на процессе определения и хранения информации о значимости термина.
Claim 1 (Независимый пункт): Описывает метод определения и хранения значимости термина на основе анализа результатов поиска.
- Система получает информацию о паре запросов (Q1 с extra term, Q2 без него), которая связана с пороговым количеством общих результатов поиска (threshold quantity of search results that are common).
- На основании того, что результаты схожи, extra term идентифицируется как незначимый (not significant / малозначимый).
- Система получает информацию о другой паре запросов (с тем же extra term), которая НЕ связана с пороговым количеством общих результатов (т.е. результаты разные).
- На основе этого идентифицируется контекст (context), в котором этот extra term является значимым (significant).
- Информация (термин, указание на его общую незначимость и контекст, в котором он значим) сохраняется (например, в Query Term Table).
Зависимые пункты (например, Claims 3, 4, 10): Детализируют применение этой информации при поиске:
- Claim 3: Использование незначимого термина как необязательного (optional) при идентификации документов.
- Claim 4, 10: Присвоение незначимому термину меньшего веса по сравнению с другими терминами (down-weighting) и использование этих весов при скоринге.
Где и как применяется
Изобретение применяется на нескольких этапах поисковой архитектуры, задействуя офлайн-анализ для подготовки данных и онлайн-процессы для их применения.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента.
- Офлайн-анализ: Компонент Query Term Analyzer обрабатывает Query Logs, выполняет сравнение SERP для пар запросов, определяет контекстно-зависимую значимость терминов и генерирует Query Term Table.
- Онлайн-анализ: При получении запроса компонент Query Analyzer использует Query Term Table в реальном времени для интерпретации значимости каждого термина в его текущем контексте.
RANKING – Ранжирование
- L1 (Retrieval / Отбор кандидатов): Компонент Search Logic использует результаты анализа. Если термин помечен как имеющий little significance, он рассматривается как optional. Это расширяет пул кандидатов (повышает Recall).
- L2/L3 (Scoring / Ранжирование): Компонент Scoring Logic применяет пониженный вес (down weight) к малозначимым терминам при расчете IR Score. Это уточняет релевантность (улучшает Precision).
Входные данные:
- (Офлайн): Query Logs.
- (Онлайн): Поисковый запрос пользователя, Query Term Table.
Выходные данные:
- (Офлайн): Заполненная Query Term Table.
- (Онлайн): Модифицированное представление запроса (с весами и пометками optional), список отранжированных документов.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на длинные запросы (Long queries, более 3-4 слов, как указано в патенте), так как они склонны к избыточной спецификации. Также влияет на запросы с общими модификаторами («информация», «лучший», «бесплатно»).
- Типы контента: Влияет на все типы контента, так как механизм работает на уровне интерпретации запроса.
Когда применяется
- Условия работы (Офлайн): Применяется периодически для анализа логов и обновления Query Term Table.
- Триггеры активации (Онлайн): Активируется при обработке запроса. Логика изменения поиска (optional/down weight) применяется, если контекст термина в запросе соответствует контексту малой значимости в таблице.
- Правило выбора контекста: Система идентифицирует наиболее специфичный контекст (most specific context) в таблице, которому соответствует термин в запросе.
Пошаговый алгоритм
Процесс А: Офлайн-генерация таблицы значимости терминов (Query Term Table)
- Анализ логов запросов: Система анализирует Query Logs.
- Идентификация пар запросов: Выявляются пары запросов, которые идентичны, за исключением одного дополнительного термина (extra term). Собирается большая выборка таких пар.
- Сравнение результатов поиска: Для каждой пары сравниваются SERP. Определяется количество общих результатов.
- Определение общей тенденции: Анализируется вся выборка пар. Определяется, имеет ли большинство (majority) пар много общих или много различных результатов.
- Идентификация общей значимости:
- Если большинство пар имеют много общих результатов: термин идентифицируется как «в целом имеющий малую значимость».
- Если большинство пар имеют много различных результатов: термин идентифицируется как «в целом значимый».
- Идентификация контекстных исключений: Выявляются специфические контексты (соседние слова), в которых общая значимость термина меняется на противоположную.
- Сохранение данных: Термин и его контекстные правила значимости сохраняются в Query Term Table.
Альтернативный метод (упомянут в патенте): Анализ последовательностей запросов. Если пользователи часто вводят запрос с термином, а затем тот же запрос без него (например, >1% случаев), это индикатор малой значимости термина.
Процесс Б: Обработка запроса в реальном времени
- Получение запроса: Система получает поисковый запрос.
- Определение значимости в контексте: Для каждого термина система обращается к Query Term Table, выбирая наиболее специфичный подходящий контекст.
- Выполнение поиска (Document Selection): Термины, определенные как малозначимые в данном контексте, помечаются как optional. Идентифицируются документы, содержащие все значимые термины.
- Взвешивание терминов (Weighting): Малозначимым терминам присваивается пониженный вес, значимым — стандартный вес.
- Скоринг документов (Document Ranking): Рассчитывается IR Score на основе вхождений терминов и их весов. Малозначимые термины вносят меньший вклад в оценку.
- Презентация результатов: Отсортированные документы представляются пользователю.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Query Logs): Основной источник данных для офлайн-анализа. Используются тексты запросов и соответствующие им списки результатов поиска (SERP). Также используются данные о последовательных запросах пользователя (реформулировки).
Какие метрики используются и как они считаются
- Количество общих результатов (Number of search results in common): Метрика схожести SERP. Сравнивается с порогом (threshold). Патент приводит пример порога: не менее 30% общих результатов.
- Частота схожести в выборке (Majority Threshold): Процент пар запросов (например, 50% или большинство), которые должны демонстрировать схожесть/различие, чтобы определить общую значимость термина.
- Частота реформулировок: Процент случаев, когда пользователи удаляют термин из последующего запроса. Патент приводит пример порога: 1%.
- Вес термина (Term Weight): Значение для расчета IR Score. Для малозначимых терминов используется пониженный вес. Патент приводит пример: 1 для значимых терминов и 1/4 (one-fourth) для малозначимых.
Выводы
- Значимость ключевых слов контекстуальна: Ключевой вывод — значимость термина не абсолютна, а зависит от окружающих его слов (context). Слово может быть критически важным в одном запросе и шумом в другом (например, «free» в «sugar free» против «free photos»).
- Определение значимости на основе анализа SERP и поведения: Система определяет важность слова, анализируя, меняет ли оно результаты поиска в Query Logs, и как часто пользователи сами удаляют его при реформулировках.
- Двойной механизм обработки малозначимых слов: Google применяет два метода одновременно:
- Расширение выборки (Optional): Слово становится необязательным при отборе документов (повышение Recall).
- Понижение веса (Down Weight): Вес слова снижается при расчете релевантности (улучшение Precision).
- Малозначимые термины не игнорируются полностью: Они не удаляются как стоп-слова. Их вес больше нуля, поэтому наличие такого термина дает небольшое преимущество документу при прочих равных.
- Приоритет наиболее специфичного контекста: Система всегда выбирает наиболее специфичное правило из Query Term Table, соответствующее текущему запросу.
Практика
Best practices (это мы делаем)
- Фокус на ядре интента (Core Intent Terms): Сосредоточьте оптимизацию на ключевых терминах, которые определяют суть запроса. Убедитесь, что контент максимально релевантен именно этим терминам, так как они получат полный вес при ранжировании.
- Анализ SERP для определения значимости: При исследовании ключевых слов применяйте логику патента вручную. Сравните выдачу по запросу [X Y Z] и [X Y]. Если выдача практически идентична, вероятно, термин Z имеет малую значимость в этом контексте и не является обязательным для таргетинга.
- Семантическое обогащение и Topical Authority: Поскольку малозначимые термины могут быть сделаны optional, важно, чтобы страница была авторитетна по основному интенту. Это повышает шансы попасть в расширенный пул кандидатов по множеству вариаций длинных запросов.
- Оптимизация под естественные формулировки: Используйте естественные фразы в контенте, но понимайте, что система способна выделить главное и отфильтровать шум. Не стоит жертвовать читабельностью ради точного вхождения всех слов из длинного запроса.
Worst practices (это делать не надо)
- Оптимизация под точное вхождение длинных фраз (Exact Match Long-Tail): Создание множества страниц под очень специфичные длинные запросы с большим количеством модификаторов неэффективно. Google может признать модификаторы малозначимыми и ранжировать более общую страницу.
- Keyword Stuffing общими словами: Многократное повторение терминов, которые система может посчитать малозначимыми (например, «лучший», «бесплатно», «информация»), не даст значительного прироста в IR Score, так как их вес будет понижен (down weighted).
- Игнорирование контекста при анализе ключевых слов: Нельзя предполагать, что слово всегда значимо или всегда незначимо. Необходимо учитывать контекст. Например, оптимизация под «Ford автомобиль» может быть избыточной, если система считает слово «автомобиль» малозначимым в контексте «Ford» (пример из патента).
Стратегическое значение
Этот патент является фундаментальным элементом системы понимания запросов Google. Он демонстрирует переход от буквального сопоставления ключевых слов к пониманию значимости этих слов в контексте. Для SEO это означает, что стратегия должна быть направлена на удовлетворение основного интента пользователя, а не на формальное соответствие всем словам в запросе. Успех зависит от способности определить, какие термины Google считает определяющими для данного интента.
Практические примеры
В патенте приводятся конкретные примеры, которые иллюстрируют работу системы.
Сценарий 1: Игнорирование общего модификатора
- Запрос: «killer whale free photos».
- Анализ Google: Система проверяет Query Term Table. Слово «free» обычно малозначимо (контекст (.)) и текущий контекст не является исключением (не совпадает со значимыми контекстами типа (. press) или (sugar .)).
- Действие: «free» помечается как optional и получает пониженный вес (например, 0.25).
- Поиск: Ищутся документы, содержащие «killer whale photos».
- Результат для SEO: Страница, оптимизированная под «killer whale photos», но не содержащая слово «free», может ранжироваться высоко.
Сценарий 2: Учет контекстного исключения
- Запрос: «sugar free soda».
- Анализ Google: Слово «free» обычно малозначимо, НО в данном случае оно соответствует значимому контексту (sugar .).
- Действие: Все термины считаются обязательными и получают стандартный вес (1).
- Поиск: Ищутся документы, содержащие «sugar free soda».
- Результат для SEO: Страница должна обязательно содержать все три термина для максимальной релевантности.
Сценарий 3: Игнорирование термина в специфическом контексте
- Запрос: «ford automobile».
- Анализ Google: Слово «automobile» обычно значимо, НО в данном случае оно соответствует контексту малой значимости (ford .).
- Действие: «automobile» помечается как optional и получает пониженный вес.
- Поиск: Ищутся документы, содержащие «ford».
- Результат для SEO: Страница, релевантная «Ford», будет хорошо ранжироваться, даже если на ней редко употребляется слово «automobile».
Вопросы и ответы
Как система определяет, что термин имеет «малую значимость» (little significance)?
Система определяет это в офлайн-режиме, анализируя Query Logs. Она находит множество пар запросов, отличающихся только одним этим термином. Если поисковые выдачи для запросов в паре в большинстве случаев очень похожи (имеют много общих результатов), то этот термин помечается как имеющий малую значимость. Это означает, что его добавление или удаление не меняет существенно результаты ранжирования.
Является ли этот механизм просто улучшенной версией списка стоп-слов?
Нет, это значительно более сложная система. В отличие от статичных стоп-слов, этот механизм контекстно-зависим. Одно и то же слово может быть признано малозначимым в одном запросе и критически важным в другом. Патент приводит примеры: «free» в «killer whale free photos» (малозначимо) и «free» в «sugar free soda» (значимо).
Что происходит, когда Google определяет термин в запросе как малозначимый?
Применяется два основных механизма. Во-первых, на этапе отбора документов (Retrieval) этот термин рассматривается как необязательный (optional), что позволяет найти документы, которые его не содержат. Во-вторых, на этапе ранжирования (Scoring) вес этого термина понижается (down weighted), и он вносит меньший вклад в итоговый IR Score документа.
Как SEO-специалист может определить, какие слова Google считает малозначимыми в его нише?
Прямого доступа к Query Term Table нет. Однако можно использовать методологию из патента: вручную сравнить SERP для пар запросов, отличающихся одним словом. Если выдача по запросам [Ford] и [Ford автомобиль] практически идентична, слово «автомобиль», вероятно, имеет малую значимость в этом контексте.
Стоит ли включать малозначимые термины в контент и Title?
Да, стоит, если это естественно и полезно для пользователя. Патент указывает, что хотя вес малозначимого термина понижается (например, до 1/4), он все же вносит некоторый вклад в оценку (вес больше нуля). Документ, содержащий этот термин, будет иметь небольшое преимущество перед документом, который его не содержит, при прочих равных условиях.
Как этот патент влияет на продвижение по длинным (long-tail) запросам?
Он оказывает значительное влияние. Длинные запросы часто содержат вспомогательные слова. Система позволяет Google игнорировать эти слова и фокусироваться на ядре интента. Это означает, что страница, хорошо оптимизированная под базовый запрос, может хорошо ранжироваться по множеству его длиннохвостых вариаций, даже если она не содержит всех слов из этих вариаций (Exact Match).
Использует ли Google только сравнение SERP для определения значимости?
В патенте упоминается дополнительный сигнал: анализ последовательных запросов пользователей (реформулировки). Если пользователи часто вводят запрос с термином, а затем сразу же вводят тот же запрос, но уже без этого термина (например, более 1% случаев), это является сильным индикатором того, что термин имеет малую значимость.
Что означает правило «наиболее специфичного контекста»?
Это означает, что если в базе данных (Query Term Table) есть несколько записей для термина, система выберет ту, которая наиболее точно соответствует запросу. Например, если есть правило, что «free» обычно малозначимо, и правило, что «free» в контексте (sugar.) значимо, то для запроса «sugar free drinks» будет применено второе, более специфичное правило.
Как этот механизм связан с BERT или MUM?
Патент описывает более раннюю, основанную на статистике систему контекстного взвешивания. Современные модели, такие как BERT и MUM, выполняют аналогичную задачу — определение важности слов в контексте — но используют для этого сложные нейросетевые архитектуры и механизмы внимания. Описанный механизм можно считать концептуальным предшественником современных NLP-моделей в поиске.
Влияет ли этот механизм на расчет анкорной релевантности или PageRank?
Нет. Патент сфокусирован исключительно на обработке поисковых запросов пользователя (Query Understanding) и расчете релевантности контента документа этим запросам (IR Score). Он не описывает применение этого механизма к анализу анкорных текстов или расчету ссылочных сигналов.