Google использует механизм для помощи в уточнении широких или неоднозначных запросов. Система анализирует текст документов, попавших в топ выдачи по исходному запросу, и вычисляет частоту встречаемости терминов (Occurrence Count). Наиболее частые или статистически значимые термины предлагаются пользователю как опции (включить/исключить/повысить/понизить) для автоматического переформулирования запроса.
Описание
Какую задачу решает
Патент решает проблему неэффективности и сложности ручного уточнения поисковых запросов. Пользователи часто вводят короткие или неоднозначные запросы, получая смешанную выдачу, включающую как релевантные (intended resources), так и нерелевантные (unintended resources) документы. Необходимость итеративного уточнения запроса вручную увеличивает время поиска и требует знания поисковых операторов. Изобретение автоматизирует этот процесс.
Что запатентовано
Запатентована система автоматического переформулирования запросов на основе анализа контента первичных результатов поиска. Система вычисляет Occurrence Count (частоту встречаемости) терминов внутри документов, попавших в выдачу. Наиболее частые или статистически значимые термины предлагаются пользователю в качестве опций для уточнения (повысить, понизить, включить, исключить). При выборе опции запрос автоматически переформулируется.
Как это работает
Механизм работает следующим образом:
- Анализ результатов: После выполнения исходного запроса система анализирует контент топовых результатов (например, Топ-N). Этот анализ может выполняться как на стороне сервера, так и на стороне клиента.
- Вычисление Occurrence Count: Подсчитывается частота встречаемости различных терминов в этом наборе документов.
- Ранжирование терминов: Термины ранжируются либо по сырой частоте, либо по степени отклонения их частоты от общеязыковой нормы (Global Occurrence Frequency).
- Интерфейс уточнения: Пользователю показываются топовые термины с элементами управления (Promotion Criteria, Demotion Criteria).
- Автоматическое переформулирование: При выборе пользователем элемента управления система автоматически модифицирует исходный запрос (например, добавляя операторы + или -) и выполняет его повторно.
Актуальность для SEO
Высокая. Уточнение запросов является критически важной частью современного поиска, особенно в условиях коротких и неоднозначных запросов (мобильный, голосовой поиск). Механизмы, позволяющие пользователю быстро сузить область поиска (например, фильтры в SERP, refinement bubbles), активно используются и развиваются Google. Базовая концепция использования анализа результатов для генерации уточнений крайне актуальна.
Важность для SEO
Патент имеет умеренное влияние на SEO (6.5/10). Он не описывает алгоритм ранжирования, но демонстрирует, как Google использует контент топовых страниц для генерации путей уточнения запроса. Терминология, используемая на странице, определяет, как пользователи смогут уточнить свой интент. Это подчеркивает важность использования четких, специфичных для тематики и статистически значимых (discriminatory terms) терминов в контенте.
Детальный разбор
Термины и определения
- Occurrence Count (Подсчет встречаемости)
- Метрика, определяющая, сколько раз конкретный термин встречается в наборе документов (например, в результатах поиска по исходному запросу). Может вычисляться для всех результатов или их подмножества (Топ-N).
- Result Terms (Термины результатов)
- Термины, извлеченные непосредственно из контента ресурсов, которые поисковая система определила как релевантные исходному запросу.
- Global Occurrence Count (Глобальный подсчет встречаемости)
- База данных, хранящая общее количество вхождений термина во всех проиндексированных ресурсах определенного языка.
- Global Occurrence Frequency (Глобальная частота встречаемости)
- Частота, с которой термин обычно встречается в языке (рассчитывается на основе Global Occurrence Count).
- Promotion Criteria (Критерии повышения)
- Действия пользователя, направленные на повышение термина в переформулированном запросе. Включают Promote (повысить вес) и Require (сделать обязательным).
- Demotion Criteria (Критерии понижения)
- Действия пользователя, направленные на понижение термина в переформулированном запросе. Включают Demote (понизить вес) и Exclude (исключить).
- Deviation Analysis (Анализ отклонений)
- Метод ранжирования терминов для переформулирования, основанный на сравнении локальной частоты термина (в текущих результатах) с его Global Occurrence Frequency. Термины с большим положительным отклонением считаются более значимыми.
Ключевые утверждения (Анализ Claims)
Патент US9110993B1 является продолжением (continuation) более ранней заявки. Claims в этом конкретном документе сфокусированы на реализации, где вычисления производит клиентское устройство (Client-side processing).
Claim 1 (Независимый пункт): Описывает метод, выполняемый клиентским устройством.
- Клиент отправляет поисковый запрос поисковой системе.
- Клиент получает от поисковой системы данные, идентифицирующие релевантные ресурсы.
- Клиент получает (загружает) подмножество (subset) этих идентифицированных ресурсов.
- Клиент определяет, сколько раз каждый термин встречается в этом полученном подмножестве (вычисляет Occurrence Count локально).
- Клиент передает этот Occurrence Count поисковой системе.
- Клиент получает от поисковой системы код, который реализует элементы управления для автоматического переформулирования запроса на основе часто встречающихся терминов из этого Occurrence Count.
Claim 5, 12 (Зависимые): Уточняют, что подмножество ресурсов для анализа может включать только те ресурсы, которые видны (visible) в данный момент на пользовательском интерфейсе.
Описание (Description): Важно понимать контекст. Хотя Claims этого патента защищают клиентскую реализацию, в описании патента также детально рассматривается реализация на стороне сервера. Кроме того, в описании упоминается критически важный механизм ранжирования терминов на основе отклонения от Global Occurrence Frequency (Deviation Analysis).
Где и как применяется
Изобретение применяется на стыке нескольких этапов поиска для улучшения пользовательского опыта и точности выдачи.
INDEXING – Индексирование и извлечение признаков
На этом этапе система рассчитывает и обновляет Global Occurrence Count — статистику частотности терминов по всему корпусу проиндексированных документов.
RANKING – Ранжирование
Система генерирует первичный набор результатов для исходного запроса. Контент этих результатов является основой для работы алгоритма.
RERANKING / METASEARCH (Пост-обработка результатов)
Основное применение патента. После формирования первичного набора результатов активируется механизм анализа контента.
- Анализ контента: Система анализирует текст (сниппеты или полный контент) топовых результатов.
- Вычисление: Подсчитывается частота терминов. В зависимости от реализации, это делает либо поисковая система (Server-side), либо клиентское устройство (Client-side, согласно Claim 1).
- Генерация интерфейса: Система генерирует элементы интерфейса (чекбоксы, «tag cloud», кнопки) для наиболее значимых терминов.
QUNDERSTANDING – Понимание Запросов (Уточнение)
Система помогает пользователю уточнить интент, преобразуя взаимодействие с интерфейсом в новый, переформулированный запрос.
На что влияет
- Специфические запросы: Наибольшее влияние на широкие, неоднозначные (ambiguous) информационные и коммерческие запросы, где требуется уточнение интента (например, запрос «delta» может означать авиакомпанию, сантехнику или сорорити; «jordan» — страну или человека).
- Конкретные типы контента: Влияет на все типы контента. Система извлекает термины из любых текстовых ресурсов, попавших в топ.
Когда применяется
- Условия применения: Алгоритм применяется после выполнения исходного поискового запроса.
- Триггеры активации: В патенте описаны варианты, когда анализ запускается автоматически, а также вариант, когда он запускается по явному запросу пользователя (например, нажатие кнопки «Refine»).
- Ограничения: Для работы механизма необходимо наличие достаточного количества текста в результатах поиска для статистического анализа.
Пошаговый алгоритм
Ниже приведен обобщенный алгоритм, учитывающий варианты реализации (серверный и клиентский).
- Получение и выполнение запроса: Система получает исходный запрос и идентифицирует первичный набор релевантных ресурсов.
- Выборка ресурсов для анализа: Определяется подмножество ресурсов для анализа (например, Топ-N результатов или только видимые на экране результаты).
- Получение контента: Система (Клиент или Сервер) получает доступ к контенту выбранных ресурсов (текст или сниппеты).
- Вычисление Occurrence Count: Для каждого термина в выборке подсчитывается частота его встречаемости.
- Фильтрация терминов: Удаляются стоп-слова (Stop Words) и другие неинформативные термины.
- Ранжирование терминов: Оставшиеся термины ранжируются. Патент предлагает два основных метода:
- По сырой частоте встречаемости в выборке.
- По степени отклонения (Deviation) частоты в выборке от Global Occurrence Frequency (статистическая значимость).
- Выбор топовых терминов: Отбираются K наиболее высоко ранжированных терминов.
- Генерация интерфейса уточнения: Отобранные термины представляются пользователю вместе с элементами управления (Exclude, Demote, Promote, Require).
- Обработка выбора пользователя: Система получает сигнал о выборе пользователем элемента управления для конкретного термина.
- Автоматическое переформулирование: Исходный запрос автоматически модифицируется в соответствии с выбранными критериями (например, добавлением операторов включения/исключения).
- Выполнение переформулированного запроса: Система выполняет новый запрос и предоставляет уточненные результаты.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе контента результатов поиска.
- Контентные факторы: Основной источник данных — это текст ресурсов (веб-страниц), идентифицированных как релевантные исходному запросу. Анализируется весь доступный текст или его фрагменты (сниппеты) для извлечения терминов и подсчета их частоты.
- Системные данные:
- Global Occurrence Count / Global Occurrence Frequency: Статистика использования терминов в языке в целом.
- База данных стоп-слов (Filtered terms).
Какие метрики используются и как они считаются
Система использует статистический анализ текста для вычисления следующих метрик:
- Occurrence Count (Локальная частота): Прямой подсчет количества вхождений термина в анализируемом подмножестве результатов.
- Global Occurrence Frequency (Глобальная частота): Предварительно рассчитанная метрика, показывающая, как часто термин встречается во всем индексе.
- Deviation (Отклонение / Статистическая значимость): Ключевая метрика для ранжирования терминов. Рассчитывается как степень отклонения локальной частоты от глобальной. Термины, которые встречаются в результатах значительно чаще, чем в среднем по интернету, считаются более значимыми (дискриминирующими) для уточнения запроса.
Выводы
- Уточнение запроса основано на контенте SERP, а не только на логах запросов: Ключевое отличие от стандартных систем «Related Searches». Система предлагает уточнения, анализируя текст документов, которые УЖЕ ранжируются по запросу, а не то, что другие пользователи искали раньше.
- Важность статистической значимости (Deviation Analysis): Патент подчеркивает, что предпочтительным методом выбора терминов является не сырая частота, а отклонение от нормы (Global Occurrence Frequency). Система ищет термины, которые являются специфичными и дискриминирующими для данной выдачи.
- Терминология топовых страниц определяет пути уточнения: Контент страниц, находящихся в топе, напрямую влияет на то, какие опции для уточнения получит пользователь. Если топовые страницы используют определенную терминологию, именно она будет предложена для дальнейшей навигации.
- Гибкость реализации (Client-side vs Server-side): Патент предусматривает выполнение вычислений как на сервере, так и на клиенте. При этом Claims данного патента защищают именно клиентскую реализацию.
- Интерактивное уточнение интента: Система предоставляет пользователю инструмент для быстрого сужения поиска через интерфейсные элементы, избавляя от необходимости знать синтаксис поисковых операторов.
Практика
Best practices (это мы делаем)
- Использование специфичной и дискриминирующей терминологии: Насыщайте контент терминами, которые являются статистически значимыми для вашей тематики (имеют потенциал для высокого Deviation). Это не общие слова, а термины, которые четко определяют тему. Это увеличивает вероятность того, что система выделит эти термины как ключевые для данного тематического кластера.
- Анализ терминологии конкурентов в Топ-N: Изучайте, какие ключевые концепции и термины используют страницы, ранжирующиеся в топе. Поскольку Occurrence Count рассчитывается на основе этих страниц, их контент определяет предлагаемые уточнения. Ваша страница должна соответствовать этому терминологическому полю.
- Анализ предложенных уточнений в SERP: Изучайте, какие уточнения (refinements/filters) Google предлагает по вашим целевым широким запросам. Это индикатор того, какие термины система считает важными на основе анализа контента в топе.
- Оптимизация под кластеры запросов (Интент): При работе с широкими запросами убедитесь, что ваш контент четко позиционируется под один из возможных интентов. Если запрос «Jordan», а ваша страница о баскетболе, используйте термины «NBA», «basketball», «Michael», чтобы система могла идентифицировать этот кластер и предложить соответствующие уточнения.
Worst practices (это делать не надо)
- Использование неоднозначной или слишком общей лексики: Если контент состоит из общих слов с высокой Global Occurrence Frequency, система не выявит значимых отклонений и не сможет определить специфику вашего контента в контексте выдачи.
- Искусственное завышение частоты (Keyword Stuffing): Попытки манипулировать Occurrence Count путем спама неэффективны, так как система может использовать Deviation Analysis для выявления неестественного распределения терминов (помимо других антиспам алгоритмов).
- Тонкий контент (Thin Content): Страницы с малым количеством текста не предоставят достаточно данных для статистического анализа и вычисления Occurrence Count.
Стратегическое значение
Патент подтверждает, что Google использует статистический анализ контента для понимания тематического ландшафта выдачи. Для SEO это означает, что стратегия должна фокусироваться не только на попадании в первичную выдачу, но и на том, чтобы контент страницы содержал четкие сигналы (термины), позволяющие классифицировать его в рамках определенного интента. Долгосрочная стратегия требует построения Topical Authority через использование точной, авторитетной и полной терминологии в рамках своей ниши.
Практические примеры
Сценарий: Оптимизация страницы под широкий запрос «Vector»
- Задача: Продвинуть страницу компании, продающей ПО для управления проектами «Vector». Запрос неоднозначный (векторная графика, биологический вектор, ПО).
- Анализ (Действия SEO): Изучить текущую Топ-10 выдачу по запросу «Vector». Определить основные интенты и терминологию лидеров.
- Применение (На основе патента): Необходимо убедиться, что на странице часто и естественно используются термины, которые имеют высокое отклонение (Deviation) именно для тематики ПО: «software», «project management», «task tracking», «agile».
- Ожидаемый результат: Когда пользователь вводит «Vector», Google анализирует Топ-10. Система видит высокую частоту терминов, связанных с ПО, и терминов, связанных с графикой («SVG», «Illustrator»). Она предлагает пользователю элементы управления: Require: «Software», Require: «Graphics». Пользователь выбирает «Software», и наша страница остается в уточненной выдаче по запросу «Vector +software».
Вопросы и ответы
Чем этот механизм отличается от блока «Связанные запросы» (Related Searches)?
Ключевое отличие в источнике данных. «Связанные запросы» обычно генерируются на основе логов поиска (что другие пользователи искали в рамках сессии) и анализа поведения. Описанный в патенте механизм генерирует уточнения (Result Terms), анализируя непосредственно контент страниц, которые попали в текущую выдачу (Occurrence Count). Это анализ результатов, а не истории запросов.
Что такое «Анализ отклонений» (Deviation Analysis) и почему он важен для SEO?
Это сравнение частоты термина в текущей выдаче с его обычной частотой в интернете (Global Occurrence Frequency). Если термин встречается значительно чаще нормы, он считается статистически значимым для этой темы. Для SEO это означает, что нужно фокусироваться на использовании специфичных, дискриминирующих терминов вашей ниши, а не только на высокочастотных общих словах.
Как я могу повлиять на то, какие термины Google предложит для уточнения моего запроса?
Вы влияете на это через контент вашей страницы. Система извлекает термины из страниц, попавших в Топ. Чтобы Google предложил нужные вам уточнения, ваша страница должна (А) попасть в первичную выдачу и (Б) содержать высокую концентрацию этих специфичных терминов, желательно с положительным отклонением от их глобальной частоты.
Патент описывает выполнение расчетов на стороне клиента (Client-side). Значит ли это, что Google использует именно этот метод?
Не обязательно. Claim 1 этого конкретного патента (US9110993B1) защищает именно клиентскую реализацию. Однако в описании патента также детально описана серверная реализация (Server-side). Более вероятно, что Google преимущественно использует серверные вычисления для обеспечения максимальной скорости ответа пользователю.
Влияет ли этот патент напрямую на ранжирование?
Нет, этот патент не описывает алгоритмы ранжирования. Он описывает механизм анализа выдачи после того, как ранжирование уже произошло, с целью помочь пользователю уточнить свой следующий запрос. Прямого влияния на позиции сайта по исходному запросу он не оказывает.
Как использование сниппетов вместо полного контента влияет на работу алгоритма?
Если система анализирует только сниппеты (как один из вариантов в патенте), это ускоряет процесс, но может снизить точность Occurrence Count. В этом случае критически важно, чтобы самые значимые и дискриминирующие термины попадали в те части текста, которые Google использует для формирования сниппетов (заголовки, начало абзацев).
Что означают элементы управления Promote, Demote, Require, Exclude?
Это интерфейсные опции для пользователя. Require и Exclude — это жесткие фильтры (документ обязан содержать или не содержать термин), часто реализуемые через операторы + и -. Promote и Demote — это мягкие модификаторы ранжирования, которые повышают или понижают вес термина при расчете релевантности в переформулированном запросе.
На какие типы запросов этот механизм влияет больше всего?
Он оказывает наибольшее влияние на широкие (head terms) и неоднозначные запросы. Например, по запросу «Apple» система проанализирует топ выдачи и предложит уточнения вроде «iPhone», «Macbook» или «Fruit», основываясь на том, какие термины доминируют в найденных документах.
Анализируются ли все результаты поиска или только первая страница?
Патент допускает гибкость. Система может анализировать все найденные ресурсы, но для эффективности чаще используется подмножество: например, Топ-N результатов или, как указано в Claims 5 и 12, только те результаты, которые в данный момент видны на экране пользователя (visible resources).
Как этот патент связан с NLP и семантическим поиском?
Этот патент описывает статистический анализ текста (подсчет частот и отклонений), который является базовым элементом NLP. Хотя он не использует сложные нейросетевые модели (вроде BERT), он служит той же цели — понять тематику контента, выявить ключевые концепции и помочь пользователю точнее сформулировать свой информационный запрос.