Google использует эту систему для генерации блока «Похожие запросы» (Related Searches). Система анализирует данные пользовательских сессий и контекстные подсказки в веб-контенте, чтобы найти запросы, которые концептуально связаны с исходным, но текстуально отличаются. Ключевым механизмом является валидация этих предложений путем проверки того, что они принадлежат к тем же категориям, что и исходный запрос, часто используя для этого анализ IS-A отношений и лингвистические шаблоны (Hearst patterns).
Описание
Какую задачу решает
Патент решает задачу генерации релевантных уточнений запроса (query refinements), которые выходят за рамки простого автодополнения или расширения исходного запроса. Цель — предоставить пользователю концептуально связанные, но текстуально отличающиеся альтернативы (например, предложить «Марс» в ответ на запрос «Юпитер»). Это помогает пользователям исследовать тему шире или скорректировать поиск, если исходный запрос был неточным или слишком общим.
Что запатентовано
Запатентована система генерации уточнений запросов (например, для блока «Похожие запросы»). Она использует комбинацию методов для поиска кандидатов: анализ контекстуальной близости терминов в обучающих данных, анализ совместной встречаемости запросов в рамках одной поисковой сессии (Session Data) и идентификацию «сестринских» запросов (Sibling Queries). Ядром изобретения является механизм валидации: оценка кандидата корректируется на основе количества общих категорий с исходным запросом. Категории определяются с помощью анализа отношений IS-A, часто извлекаемых из текста с помощью шаблонов Херста (Hearst patterns).
Как это работает
Система работает следующим образом:
- Анализ запроса: Исходный запрос анализируется, чтобы определить, представляет ли он единую концепцию.
- Генерация Кандидатов: Используются различные источники: логи сессий (запросы, следующие за исходным), веб-корпус (термины с похожим левым и правым контекстом), и анализ «сестринских» запросов (запросы с общим «родителем»).
- Категоризация: Для исходного запроса и кандидатов определяются категории, часто с использованием Hearst patterns (например, «Фрукты, такие как Яблоко»).
- Оценка и Валидация: Кандидаты получают начальные оценки. Эти оценки корректируются в зависимости от количества общих категорий с исходным запросом.
- Фильтрация: Применяются фильтры, например, проверка на «родительский» характер запроса (parent-like), и удаляются текстуально похожие запросы.
Актуальность для SEO
Высокая. «Похожие запросы» (Related Searches) являются стандартным и важным элементом поисковой выдачи, направляющим пользователей в исследовании тем. Описанные в патенте методы — анализ сессий, контекстуальное понимание и категоризация сущностей — являются фундаментальными для современного информационного поиска и систем понимания запросов (Query Understanding).
Важность для SEO
Патент имеет высокое значение для SEO (75/100). Он не описывает ранжирование документов, но раскрывает механизмы, с помощью которых Google строит связи между различными запросами и темами. Это напрямую влияет на стратегию построения контента и развитие тематического авторитета (Topical Authority). Понимание того, как Google использует данные сессий, контекст и особенно Hearst patterns для категоризации, критически важно для охвата смежных тем и оптимизации под поисковые намерения пользователя.
Детальный разбор
Термины и определения
- Candidate Refinement Query (Кандидат на уточнение запроса)
- Запрос, сгенерированный системой как потенциально связанный с исходным запросом.
- Context (Left/Right) (Левый/Правый контекст)
- N-граммы, которые непосредственно предшествуют (левый) или следуют (правый) за термином в обучающих данных. Используются для поиска контекстуально похожих терминов.
- Core Word / Core Term (Основное слово)
- Слово в запросе или контексте, которое не является стоп-словом (stop word) и несет основную смысловую нагрузку.
- Correlation Value (Значение корреляции)
- Метрика для оценки связи между запросами в рамках одной сессии. Может рассчитываться как отношение вероятности появления уточнения R после запроса Q (P(R|Q)) к общей вероятности появления R (P(R)).
- Hearst Patterns (Шаблоны Херста)
- Лексико-синтаксические шаблоны, используемые для автоматического извлечения отношений типа IS-A из текста (например, «B such as A», «A and other B»). Используются для определения категорий.
- Parent-like Query (Запрос родительского типа)
- Запрос, который семантически представляет собой группу или категорию (например, «теннисист»). Определяется путем проверки частотности модифицированного запроса (например, «list of tennis players»).
- Session Data (Данные сессии)
- Анонимизированные логи запросов, сгруппированные по поисковым сессиям пользователя.
- Sibling Queries (Сестринские/Братские запросы)
- Запросы, которые имеют один или несколько общих родительских запросов (Parent Queries). Если пользователи ищут X->A и X->B, то A и B являются сестринскими.
- Training Data (Обучающие данные)
- Корпус документов (веб-страницы, логи запросов, словари и т.д.), используемый для анализа контекста и извлечения категорий.
Ключевые утверждения (Анализ Claims)
Патент содержит несколько независимых пунктов (например, 1 и 13), описывающих разные комбинации методов генерации кандидатов, но объединенных обязательным использованием категоризации для валидации.
Claim 1 (Независимый пункт): Описывает метод, основанный на контекстуальной схожести и категоризации.
- Система получает поисковый запрос.
- Выбираются кандидаты: отбор терминов из Training Data, у которых левый и правый контекст пересекается (хотя бы по одному слову) с контекстом исходного запроса.
- Определяются категории для исходного запроса.
- Определяются категории для каждого кандидата.
- Определяется первая оценка (first score). Ключевой момент: оценка корректируется на основе количества общих категорий между кандидатом и исходным запросом.
- Идентифицируются итоговые уточнения запроса на основе этих оценок.
Claim 13 (Независимый пункт): Описывает комбинированный метод, использующий данные сессий И контекстуальную схожесть.
- Система получает поисковый запрос.
- Выбираются кандидаты двумя способами:
- Выбор запросов из той же сессии, которые следовали за исходным запросом.
- Выбор терминов из Training Data на основе пересечения контекста (как в Claim 1).
- Определяются категории для исходного запроса и кандидатов.
- Определяется first score, скорректированная на основе количества общих категорий.
- Идентифицируются итоговые уточнения запроса.
Ключевые зависимые пункты (Детализация механизмов):
Метод категоризации (Claims 10, 21): Категории определяются путем анализа частоты встречаемости термина в Hearst patterns с меткой категории в Training Data.
Фильтр «Parent-like» (Claims 11, 12, 22, 23): Система может определить, является ли запрос parent-like (если модифицированный запрос, например, «list of [запрос]», частотен). Если исходный запрос parent-like, то и уточнения выбираются только из числа parent-like запросов.
Текстуальное различие (Claims 6, 9, 17, 20): Уточняется, что кандидаты (особенно из сессий или сиблинги) не должны содержать Core Words исходного запроса и не должны быть его надстройками. Это гарантирует текстуальное разнообразие.
Оценка схожести (Claims 4, 7, 16, 18): Оценка может базироваться на скалярном произведении (dot product) векторов признаков (для контекста) или на Correlation Value (для сессий).
Где и как применяется
Изобретение применяется для генерации блока «Похожие запросы» (Related Searches) и затрагивает несколько этапов поиска.
INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит предварительная обработка данных:
- Обработка Training Data для построения контекстуальных моделей (Left/Right Context).
- Извлечение отношений IS-A и категоризация терминов с использованием Hearst patterns.
- Анализ Session Data для выявления корреляций, определения Sibling Queries и расчета Parent-like метрик.
QUNDERSTANDING – Понимание Запросов
Основной этап применения. При получении запроса система анализирует его (сегментация, определение концепции, категории, типа Parent-like) и генерирует кандидатов на уточнение, используя предвычисленные данные.
METASEARCH – Метапоиск и Смешивание (SERP Features)
На этапе формирования SERP система финализирует список уточнений: проводит валидацию путем сравнения категорий, применяет фильтры, ранжирует лучших кандидатов и включает их в выдачу.
Входные данные:
- Исходный поисковый запрос.
- Предвычисленные данные о категориях и контекстах.
- Модели на основе Session Data (корреляции, сиблинги).
Выходные данные:
- Список отсортированных и отфильтрованных уточнений запроса (Query Refinements).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователь изучает тему. Система помогает перейти от одной концепции или сущности к другой в той же категории.
- Типы контента: Влияет на понимание связей между различными темами, что косвенно влияет на оценку Topical Authority контента, покрывающего смежные области.
Когда применяется
- Условие активации: Согласно описанию (FIG. 4), этот конкретный процесс активируется, когда система определяет, что входящий запрос (все его n-граммы) представляет собой единую концепцию (например, «new york city», а не «cheap new york restaurants»).
- Наличие данных: Применяется, когда доступно достаточно данных из логов сессий и анализа контекста для генерации надежных кандидатов и их категоризации.
Пошаговый алгоритм
Процесс генерации уточнений запроса:
- Сегментация запроса: Полученный поисковый запрос делится на одну или несколько n-грамм.
- Валидация концепции: Система определяет, представляет ли каждая из n-грамм одну и ту же концепцию. Процесс продолжается, если концепция одна.
- Генерация кандидатов (Параллельные процессы):
- Метод А (Контекстная схожесть): Поиск терминов в Training Data, которые имеют схожий левый и правый контекст с исходным запросом.
- Метод Б (Сессионная совместная встречаемость): Идентификация запросов в Session Data, которые были отправлены в той же сессии после исходного запроса. Фильтруются текстуально похожие кандидаты.
- Метод В (Сестринские запросы): Идентификация Sibling Queries, которые разделяют общий Parent Query с исходным запросом.
- Начальная оценка (Initial Scoring): Расчет оценок для кандидатов (например, скалярное произведение векторов для Метода А; Correlation Value для Метода Б).
- Комбинирование оценок: Начальные оценки от разных методов комбинируются (например, взвешенная линейная комбинация).
- Категоризация: Определение категорий для исходного запроса и всех кандидатов (используя данные, извлеченные через Hearst patterns).
- Корректировка оценки (Score Adjustment): Комбинированная оценка корректируется в зависимости от количества общих категорий между кандидатом и исходным запросом.
- Фильтрация: Применение фильтров. Например, фильтр Parent-like: если исходный запрос является «родительским», то и уточнения должны быть «родительскими».
- Выбор и Ранжирование: Выбор топовых кандидатов на основе скорректированных оценок в качестве финальных уточнений запроса.
Какие данные и как использует
Данные на входе
- Контентные/Текстовые факторы (Training Data):
- Левый и Правый Контекст: Окружение терминов в корпусе документов используется для поиска контекстуально похожих слов. Система фокусируется на Core Words, игнорируя стоп-слова.
- Шаблоны Херста (Hearst Patterns): Наличие этих структур в тексте корпуса используется для извлечения отношений IS-A и категоризации.
- Поведенческие факторы (Session Data):
- Последовательности запросов: Используются для определения совместной встречаемости и выявления родительских/сестринских отношений.
- Частота отправки запросов: Используется для расчета вероятностей и для определения «родительского» характера запроса (Parent-like Query).
Какие метрики используются и как они считаются
- Скалярное произведение векторов признаков (Dot Product): Используется для расчета оценки контекстуальной схожести между запросом и кандидатом.
- Correlation Value: Метрика для оценки сессионной связи. Формула: P(R|Q) / P(R).
- Сила связи (Strength of Relationship): Используется для оценки связи между сестринскими запросами на основе их общей связи с родительским запросом.
- Частота встречаемости в Hearst Patterns: Используется для определения вероятности принадлежности термина к определенной категории.
- Parent-like Метрика: Определяется частотой отправки модифицированного запроса (например, «list of [query]»).
- Combined Score (Комбинированная оценка): Сводная оценка, которая агрегирует начальные оценки и корректируется на количество общих категорий.
Выводы
- Мультимодальный подход к определению связей: Google использует несколько независимых источников данных для генерации связанных запросов: анализ поведения пользователей (сессии, сиблинги) и анализ контента (контекстуальная близость).
- Категоризация как обязательный валидатор релевантности: Ключевым механизмом патента является использование общих категорий для подтверждения релевантности кандидата. Недостаточно, чтобы запросы встречались рядом в сессиях; они должны принадлежать к тем же концептуальным категориям.
- Использование Hearst Patterns для извлечения знаний: Патент явно указывает на использование Hearst patterns для определения отношений IS-A и построения системы категоризации из неструктурированного текста.
- Фокус на концептуальной связи, а не текстуальной: Система намеренно фильтрует кандидатов, которые текстуально похожи на исходный запрос (являются его расширениями), чтобы предложить концептуально связанные, но разные направления поиска.
- Идентификация типа запроса (Parent-like): Google классифицирует запросы по их иерархическому уровню (категория против экземпляра) и использует это для фильтрации уточнений, стремясь сохранить уровень абстракции (предлагать категории для категорий).
Практика
Best practices (это мы делаем)
- Явное определение категорий с помощью Hearst Patterns: Активно используйте в контенте структуры, которые помогают Google установить отношения IS-A. Например: «Фрукты (B), такие как яблоки (A) и апельсины (A)…», «…яблоки (A) и другие фрукты (B)…». Это помогает системе правильно категоризировать ваши сущности и темы.
- Построение Topical Authority через охват сестринских тем: Определите ключевые темы и их Sibling Queries (темы того же уровня иерархии). Полное покрытие этих тем укрепит авторитет сайта в категории и повысит вероятность его появления в связанных запросах. Если вы пишете о Юпитере, покройте также Марс и Венеру.
- Оптимизация под поисковые цепочки (User Journey): Анализируйте, какие запросы пользователи вводят до и после вашего целевого запроса (данные сессий). Создавайте контент и структуру перелинковки, которые поддерживают этот естественный путь исследования темы.
- Усиление контекстуальных сигналов: Обращайте внимание на левый и правый контекст ваших основных терминов. Убедитесь, что окружающий контент соответствует контексту, в котором эти термины используются авторитетными источниками в вашей нише.
Worst practices (это делать не надо)
- Изолированная оптимизация под ключевые слова: Создание контента под узкий запрос без учета связанных тем, категорий и сестринских концепций. Это снижает способность контента быть связанным с другими запросами.
- Неоднозначная категоризация контента: Контент, который сложно категоризировать из-за смешения тем или отсутствия четкой структуры (игнорирование IS-A отношений), будет хуже обрабатываться системой.
- Игнорирование уровня абстракции (Parent-like): Оптимизация страницы под широкий запрос (parent-like, например, категория) как под конкретную сущность, или наоборот. Контент должен соответствовать типу запроса.
Стратегическое значение
Этот патент подтверждает стратегическую важность перехода от оптимизации под ключевые слова к оптимизации под темы, концепции и их взаимосвязи. Он детально описывает, как Google строит карту тем, используя как поведенческие данные (сессии), так и глубокий семантический анализ контента (контекст, категоризация через Hearst patterns). Для успеха в SEO необходимо понимать эту экосистему и строить контент-стратегию, направленную на создание четких семантических структур и полное покрытие тематических кластеров.
Практические примеры
Сценарий: Оптимизация статьи о породе собак (например, «Бигль») для улучшения категоризации и связей.
- Анализ запроса: «Бигль» — это единая концепция. Это не parent-like запрос.
- Применение Hearst Patterns: В тексте статьи необходимо использовать явные указания на категории.
- Вместо: «Бигль — это популярная собака.»
- Лучше (IS-A): «Бигль — это порода гончих собак (hounds), известная своим…»
- Дополнительно (шаблон «B including A»): «Группа гончих включает такие породы, как бигль, бассет-хаунд и бладхаунд.»
- Покрытие сестринских тем (Siblings): Создание качественного контента о «Бассет-хаунд» и «Бладхаунд» и их связывание через общий хаб «Гончие собаки» (Parent).
- Ожидаемый результат: Google более точно категоризирует «Бигль» как «Гончая собака». При поиске «Бигль» система с большей вероятностью предложит уточнения, связанные с другими гончими (сиблингами), так как у них есть общие категории. Сайт укрепит авторитет в этой тематике.
Вопросы и ответы
Какие основные источники данных использует Google для генерации «Похожих запросов» согласно этому патенту?
Google использует три основных механизма генерации. Первый — Session Data (логи сессий), чтобы увидеть, какие запросы пользователи вводят сразу после исходного. Второй — Контекстуальный анализ Training Data (веб-корпуса), чтобы найти термины, используемые в похожем левом и правом контексте. Третий — анализ Sibling Queries, чтобы найти запросы с общим «родителем» в сессиях.
Что такое Hearst Patterns и почему они важны для SEO?
Hearst Patterns — это лингвистические шаблоны (например, «X, такие как Y», «Y и другие X»), которые используются для автоматического извлечения отношений типа IS-A из текста. В патенте они указаны как механизм для определения категорий запросов. Для SEO это важно, так как использование этих шаблонов в контенте помогает Google точно классифицировать ваши сущности и темы, что критично для валидации связей между запросами.
Насколько важна категоризация в этом патенте?
Категоризация является центральным элементом валидации. Независимо от того, как был сгенерирован кандидат (через сессии, контекст или сестринские связи), его итоговая оценка корректируется на основе количества общих категорий с исходным запросом. Это гарантирует, что предложенные уточнения будут тематически и концептуально релевантны.
Что такое «Сестринские запросы» (Sibling Queries)?
Сестринские запросы — это запросы, которые имеют общий «родительский» запрос в данных сессий. Например, если пользователи часто ищут «Планеты» (родитель), а затем «Юпитер», и также часто ищут «Планеты», а затем «Марс», то «Юпитер» и «Марс» считаются сестринскими. Покрытие сестринских тем на сайте является важной стратегией для построения Topical Authority.
Что означает термин «Parent-like Query» (Запрос родительского типа)?
Это запрос, который сам по себе является категорией или группой, а не отдельной сущностью. Система определяет это, проверяя частотность модифицированного запроса, например, «list of [запрос]». Запрос «теннисист» является parent-like, а «Роджер Федерер» — нет. Этот фильтр используется для того, чтобы для запросов-категорий предлагать другие категории, сохраняя уровень абстракции.
Насколько важно, чтобы предлагаемое уточнение текстуально отличалось от исходного запроса?
Это одно из ключевых требований. Патент описывает механизмы фильтрации, которые удаляют кандидатов, содержащих основные термины (Core Words) исходного запроса или являющихся его расширением. Цель системы — предложить альтернативные пути поиска, а не просто вариации исходного запроса.
Применяется ли этот алгоритм ко всем запросам?
Нет. В патенте указано предварительное условие: система должна определить, что запрос представляет собой единую концепцию (все n-граммы относятся к одному понятию). Если запрос сложный и состоит из нескольких разных концепций (например, «дешевые рестораны в Нью-Йорке»), этот конкретный механизм может не активироваться.
Какое значение имеет анализ контекста (Left/Right Context) для SEO?
Это означает, что окружение ваших ключевых слов имеет значение для установления связей. Система ищет термины со схожим контекстом использования в вебе. SEO-специалистам следует следить за тем, чтобы контекст, в котором они используют ключевые термины, соответствовал авторитетному употреблению в их тематике, усиливая семантические связи.
Как этот патент связан с Topical Authority?
Патент предоставляет техническую основу для понимания того, как Google строит карту тем и связей между ними. Построение Topical Authority требует покрытия не только основного запроса, но и связанных с ним тем, идентифицированных через анализ сессий (Sibling Queries), контекста и общих категорий. Покрывая эти связанные темы, сайт демонстрирует свою экспертизу в данной области.
Как SEO-специалисту применить знания о parent-like запросах на практике?
Необходимо анализировать целевые запросы, чтобы понять, являются ли они категориями или сущностями. Если запрос является parent-like (например, «лучшие CRM системы»), контент должен соответствовать интенту обзора категории — предоставлять списки, сравнения, классификации. Попытка оптимизировать под такой запрос страницу конкретного продукта может быть менее эффективной.