Google автоматически генерирует обучающие данные для систем семантического парсинга, анализируя логи запросов и клики пользователей. Система находит запросы с одинаковым интентом, определяя, что пользователи, вводящие разные запросы, в итоге кликают на одни и те же ресурсы. Это позволяет масштабировать понимание естественного языка и точнее определять намерения пользователей.
Описание
Какую задачу решает
Патент решает проблему трудоемкости и дороговизны ручного создания обучающих примеров (training examples) для систем семантического парсинга (semantic parsing). Эти системы необходимы для понимания интента естественных запросов (например, запросов на получение знаний или выполнение действий). Патент предлагает метод автоматизации сбора этих данных, что позволяет масштабировать понимание естественного языка.
Что запатентовано
Запатентована система автоматического извлечения и классификации обучающих примеров из логов запросов. Используя «начальный запрос» (seed query) или «начальный ресурс» (seed resource, например, URL) с уже известной классификацией (интентом), система находит другие запросы с аналогичным намерением. Анализ основан на том, на какие общие ресурсы кликают пользователи после ввода этих запросов, что фиксируется в Query-URL Graph.
Как это работает
Система работает в офлайн-режиме для обучения моделей:
- Инициализация: Начинается с классифицированного «зерна» (seed query или seed resource).
- Анализ данных: Анализируются Query Logs для построения графа связей между запросами и кликами на ресурсы.
- Поиск похожих запросов: Система ищет другие запросы, которые ведут к тем же ресурсам (если начато с запроса) или запросы, которые сильно коррелируют с ресурсом (если начато с ресурса).
- Измерение и фильтрация: Измеряется схожесть (например, cosine similarity по распределению кликов) или корреляция. Запросы, превысившие порог, получают ту же классификацию, что и «зерно».
- Обучение: Этот автоматически сгенерированный набор данных используется для индукции грамматики (inducing a grammar) для семантического парсинга будущих запросов.
Актуальность для SEO
Высокая. Понимание естественного языка (NLU) и точное определение интента запросов являются ядром современного поиска. Автоматизация и масштабирование обучения моделей (включая современные системы, являющиеся наследниками описанных «грамматик») критически важны. Этот патент описывает фундаментальный метод использования агрегированных пользовательских данных для обучения систем понимания запросов.
Важность для SEO
Влияние на SEO значительное (75/100), но косвенное. Патент не описывает алгоритм ранжирования, но раскрывает механизм, как Google использует поведение пользователей (клики) для понимания того, какие запросы эквивалентны по интенту. Это подчеркивает критическую важность соответствия контента реальному намерению пользователя и подтверждает, что Google оценивает релевантность не только по тексту, но и по тому, как пользователи взаимодействуют с результатами поиска.
Детальный разбор
Термины и определения
- Classification (Классификация)
- Метка, присвоенная запросу или ресурсу, соответствующая вероятному намерению (likely intent) пользователя или семантической категории (semantic category).
- Cosine Similarity (Косинусное сходство)
- Метрика для измерения схожести между двумя запросами на основе векторов их кликов по ресурсам. Показывает, насколько похоже распределение кликов у двух разных запросов.
- Grammar (Грамматика)
- В контексте патента – модель или набор правил для семантического парсинга (понимания) запросов, относящихся к определенной классификации. Генерируется автоматически на основе обучающих примеров.
- Graph Generation Engine (Движок генерации графа)
- Компонент, который анализирует Query Logs и строит Query-URL Graph.
- Graph Traversal Engine (Движок обхода графа)
- Компонент, который обходит Query-URL Graph для поиска запросов, связанных с начальным запросом или ресурсом, и вычисляет метрики схожести/корреляции.
- Query Logs (Логи запросов)
- Исторические данные, содержащие введенные пользователями запросы и ресурсы, которые они выбрали (кликнули) после ввода этих запросов.
- Query-URL Graph (Граф Запрос-URL)
- Структура данных (например, двудольный граф), связывающая запросы с ресурсами (URL). Ребра графа соответствуют кликам пользователей.
- Resource (Ресурс)
- Цель выбора пользователя. Может быть веб-страницей (URL), а также действием (action) или приложением.
- Seed Query / Initial Query (Начальный/Исходный запрос)
- Запрос с заранее известной классификацией, используемый как отправная точка для поиска других запросов с таким же интентом.
- Seed Resource / Initial Resource (Начальный/Исходный ресурс)
- Ресурс (например, URL) с заранее известной семантической классификацией, используемый для поиска запросов, которые сильно с ним коррелируют.
- Semantic Parsing (Семантический парсинг)
- Процесс анализа естественного языка для понимания его значения и намерения пользователя.
Ключевые утверждения (Анализ Claims)
Патент описывает два основных подхода: один начинается с запроса, другой – с ресурса.
Claim 1 (Независимый пункт): Описывает метод, начинающийся с seed query.
- Получение доступа к seed query, который заранее ассоциирован с классификацией (темой или командой).
- Получение набора запросов-кандидатов. Каждый кандидат привел к выбору пользователем ресурса, на который также ссылается (resolves) seed query.
- Вычисление значения (value), отражающего схожесть (similarity) между кандидатом и seed query.
- Выбор подмножества кандидатов, чье значение схожести удовлетворяет порогу (similarity threshold).
- Извлечение набора текстовых паттернов (text patterns) из этого подмножества.
- Генерация грамматики (grammar) для семантического парсинга на основе этих паттернов.
- Использование этой грамматики для обработки последующих запросов.
Claim 24 (Зависимый): Уточняет, что значение схожести основано на cosine similarity между ресурсами, выбранными в ответ на соответствующий запрос, и ресурсами, выбранными в ответ на seed query.
Схожесть запросов определяется не по их тексту, а по схожести паттернов кликов. Если пользователи, вводящие Запрос А и Запрос Б, кликают на одни и те же URL с похожей частотой, то Запрос А и Запрос Б считаются семантически схожими (имеют одинаковый интент).
Claim 25 (Независимый пункт): Описывает метод, начинающийся с seed resource.
- Получение доступа к seed resource (например, URL), который заранее ассоциирован с семантической классификацией.
- Получение набора запросов-кандидатов, каждый из которых привел к выбору пользователями данного seed resource.
- Вычисление значения, отражающего уровень корреляции (level of correlation) между кандидатом и seed resource.
- Выбор подмножества кандидатов, чье значение корреляции превышает порог.
- Извлечение текстовых паттернов и генерация грамматики на основе этого подмножества.
- Использование грамматики для обработки последующих запросов.
Claim 27 (Зависимый): Уточняет, что значение корреляции основано на частоте выбора пользователями seed resource в ответ на запрос по сравнению с частотой выбора других ресурсов в ответ на тот же запрос.
Если по определенному запросу пользователи преимущественно кликают на Ресурс X и редко на другие ресурсы, то этот запрос сильно коррелирует с Ресурсом X и, вероятно, соответствует его семантической классификации.
Где и как применяется
Этот патент описывает офлайн-процесс обучения моделей, который напрямую поддерживает этап понимания запросов.
INDEXING – Индексирование и извлечение признаков
Система должна иметь доступ к классификации ресурсов (semantic classification для seed resources). Эти данные могут быть рассчитаны на этапе индексирования или получены из внешних источников.
QUNDERSTANDING – Понимание Запросов (Основное применение)
Описанные процессы являются частью инфраструктуры для построения моделей Query Understanding.
- Сбор данных (Офлайн): Graph Generation Engine обрабатывает Query Logs (поведенческие данные) для построения Query-URL Graph.
- Генерация обучающих данных (Офлайн): Graph Traversal Engine и Query Classification Engine используют seed queries/resources для автоматической генерации большого набора классифицированных запросов.
- Обучение моделей (Офлайн): Grammar Generation Engine использует эти данные для индукции грамматик (inducing a grammar).
- Применение (Онлайн): Front-End Server и Grammar Engine используют эти грамматики в реальном времени для семантического парсинга входящих запросов, определения их интента и классификации.
Входные данные (Офлайн):
- Query Logs (запросы и последующие клики).
- Seed Query или Seed Resource с известной классификацией.
Выходные данные:
- (Офлайн) Query-URL Graph, набор классифицированных запросов и индуцированная грамматика.
- (Онлайн) Интерпретация (интент, классификация) входящего запроса пользователя.
На что влияет
- Специфические запросы: Наибольшее влияние на естественные языковые запросы, особенно knowledge queries (поиск фактов) и action queries (команды). Помогает системе понять разнообразные формулировки одного и того же намерения.
- Конкретные типы контента/Ресурсы: Влияет на ресурсы, которые являются четким ответом на конкретный интент (например, страница погоды, страница биографии, интерфейс приложения).
- Ниши и тематики: Применимо ко всем тематикам. В патенте упоминаются примеры погоды, знаменитостей, политики, карт, календаря.
Когда применяется
- Временные рамки: Основной процесс генерации грамматик происходит офлайн, в режиме обучения (back-end training mode). Применение грамматик происходит онлайн при обработке каждого запроса.
- Триггеры активации (Офлайн): Процесс запускается при наличии seed query или seed resource для генерации обучающих данных по определенной классификации.
- Пороговые значения: Используются similarity threshold (для схожести запросов) и correlation threshold (для связи запрос-ресурс). Значения могут определяться эмпирически и нормализоваться (например, от 0.5 до 0.9).
Пошаговый алгоритм
Патент описывает два основных варианта алгоритма.
Вариант А: Начиная с Seed Query (Исходного Запроса)
- Инициализация: Система получает доступ к Initial Query с известной классификацией.
- Подготовка данных: Graph Generation Engine строит Query-URL Graph на основе Query Logs (этот шаг может быть выполнен заранее).
- Определение вектора кликов: Система определяет, на какие ресурсы и с какой частотой кликали пользователи после ввода Initial Query.
- Поиск кандидатов: Graph Traversal Engine обходит граф, чтобы найти другие запросы, которые приводили к кликам на те же самые ресурсы.
- Вычисление схожести: Для каждого запроса-кандидата вычисляется Similarity Metric с Initial Query. Метрика основана на cosine similarity векторов кликов (сравнение распределения кликов по общим ресурсам).
- Фильтрация по порогу: Выбирается подмножество запросов, чья метрика схожести превышает заданный порог.
- Классификация: Выбранным запросам присваивается та же классификация, что и у Initial Query.
- Индукция грамматики: Grammar Generation Engine извлекает текстовые паттерны из выбранного набора запросов и генерирует грамматику.
Вариант Б: Начиная с Seed Resource (Исходного Ресурса)
- Инициализация: Система получает доступ к Initial Resource (например, URL) с известной семантической классификацией.
- Подготовка данных: Построение Query-URL Graph (может быть выполнено заранее).
- Поиск кандидатов: Graph Traversal Engine находит все запросы, которые приводили к кликам на этот Initial Resource.
- Вычисление корреляции: Для каждого запроса-кандидата вычисляется Correlation Metric с Initial Resource. Метрика основана на том, как часто этот ресурс выбирается по данному запросу по сравнению с другими ресурсами.
- Фильтрация по порогу: Выбирается подмножество запросов, чья метрика корреляции превышает заданный порог.
- Классификация: Выбранным запросам присваивается классификация Initial Resource.
- Индукция грамматики: Генерация грамматики на основе выбранного набора запросов.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих данных и существующих классификаций.
- Поведенческие факторы (Ключевые данные):
- Query Logs: История запросов пользователей.
- Клики (Clicks): Данные о том, какие ресурсы пользователи выбирали после ввода запроса. Это основа для построения Query-URL Graph и вычисления всех метрик.
- Сессионные данные (Session analysis): Упоминается возможность анализа сессий для определения связи между запросом и последующим действием/выбором ресурса (не обязательно первый клик).
- Системные данные:
- Seed Queries/Seed Resources: Заранее классифицированные запросы или ресурсы, используемые как эталоны.
- Классификации (Topics, Commands, Semantic Categories): Метки интента или тематики.
Какие метрики используются и как они считаются
- Веса ребер графа (Query-URL Graph Edges): Представляют количество кликов с запроса на ресурс. Используются как компоненты векторов для расчета схожести.
- Similarity Metric (Метрика схожести запросов):
- Используется в Варианте А.
- Рассчитывается как Cosine Similarity между вектором кликов исходного запроса и вектором кликов запроса-кандидата.
- Correlation Metric (Метрика корреляции запрос-ресурс):
- Используется в Варианте Б.
- Основана на частоте выбора ресурса по данному запросу. Может рассчитываться как соотношение кликов на целевой ресурс к кликам на другие ресурсы или к общему количеству вводов запроса.
- Thresholds (Пороги): Эмпирически установленные значения для фильтрации по метрикам схожести и корреляции.
Выводы
- Интент определяется поведением: Ключевой вывод патента – Google активно использует агрегированные данные о кликах (Query-URL Graph) для определения семантической схожести запросов. Если пользователи кликают на одни и те же результаты, Google считает, что запросы имеют одинаковый интент, независимо от их текстовой формулировки.
- Автоматизация понимания языка: Патент описывает механизм масштабирования NLU. Google не полагается только на ручную разметку; система автоматически учится понимать новые формулировки интента, наблюдая за поведением пользователей в масштабе веба.
- Важность удовлетворенности пользователя (Click Behavior): Метрики Cosine Similarity и Correlation Metric напрямую зависят от того, насколько хорошо ресурс удовлетворяет интент пользователя (что выражается в кликах). Высокая корреляция запроса с ресурсом сигнализирует о сильной связи между ними.
- Ресурсы как маяки интента: Метод, использующий Seed Resource, показывает, что авторитетные ресурсы, которые четко отвечают на определенный интент (например, официальный сайт погоды), помогают Google идентифицировать все запросы, связанные с этим интентом.
- Грамматики и паттерны: Система не просто находит похожие запросы, но и извлекает из них текстовые паттерны (text patterns) для генерации грамматик. Это означает, что Google ищет общие структуры и формулировки, которые люди используют для выражения конкретного намерения.
Практика
Best practices (это мы делаем)
Хотя патент описывает внутренний механизм обучения моделей Google, он дает важное понимание того, как формируется Query Understanding.
- Фокус на удовлетворении интента (User Satisfaction): Гарантируйте, что страница является лучшим ответом на целевой запрос. Если пользователи массово выбирают вашу страницу и удовлетворены результатом, это укрепляет связь между запросом и вашим URL в Query-URL Graph и увеличивает Correlation Metric.
- Целевое ранжирование по кластерам интентов, а не по ключам: Поскольку Google определяет схожесть запросов по кликам (Cosine Similarity), необходимо оптимизировать контент под весь кластер семантически связанных запросов (Topical Authority). Успех по одному запросу помогает системе понять релевантность для других формулировок этого интента.
- Создание «Ресурсов-Маяков» (Intent Hubs): Развивайте страницы, которые стремятся стать каноническим ответом на определенный интент в вашей нише. Если ваша страница станет высоко коррелированной с интентом (подобно Seed Resource), это укрепит ваше ранжирование по всему спектру связанных запросов.
- Оптимизация сниппетов для повышения CTR: Поскольку клики являются входными данными для этой системы, критически важно иметь привлекательные и релевантные Title и Description. Высокий CTR по целевым запросам усиливает позитивную связь в Query-URL Graph.
Worst practices (это делать не надо)
- Оптимизация под ключевые слова без учета интента: Создание контента, который формально содержит ключевые слова, но не удовлетворяет намерение пользователя, приведет к низкому CTR или возвратам в выдачу. Это ослабляет связь в Query-URL Graph и снижает Correlation Metric.
- Манипуляция CTR (Click Bait): Использование кликбейтных заголовков, если контент не соответствует обещанию. Хотя клик происходит, последующее поведение пользователя (например, быстрый возврат), вероятно, также учитывается в Query Logs и может негативно влиять на общую оценку релевантности.
- Игнорирование анализа SERP и конкурентов: Непонимание того, какие ресурсы Google уже считает релевантными для данного интента (т.е. какие URL уже имеют сильные связи в графе). Если ваш контент предлагает принципиально иной ответ, ему будет сложно преодолеть существующие поведенческие паттерны.
Стратегическое значение
Патент подтверждает, что Query Understanding в Google – это динамическая система, которая постоянно обучается на данных пользователей. Это подчеркивает переход от статической текстовой релевантности к динамической поведенческой релевантности. Стратегия SEO должна быть направлена на то, чтобы стать частью позитивных поведенческих паттернов. Google использует мудрость толпы (через клики), чтобы понять, что ищут люди и какие ответы они предпочитают.
Практические примеры
Сценарий: Укрепление связи Интента для E-commerce категории
- Цель: Стать основным ресурсом для интента «выбрать треккинговые ботинки».
- Анализ (Имитация Google): Google видит, что пользователи вводят «лучшие треккинговые ботинки», «обзор треккинговых ботинок», «как выбрать ботинки для похода». По Cosine Similarity кликов Google определяет, что эти запросы имеют одинаковый интент, так как пользователи часто кликают на одни и те же гайды и обзоры.
- Действия SEO:
- Создать высококачественный, экспертный гайд по выбору треккинговых ботинок (не просто листинг товаров).
- Оптимизировать сниппеты так, чтобы они четко обещали решение задачи выбора.
- Продвигать этот гайд по всему кластеру запросов.
- Ожидаемый результат: Пользователи начинают предпочитать этот гайд другим результатам. Correlation Metric между этими запросами и URL гайда растет. Google использует этот URL как сильный сигнал релевантности для всего кластера интента.
Вопросы и ответы
Что такое «семантический парсинг» в контексте этого патента?
Это процесс анализа запроса на естественном языке для понимания его значения и намерения пользователя (интента). Например, понять, что запрос «какая погода завтра в Москве» является запросом информации о погоде с указанием времени и места. Патент описывает, как автоматически обучать систему (грамматику) для выполнения этого парсинга.
Как Google определяет, что два разных запроса имеют одинаковый интент?
Основной механизм, описанный в патенте, – это анализ поведения пользователей. Если пользователи, вводящие Запрос А и Запрос Б, в итоге кликают на одни и те же ресурсы с похожей частотой (Cosine Similarity), система делает вывод, что эти запросы семантически схожи и имеют одинаковый интент, даже если в них используются разные слова.
Что такое Query-URL Graph и почему он важен для SEO?
Это структура данных, которая связывает все запросы со всеми URL на основе исторических данных о кликах пользователей. Для SEO это критически важно, так как этот граф является одним из основных источников данных для понимания релевантности и интента. Укрепление связей между вашими целевыми запросами и вашими URL в этом графе (через позитивное поведение пользователей) является ключом к стабильному ранжированию.
Что такое Cosine Similarity в этом патенте и как она отличается от текстовой схожести?
В этом патенте Cosine Similarity измеряет схожесть векторов кликов двух запросов, а не схожесть их текста. Например, запросы «фотографии кошек» и «cat pics» имеют высокую текстовую разницу, но их векторы кликов будут очень похожи, так как пользователи кликают на одни и те же сайты с картинками. Система использует это для понимания синонимичных интентов.
Влияет ли этот патент напрямую на ранжирование?
Нет, он не описывает алгоритм ранжирования. Он описывает офлайн-процесс создания обучающих данных и генерации грамматик для Query Understanding. Однако эти грамматики затем используются в реальном времени для интерпретации запросов, что является критическим шагом перед ранжированием. Точное понимание интента напрямую влияет на то, какие документы будут отобраны и как они будут ранжироваться.
Как я могу использовать принципы этого патента для улучшения SEO моего сайта?
Сосредоточьтесь на максимальном удовлетворении интента пользователя. Создавайте контент, который пользователи будут предпочитать конкурентам (высокий CTR, низкий показатель возврата в выдачу). Это увеличит Correlation Metric между запросами и вашим URL, укрепляя вашу позицию в Query-URL Graph как релевантного ответа на данный интент.
Что такое Seed Query и Seed Resource?
Это отправные точки для автоматического обучения. Seed Query – это запрос (например, «погода в Москве»), для которого уже известна классификация (интент «Погода»). Seed Resource – это ресурс (например, сайт gismeteo.ru), для которого известна семантическая категория. Система использует их для поиска других запросов с такой же классификацией.
Как этот патент связан с E-E-A-T или авторитетностью?
Связь косвенная. Авторитетные сайты (высокий E-E-A-T) часто становятся Seed Resources, так как они естественным образом привлекают больше кликов и имеют высокую корреляцию с определенными интентами (например, сайт ВОЗ для медицинских запросов). Становясь таким ресурсом-маяком, сайт помогает Google лучше калибровать понимание интента в этой нише.
Означает ли этот патент, что CTR является фактором ранжирования?
Патент подтверждает, что данные о кликах (CTR и последующее поведение) активно используются Google как минимум для обучения систем Query Understanding. Хотя это не прямое подтверждение использования CTR в реальном времени для ранжирования конкретного документа, это показывает фундаментальную важность поведенческих данных для оценки релевантности в экосистеме Google.
Как этот механизм работает для новых или редких запросов?
Для совершенно новых запросов этот механизм напрямую не применим, так как нет истории кликов. Однако сгенерированные грамматики помогают интерпретировать новые запросы. Если новый запрос соответствует текстовым паттернам (text patterns), извлеченным из исторических данных, система сможет его классифицировать и понять интент, даже если он никогда ранее не встречался.