Как Google использует контент, который вы сейчас читаете, для понимания неоднозначных и диалоговых запросов

Google анализирует контент веб-страницы или приложения, активного на устройстве пользователя, для понимания неоднозначных или диалоговых запросов (например, «когда он родился?»). Система идентифицирует сущности (людей, места, объекты) в активном контенте и переписывает запрос, включая наиболее вероятную сущность, чтобы предоставить точные результаты, основанные на непосредственном контексте просмотра.

Описание

Какую задачу решает

Патент решает проблему обработки неоднозначных (ambiguous), неполных или диалоговых поисковых запросов, смысл которых зависит от контекста того, что пользователь просматривает в данный момент. Например, если пользователь читает статью о Ричарде Роу и затем спрашивает «Когда он родился?», система должна понять, что «он» относится к Ричарду Роу. Изобретение улучшает пользовательский опыт, позволяя вводить запросы в «разговорной» манере, и повышает точность поиска, устраняя неоднозначность местоимений и неявных указаний.

Что запатентовано

Запатентована система модификации запросов, которая использует контекст «активного текстового ресурса» (active textual resource) — например, веб-страницы, отображаемой в активном окне браузера. Если система определяет, что входящий запрос неоднозначен, она анализирует текст активного ресурса, извлекает из него сущности (entities) и генерирует набор кандидатов модифицированных запросов, подставляя эти сущности в исходный запрос. Затем система выбирает наилучший модифицированный запрос для выполнения поиска.

Как это работает

Система работает следующим образом:

Определение контекста: При получении запроса система идентифицирует активный текстовый ресурс, отображаемый на устройстве пользователя.
Оценка запроса: Query Evaluator определяет, является ли запрос неоднозначным или неполным и требует ли он контекстуальной модификации.
Извлечение данных: Если модификация требуется, Textual Resource Processor анализирует активный ресурс и извлекает данные для модификации (modification data), в первую очередь — сущности.
Генерация кандидатов: Candidate Generator создает несколько версий запроса, комбинируя исходный запрос с извлеченными сущностями (например, путем конкатенации или замены терминов).
Оценка и выбор: Candidate Scorer оценивает кандидатов по различным критериям (например, качество ожидаемых результатов поиска, вероятность того, что запрос вызовет специальное действие или прямой ответ) и выбирает лучший вариант.
Выполнение поиска: Поиск выполняется по выбранному модифицированному запросу.

Актуальность для SEO

Высокая. Диалоговый поиск (Conversational Search) и понимание контекста сессии являются ключевыми направлениями развития поисковых систем. Способность системы понимать запросы, основанные на том, что находится на экране пользователя (on-screen context), критически важна, особенно на мобильных устройствах и в голосовом поиске. Этот патент описывает базовый механизм для реализации таких функций.

Важность для SEO

Патент имеет существенное значение для контент-стратегии и оптимизации под сущности (Entity SEO). Он подчеркивает, насколько важно, чтобы Google мог точно и легко извлекать ключевые сущности из текста страницы. Если контент структурирован таким образом, что основные сущности четко определены, это повышает вероятность того, что Google корректно интерпретирует последующие контекстуальные или диалоговые запросы пользователя, связанные с этой страницей.

Детальный разбор

Термины и определения

Active Textual Resource (Активный текстовый ресурс): Ресурс (например, веб-страница, документ), который отображается в активной среде (active environment), такой как активное окно приложения или браузера, в момент ввода пользователем запроса. Он служит источником контекста для модификации запроса.
Application Context (Контекст приложения): Информация о приложении, в котором был инициирован запрос (браузер, социальная сеть и т.д.), используемая для определения активного ресурса.
Candidate Generator (Генератор кандидатов): Компонент системы, который создает набор потенциальных модифицированных запросов (set of modified queries), комбинируя исходный запрос с данными модификации.
Candidate Scorer (Оценщик кандидатов): Компонент системы, который оценивает сгенерированные модифицированные запросы по определенным критериям и выбирает лучший из них.
Contextual Query Modifier (Модификатор контекстуальных запросов): Основная система, описанная в патенте, которая изменяет полученный запрос на основе контекста активного ресурса.
Entities (Сущности): Темы дискурса, концепции или объекты, на которые можно сослаться текстовым фрагментом (люди, места, продукты, даты, организации). Являются основным типом данных для модификации запроса.
Modification Data (Данные модификации): Данные, извлеченные из активного текстового ресурса (например, текст сущностей, темы, метаданные), используемые для генерации модифицированных запросов.
Query Evaluator (Оценщик запроса): Компонент, который анализирует входящий запрос и определяет необходимость его контекстуальной модификации (например, проверяя наличие неоднозначности).
Textual Resource Processor (Обработчик текстовых ресурсов): Компонент, который анализирует контент активного ресурса для извлечения данных модификации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод модификации запроса на основе контекста активного ресурса.

Система получает запрос от устройства пользователя, на котором в активном окне отображается активный текстовый ресурс. Запрос вводится во время отображения этого ресурса.
Система проверяет три условия: (i) запрос является неоднозначным (ambiguous query); (ii) в тексте активного ресурса присутствует текст сущностей (entity text), описывающий сущности; (iii) ресурс отображался в момент ввода запроса.
Если все условия выполнены, система выполняет следующие действия:
- Идентифицирует сущности в тексте активного ресурса.
- Автоматически определяет данные модификации (modification data) для каждой идентифицированной сущности.
- Автоматически генерирует набор модифицированных запросов (set of modified queries) для каждой сущности, используя исходный запрос и данные модификации.
- Автоматически оценивает модифицированные запросы по одному или нескольким критериям.
- Автоматически выбирает один из модифицированных запросов на основе оценки.
- Предоставляет результаты поиска, отвечающие выбранному модифицированному запросу.

Ядро изобретения заключается в автоматическом разрешении неоднозначности запроса путем использования сущностей, извлеченных непосредственно из контента, который пользователь просматривал в момент ввода запроса.

Claim 4 (Зависимый): Уточняет условия для модификации.

Решение о модификации запроса принимается, если установлено, что запрос является вопросительным (question query) и содержит неоднозначный ссылочный термин (ambiguous referring term) (например, местоимения «он», «она», «это»).

Claim 5 и 6 (Зависимые): Уточняют методы генерации модифицированных запросов.

Генерация может включать конкатенацию (Claim 5) исходного запроса с текстом сущности (например, [Когда он родился] + [Ричард Роу]) или пересмотр (Claim 6) одного или нескольких терминов запроса на основе текста сущности (например, замена «он» на «Ричард Роу»).

Claim 7 (Зависимый): Описывает альтернативный метод генерации кандидатов.

Система может сравнивать комбинацию исходного запроса и текста сущности с предыдущими запросами из журнала запросов (query log). Если найдено достаточное сходство (превышен порог threshold similarity value), предыдущий запрос из лога может быть использован в качестве кандидата.

Claim 8 и 9 (Зависимые): Уточняют метод оценки модифицированных запросов.

Оценка включает получение от поискового процесса данных о релевантности ресурсов (relevance scores) для модифицированного запроса (Claim 8). Оценка может основываться на показателях качества (quality score) этих ресурсов (Claim 9).

Где и как применяется

Изобретение применяется на этапе интерпретации запроса пользователя в реальном времени.

QUNDERSTANDING – Понимание Запросов

Это основная область применения патента. Система функционирует как Contextual Query Modifier, который перехватывает запрос до основного процесса ранжирования.

Контекстуализация в реальном времени: Система получает не только текст запроса, но и информацию об активном ресурсе на устройстве пользователя (например, URL или сам контент).
Интерпретация интента: Query Evaluator анализирует запрос на предмет неоднозначности.
Переписывание запроса (Query Rewriting): Если запрос требует уточнения, система использует NLP и распознавание сущностей (NER) для анализа активного ресурса, генерирует и оценивает альтернативные формулировки запроса.

INDEXING – Индексирование и извлечение признаков

Хотя сам механизм работает в реальном времени, он полагается на способность системы эффективно извлекать сущности из текста. Это связано с процессами NLP и извлечения сущностей, которые происходят на этапе индексирования (или аналогичными процессами, применяемыми к активному ресурсу).

Входные данные:

Исходный запрос пользователя (Query).
Идентификатор или контент активного текстового ресурса (Active Textual Resource).
Данные о сущностях (например, из Knowledge Graph) для распознавания сущностей в тексте.
Журналы запросов (Query Logs) (опционально, для генерации и оценки кандидатов).

Выходные данные:

Выбранный модифицированный запрос (Selected Modified Query), который передается в основную поисковую систему.
Или исходный запрос, если модификация не требуется.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на диалоговые (conversational), вопросительные (question queries) и запросы-действия (action queries), особенно те, которые содержат местоимения или неявные ссылки на контекст (например, «покажи его фото», «купить это», «позвонить туда»).
Типы контента: Влияет на страницы с четко выраженными сущностями — статьи, обзоры продуктов, биографии, локальные страницы (например, рестораны).
Устройства: Особенно актуально для мобильных устройств и голосового поиска, где пользователи чаще используют диалоговый стиль общения и где контекст экрана (on-screen context) играет важную роль.

Когда применяется

Алгоритм активируется при выполнении нескольких условий:

Наличие контекста: На устройстве пользователя должен быть идентифицирован активный текстовый ресурс в момент ввода запроса.
Триггер активации (Ambiguity): Исходный запрос должен быть признан неоднозначным (ambiguous), неполным или содержать неоднозначные ссылочные термины (ambiguous referring terms).
Наличие данных для модификации: В активном ресурсе должны быть успешно распознаны релевантные сущности или другие данные для модификации.
Исключения: Алгоритм не применяется, если запрос является хорошо сформированным и предоставляет четкую, однозначную инструкцию (например, навигационный запрос или точный информационный запрос).

Пошаговый алгоритм

Процесс модификации запроса на основе контекста:

Получение запроса и контекста: Система получает запрос от пользователя и определяет активный текстовый ресурс, отображаемый на устройстве.
Оценка необходимости модификации: Query Evaluator анализирует запрос. Если запрос однозначен и полон, он обрабатывается стандартным образом (Процесс завершен). Если запрос неоднозначен (например, содержит местоимения), процесс продолжается.
Извлечение данных модификации: Textual Resource Processor обрабатывает контент активного ресурса. Применяются методы распознавания именованных сущностей (NER) для идентификации людей, мест, организаций, продуктов и т.д. Также могут извлекаться темы или метаданные. Формируется набор данных модификации (D_Mod).
Генерация кандидатов: Candidate Generator создает набор модифицированных запросов (CQ_Mod), используя исходный запрос и извлеченные сущности. Методы генерации:
- Конкатенация: Добавление текста сущности к запросу.
- Замена: Замена неоднозначного термина текстом сущности.
- Поиск в логах: Поиск похожих комбинаций в истории запросов.
Фильтрация кандидатов (Опционально): Удаление кандидатов с явными типовыми несоответствиями (например, [Когда он родился BigMovieCo], где «он» несовместимо с компанией).
Оценка кандидатов: Candidate Scorer оценивает каждый оставшийся модифицированный запрос. Критерии оценки:
- Ожидаемое качество результатов: Выполнение тестового поиска и анализ relevance scores и quality scores полученных ресурсов.
- Триггеры специальных операций: Проверка, вызывает ли запрос прямой ответ (Answer Box), поиск по картинкам или действие (например, звонок). Такие запросы получают повышение в оценке.
Выбор лучшего запроса: Выбирается модифицированный запрос с наивысшей оценкой.
Предоставление результатов: Система выполняет поиск по выбранному запросу и возвращает результаты пользователю.

Какие данные и как использует

Данные на входе

Система фокусируется на анализе текста и контекста сессии.

Контентные факторы: Текст активного ресурса является основным источником данных. Система анализирует слова, фразы и структуру текста для распознавания сущностей.
Метаданные ресурса: Могут использоваться для извлечения дополнительной информации (например, доменное имя, данные о продукте).
Поведенческие факторы (История запросов): Журналы запросов (query log) могут использоваться для генерации кандидатов путем поиска аналогичных предыдущих запросов и для оценки частотности кандидатов (фильтрация «длинного хвоста»).
Пользовательские факторы (Контекст сессии): Информация об активном приложении (application context) и активном окне/среде (application environment) на устройстве пользователя.

Какие метрики используются и как они считаются

Ambiguity Score (Оценка неоднозначности): Метрика, определяющая, требует ли исходный запрос контекстуальной модификации. Рассчитывается с использованием Natural Language Processing (NLP) или грамматик для выявления неполных запросов или наличия ambiguous referring terms.
Similarity Measure (Мера сходства): Используется при сравнении комбинации запроса и сущности с записями в query log. Должна превышать threshold similarity value.
Candidate Score (Оценка кандидата): Агрегированная метрика для выбора лучшего модифицированного запроса. Может учитывать:
- Relevance Scores: Оценки релевантности ресурсов, полученных в ответ на модифицированный запрос.
- Quality Scores: Показатели качества ресурсов, полученных в ответ на модифицированный запрос. Запросы, возвращающие высококачественные ресурсы, оцениваются выше.
- Trigger Signals: Бинарные сигналы, указывающие на активацию специальных поисковых операций (Question Answering, Action Queries).

Выводы

Контекст просмотра критически важен для понимания запроса: Google может использовать контент, который пользователь активно просматривает (active textual resource), для радикального переписывания неоднозначных или диалоговых запросов. Это выходит за рамки традиционной персонализации и фокусируется на непосредственном контексте сессии.
Сущности как ключ к контексту: Основным механизмом разрешения неоднозначности является извлечение сущностей (Entities) из активного ресурса. Способность системы распознавать и интерпретировать сущности в тексте напрямую влияет на работу этого механизма.
Автоматический выбор лучшей интерпретации: Система не просто добавляет контекст, она генерирует несколько гипотез (модифицированных запросов), основанных на разных сущностях из контекста, и оценивает их. Оценка может основываться на качестве ожидаемых результатов поиска или на том, вызывает ли запрос прямой ответ или действие.
Целевое применение к неоднозначным запросам: Механизм активируется выборочно. Он предназначен для случаев, когда запрос содержит неоднозначные термины (например, местоимения) или является неполным, и не применяется к хорошо сформированным запросам.
Важность чистого извлечения сущностей (Entity Extraction): Для SEO это означает, что то, как сущности представлены в контенте, влияет не только на ранжирование самой страницы, но и на способность Google обслуживать последующие контекстуальные запросы пользователя.

Практика

Best practices (это мы делаем)

Четкое определение и позиционирование сущностей: Убедитесь, что основные сущности на странице (продукты, люди, организации, локации) четко определены и легко извлекаемы. Используйте ясный язык, дескриптивные заголовки и контекстные подсказки, которые связывают сущности с их атрибутами.
Использование структурированных данных (Schema.org): Внедряйте релевантную разметку для однозначной идентификации сущностей и их свойств. Это помогает Textual Resource Processor корректно извлекать Modification Data.
Оптимизация под диалоговый поиск и вопросы: Создавайте контент, который предвосхищает естественные последующие вопросы о ключевых сущностях. Если вы пишете о продукте, убедитесь, что информация о его цене, доступности и характеристиках легко находится, так как пользователь может спросить «сколько он стоит?» после прочтения обзора.
Улучшение качества контента и авторитетности (E-E-A-T): Поскольку одним из критериев выбора лучшего модифицированного запроса является Quality Score ожидаемых результатов, наличие высококачественного контента, отвечающего на эти контекстуальные запросы, повышает вероятность его показа.

Worst practices (это делать не надо)

Неоднозначное описание сущностей: Использование местоимений или жаргона для описания ключевых объектов на странице без предварительного четкого их определения затрудняет извлечение сущностей и может привести к неправильной интерпретации контекстуальных запросов.
Перегрузка страницы несвязанными сущностями: Наличие слишком большого количества второстепенных или слабо связанных сущностей может создать шум для Candidate Generator, увеличивая риск выбора неверного контекста для модификации запроса.
Игнорирование мобильного контекста: Не учитывать, как контент отображается и потребляется на мобильных устройствах, где диалоговый поиск и использование контекста экрана наиболее распространены.

Стратегическое значение

Этот патент подтверждает движение Google в сторону понимания естественного языка и контекста сессии. Стратегическое значение для SEO заключается в переходе от оптимизации под ключевые слова к оптимизации под сущности и интенты в рамках одной сессии. Важно не просто привлечь пользователя на страницу, но и обеспечить качественное взаимодействие в течение всей сессии, помогая Google правильно интерпретировать последующие действия пользователя, основанные на вашем контенте.

Практические примеры

Сценарий: Оптимизация страницы локального бизнеса (ресторан)

Задача: Обеспечить, чтобы контекстуальные запросы о ресторане обрабатывались корректно.

Анализ контента: Пользователь читает обзор ресторана «Joe’s Bistro» на вашем сайте.
Обеспечение ясности сущностей: Убедитесь, что название «Joe’s Bistro», адрес, тип кухни и номер телефона четко указаны в тексте и подкреплены разметкой LocalBusiness.
Предвосхищение запросов: Пользователь может ввести последующие запросы:
- «Как туда добраться?» (Запрос-действие)
- «Какой у них номер телефона?» (Вопросительный запрос)
- «Показать меню» (Информационный запрос)
Действие системы: Когда пользователь вводит «Какой у них номер телефона?», система Google, используя вашу страницу как Active Textual Resource, извлекает сущность «Joe’s Bistro».
Генерация и выбор: Система генерирует кандидата [номер телефона Joe’s Bistro] и определяет, что он вызывает прямой ответ или действие.
Ожидаемый результат: Пользователь получает номер телефона Joe’s Bistro. Если бы сущность не была четко определена на вашей странице, система могла бы неверно интерпретировать «у них» или не найти контекст.

Вопросы и ответы

Что такое «Активный текстовый ресурс» (Active Textual Resource) в контексте этого патента?

Это контент, который пользователь активно просматривает в момент ввода поискового запроса, например, веб-страница в открытой вкладке браузера или контент в приложении. Этот ресурс служит источником контекста, позволяя системе понять, к чему относятся неоднозначные термины в запросе, такие как местоимения («он», «это»).

Применяется ли этот механизм ко всем поисковым запросам?

Нет. Патент указывает, что система сначала определяет, является ли запрос неоднозначным (ambiguous) или неполным. Если запрос хорошо сформирован и однозначен (например, «погода в Лондоне на завтра»), механизм контекстуальной модификации не активируется, и запрос обрабатывается стандартным образом.

Какие данные Google извлекает из активной страницы для уточнения запроса?

В первую очередь система фокусируется на извлечении сущностей (Entities) — людей, мест, организаций, продуктов, дат. Также могут использоваться темы ресурса или метаданные. Эти данные используются как Modification Data для переписывания исходного запроса.

Как система решает, какую сущность использовать, если на странице их много?

Система генерирует несколько кандидатов модифицированных запросов, используя разные сущности со страницы. Затем Candidate Scorer оценивает эти кандидаты. Выбирается тот запрос, который имеет наивысшую оценку, например, тот, который возвращает результаты более высокого качества или который вызывает прямой ответ (Answer Box) или действие.

Как этот патент влияет на SEO-стратегию?

Он подчеркивает критическую важность Entity SEO и четкости контента. Необходимо убедиться, что Google может легко и однозначно извлекать ключевые сущности с ваших страниц. Это помогает не только в ранжировании, но и в обеспечении корректной обработки последующих диалоговых запросов пользователей, читающих ваш контент.

Помогает ли структурированная разметка (Schema.org) работе этого механизма?

Хотя патент явно не упоминает Schema.org, он описывает процесс извлечения сущностей из текста. Структурированная разметка является основным инструментом для однозначного определения сущностей и их атрибутов для поисковых систем. Логично предположить, что наличие корректной разметки значительно облегчает работу Textual Resource Processor по извлечению Modification Data.

Как система генерирует модифицированные запросы?

Используется несколько методов. Основные — это конкатенация (добавление текста сущности к запросу, например, [когда он родился] + [Ричард Роу]) и замена (замена неоднозначного термина на сущность, например, [когда Ричард Роу родился]). Также система может искать похожие запросы в своих логах.

Что произойдет, если система не сможет найти контекст для неоднозначного запроса?

Если активный ресурс отсутствует (например, запрос введен на пустом экране) или если в активном ресурсе не удалось распознать релевантные сущности, система не сможет выполнить контекстуальную модификацию. В этом случае исходный неоднозначный запрос будет обработан как есть, что, вероятно, приведет к неточным результатам поиска.

Особенно ли это важно для мобильного поиска?

Да, это крайне важно для мобильного и голосового поиска. На мобильных устройствах пользователи чаще полагаются на то, что находится у них на экране (on-screen context), и используют более разговорный стиль общения, часто задавая короткие, контекстно-зависимые вопросы.

Как я могу оптимизировать свой контент, учитывая этот патент?

Сосредоточьтесь на ясности и структуре. Убедитесь, что основные темы и сущности четко представлены в начале контента. Избегайте двусмысленности при описании ключевых объектов. Пишите так, чтобы контент естественно отвечал на возможные последующие вопросы о представленных сущностях.