Патент Google описывает систему, которая анализирует контекстную информацию (например, URL или контент страницы, которую пользователь просматривает), предоставленную вместе с поисковым запросом. Система определяет доминирующую тему этого контекста и затем фильтрует или переранжирует результаты поиска, отдавая предпочтение тем, которые соответствуют этой теме. Это позволяет уточнять неоднозначные запросы на основе текущего интереса пользователя.
Описание
Какую задачу решает
Патент решает проблему неоднозначности (ambiguity) поисковых запросов. Стандартные поисковые системы часто возвращают смешанную выдачу по широким запросам (например, по запросу «rock» могут быть результаты о музыке и геологии), что не всегда соответствует текущему намерению пользователя. Изобретение направлено на автоматическое уточнение интента путем использования контекста текущей активности пользователя (например, просматриваемой им страницы) для фильтрации результатов по релевантной теме.
Что запатентовано
Запатентована система фильтрации результатов поиска, которая использует Context Information (контекстную информацию), предоставляемую вместе с запросом. Эта информация (например, URL, фрагмент текста или документ) анализируется для определения доминирующей темы на основе предопределенной иерархии (Hierarchy of Topics). Затем исходные результаты поиска фильтруются или переранжируются на основе их релевантности этой конкретной теме.
Как это работает
Система работает в несколько этапов:
- Получение данных: Система получает запрос и Context Information (например, URL текущей страницы).
- Анализ контекста: Система анализирует контент контекстной информации.
- Определение темы контекста (First Score): Контент сравнивается с Hierarchy of Topics. Рассчитываются First Scores, отражающие релевантность контекста различным темам. Выбирается тема с наивысшим баллом.
- Оценка результатов (Second Score): Исходные результаты поиска по запросу оцениваются на предмет их релевантности выбранной теме (рассчитываются Second Scores).
- Фильтрация/Переранжирование: Финальная выдача формируется из результатов с высокими Second Scores, обеспечивая тематическую фокусировку.
Актуальность для SEO
Высокая. Понимание контекста пользователя и его намерений является ключевым направлением развития поиска (включая технологии MUM и персонализацию). Этот патент описывает конкретный механизм использования непосредственного контекста сессии для радикального уточнения выдачи, что крайне актуально для современных поисковых технологий, особенно в мобильном поиске и вспомогательных функциях браузеров.
Важность для SEO
Влияние на SEO значительно (7.5/10). Патент демонстрирует, что релевантность оценивается не только по отношению к тексту запроса, но и по отношению к конкретной теме, выведенной из контекста пользователя. Это подчеркивает критическую важность четкой тематической классификации контента (Topical Clarity) и построения тематического авторитета (Topical Authority) для успешного ранжирования в условиях контекстного поиска.
Детальный разбор
Термины и определения
- Context Information (Контекстная информация)
- Данные, предоставляемые клиентским устройством вместе с поисковым запросом. Могут включать сетевой адрес (URL/URI) документа, загруженный документ или фрагмент текста (snippet), который пользователь ассоциирует с запросом.
- First Score (Первая оценка)
- Метрика, отражающая степень релевантности Context Information определенной теме из Hierarchy of Topics. Используется для определения доминирующей темы контекста.
- Hierarchy of Topics (Иерархия тем и подтем)
- Структура данных, содержащая категории и подкатегории предметных областей (например, Спорт -> Футбол -> Колледж). Используется для классификации контекста и результатов поиска. В патенте упоминаются источники вроде Open Directory Project.
- Second Score (Вторая оценка)
- Метрика, отражающая степень релевантности конкретного результата поиска выбранной доминирующей теме. Используется для финальной фильтрации или переранжирования.
- Topic Weighting Factor (Весовой коэффициент темы)
- Значение (например, W1, W2.1), присваиваемое узлам в Hierarchy of Topics. Используется для влияния на расчет оценок релевантности, может основываться на популярности темы или объеме связанного с ней контента.
- Weighted First Score (Взвешенная первая оценка)
- Комбинированная оценка релевантности контекста теме, учитывающая оценки темы и ее подтем, а также их весовые коэффициенты.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Система получает поисковый запрос от пользователя.
- Система получает от клиентского устройства Context Information, которая включает сетевой адрес (network address, например URL) документа, который пользователь ассоциировал с запросом.
- Для множества тем система определяет First Score, отражающий релевантность темы контекстной информации (документу по URL).
- Система выбирает конкретную тему (Particular Topic) на основе First Scores.
- Система отбирает набор результатов поиска с разных доменов, релевантных запросу.
- Для каждого результата из набора система определяет Second Score, отражающий релевантность результата выбранной конкретной теме.
- Система выбирает один или несколько финальных результатов на основе Second Scores.
- Система предоставляет страницу результатов поиска (SERP) с этими финальными результатами.
Claim 2 и 3 (Зависимые): Детализируют обработку контекстной информации в виде URL.
Система должна получить копию документа по сетевому адресу и извлечь из него ключевые слова (keywords). Определение First Score включает сравнение этих ключевых слов с данными, ассоциированными с каждой из тем в иерархии.
Claim 4 (Зависимый): Детализирует механизм выбора финальных результатов.
Выбор финальных результатов осуществляется путем определения того, превышает ли Second Score каждого результата поиска заданный порог (predetermined threshold). Выбираются только те результаты, чей Second Score превышает этот порог.
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно на стадиях понимания запроса и переранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная классификация документов по темам из Hierarchy of Topics. Эти данные (предварительно рассчитанные Second Scores для разных тем) могут сохраняться в индексе для ускорения обработки запросов. Также здесь поддерживается сама иерархия тем.
QUNDERSTANDING – Понимание Запросов
Ключевой этап применения. Когда система получает запрос и Context Information, она анализирует контекст и вычисляет First Scores для определения доминирующей темы. Это процесс интерпретации намерения пользователя в реальном времени с использованием дополнительного контекста сессии.
RANKING – Ранжирование
На этом этапе генерируется первичный набор кандидатов на основе текста запроса (стандартное ранжирование).
RERANKING – Переранжирование (Фильтрация)
Финальный этап применения. После определения доминирующей темы система вычисляет или извлекает Second Scores для первичного набора кандидатов. Происходит фильтрация (если Second Score ниже порога) или переранжирование результатов на основе их тематической релевантности.
Входные данные:
- Поисковый запрос.
- Context Information (URL, фрагмент текста, документ).
- Hierarchy of Topics с весовыми коэффициентами.
- Индекс документов с данными о тематической классификации.
Выходные данные:
- Отфильтрованный или переранжированный набор результатов поиска (SERP), релевантный теме контекста.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные (ambiguous) запросы, где одно и то же слово может относиться к разным темам (например, «Java», «Rock», «Apple»).
- Сценарии использования: Влияет на сценарии, где доступен явный контекст, например, контекстный поиск, инициированный из браузера или приложения во время просмотра определенной страницы.
Когда применяется
Алгоритм применяется при наличии контекстной информации, но активация фильтрации зависит от уверенности системы.
- Триггеры активации: Система должна получить как запрос, так и Context Information.
- Пороговые значения (Уверенность в контексте): Фильтрация активируется, только если система уверена в теме контекста. Патент описывает условия, при которых фильтрация может НЕ применяться (Fallback на стандартную выдачу):
- Если наивысший First Score не превышает порог уверенности.
- Если разница между наивысшим и следующим First Score слишком мала (контекст неоднозначен).
- Пороговые значения (Качество фильтрации): Финальные результаты выбираются, если их Second Score превышает заданный порог (Claim 4). Если качественных результатов по теме недостаточно, система также может отказаться от фильтрации.
Пошаговый алгоритм
Процесс обработки запроса с контекстной фильтрацией:
- Получение ввода: Система получает поисковый запрос и Context Information (например, URL).
- Первичный поиск: Генерируется начальный набор результатов поиска на основе текста запроса.
- Анализ контекста: Система анализирует Context Information. Если это URL, система получает документ (из кэша или напрямую) и извлекает его содержание (ключевые слова, фразы).
- Получение иерархии: Извлекается Hierarchy of Topics и связанные весовые коэффициенты.
- Расчет First Scores (Контекст-Тема): Вычисляются оценки релевантности содержания контекста каждой теме и подтеме в иерархии. Рассчитывается взвешенная комбинированная оценка (Weighted First Score), например: WS = W1*T + W1.1*S1 + …
- Выбор доминирующей темы: Выбирается тема с наивысшим First Score (или WS).
- Проверка порогов: Если уверенность низкая (оценка ниже порога или близка к другим), процесс прерывается (Fallback).
- Расчет Second Scores (Результат-Тема): Для каждого результата из начального набора вычисляется (или извлекается из индекса) оценка его релевантности выбранной теме.
- Выбор финальных результатов: Отбираются результаты поиска на основе Second Scores (например, превышающие порог или Топ-L).
- Ранжирование и предоставление: Финальный набор результатов ранжируется (на основе Second Scores, стандартных оценок или их комбинации) и предоставляется пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании контекстных данных и тематической классификации.
- Контентные факторы: Ключевые слова (keywords) и фразы, извлеченные из Context Information. Также используются контентные признаки результатов поиска для определения их тематики.
- Технические факторы: Сетевые адреса (URL, URI) используются как идентификаторы для получения контекстного документа.
- Структурные данные (Системные): Hierarchy of Topics – используется предопределенная иерархическая структура тем и подтем (упоминаются Open Directory Project, Yahoo! Directory).
- Системные данные: Topic Weighting Factors – предопределенные веса для тем, основанные на популярности или объеме контента.
Какие метрики используются и как они считаются
- First Score: Мера релевантности Контекст -> Тема. Рассчитывается путем сравнения контента контекста с темами. Учитывается количество совпадающих терминов.
- Weighted First Score (WS): Агрегированная оценка для темы. Рассчитывается как взвешенная сумма оценок темы и ее подтем. Пример формулы: WS = W1*T + W1.1*S1 + W1.1.2*S2…, где T, S1, S2 – базовые оценки релевантности, W – весовые коэффициенты.
- Second Score: Мера релевантности Результат -> Тема. Рассчитывается путем оценки соответствия контента результата выбранной теме.
- Пороги (Thresholds): Используются для контроля уверенности при выборе темы (на основе First Score) и для фильтрации результатов (на основе Second Score).
Выводы
- Контекст сессии как фильтр интента: Google может использовать информацию о текущей активности пользователя (Context Information) для радикального изменения интерпретации неоднозначных запросов. Система стремится привести выдачу в соответствие с темой, которую пользователь уже изучает.
- Критичность тематической классификации: Эффективность системы зависит от качества Hierarchy of Topics и способности алгоритмов точно классифицировать как контекст (First Score), так и результаты поиска (Second Score).
- Иерархическая и взвешенная оценка релевантности: Используется сложный механизм оценки тем, учитывающий иерархию и веса (Topic Weighting Factors). Релевантность определяется не только на уровне конечной категории, но и на уровне родительских тем.
- Механизмы Fallback (Отказ от фильтрации): Система включает предохранители (пороги уверенности). Если контекст неоднозначен или если фильтрация приводит к недостаточному количеству качественных результатов, система откажется от фильтрации и покажет стандартную выдачу.
- Многофакторная релевантность: Финальное ранжирование может учитывать как стандартную релевантность запросу, так и релевантность теме контекста (Second Score), комбинируя эти оценки.
Практика
Best practices (это мы делаем)
- Обеспечение тематической чистоты (Topical Clarity): Контент должен быть четко сфокусирован на одной основной теме. Это критически важно для того, чтобы система могла корректно классифицировать страницу и присвоить ей высокий Second Score, когда эта тема выбрана в качестве доминирующей.
- Построение тематического авторитета (Topical Authority): Необходимо развивать авторитетность сайта в рамках определенных узлов иерархии тем. Поскольку система может использовать взвешенные оценки (учитывая темы и подтемы), важно глубоко раскрывать предметную область. Это повышает вероятность получения высоких Second Scores.
- Использование однозначной терминологии и сущностей: Используйте термины, фразы и сущности, которые четко ассоциируются с целевой темой. Это помогает алгоритмам классификации правильно интерпретировать содержание и сопоставлять его с узлами в Hierarchy of Topics.
- Оптимизация структуры сайта: Четкая иерархическая структура сайта, отражающая иерархию тем, может помочь поисковым системам лучше классифицировать контент и понять его тематические границы.
Worst practices (это делать не надо)
- Создание страниц со смешанной тематикой (Topic Dilution): Страницы, пытающиеся охватить несколько слабо связанных тем, будут плохо классифицироваться. Они рискуют получить низкие Second Scores для любой конкретной доминирующей темы и быть отфильтрованными в контекстном поиске.
- Игнорирование тематической релевантности в пользу ключевых слов: Оптимизация только под текст запроса без учета общей тематики контента неэффективна. Если страница нерелевантна теме контекста, она будет отфильтрована (низкий Second Score), даже если содержит ключевые слова запроса.
- Оптимизация под неоднозначные запросы без уточнения контекста: Попытка ранжироваться по широким запросам без создания четких сигналов, указывающих на конкретную интерпретацию (например, писать про «Ягуар» и как машину, и как животное на одной странице).
Стратегическое значение
Патент подтверждает стратегическую важность тематической классификации в поиске. Google стремится понимать контент на уровне тем (Topics) и интентов, а не только ключевых слов. Для SEO это означает, что стратегия должна быть направлена на создание контента, который является лучшим представителем своей тематической категории. Понимание того, как Google классифицирует контент по иерархии тем, является фундаментальным для построения долгосрочной авторитетности.
Практические примеры
Сценарий: Уточнение неоднозначного запроса с помощью контекста страницы
- Контекст (Context Information): Пользователь читает статью на сайте о геологии (например, geology.com/minerals).
- Запрос (Query): Пользователь инициирует поиск по слову «Rock» (например, через функцию браузера, которая передает URL текущей страницы как контекст).
- Анализ контекста: Google анализирует контент geology.com/minerals.
- Выбор темы: Система рассчитывает First Scores и определяет, что тема «Геология» имеет наивысший балл. Темы «Музыка» или «Фильмы» имеют низкие баллы. «Геология» выбирается как доминирующая тема.
- Фильтрация результатов: Исходные результаты по запросу «Rock» (музыка, фильмы, геология) переоцениваются. Рассчитываются Second Scores. Сайты о музыке получают низкий Second Score (нерелевантны «Геологии»). Сайты о минералах и камнях получают высокий Second Score.
- Результат: Пользователь видит SERP, где все результаты относятся к геологии, а музыкальные сайты отфильтрованы или сильно понижены.
Вопросы и ответы
Что может служить источником «Context Information»?
Патент описывает несколько источников Context Information, которые передаются вместе с запросом. Это может быть сетевой адрес (URL/URI) документа, который пользователь ассоциирует с запросом (например, текущая просматриваемая страница), загруженный пользователем документ или выделенный им фрагмент текста (snippet) на странице.
Как система определяет тему контекста (First Score)?
Система анализирует содержание контекста (например, извлекает ключевые слова из документа по URL) и сравнивает его с предопределенной Hierarchy of Topics. First Score рассчитывается на основе совпадений терминов. Также может использоваться взвешенная оценка (Weighted First Score), учитывающая веса тем и подтем в иерархии.
Применяется ли этот механизм ко всем поисковым запросам?
Нет. Механизм активируется только при наличии Context Information, предоставленной вместе с запросом. Кроме того, он наиболее полезен для неоднозначных запросов. Даже при наличии контекста, фильтрация может не активироваться, если система не уверена в доминирующей теме (First Score ниже порога уверенности).
Что произойдет, если контекст сам по себе неоднозначен?
Если система не может уверенно определить одну доминирующую тему (например, наивысший First Score близок к другим оценкам), патент предполагает, что система может отказаться от фильтрации и предоставить стандартные результаты поиска. Альтернативно, она может классифицировать контекст как релевантный нескольким темам и показать смешанную выдачу по этим темам.
Как SEO-специалист может оптимизировать контент для улучшения Second Score?
Second Score отражает релевантность результата поиска выбранной теме. Для оптимизации необходимо обеспечить максимальную тематическую релевантность и чистоту контента. Это достигается за счет использования четкой терминологии, связанной с темой, глубокого раскрытия вопроса (включая подтемы) и избегания смешивания разных интентов на одной странице.
Что такое «Hierarchy of Topics» и откуда она берется?
Это структурированный каталог тем и подкатегорий. Патент не детализирует процесс ее построения, но упоминает, что она может быть получена из внешних источников, таких как Open Directory Project (DMOZ), Yahoo! Directory или World Wide Web Virtual Library. Сегодня Google использует более сложные системы, такие как Knowledge Graph, но принцип иерархической классификации сохраняется.
Как определяется порядок финальных результатов после фильтрации?
Патент предлагает гибкость в этом вопросе. Финальные результаты могут быть упорядочены на основе Second Scores (релевантность теме контекста), на основе исходных оценок ранжирования (релевантность запросу/качество), или на основе комбинации (например, взвешенной суммы) этих двух типов оценок.
Какое значение этот патент имеет для сайтов, покрывающих широкие тематики?
Для сайтов с широкой тематикой критически важно иметь четкую внутреннюю структуру и категоризацию контента. Каждая страница должна иметь явный тематический фокус, чтобы система могла корректно классифицировать ее в рамках Hierarchy of Topics и присвоить высокий Second Score при соответствующем контексте поиска.
Влияет ли авторитетность сайта (E-E-A-T) на этот процесс фильтрации?
Патент напрямую не упоминает авторитетность сайта в контексте расчета First или Second Scores. Процесс фокусируется строго на тематической релевантности контента. Однако авторитетность, вероятно, учитывается на этапе первичного ранжирования (Ranking) при расчете стандартных оценок качества/релевантности, которые могут влиять на финальный порядок.
Что важнее в контексте этого патента: соответствие запросу или соответствие теме?
Важны оба аспекта. Соответствие запросу необходимо для попадания в первичный набор результатов. Однако для прохождения фильтрации и попадания в финальную выдачу по неоднозначным запросам, соответствие теме контекста (высокий Second Score) становится решающим фактором.