Как Google определяет ключевые тематические аспекты сущности для организации поисковой выдачи

Google использует анализ логов запросов (уточнений и расширений) для выявления ключевых «аспектов» (подтем), связанных с сущностью. Эти аспекты ранжируются по популярности и разнообразию, а затем используются для организации поисковой выдачи в виде тематических блоков («mashup»), помогая пользователям исследовать разные грани темы.

Описание

Какую задачу решает

Патент решает проблему неструктурированной и часто однобокой выдачи по общим запросам, касающимся сущностей (Entities). Стандартный ранжированный список часто фокусируется только на доминирующем интенте и не дает пользователю обзора различных граней интересующей его темы. Система призвана облегчить исследование (exploration) темы путем предоставления структурированного обзора различных аспектов (Aspects) сущности.

Что запатентовано

Запатентована система и метод для автоматической идентификации, ранжирования и использования тематических аспектов (Aspects) сущности. Система анализирует поведение пользователей в логах запросов (user search histories), чтобы понять, как они исследуют конкретную сущность. Схожие интересы кластеризуются в аспекты, которые затем используются для реструктуризации и организации поисковой выдачи в формате mashup или фасеточного представления.

Как это работает

Система работает в двух режимах:

Офлайн (Генерация): Анализируются логи запросов для выявления уточнений (Query Refinements) и расширений (Query Super-strings), связанных с сущностью. Генерируются кандидаты в аспекты. Список очищается путем объединения схожих аспектов (схожесть определяется сравнением их SERP) и группировки по классам. Аспекты ранжируются на основе популярности (Popularity Score) и разнообразия (Diversity Score).
Онлайн (Применение): При получении запроса о сущности система извлекает топовые аспекты. Для каждого аспекта выполняется поиск по связке [Сущность + Аспект]. Результаты представляются пользователю в виде организованных тематических блоков (visually distinct aspect areas).

Актуальность для SEO

Высокая. Понимание сущностей и организация информации вокруг них (Entity-Oriented Search) является стратегическим направлением Google. Описанные в патенте механизмы лежат в основе функций SERP, направленных на глубокое исследование темы, таких как фасеточная навигация, тематические карусели и блоки уточнения интента, которые помогают пользователям ориентироваться в различных аспектах запроса.

Важность для SEO

Высокое влияние (85/100). Патент описывает механизм, который напрямую влияет на структуру SERP для запросов, связанных с сущностями. Понимание того, какие аспекты Google считает ключевыми для конкретной сущности, критично для разработки контент-стратегии. Это определяет, какой контент может быть показан в специализированных тематических блоках и как будет организована выдача в целом, подчеркивая важность полного тематического покрытия (Topical Authority).

Детальный разбор

Термины и определения

Aspect (Аспект): Ось информации или подтема, по которой можно получить дополнительные сведения о сущности. Например, для сущности «Hawaii» аспектами могут быть «beaches», «hotels», «weather».
Aspector (Аспектор): Компонент поисковой системы (упомянутый в FIG. 1), отвечающий за идентификацию и ассоциацию аспектов с сущностями.
Class (Класс): Абстракция или категория сущности или аспекта (например, класс «flower» для сущности «daffodil»). Используется для генерации и группировки аспектов.
Diversity Score (Оценка разнообразия): Метрика, оценивающая, насколько новый (неранжированный) аспект отличается от уже выбранных (ранжированных) аспектов. Используется для обеспечения широты тематического охвата.
Entity (Сущность): Объект физического или концептуального мира (человек, место, вещь, идея), который идентифицируется текстом запроса.
Mashup (Мэшап): Способ представления поисковой выдачи, где результаты и информация для разных аспектов организованы в едином интерфейсе в виде отдельных тематических блоков (visually distinct aspect areas).
Popularity Score (Оценка популярности): Метрика, оценивающая частоту или важность аспекта. Может основываться на частоте в логах запросов, CTR или dwell time.
Query Refinement (Уточнение запроса): Последующий связанный запрос, введенный пользователем после исходного запроса о сущности в рамках одной поисковой сессии.
Query Super-string (Расширение запроса): Запрос, который текстово включает в себя название сущности (например, «Vietnam travel package» для сущности «Vietnam travel»).
Similarity Score (Оценка схожести): Метрика, оценивающая схожесть двух аспектов. Рассчитывается на основе сравнения поисковых результатов (SERP) для этих аспектов.

Ключевые утверждения (Анализ Claims)

Патент US20160026696A1 является продолжением (continuation) более ранних заявок и фокусируется на использовании сгенерированных аспектов.

Claim 1 (Независимый пункт): Описывает онлайн-процесс использования аспектов для организации выдачи.

Получение запроса, содержащего термины, соответствующие сущности (Entity).
Идентификация множества аспектов (Aspects), связанных с сущностью в базе данных.
Идентификация множества результатов поиска, включающих: (i) Первый набор результатов на основе Сущности и Первого Аспекта; (ii) Второй набор результатов на основе Сущности и Второго Аспекта.
Предоставление презентации результатов в одном интерфейсе (one display). Презентация включает множество визуально различимых областей аспектов (visually distinct aspect areas) с соответствующими метками.
Отображение результатов первого набора в первой области, соответствующей Первому Аспекту.
Отображение результатов второго набора во второй области, соответствующей Второму Аспекту.

Это ядро изобретения в части отображения результатов. Защищается метод разделения SERP на тематические блоки (mashup), где каждый блок содержит результаты, релевантные конкретному аспекту сущности из запроса.

Claim 8 (Зависимый пункт): Описывает офлайн-процесс генерации ассоциаций аспектов (упомянутый в Claim 7).

Генерация группы кандидатов в аспекты для сущности.
Для пар кандидатов расчет Similarity Score. Оценка основана на идентификации соответствующих наборов поисковых результатов для запросов кандидатов и сравнении этих наборов результатов.
Модификация группы кандидатов на основе Similarity Score (объединение или группировка).
Выбор одного или нескольких модифицированных кандидатов для ассоциации с сущностью в базе данных.

Ключевой технический момент — использование схожести SERP (а не только текстовой схожести слов) для определения того, являются ли два аспекта дубликатами. Это позволяет системе объединять синонимичные интенты, даже если они выражены разными терминами.

Claim 9 (Зависимый пункт): Детализирует процесс выбора (ранжирования) из Claim 8.

Ранжирование модифицированных кандидатов на основе Diversity Score и Popularity Score.
Выбор аспектов для ассоциации с сущностью на основе этого ранжирования.

Система стремится найти баланс: не просто выбрать самые популярные подтемы, но и обеспечить их разнообразие, чтобы покрыть разные грани сущности и избежать повторений в выдаче.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя офлайн-вычисления для подготовки данных и онлайн-процессы для формирования выдачи.

INDEXING / QUNDERSTANDING (Офлайн-процессы)
Основная работа по генерации аспектов происходит здесь.

Анализ user search histories для выявления паттернов исследования тем.
Идентификация сущностей и их классов (с использованием Knowledge Bases, например, Wikipedia, Freebase).
Генерация, кластеризация (combining и grouping) и ранжирование аспектов.
Сохранение результатов в базе данных ассоциаций сущностей и аспектов.

QUNDERSTANDING (Онлайн)
При получении запроса система распознает в нем сущность и определяет, следует ли активировать механизм отображения аспектов.

RANKING / METASEARCH (Онлайн)

Система извлекает предварительно рассчитанные топовые аспекты для распознанной сущности.
Происходит запуск (triggering) множественных параллельных поисков: [Сущность + Аспект 1], [Сущность + Аспект 2] и т.д.
Система получает наборы результатов для каждого из этих запросов.

METASEARCH – Смешивание (Онлайн)
Финальный этап формирования выдачи.

Результаты параллельных поисков агрегируются.
Система формирует mashup (faceted SERP), организуя результаты в визуально разделенные блоки (visually distinct aspect areas) для каждого аспекта. Может также включать summary of information (сводку информации) по аспекту.

Входные данные (Офлайн): Логи запросов, Базы знаний, Поисковый индекс (используется для расчета схожести аспектов).

Входные данные (Онлайн): Запрос пользователя, База данных ассоциаций сущностей и аспектов.

Выходные данные: Структурированная поисковая выдача (mashup), где результаты организованы по тематическим аспектам.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователь вводит название сущности (бренд, место, персона, продукт, концепция) с целью изучения темы, а не поиска конкретного факта.
Типы контента: Влияет на все типы контента, которые могут быть релевантны различным аспектам сущности.
Ниши: Применимо во всех тематиках, где существуют четко определенные сущности с разнообразными гранями интереса (путешествия, технологии, образование, развлечения, здоровье).

Когда применяется

Триггеры активации: Алгоритм активируется, когда система с высокой уверенностью распознает в запросе сущность, для которой предварительно рассчитаны значимые аспекты, и когда интент пользователя интерпретируется как исследовательский (exploration) или обзорный.

Пошаговый алгоритм

Процесс А: Офлайн-генерация Аспектов

Сбор данных: Анализ user search histories для идентификации Query Refinements (последующие запросы в сессии) и Query Super-strings (запросы, содержащие сущность), связанных с целевой сущностью.
Классификация сущности: Определение класса сущности (например, «Daffodil» -> «Flower»). Используются Knowledge Bases или лингвистические паттерны (Hearst patterns).
Генерация кандидатов: Формирование списка кандидатов в аспекты на основе данных из шага 1, а также на основе данных, связанных с другими членами класса из шага 2 (перенос знаний между похожими сущностями).
Расчет схожести (Similarity): Для каждой пары кандидатов (Аспект А, Аспект Б) выполняется поиск. Рассчитывается Similarity Score на основе сравнения полученных SERP. Для сравнения используются feature vectors, веса TF-IDF или TF терминов из сниппетов/заголовков и cosine distance.
Объединение (Combining): Кластеризация текстово или семантически схожих аспектов (например, «package» и «deal») на основе Similarity Score. Упоминается использование graph partition algorithm и других методов кластеризации (k-means, spectral clustering). Выбирается репрезентативное название для кластера.
Группировка (Grouping): Идентификация классов самих аспектов и группировка различных аспектов, принадлежащих к одному классу (например, «New York» и «San Francisco» группируются в аспект «U.S. Cities»).
Расчет популярности: Вычисление Popularity Score для каждого очищенного аспекта на основе частоты в логах запросов, CTR или dwell time.
Ранжирование: Выбор Топ-N аспектов. Первый аспект выбирается по максимальному Popularity Score. Последующие выбираются итеративно по балансу популярности и Diversity Score (насколько они отличаются от уже выбранных аспектов; например, Popularity Score / Diversity Score).
Сохранение: Ассоциация Топ-N ранжированных аспектов с сущностью в базе данных.

Процесс Б: Онлайн-обработка запроса

Получение запроса: Система получает запрос, содержащий сущность.
Идентификация аспектов: Извлечение Топ-N аспектов для сущности из базы данных.
Мульти-поиск: Генерация и выполнение запросов вида [Сущность + Аспект] для каждого из Топ-N аспектов.
Агрегация результатов: Получение наборов результатов для каждого аспекта.
Формирование SERP (Mashup): Организация выдачи в виде отдельных визуальных блоков (visually distinct aspect areas) для каждого аспекта. Блоки заполняются соответствующими результатами поиска или прямыми сводками информации (summary of information).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны. Используются user search histories для выявления Query Refinements (анализ поведения в рамках сессии) и Query Super-strings. Также упоминаются click through rate (CTR) и dwell time (время на сайте после клика) как возможные сигналы для расчета Popularity Score аспекта.
Контентные факторы: Используются titles (заголовки) и snippets (сниппеты) поисковых результатов при расчете схожести (Similarity Score) между аспектами.
Технические факторы: Упоминается возможность использования paths (URL или файловые пути) поисковых результатов как сигнала для расчета схожести аспектов.
Структурные данные (Knowledge Bases): Используются внешние базы знаний (упомянуты Wikipedia, Freebase) для определения классов сущностей и аспектов, поиска синонимов и разрешения неоднозначностей (disambiguation).

Какие метрики используются и как они считаются

Popularity Score: Рассчитывается на основе частоты появления аспекта в логах запросов (как уточнение или расширение). Может также учитывать поведенческие сигналы (CTR, dwell time).
Similarity Score (между аспектами A и B): Рассчитывается путем сравнения Топ-N результатов поиска для A и B. Процесс включает:
- Создание feature vector для каждого результата (например, с весами TF-IDF или TF для терминов из title/snippet).
- Расчет схожести между двумя результатами как cosine distance между их векторами.
- Агрегация попарных схожестей результатов для вычисления общей схожести между SERP A и SERP B (например, усреднение максимальных схожестей).
Diversity Score: Метрика схожести между неранжированным аспектом и набором уже ранжированных аспектов (например, максимум, минимум или среднее от их Similarity Scores).
Методы анализа и алгоритмы: Используются статистические методы (TF-IDF, TF), векторные модели (Feature Vectors), метрики расстояния (Cosine Distance) и алгоритмы кластеризации (Graph Partition Algorithm; также упомянуты k-means, spectral clustering).

Выводы

Анализ поведения для понимания сущности: Google активно использует анализ поведения пользователей (уточнения и расширения запросов) как основной источник данных для понимания того, какие подтемы (аспекты) наиболее тесно связаны с сущностью в сознании пользователей.
Цель — Разнообразие и Популярность: При выборе аспектов система балансирует между популярностью (что ищут чаще всего) и разнообразием (показать разные грани сущности). Это означает, что не всегда самый частотный интент будет единственным представленным в выдаче.
SERP Similarity как мера схожести интентов: Схожесть аспектов определяется не столько текстовой близостью, сколько схожестью их поисковых выдач (SERP similarity). Это позволяет системе эффективно определять и объединять синонимичные интенты, выраженные разными словами.
Использование Классов и Knowledge Graph: Система сильно полагается на данные о классах сущностей и аспектов (Knowledge Graph) для генерации и группировки аспектов. Это позволяет масштабировать подход, перенося знания между похожими сущностями (например, от одной «страны» к другой).
Структурированная выдача (Mashup): Финальная выдача по запросу о сущности может быть радикально реструктурирована в виде mashup — набора тематических блоков, каждый из которых фактически является ответом на отдельный запрос [Сущность + Аспект].

Практика

Best practices (это мы делаем)

Построение Тематического Авторитета (Topical Authority): Необходимо стратегически подходить к покрытию всех ключевых аспектов сущности, о которой создается контент. Это увеличивает вероятность того, что ваш контент будет выбран для показа в одном из тематических блоков, когда Google формирует mashup SERP для этой сущности.
Анализ и покрытие существующих аспектов: Изучайте, какие аспекты Google уже ассоциирует с вашими целевыми сущностями (это можно увидеть через блоки PAA, карусели, фасеты в поиске). Убедитесь, что ваш контент четко таргетирован на эти идентифицированные аспекты.
Оптимизация под связки [Сущность + Аспект]: Анализируйте Query Refinements и Query Super-strings в вашей нише. Создавайте высококачественный контент, оптимизированный именно под эти связки, так как именно по ним система выполняет поиск для заполнения тематических блоков.
Использование структурированных данных: Помогайте Google корректно определить класс вашей сущности и ее свойства, используя релевантную разметку Schema.org. Это может повлиять на то, как система генерирует и группирует классовые аспекты.

Worst practices (это делать не надо)

Фокус только на доминирующем аспекте: Создание контента, который покрывает только один, самый популярный аспект сущности. Поскольку система стремится к разнообразию (Diversity Score), такой подход ограничивает потенциальную видимость сайта в структурированной выдаче.
Создание поверхностного контента по многим аспектам: Попытка покрыть все аспекты без достаточной глубины. Каждый блок в mashup SERP заполняется лучшими результатами по запросу [Сущность + Аспект], поэтому контент должен быть конкурентоспособным по этому конкретному запросу.
Игнорирование семантической структуры сайта: Создание разрозненного контента о разных аспектах без четкой иерархии и перелинковки, что мешает поисковой системе понять взаимосвязь контента и глубину проработки темы на сайте.

Стратегическое значение

Патент подтверждает стратегический переход Google от ранжирования отдельных страниц к организации информации вокруг сущностей и их аспектов (Entity-Oriented Search). Долгосрочная SEO-стратегия должна быть направлена на построение авторитетности в рамках всей темы (сущности), а не оптимизацию под отдельные ключевые слова. Понимание интентов пользователей и того, как они эволюционируют в процессе исследования темы, становится критически важным.

Практические примеры

Сценарий: Оптимизация контент-стратегии для сайта о путешествиях по сущности «Hawaii».

Анализ Аспектов: Используя методы, описанные в патенте (анализ уточнений запросов), определяем, что ключевые аспекты для «Hawaii» это: «beaches», «hotels», «weather», «food».
Планирование Структуры: Создать четкую структуру контента, отражающую эти аспекты. Например, тематические хабы: /hawaii/beaches, /hawaii/hotels, /hawaii/food.
Оптимизация Контента: Убедиться, что страница /hawaii/beaches является лучшим ответом на запрос [Hawaii beaches]. Это требует глубокой проработки именно этого аспекта.
Ожидаемый результат: Когда пользователь ищет «Hawaii», Google формирует mashup SERP с блоками для разных аспектов. Сайт имеет высокие шансы появиться в блоках «Beaches» и «Hotels», так как предоставляет высокорелевантный контент, соответствующий идентифицированным и ранжированным системой аспектам.

Вопросы и ответы

Как система определяет, какие именно аспекты связаны с сущностью?

Основной источник данных — это логи запросов пользователей (user search histories). Система анализирует Query Refinements (что пользователи ищут сразу после запроса о сущности) и Query Super-strings (как они расширяют запрос о сущности). Также используются данные о классе сущности: если сущность принадлежит к классу «Город», система может перенести аспекты, характерные для других городов.

Как Google решает, какие из множества аспектов показать пользователю?

Используется двухфакторное ранжирование. Первый фактор — Popularity Score (насколько часто этот аспект ищут). Второй фактор — Diversity Score (насколько этот аспект отличается от уже выбранных). Система выбирает самый популярный аспект первым, а затем итеративно выбирает аспекты, которые популярны, но при этом добавляют новую информацию, обеспечивая разнообразие выдачи.

Как система понимает, что два разных термина являются одним и тем же аспектом (например, «deals» и «packages»)?

Система использует механизм расчета схожести (Similarity Score), основанный на сравнении поисковых выдач (SERP Similarity). Если запросы по двум терминам возвращают очень похожие наборы результатов (заголовки, сниппеты, URL), система считает их одним аспектом. Для сравнения используются методы TF-IDF и cosine distance.

Что такое «Mashup» SERP в контексте этого патента?

Mashup — это способ организации поисковой выдачи, при котором результаты не смешиваются в единый список, а разделяются на визуально различимые блоки (visually distinct aspect areas). Каждый блок посвящен одному конкретному аспекту сущности и содержит результаты, релевантные именно этому аспекту.

Как этот патент связан с Topical Authority?

Он имеет прямое отношение. Чтобы максимизировать видимость в такой структурированной выдаче, сайт должен быть авторитетным источником по всем ключевым аспектам сущности. Если ваш сайт покрывает только один аспект, он может появиться только в одном блоке. Полное покрытие темы (Topical Authority) увеличивает шансы на видимость по всем релевантным аспектам.

Использует ли система поведенческие факторы (CTR, Dwell Time) в этом алгоритме?

Да. В патенте упоминается, что Popularity Score аспекта может рассчитываться не только на основе частоты в логах запросов, но и на основе click through rate (CTR) и dwell time (времени, проведенном пользователем на странице результата). Это означает, что аспекты, которые приводят к более вовлеченному поведению пользователей, считаются более важными.

Что означает группировка аспектов по классам (Grouping)?

Это процесс объединения разных, но связанных аспектов под общей категорией. Например, если для сущности найдены аспекты «New York» и «San Francisco», система может определить, что оба они принадлежат к классу «U.S. Cities», и сгруппировать их в один более общий аспект «U.S. Cities». Это помогает структурировать информацию.

Может ли этот механизм использоваться для редких или новых сущностей?

Да. Для сущностей, по которым мало данных в логах запросов, система использует механизм классовой генерации. Она определяет класс сущности (например, используя Knowledge Base) и генерирует аспекты на основе данных о других, более популярных членах этого же класса, перенося знания между похожими сущностями.

Происходит ли генерация аспектов в реальном времени?

Нет, основная работа по генерации, очистке и ранжированию аспектов происходит офлайн путем анализа исторических данных. В реальном времени система только распознает сущность в запросе, извлекает уже готовые топовые аспекты из базы данных и выполняет поиск по ним для формирования mashup SERP.

Как SEO-специалисту повлиять на то, какие аспекты Google выберет для сущности?

Напрямую повлиять сложно, так как процесс основан на анализе глобального поведения пользователей. Однако можно косвенно влиять, создавая и продвигая контент, который формирует спрос на определенные аспекты, а также обеспечивая высокое качество контента по уже существующим аспектам, чтобы улучшить их поведенческие сигналы (CTR, dwell time), влияющие на Popularity Score.