Как Google использует логи запросов для определения и ранжирования классов сущностей (IsA Relationships)

Google улучшает понимание сущностей (Instances) путем анализа того, как пользователи их ищут. Патент описывает метод ранжирования категорий (Classes) для сущности, основанный на частоте их совместного упоминания в логах поисковых запросов. Система объединяет данные, извлеченные из веб-документов, с данными о поведении пользователей, чтобы точнее определить основные классы сущности и улучшить базу знаний (IsA Repository).

Описание

Какую задачу решает

Патент решает проблему точности и релевантности при автоматическом построении баз знаний, в частности, репозиториев IsA (отношений «Экземпляр является Классом»). При автоматическом извлечении информации из текста часто возникают ошибочные, слишком общие или малополезные ассоциации (например, для сущности «Avatar» могут быть извлечены классы «works» или ошибочные «car makers»). Цель изобретения — улучшить ранжирование этих классов, чтобы наиболее релевантные и полезные классы для данной сущности находились выше.

Что запатентовано

Запатентована система для ранжирования ассоциаций Instance:Class (I:C). Ключевая инновация заключается в использовании внешнего источника данных — обучающего набора поисковых запросов (Training Set of Queries, т.е. логов запросов) — для валидации и переранжирования ассоциаций, извлеченных из текстовых документов. Система анализирует поведение пользователей, чтобы определить, какие классы наиболее важны для сущности.

Как это работает

Система генерирует и объединяет два независимых рейтинга:

Рейтинг L1 (Анализ документов): Классы ранжируются на основе анализа текстового корпуса (Text Source). Учитывается частота и надежность паттернов извлечения (Extraction Patterns).
Рейтинг L2 (Анализ запросов): Классы ранжируются на основе логов запросов. Система ищет, как часто термины класса появляются в запросах, содержащих экземпляр. Особое внимание уделяется запросам, где экземпляр является префиксом (началом запроса), а термин класса следует за ним (например, «Avatar movie»).
Объединение (Merging): Рейтинги L1 и L2 объединяются (например, с использованием агрегации рангов), чтобы компенсировать шум и повысить точность финального списка классов в IsA Repository.

Актуальность для SEO

Высокая. Понимание сущностей (Entity Understanding) и их точная классификация являются фундаментом современного семантического поиска и основой Knowledge Graph. Использование логов запросов для валидации знаний, извлеченных из веба, остается критически важной техникой для Google.

Важность для SEO

Влияние на SEO значительно (8/10), особенно в контексте Entity SEO и оптимизации под Knowledge Graph. Патент демонстрирует, что классификация сущностей Google формируется не только контентом веб-страниц (L1), но и тем, как пользователи реально ищут эти сущности (L2). Это подчеркивает необходимость соответствия контент-стратегии реальному поисковому поведению для укрепления желаемых ассоциаций сущности с ее основными классами.

Детальный разбор

Термины и определения

Class (C) / Class Label (Класс / Метка класса): Текстовая строка (слово или фраза), которая классифицирует экземпляр. Например, «научно-фантастический фильм» или «SLR-камера».
Extraction Patterns (Паттерны извлечения): Лингвистические или структурные шаблоны, используемые для идентификации отношений Instance:Class из текстовых источников.
Instance (I) (Экземпляр / Сущность): Текстовая строка, представляющая конкретную сущность. Например, «Avatar», «Diderot», «Canon EOS 7D».
Instance:Class association (I:C) (Ассоциация Экземпляр:Класс): Структура данных, связывающая класс с экземпляром (отношение IsA).
IsA Repository (Репозиторий IsA): База данных, хранящая множество ассоциаций Instance:Class, ранжированных по релевантности. Используется для интерпретации текста и понимания сущностей.
L1(I) и L2(I) (Списки ранжирования): L1 – список классов для I, ранжированный по первому правилу (на основе документов). L2 – список, ранжированный по второму правилу (на основе запросов).
Query Prefix (Префикс запроса): Начальная часть поискового запроса. Ключевой концепт в патенте для анализа L2: экземпляр должен быть префиксом запроса.
Text Source (Текстовый источник): Коллекция документов (например, веб-страницы), используемая для извлечения и расчета L1.
Training Set of Queries (Обучающий набор запросов): Коллекция реальных поисковых запросов (например, анонимизированные логи), используемая для расчета L2.

Ключевые утверждения (Анализ Claims)

Примечание: Согласно тексту патента, пункты формулы 1-23 были отменены (canceled). Анализ сосредоточен на действующих пунктах, начиная с 24.

Claim 24 (Независимый пункт): Описывает основной метод ранжирования отношений IsA с использованием логов запросов и специфических ограничений на структуру запроса.

Система идентифицирует экземпляр (Instance) и связанные с ним классы (Class 1, Class 2).
Используется Training Set of Queries.
Вычисляется оценка (Score 1) для отношения I:C1 на основе частоты совместного упоминания (frequency of co-occurrence) в наборе запросов.
Ключевое ограничение: Учитываются ТОЛЬКО те запросы, которые включают: (А) термин экземпляра как query prefix (начало запроса) И (Б) термины класса outside of the query prefix (вне начала запроса).
Аналогично вычисляется оценка (Score 2) для I:C2.
На основе этих оценок определяется и сохраняется относительное ранжирование классов C1 и C2 для экземпляра I.

Ядро изобретения — использование структуры запроса (Сущность как префикс + Класс как суффикс) для выявления интента уточнения/классификации и определения важности класса на основе поведения пользователей.

Claim 26 и 28 (Зависимые): Уточняют метод расчета оценки для класса, состоящего из нескольких терминов.

Оценка для класса вычисляется путем применения statistical function (статистической функции) к частотам совместного упоминания отдельных терминов этого класса.

Claim 27 (Зависимый): Указывает, что статистическая функция может быть geometric mean (средним геометрическим).

Claim 30 и 32 (Зависимые): Описывают процесс объединения рейтингов.

Система объединяет first ranking (L1, полученный иным способом) с рейтингом, полученным согласно Claim 24 (L2, основанным на запросах), для создания merged ranking (объединенного рейтинга).

Claim 34 (Зависимый): Уточняет, что первый рейтинг (L1) может быть основан на частоте встречаемости (frequency of occurrence) ассоциации в Web documents.

Где и как применяется

Изобретение направлено на создание и улучшение базовых репозиториев знаний (IsA Repository), которые используются на нескольких этапах поиска.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этом этапе в виде офлайн-процесса:

Извлечение ассоциаций I:C из Text Source.
Расчет ранжирования L1 на основе анализа документов.
Офлайн-обработка Training Set of Queries для расчета ранжирования L2.
Объединение L1 и L2 для создания финального IsA Repository. Этот репозиторий сохраняется и становится частью индекса или Knowledge Graph.

QUNDERSTANDING – Понимание Запросов
Созданный IsA Repository активно используется на этом этапе в реальном времени. Система использует эти данные для определения того, чем являются сущности в запросе (например, распознавание, что «Аватар» в запросе, скорее всего, относится к классу «фильм»), что помогает лучше интерпретировать интент.

Входные данные:

Коллекция веб-документов (Text Source).
Логи поисковых запросов (Training Set of Queries).
Начальный набор извлеченных ассоциаций Instance:Class.

Выходные данные:

IsA Repository с ранжированным списком классов для каждого экземпляра (Merged List).

На что влияет

Сущности (Entities) и Knowledge Graph: Изобретение напрямую влияет на то, как Google классифицирует именованные сущности (люди, продукты, компании и т.д.) и определяет их основной тип (Primary Type) в Графе Знаний.
Специфические запросы: Наибольшее влияние на неоднозначные запросы, где правильная классификация сущности критична для определения интента (например, запрос «Ягуар» — это о животном или автомобиле?).

Когда применяется

Временные рамки и частота: Процесс генерации и ранжирования IsA Repository является офлайн-процессом (batch processing), выполняемым периодически для обновления базы знаний. Он не применяется в реальном времени при обработке каждого запроса.
Условия работы: Наличие достаточного объема данных как в текстовом корпусе (для L1), так и в логах запросов (для L2) для конкретной ассоциации Instance:Class.

Пошаговый алгоритм

Процесс создания ранжированного IsA Repository:

Сбор данных: Получение набора ассоциаций Instance:Class (I:C) для Экземпляра I (например, путем извлечения из веб-документов).
Ранжирование L1 (На основе документов):
1. Применение первого правила оценки к классам на основе Text Source.
2. Пример расчета (из описания патента): Score(I:C) = Size({Pattern(I:C)})^2 * Freq(I:C). (Учитывает количество паттернов извлечения и частоту ассоциации в документах).
3. Создание ранжированного списка L1(I).
Ранжирование L2 (На основе запросов):
1. Применение второго правила оценки на основе Training Set of Queries.
2. Для каждого класса C и его терминов Tj:
  1. Фильтрация запросов Qk: Учитываются только запросы, где I является префиксом, а Tj находится вне префикса (согласно Claim 24).
  2. Расчет частоты каждого термина Tj в этом отфильтрованном подмножестве.
  3. Расчет оценки для класса C путем применения статистической функции (например, среднего геометрического) к частотам его терминов Tj.
3. Создание ранжированного списка L2(I).
Объединение списков (Merging):
1. Объединение L1(I) и L2(I) для создания Merged List.
2. Пример формулы объединения (из описания патента): MergedScore(I:C) = 2 / (Rank(I:C, L1) + Rank(I:C, L2)). (Гармоническое среднее рангов / обратное среднему рангу).
Хранение и применение: Сохранение финального списка в IsA Repository и его использование для обработки текста и понимания запросов.

Какие данные и как использует

Данные на входе

Патент опирается на два принципиально разных источника данных:

Контентные/Структурные факторы (для L1): Система анализирует текст и структуру веб-документов (Text Source). Контекст, в котором упоминаются экземпляр и класс, и используемые Extraction Patterns являются входными данными для L1.
Поведенческие факторы (для L2): Критически важные данные — логи поисковых запросов (Training Set of Queries). Анализируется частота запросов и их структура (совместное упоминание экземпляра и класса, позиция экземпляра как префикса).

Какие метрики используются и как они считаются

Score(I:C) для L1: Метрика, основанная на анализе документов.
Пример формулы: Score(I:C) = Size({Pattern(I:C)})^2 * Freq(I:C).
Score(I:C) для L2: Метрика, основанная на популярности в запросах. Рассчитывается как статистическая функция (geometric mean) от частот терминов класса в отфильтрованном наборе запросов (где I – префикс).
MergedScore(I:C): Метрика для финального ранжирования.
Пример формулы: MergedScore(I:C) = 2 / (Rank(I:C, L1) + Rank(I:C, L2)). Использование рангов вместо исходных оценок делает результат менее чувствительным к методам расчета L1 и L2 и отдает предпочтение ассоциациям, высоко ранжируемым в обоих списках.

Выводы

Валидация знаний через поисковое поведение: Google использует то, как люди ищут (логи запросов L2), для валидации и ранжирования знаний (отношений IsA), извлеченных из того, что люди пишут (веб-документы L1). Поведение пользователей напрямую формирует базу знаний Google.
Критичность структуры запроса (Instance as Prefix): Патент особо выделяет значимость запросов, где сущность является префиксом, а класс следует за ней (Claim 24). Google интерпретирует это как явный интент пользователя классифицировать или уточнить сущность, что является сильным сигналом для определения основных классов.
Два источника истины и их балансировка: Для надежной классификации необходимо наличие свидетельств как в контенте (L1), так и в поведении (L2). Система признает, что оба источника могут быть шумными, и использует объединение рангов (harmonic mean of ranks) для повышения общей точности и стабильности.
Entity SEO и User Intent: Для SEO это означает, что стратегия работы с сущностями должна основываться не только на том, что написано на сайте, но и на том, как эти сущности воспринимаются и ищутся реальными пользователями.

Практика

Best practices (это мы делаем)

Анализ реальных паттернов поиска (L2): Тщательно изучайте, как пользователи ищут ваши ключевые сущности (бренды, продукты). Используйте GSC, Google Autocomplete и блоки PAA для выявления запросов формата «Сущность + Класс/Атрибут». Это данные, которые Google использует для L2.
Укрепление желаемых ассоциаций в контенте (L1): Убедитесь, что основные классификации ваших сущностей четко и последовательно отражены в тексте на вашем сайте и в авторитетных внешних источниках. Используйте микроразметку (Schema.org), чтобы явно указать эти связи.
Согласованность терминологии: Используйте общепринятые и популярные (согласно анализу запросов) термины для обозначения классов. Ваша таксономия должна соответствовать языку пользователей.
Оптимизация под запросы уточнения: Создавайте контент, который отвечает на популярные уточняющие интенты, выявленные при анализе L2 (например, обзоры, характеристики, сравнения). Это помогает укрепить связь между сущностью и этими атрибутами в глазах Google.

Worst practices (это делать не надо)

Игнорирование поискового поведения: Фокусироваться только на внутренней категоризации, игнорируя то, как сущность ищут пользователи. Если есть расхождение, Google может предпочесть классификацию, основанную на поведении большинства (L2).
Неоднозначная классификация в контенте: Создание контента, который по-разному классифицирует одну и ту же сущность, затрудняет работу Extraction Patterns и снижает оценки в L1.
Манипуляции с логами запросов: Попытки искусственно накрутить частоту запросов «Сущность + Желаемый Класс» рискованны. Кроме того, L1 (документы) служит стабилизирующим фактором против манипуляций с L2.

Стратегическое значение

Патент подтверждает стратегическую важность интеграции данных о поведении пользователей в системы извлечения знаний. Для Entity SEO это означает, что авторитетность и правильная классификация зависят от комбинации сигналов: качественного контента (L1) и соответствия этого контента реальному пользовательскому спросу и языку (L2). Долгосрочная стратегия должна быть направлена на то, чтобы стать общепризнанным ответом как в контенте, так и в сознании пользователей для определенного класса сущностей.

Практические примеры

Сценарий: Оптимизация карточки товара для E-commerce

Сущность (Instance): «Canon EOS 7D»

Анализ L1 (Документы): Анализ обзоров показывает, что сущность часто связывается с классами: «DSLR camera», «professional camera».
Анализ L2 (Запросы): Анализ логов запросов показывает высокую частоту паттернов (Instance as Prefix):
- «Canon EOS 7D reviews»
- «Canon EOS 7D price»
- «Canon EOS 7D specs»
Вывод: Термины «reviews», «price», «specs» получают высокий балл по L2, так как они часто используются для уточнения запроса о сущности.
Действия SEO:
- Убедиться, что на карточке товара есть блоки, явно соответствующие этим интентам (Характеристики, Цена, Отзывы).
- Использовать именно эти термины в заголовках блоков и в микроразметке.
- Приоритезировать эти блоки выше на странице.
Результат: Google более точно определяет наиболее важные атрибуты товара, что улучшает ранжирование по релевантным информационным и коммерческим запросам.

Вопросы и ответы

Что такое «IsA Repository» и как он связан с Knowledge Graph?

IsA Repository — это база данных, хранящая отношения типа «Экземпляр является Классом» (например, «Canon EOS 7D» IsA «SLR-камера»). Это фундаментальный компонент для понимания сущностей и один из источников данных, которые формируют Knowledge Graph, обеспечивая базовую классификацию сущностей.

Патент описывает два рейтинга: L1 (документы) и L2 (запросы). Какой из них важнее?

Оба критически важны. L1 основан на анализе контента в вебе, а L2 — на анализе поведения пользователей. Система специально разработана для их объединения (например, через среднее гармоническое рангов). Для получения высокого финального ранга ассоциация должна иметь высокие ранги в обоих списках.

Что означает ограничение «Instance as a query prefix» в Claim 24?

Это ключевой момент патента. Google фокусируется на запросах, где сущность стоит в начале (префикс), а класс следует за ней (например, «Avatar movie»). Google интерпретирует это как явное намерение пользователя классифицировать или уточнить сущность, что является сильным сигналом для ранжирования классов.

Как SEO-специалист может повлиять на рейтинг L2 (основанный на запросах)?

Напрямую повлиять сложно, так как он основан на агрегированном поведении пользователей. Однако можно повлиять косвенно: используя в своем контенте, маркетинге и PR ту терминологию для классификации, которая наиболее популярна и понятна пользователям. Это увеличит вероятность того, что пользователи будут использовать именно эти термины в своих запросах.

Как использовать этот патент для улучшения позиций в Entity SEO?

Необходимо убедиться, что желаемая классификация вашей сущности очевидна как в контенте (для L1), так и соответствует тому, как люди реально ищут (для L2). Проанализируйте логи запросов (GSC) и подсказки, определите популярные классификаторы и атрибуты, и интегрируйте их в вашу контент-стратегию и структуру сайта.

Почему система использует среднее геометрическое (geometric mean) для расчета L2?

Среднее геометрическое используется для агрегации частот разных терминов в многословном классе (например, «научно-фантастический фильм»). Оно менее чувствительно к выбросам, чем среднее арифметическое, и гарантирует, что все термины вносят вклад в итоговую оценку, не позволяя одному очень частотному слову перевесить остальные.

Почему для объединения L1 и L2 используется среднее гармоническое рангов (harmonic mean of ranks)?

Использование рангов вместо исходных оценок делает процесс объединения более стабильным. Среднее гармоническое смещает результат в сторону меньшего значения — это означает, что для получения высокого финального ранга ассоциация должна иметь высокие ранги в обоих списках (L1 и L2), что повышает надежность результата.

Может ли этот механизм привести к неправильной классификации сущности?

Да, это возможно, если логи запросов содержат много шума или если популярное заблуждение доминирует в запросах (L2). Однако механизм объединения с L1 (анализ документов) предназначен для стабилизации рейтинга и снижения риска ошибок, опираясь на факты, извлеченные из веб-корпуса.

Является ли этот процесс real-time?

Нет. Описанный в патенте процесс генерации и ранжирования IsA Repository является офлайн-процессом (batch processing). Он выполняется при обновлении баз знаний Google. Однако результаты этого процесса (сохраненный репозиторий) используются в реальном времени на этапе понимания запросов (Query Understanding).

Как этот патент влияет на E-E-A-T?

Косвенно, но значительно. E-E-A-T оценивается в контексте определенной темы или класса. Если Google благодаря этому механизму точно определяет основной класс автора или организации, это позволяет более корректно оценить их экспертизу и авторитетность именно в этой области. Неправильная классификация может затруднить оценку E-E-A-T.