Как Google автоматически определяет ключевые атрибуты сущностей, анализируя логи поисковых запросов

Google анализирует массивы поисковых запросов, используя лингвистические шаблоны (например, «население [Города]»), чтобы автоматически определить, какие атрибуты наиболее важны для разных категорий сущностей. Этот механизм позволяет масштабно наполнять Knowledge Graph фактами, основываясь на том, как пользователи ищут информацию, а затем очищает и ранжирует эти данные по важности.

Описание

Какую задачу решает

Патент решает проблему масштабируемого и автоматизированного построения баз знаний об атрибутах (свойствах, характеристиках) сущностей. Ручное определение того, какие атрибуты важны для миллионов сущностей и категорий, непрактично. Изобретение предлагает метод автоматического вывода этих атрибутов и оценки их важности путем анализа коллективного поведения пользователей, зафиксированного в логах поисковых запросов (Search Query Logs).

Что запатентовано

Запатентована система для автоматического вывода атрибутов сущностей путем анализа коллекций поисковых запросов. Система использует предопределенные лингвистические шаблоны (Extract Patterns) для идентификации пар Сущность-Атрибут в текстах запросов. Извлеченные атрибуты затем проходят процесс очистки (Refinement), ассоциируются с соответствующими категориями сущностей и ранжируются по важности (Scoring).

Как это работает

Система работает в несколько этапов (преимущественно офлайн):

Сбор данных: Анализируются логи поисковых запросов.
Извлечение (Inference): К запросам применяются Extract Patterns (например, “what is the A of E” или “E’s A”) для извлечения Атрибутов (A) для конкретных Сущностей (E).
Категоризация: Атрибуты назначаются категориям. Например, атрибут «население», извлеченный для «Парижа», назначается категории «Города».
Очистка (Refinement): Система фильтрует шум, удаляя Proper Name Attributes (части имен собственных) и Generic Attributes (слишком общие термины, например, «картинка»). Семантически связанные атрибуты (синонимы) объединяются.
Оценка (Scoring): Атрибуты ранжируются по важности для категории. Оценка учитывает частоту запросов и надежность шаблона (например, полные предложения весят больше).

Актуальность для SEO

Высокая. Автоматическое построение и расширение Knowledge Graph остается центральной задачей для Google. Извлечение структурированных данных из логов запросов является фундаментальным методом для понимания сущностей и ответа на фактические вопросы. Этот подход обеспечивает data-driven метод определения того, какие атрибуты наиболее важны для пользователей.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он раскрывает механизм, с помощью которого Google определяет, какие характеристики (атрибуты) являются ключевыми для конкретной категории сущностей. Понимание этого критически важно для Entity SEO, построения тематического авторитета (Topical Authority) и оптимизации под E-E-A-T. Контент должен покрывать те атрибуты, которые Google считает важными на основе спроса пользователей.

Детальный разбор

Термины и определения

Attribute (Атрибут): Свойство, особенность или характеристика сущности (например, «население» для города, «побочные эффекты» для лекарства).
Category (Категория) / Class: Группа сущностей (экземпляров), разделяющих общие атрибуты. Например, «Страны», «Компании».
Category Definition (Определение категории): Структура данных, содержащая идентификатор категории, список сущностей (entity identifiers) и список атрибутов (attribute identifiers), принадлежащих этой категории.
Entity (Сущность): Объект реального или вымышленного мира. Может быть экземпляром (Instance) или категорией (Category).
Extract Pattern (Шаблон извлечения): Лингвистический шаблон, используемый для идентификации сущностей и атрибутов в тексте запроса. Примеры: «what is the <A> of <E>», «<E>’s <A>».
Generic Attributes (Общие атрибуты): Атрибуты, которые применимы к слишком большому количеству разных сущностей и не полезны для описания конкретной категории (например, «картинка», «история», «значение»). Они отфильтровываются.
Instance (Экземпляр): Конкретная сущность, принадлежащая к категории. Например, «Франция» — это экземпляр категории «Страны».
Proper Name Attributes (Атрибуты имени собственного): Термины, ошибочно извлеченные как атрибуты, но являющиеся частью имени собственного (например, «Battle» в «Battle of Midway»). Они отфильтровываются.
Search Query Log (Лог поисковых запросов): Запись текстовых строк, отправленных пользователями поисковой системе. Основной источник данных для анализа.
Semantically-related attributes (Семантически связанные атрибуты): Разные текстовые формы, характеризующие один и тот же атрибут (синонимы, опечатки, аббревиатуры). Они объединяются в процессе уточнения.

Ключевые утверждения (Анализ Claims)

Анализ основан на Claims 1-18 патента US8812509B1.

Claim 1 (Независимый пункт): Описывает основной метод автоматического наполнения и оценки атрибутов для категорий сущностей на основе анализа запросов.

Система поддерживает коллекцию Extract Patterns (с плейсхолдерами для сущности и атрибута) и коллекцию Category Definitions.
Определяется, что текст поискового запроса соответствует шаблону. Идентифицируются подстроки, соответствующие плейсхолдерам Сущности и Атрибута.
Определяется, что подстрока Сущности соответствует идентификатору сущности в конкретном Category Definition.
Подстрока Атрибута добавляется как идентификатор атрибута в это Category Definition.
Генерируется оценка (Score) для этого атрибута, отражающая его релевантность для характеристики данной категории.

Claim 2 (Зависимый от 1): Детализирует этап очистки (Refinement).

После добавления атрибута система удаляет из определения категории любой идентификатор атрибута, который идентифицирован как имя собственное (Proper Name) человека, места или вещи. Это шаг фильтрации шума.

Claim 3 (Зависимый от 1): Детализирует этап агрегации и нормализации.

Система определяет, что атрибуты из разных запросов семантически связаны (идентифицируют общий атрибут). Система рассчитывает взвешенную частоту (weighted frequency) использования этого общего атрибута для характеристики категории.

Claim 4 (Зависимый от 1): Детализирует механизм оценки (Scoring).

При генерации Score атрибуты, извлеченные с помощью шаблонов целого предложения (whole sentence extract patterns), взвешиваются более высоко, чем атрибуты из неполных предложений. Естественно-языковые вопросы считаются более надежными индикаторами.

Где и как применяется

Изобретение описывает офлайн-процесс анализа данных для построения базы знаний, которая затем используется на различных этапах поиска.

CRAWLING / Data Acquisition (Сбор данных)
Система собирает Search Query Logs – данные о поведении пользователей, которые служат входными данными для анализа.

INDEXING & Feature Extraction (Индексирование и извлечение признаков)
Основное применение патента. Это офлайн-процесс (Batch Processing), используемый для построения и обогащения базы знаний (например, Knowledge Graph). Система обрабатывает логи запросов, извлекает атрибуты, фильтрует их и строит базу данных ассоциаций между категориями и их атрибутами.

QUNDERSTANDING (Понимание Запросов)
Результаты работы системы (база знаний атрибутов) используются на этом этапе в реальном времени для интерпретации запросов и определения фактического интента. Например, система распознает запрос «altitude Helsinki» как поиск факта, зная, что «altitude» это атрибут категории, к которой принадлежит «Helsinki».

METASEARCH (Метапоиск и Смешивание)
Сформированная база знаний используется для генерации информационных блоков. Ассоциации атрибутов могут использоваться для дополнения результатов поиска подборкой фактов о сущности (например, Knowledge Panel, Featured Snippets).

Входные данные:

Логи поисковых запросов (Search Query Logs), включая частоту.
Коллекция лингвистических шаблонов (Extract Patterns).
Коллекция определений категорий (Category Definitions) с примерами экземпляров.

Выходные данные:

Обогащенные Category Definitions, включающие список релевантных атрибутов для каждой категории с оценками (Scores).

На что влияет

Конкретные типы контента и ниши: Влияет на контент, описывающий сущности с четко определенными атрибутами: продукты (e-commerce), локации, организации, биографии, медикаменты (YMYL).
Специфические запросы: Влияет на обработку информационных и фактических запросов (запросы типа «кто», «что», «где», «сколько»).
Формирование SERP Features: Напрямую влияет на то, какие факты будут отображаться в Knowledge Panels и других блоках с ответами.

Когда применяется

Условия работы: Алгоритм применяется в режиме пакетной обработки (offline), а не в реальном времени.
Частота применения: Периодический запуск процесса для анализа накопленных логов и обновления базы знаний о сущностях и их атрибутах.

Пошаговый алгоритм

Процесс вывода и обработки атрибутов:

Получение данных: Система получает логи поисковых запросов.
Вывод атрибутов экземпляров (Inference): Система применяет Extract Patterns к логам для идентификации пар (Instance, Attribute).
Назначение категорий (Assignment): Система сопоставляет извлеченный экземпляр (Instance) с предопределенными Category Definitions. Атрибут назначается соответствующей категории. Создаются пары (Category, Attribute).
Уточнение атрибутов (Refinement): Происходит фильтрация и агрегация:
1. Фильтрация имен собственных: Идентификация и удаление Proper Name Attributes (например, путем проверки капитализации атрибута в надежных веб-источниках).
2. Фильтрация общих атрибутов: Идентификация и удаление Generic Attributes (на основе эвристики, учитывающей количество различных сущностей, с которыми ассоциирован атрибут).
3. Объединение семантически связанных атрибутов: Идентификация синонимов, вариантов написания и объединение их числовых показателей (number counts).
Ассоциация уточненных атрибутов: Создание финальных ассоциаций между категориями и очищенными атрибутами.
Оценка атрибутов (Scoring): Расчет Score для каждого атрибута в рамках категории.
1. Взвешивание: Расчет взвешенной частоты (Weighted Frequency). Атрибутам, извлеченным с помощью шаблонов целых предложений, присваивается больший вес (Claim 4).
2. Расчет оценки: Используется формула (например, Equation 1 в патенте), которая учитывает взвешенную частоту и сглаживающий фактор (Smoothing Factor) для предотвращения переоценки редких атрибутов.
Предоставление результатов: Сформированные ассоциации с оценками становятся доступны для использования другими компонентами поисковой системы.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые данные): Search Query Logs – основной источник данных. Анализируется текст запросов и их частота.
Лингвистические данные: Extract Patterns – предопределенные шаблоны для анализа структуры запросов.
Системные данные: Category Definitions – предопределенные категории и списки принадлежащих им экземпляров.
Контентные факторы (Вспомогательные): Веб-документы или словари могут использоваться на этапе уточнения (Refinement) для проверки капитализации атрибутов с целью выявления Proper Name Attributes.

Какие метрики используются и как они считаются

Weighted Frequency (Wf) (Взвешенная частота): Частота встречаемости атрибута, скорректированная с учетом веса Extract Pattern. Шаблоны полных предложений получают больший вес.
Score (Оценка релевантности атрибута): Финальная метрика, определяющая важность атрибута (A) для категории (C). В патенте приводится формула (Equation 1), которая рассчитывает оценку на основе взвешенных частот и сглаживающего фактора: Score(C, A) пропорционален Wf(C,A) / (Wf(C) * Wf(A)) * Sf(C,A).
- Wf(C, A): Взвешенная частота атрибута A в категории C.
- Wf(C), Wf(A): Общие взвешенные частоты категории и атрибута.
- Sf(C,A): Сглаживающий фактор (Smoothing Factor), предотвращающий переоценку редких атрибутов.
Пороги для фильтрации: Используются эвристические пороги для определения Generic Attributes (например, если атрибут ассоциирован с >30% сущностей) и Proper Name Attributes (например, если атрибут капитализирован >50% случаев в надежных источниках).

Выводы

Логи запросов как источник знаний о мире: Google активно использует логи поисковых запросов как прямой источник для построения Knowledge Graph. То, как пользователи формулируют запросы о сущностях, напрямую определяет, какие атрибуты Google считает важными.
Автоматизация через лингвистические паттерны: Система использует простые, но эффективные лингвистические шаблоны (Extract Patterns) для масштабного преобразования неструктурированных запросов в структурированные данные (пары сущность-атрибут).
Критичность очистки данных (Refinement): Значительная часть процесса посвящена фильтрации шума (удаление Generic Attributes и Proper Name Attributes) и нормализации (объединение синонимов). Это необходимо для обеспечения высокой точности (Precision) базы знаний.
Ранжирование атрибутов по важности (Scoring): Не все атрибуты одинаково важны. Система ранжирует их, используя частоту упоминаний и качество источника. Атрибуты из естественно-языковых запросов (whole sentence patterns) считаются более надежными и получают больший вес.
Фокус на категориях для масштабирования: Механизм определяет атрибуты для целых категорий (классов). Это позволяет системе понимать, какие атрибуты релевантны даже для менее известных сущностей (Tail Entities), если они принадлежат к известной категории.

Практика

Best practices (это мы делаем)

Исследование атрибутов сущностей (Attribute Research): Необходимо выявлять ключевые атрибуты для целевых сущностей в вашей нише. Анализируйте, какие характеристики пользователи ищут чаще всего (используя GSC, анализ ключевых слов, блоки PAA). Убедитесь, что ваш контент покрывает эти атрибуты.
Использование естественных формулировок (Mirroring Extract Patterns): При описании сущностей используйте четкие, естественные языковые конструкции, которые зеркалируют Extract Patterns. Например: «The population of [City] is…», «The founder of [Company] was…». Это облегчает извлечение фактов с вашего сайта.
Построение тематического авторитета (Topical Authority): Обеспечивайте всестороннее покрытие атрибутов, которые Google считает релевантными (имеют высокий Score) для данной категории. Авторитетный ресурс должен содержать информацию обо всех ключевых атрибутах сущности.
Использование структурированных данных (Schema.org): Размечайте ключевые атрибуты сущностей. Хотя патент описывает извлечение из запросов, предоставление этих же атрибутов через Schema.org подтверждает и уточняет данные для поисковой системы.

Worst practices (это делать не надо)

Игнорирование ключевых атрибутов: Создание контента о сущности без упоминания ее основных характеристик, которые пользователи активно ищут. Например, страница лекарства без информации о дозировке и побочных эффектах.
Использование нестандартной терминологии: Применение жаргона или необычных синонимов для общепринятых атрибутов. Если пользователи не используют эти термины в запросах, система не сможет их извлечь и ассоциировать с категорией.
Фокус только на Head Terms без атрибутов: Оптимизация страницы только под название сущности без учета связанных с ней атрибутов не позволяет отвечать на фактические запросы пользователей и не демонстрирует полноту раскрытия темы.

Стратегическое значение

Патент подтверждает стратегию Google по переходу к поиску, ориентированному на сущности (Entity-Oriented Search). Он демонстрирует механизм масштабируемого наполнения Knowledge Graph на основе пользовательского спроса. Для SEO это означает, что контент-стратегия должна быть направлена на точное и полное описание релевантных сущностей и их атрибутов. Чтобы сайт был признан авторитетом по теме (сущности), он должен покрывать набор атрибутов, который Google извлек из поведения пользователей.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce (например, «Смартфоны»)

Анализ (Имитация работы патента): Система Google анализирует логи и определяет, что для категории «Смартфоны» ключевыми атрибутами (высокий Score) являются: «срок службы батареи», «разрешение камеры», «объем памяти», «цена».
Действия SEO-специалиста: Убедиться, что на странице категории и на страницах конкретных моделей эти атрибуты четко указаны и доступны (в тексте, характеристиках, фильтрах).
Реализация в контенте: Использовать формулировки, соответствующие Extract Patterns. Например:
- Заголовок: «Сравнение срока службы батареи смартфонов 2025 года».
- В тексте: «Объем памяти iPhone X составляет…», «Разрешение камеры Samsung Galaxy Y…»
Реализация в разметке: Использовать Schema.org/Product для разметки этих атрибутов на страницах товаров.
Ожидаемый результат: Повышение релевантности страницы фактическим запросам, улучшение шансов на попадание в Featured Snippets и блоки сравнения товаров.

Вопросы и ответы

Как этот патент связан с Knowledge Graph?

Этот патент описывает один из ключевых механизмов для масштабного наполнения Knowledge Graph. Система автоматически определяет схему (структуру атрибутов) для различных категорий сущностей на основе реальных данных о поведении пользователей, анализируя миллионы поисковых запросов. Это позволяет Google строить структурированное представление о мире без необходимости ручной модерации.

Как система определяет, какие атрибуты являются самыми важными для сущности?

Важность определяется через оценку (Score), которая основана на частоте упоминания атрибута в логах запросов. Также используется взвешенная частота (weighted frequency), где атрибуты, извлеченные из полных предложений (например, «Какая столица Франции?»), получают больший вес, чем из коротких фраз («Франция столица»).

Что такое «Extract Patterns» и почему они важны для SEO?

Extract Patterns — это лингвистические шаблоны, которые Google использует для идентификации связей между сущностями и атрибутами в тексте (например, «what is the A of E»). Для SEO это важно, потому что использование аналогичных четких и естественных формулировок в контенте (например, «Население Парижа составляет…») облегчает Google извлечение фактов с вашего сайта для использования в Knowledge Panels или Featured Snippets.

Как система борется с шумом и ошибками при извлечении атрибутов?

Применяется процесс уточнения (Refinement). Система удаляет шум: Proper Name Attributes (части имен собственных, ошибочно принятые за атрибуты) и Generic Attributes (слишком общие слова вроде «картинка» или «история»). Также система объединяет семантически связанные атрибуты (синонимы, варианты написания) для нормализации данных.

Как я могу использовать этот патент для улучшения E-E-A-T и Topical Authority?

Для достижения тематического авторитета ваш контент должен всесторонне покрывать сущность. Используйте этот патент как подтверждение необходимости идентифицировать полный набор атрибутов, которые пользователи ищут для данной сущности (т.е. атрибуты с высоким Score), и предоставить точную информацию по ним. Покрытие всех ключевых атрибутов сигнализирует о глубине экспертизы и авторитетности ресурса.

Влияет ли этот алгоритм на ранжирование напрямую?

Нет, патент описывает офлайн-процесс построения базы знаний, а не алгоритм ранжирования. Однако извлеченные данные критически важны для этапа понимания запросов (Query Understanding) и для формирования SERP-функций (Knowledge Panels, Featured Snippets). Также наличие полного набора атрибутов на странице может повышать ее релевантность и авторитетность по теме сущности.

Нужно ли мне использовать микроразметку Schema.org, если Google извлекает атрибуты таким способом?

Да, обязательно. Патент описывает, как Google определяет, какие атрибуты важны. Schema.org помогает вам четко сообщить Google значения этих атрибутов на вашем сайте. Использование разметки помогает Google сопоставить выведенные атрибуты с вашим контентом и верифицировать информацию.

Откуда система знает, к какой категории относится сущность (например, что Париж — это город)?

Патент предполагает наличие предопределенных Category Definitions, которые содержат списки сущностей, принадлежащих к каждой категории. Система сопоставляет сущность, извлеченную из запроса, с этими списками. Эти базовые определения создаются заранее с использованием других алгоритмов или баз знаний.

Что означает «сглаживание» (smoothing) при оценке атрибутов?

Сглаживание (Smoothing Factor) используется в формуле расчета Score для предотвращения переоценки редких атрибутов. Если какой-то атрибут появился всего несколько раз, без сглаживания он мог бы получить неоправданно высокий балл. Сглаживание корректирует оценку, чтобы обеспечить приоритет статистически значимым данным.

Применяется ли этот метод только к очень популярным сущностям (Head Entities)?

Нет. Метод фокусируется на ассоциации атрибутов с категориями (Classes). Это позволяет системе масштабировать понимание на менее известные сущности (Tail Entities). Например, узнав атрибуты для категории «Город», Google понимает, что атрибут «Население» релевантен для любого города, даже если он редко запрашивается.