Google использует механизм для анализа содержания топовых органических результатов поиска с целью извлечения «коррелирующих сущностей» (часто встречающихся терминов и фраз). Эти сущности позволяют системе расширить понимание контекста исходного запроса. Данные используются в первую очередь для подбора релевантной рекламы, особенно если по исходному запросу объявлений недостаточно.
Описание
Какую задачу решает
Патент решает проблему недостаточного количества или отсутствия контента «второго типа» (в первую очередь, рекламы), найденного в ответ на поисковый запрос. Когда система не может найти достаточно рекламных объявлений, напрямую соответствующих терминам запроса (например, для нишевых или неоднозначных запросов), это снижает эффективность монетизации и релевантность рекламной выдачи. Цель — расширить охват рекламного инвентаря.
Что запатентовано
Запатентована система для расширения идентификации контента путем анализа результатов основного поиска. Система анализирует контент «первого типа» (органические результаты), чтобы идентифицировать «Коррелирующие сущности» (Correlated Entities) — часто встречающиеся или выделенные термины и фразы. Затем эти Correlated Entities используются для поиска контента «второго типа» (рекламы). Процесс преимущественно выполняется офлайн путем предварительного расчета ассоциаций.
Как это работает
Система работает в двух режимах: офлайн (предварительная обработка) и онлайн (обслуживание запроса).
- Офлайн: Система обрабатывает ключевые слова, выполняет по ним запросы и анализирует органические результаты (Content of the first type). Из них извлекаются Correlated Entities — термины, встречающиеся в нескольких документах. Эти сущности ранжируются (по частоте, расположению) и сохраняется связь между исходным ключевым словом и сущностями.
- Онлайн: При получении запроса рекламная система (Content Engine) использует не только ключевые слова запроса, но и предварительно связанные с ними Correlated Entities для поиска рекламы (Content of the second type). Этот механизм может активироваться условно, если рекламы по исходному запросу недостаточно.
Актуальность для SEO
Высокая. Хотя методы семантического анализа значительно продвинулись, базовая концепция анализа результатов поиска для расширения понимания запроса остается фундаментальной. Способность извлекать релевантные темы из высокоранжированного контента остается критически важной как для рекламных систем (Google Ads), так и для общего понимания контента поисковыми системами.
Важность для SEO
Влияние на SEO косвенное, но значимое (5.5/10). Патент не описывает алгоритмы органического ранжирования. Однако он дает критически важное понимание того, как Google анализирует контент топовых страниц для определения контекста запроса. Это подтверждает, что структура, ясность и тематический охват контента на страницах, занимающих высокие позиции, определяют, какие концепции (Correlated Entities) Google ассоциирует с исходным запросом.
Детальный разбор
Термины и определения
- Content of the first type (Контент первого типа)
- Контент, идентифицированный в ответ на запрос. Как правило, это органические результаты поиска (веб-документы).
- Content of the second type / Content Items (Контент второго типа / Элементы контента)
- Дополнительный контент, идентифицируемый системой. Как правило, это рекламные объявления (Advertisements).
- Correlated Entities (Коррелирующие сущности)
- Сущности (однословные или многословные выражения), извлеченные из контента первого типа. Определяются как термины, которые встречаются в нескольких документах в наборе результатов. Являются основой для поиска контента второго типа.
- Correlation Engine (Механизм корреляции)
- Компонент, отвечающий за анализ контента первого типа и идентификацию Correlated Entities на основе частотных показателей.
- Ranking Engine (Механизм ранжирования)
- Компонент, отвечающий за ранжирование извлеченных Correlated Entities на основе различных метрик (частота, местоположение, релевантность источника).
- Relevance Measure (Мера релевантности)
- Метрика, указывающая степень релевантности между двумя элементами, например, между веб-документом и исходным запросом.
- Keyword/Correlated Entity Data Store (Хранилище ключевых слов и сущностей)
- База данных, хранящая ассоциации между ключевыми словами и идентифицированными Correlated Entities, созданные в офлайн-режиме.
Ключевые утверждения (Анализ Claims)
Патент US8171011B2 фокусируется на процессе предварительной (офлайн) ассоциации ключевых слов и сущностей, и их последующем использовании.
Claim 1 (Независимый пункт): Описывает метод, включающий предварительный расчет ассоциаций и их использование при обработке запроса.
Часть A (Офлайн-процесс):
- Выбирается множество ключевых слов.
- Для каждого ключевого слова:
- Генерируется запрос.
- Получается набор релевантных веб-документов.
- Идентифицируются Correlated Entities из этого набора. Ключевое условие: каждая сущность должна встречаться в нескольких документах набора.
- Эти Correlated Entities ассоциируются с исходным ключевым словом.
Часть B (Онлайн-процесс):
- Система получает новый запрос, включающий одно из этих ключевых слов.
- Выбираются ранее ассоциированные Correlated Entities.
- Идентифицируются элементы контента (реклама), релевантные этим Correlated Entities.
- Система предоставляет пользователю результаты поиска и найденную рекламу.
Ядро изобретения заключается в использовании консенсуса органического поиска (сущности, встречающиеся в нескольких топовых документах) для выявления связанных концепций и их использования для таргетинга рекламы.
Claim 2 и 3 (Зависимые): Детализируют ранжирование Correlated Entities.
- Claim 2: Ранжирование основывается на средней частоте встречаемости (average frequency of occurrence) сущности в наборе документов.
- Claim 3: Ранжирование основывается на местоположении (locations) сущностей в документах (например, приоритет отдается заголовкам, выделенному тексту).
Claim 4 (Зависимый): Описывает фильтрацию и приоритизацию рекламы. Если реклама релевантна как исходному ключевому слову, так и Correlated Entity, она получает приоритет в показе.
Claim 18 (Зависимый): Вводит условный триггер. Процесс идентификации (использования) Correlated Entities выполняется только в том случае, если количество рекламы, найденной по исходному ключевому слову, не превышает порогового значения.
Где и как применяется
Изобретение функционирует как мост между системой органического поиска и системой доставки рекламы.
INDEXING – Индексирование и извлечение признаков
Система должна иметь доступ к контенту и структуре веб-документов (кэшированные копии) для анализа частоты и расположения терминов.
QUNDERSTANDING – Понимание Запросов (Офлайн-обработка)
Основное применение (согласно Claim 1). Система выполняет офлайн-процесс для построения базы данных ассоциаций (Keyword/Correlated Entity Data Store). Это расширяет семантическое понимание ключевых слов за счет анализа связанного с ними контента.
RANKING – Ранжирование
На этом этапе генерируются органические результаты (контент первого типа), которые служат входными данными для офлайн-анализа.
METASEARCH / RERANKING (Онлайн-обработка)
Применение в реальном времени. Content Engine (рекламный движок) использует исходный запрос и/или предварительно рассчитанные Correlated Entities для идентификации рекламы. Происходит смешивание и потенциальное переранжирование рекламы (приоритезация пересечений по Claim 4).
Входные данные:
- Ключевые слова (офлайн) или Запрос пользователя (онлайн).
- Набор органических результатов поиска (Content of the first type).
- Меры релевантности (Relevance Measure) органических результатов запросу.
Выходные данные:
- База данных ассоциаций между ключевыми словами и ранжированными Correlated Entities (офлайн).
- Набор рекламных объявлений (Content of the second type), релевантных запросу и/или сущностям (онлайн).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы, по которым существует мало рекламодателей, таргетирующихся напрямую (длиннохвостые, нишевые, неоднозначные запросы).
- Конкретные типы контента: Влияет на то, как анализируется контент в топе органической выдачи. Система анализирует текст, заголовки и структуру этих страниц для извлечения сущностей. Не влияет напрямую на ранжирование самих органических результатов.
Когда применяется
- Постоянно (через офлайн-процесс): Процесс предварительного вычисления ассоциаций выполняется постоянно в фоновом режиме для обновления базы данных.
- Условно (при обслуживании запроса): Патент описывает селективное применение (Claim 18). Система может активировать поиск по Correlated Entities, только если количество рекламы, найденной по исходному запросу, не превышает определенный порог (например, 5 объявлений).
Пошаговый алгоритм
Процесс А: Офлайн-генерация ассоциаций (Claim 1)
- Выбор ключевых слов: Система выбирает набор ключевых слов для анализа.
- Генерация запросов и получение результатов: Для каждого ключевого слова формируется запрос и получаются релевантные веб-документы (контент первого типа).
- Идентификация Коррелирующих Сущностей: Correlation Engine анализирует документы. Идентифицируются выражения, которые встречаются в нескольких документах и чья частота превышает порог.
- Ранжирование сущностей: Ranking Engine ранжирует Correlated Entities на основе:
- Частоты встречаемости (средней или общей).
- Местоположения (заголовки, выделения, крупный шрифт).
- Меры релевантности (Relevance Measure) исходного документа запросу.
- Ассоциация и сохранение: Наиболее релевантные Correlated Entities ассоциируются с исходным ключевым словом и сохраняются в Data Store.
Процесс Б: Обработка запроса в реальном времени (Claim 1)
- Получение запроса: Система получает запрос от пользователя.
- Первичный поиск рекламы: Content Engine ищет рекламу по терминам запроса.
- Проверка порога (Условная активация): Система проверяет, превышает ли количество найденной рекламы заданный порог (согласно Claim 18).
- Если ДА: Поиск завершается.
- Если НЕТ: Активируется механизм расширения.
- Получение Коррелирующих Сущностей: Система извлекает предварительно вычисленные Correlated Entities (из Процесса А), связанные с ключевыми словами запроса.
- Вторичный поиск рекламы: Content Engine ищет рекламу, используя Correlated Entities.
- Фильтрация и объединение: Результаты объединяются. Контенту, релевантному и запросу, и сущностям, отдается приоритет (Claim 4).
- Предоставление результатов: Объединенный набор рекламы предоставляется пользователю вместе с органическими результатами.
Какие данные и как использует
Данные на входе
Система использует данные, извлеченные из органических результатов поиска (Content of the first type).
- Контентные факторы: Полный текст веб-документов из топа выдачи. Анализируются однословные и многословные выражения.
- Структурные факторы: Местоположение (locations) текста на странице. Упоминается, что сущности в заголовках (titles, headings) могут ранжироваться выше (Claim 3).
- Мультимедиа факторы (Форматирование): Визуальное представление текста. В описании патента упоминается, что сущности, отображаемые более крупным шрифтом (larger font) или иным образом выделенные (prominently displayed), могут ранжироваться выше.
- Системные данные (Relevance Measure): Предварительно рассчитанная оценка релевантности веб-документа исходному запросу, предоставляемая Search Engine.
Какие метрики используются и как они считаются
- Frequency of Occurrence (Частота встречаемости): Подсчет количества появлений термина или фразы в наборе документов.
- Average Frequency (Средняя частота): Среднее количество появлений сущности на документ в наборе результатов (Claim 2).
- Prominence Score (Оценка заметности): Метрика, основанная на структурных и визуальных факторах (заголовки, крупный шрифт). Используется для ранжирования Correlated Entities.
- Relevance Measure (Мера релевантности документа): Используется для взвешивания Correlated Entities. Сущности из документов с высокой релевантностью запросу получают больший вес.
- Ad Inventory Threshold (Порог рекламного инвентаря): Предопределенное число (например, 5 объявлений), используемое для принятия решения о необходимости активации механизма расширения (Claim 18).
Выводы
- Органическая выдача формирует контекст запроса: Патент демонстрирует, как Google использует содержание топовых органических результатов как надежный источник для понимания контекста запроса и выявления связанных тем (Correlated Entities). То, что находится в топе, определяет семантическое поле запроса для систем Google.
- Важность со-встречаемости (Co-occurrence) в нескольких документах: Ключевым критерием для идентификации Correlated Entity является ее появление в нескольких документах из набора результатов (Claim 1). Это подчеркивает важность общих тем и концепций (консенсуса) в рамках ниши.
- Извлечение сущностей основано на частоте и заметности: Ключевыми факторами для ранжирования Correlated Entities являются частота их упоминания и их структурная/визуальная заметность (заголовки, выделение).
- Релевантность источника имеет значение: Система предпочитает сущности, извлеченные из страниц, которые наиболее релевантны исходному запросу. Сущности наследуют релевантность от своего источника.
- Офлайн-обработка для скорости: Ключевая часть работы (связывание ключевых слов и сущностей) выполняется офлайн, что позволяет системе быстро реагировать на запросы в реальном времени.
- Фокус на AdTech, но с выводами для SEO: Хотя основная цель — улучшение монетизации SERP, используемые методы анализа контента дают SEO-специалистам четкие сигналы о важности структуры и тематического охвата контента.
Практика
Best practices (это мы делаем)
Хотя патент направлен на AdTech, его механизмы анализа контента имеют прямые последствия для SEO-стратегий.
- Анализ контекста SERP (Выявление Correlated Entities): Регулярно анализируйте топовые органические результаты, чтобы понять, какие термины и фразы часто встречаются и выделяются. Это поможет понять, какие Correlated Entities Google, вероятно, ассоциирует с данным запросом, и соответствующим образом скорректировать контент-стратегию.
- Обеспечение тематического охвата (Topical Coverage): Создавайте контент, который всесторонне раскрывает тему и включает релевантные связанные концепции, выявленные при анализе SERP. Ваш контент должен соответствовать тематическому ядру, сформированному лидерами.
- Четкая структура и иерархия контента: Используйте логичную структуру заголовков (H1-H6). Патент явно указывает (Claim 3), что местоположение (locations), такое как заголовки, используется для повышения ранга Correlated Entities. Ключевые концепции должны быть отражены в структуре документа.
- Визуальное выделение ключевой информации: Используйте форматирование (списки, полужирный шрифт) для выделения важной информации. Патент упоминает, что визуальная заметность (например, larger font) может влиять на ранг Correlated Entities.
Worst practices (это делать не надо)
- Игнорирование структуры контента: Публикация «стены текста» без четкой иерархии и выделения ключевых моментов снижает способность системы эффективно извлекать и высоко ранжировать Correlated Entities из вашего контента.
- Узкая оптимизация под один ключ (Thin Content): Создание контента, который фокусируется только на точном вхождении ключевого слова и игнорирует связанные темы. Система ищет сущности, которые отражают более широкий контекст.
- Изолированная оптимизация без учета SERP: Создание контента без анализа того, какие концепции уже доминируют в выдаче. Это риск создания контента, который не соответствует семантическому контексту, который Google уже определил для запроса.
Стратегическое значение
Патент подтверждает, что Google активно анализирует композицию и содержание SERP для извлечения контекста. Google использует уже ранжирующийся контент как «источник истины» для понимания тематики запроса. Для SEO это подчеркивает переход от оптимизации под ключевые слова к оптимизации под темы и концепции (Semantic SEO). Стратегически важно создавать контент, который содержит четкие, структурированные и часто встречающиеся концепции, которые определяют тематику.
Практические примеры
Сценарий: Оптимизация статьи о питании
- Исходный запрос: «Кето диета для начинающих».
- Анализ SERP (Content of the first type): SEO-специалист анализирует Топ-5 результатов. Он замечает, что во всех статьях часто встречаются и выделены в подзаголовках фразы: «макронутриенты», «состояние кетоза», «список разрешенных продуктов», «побочные эффекты».
- Извлечение (Предполагаемые Correlated Entities): Google, вероятно, идентифицирует эти фразы как Correlated Entities, так как они частотны (встречаются в нескольких документах) и структурно выделены.
- Действия SEO: Специалист обновляет свою статью, убедившись, что для каждого из этих понятий создан отдельный раздел с четким подзаголовком (H2/H3) и подробным описанием.
- Результат: Статья становится более полным и лучше структурированным ресурсом. Это улучшает ее органическое ранжирование и делает ее более ценным источником для извлечения Correlated Entities системой Google.
Вопросы и ответы
Является ли этот патент описанием алгоритма органического ранжирования?
Нет, этот патент в первую очередь описывает механизм для улучшения таргетинга рекламы (AdTech). Он решает проблему поиска рекламы, когда прямое сопоставление запроса неэффективно. Однако он описывает методы анализа органического контента, которые важны для понимания того, как Google интерпретирует содержание страниц.
Что такое «Correlated Entities» простыми словами?
Это ключевые слова, фразы или концепции, которые Google извлекает из топовых органических результатов по запросу. Если несколько топовых страниц часто упоминают определенный термин или выделяют его в заголовках, этот термин становится Correlated Entity. По сути, это смежные темы, которые Google считает важными для контекста исходного запроса.
Как Google решает, какие Correlated Entities важнее?
Патент описывает три основных фактора ранжирования сущностей. Первый — это частота встречаемости (включая среднюю частоту на документ). Второй — местоположение и заметность (сущности в заголовках или выделенные крупным шрифтом важнее). Третий — релевантность исходного документа запросу (сущности из более релевантных страниц могут быть важнее).
Как это влияет на мою SEO-стратегию по работе с контентом?
Это подчеркивает важность четкой структуры контента и тематического охвата. Ваши ключевые концепции должны быть ясно отражены в заголовках и структуре страницы, так как патент прямо указывает на использование местоположения для ранжирования сущностей. Также важно обеспечивать полноту раскрытия темы, включая смежные понятия, которые часто встречаются у конкурентов в топе.
Работает ли эта система в реальном времени или это предварительный расчет?
Патент в основном защищает офлайн-метод (Claim 1): заранее рассчитать Correlated Entities для ключевых слов и сохранить ассоциации. Однако в описании также упоминается возможность анализа органических результатов динамически (онлайн), если количество рекламы по исходному запросу ниже определенного порога.
Что означает, что сущность должна встречаться в «нескольких веб-документах» (Claim 1)?
Это важный механизм обеспечения релевантности и точности. Чтобы термин был признан значимой Correlated Entity для запроса, он должен быть общим для нескольких топовых результатов, а не уникальным для одной страницы. Это подтверждает, что система ищет консенсус среди качественных результатов для определения контекста.
Использует ли Google визуальное оформление (CSS) для определения важности контента?
Согласно описанию этого патента — да. Упоминается, что Correlated Entities, отображаемые более крупным шрифтом (larger font) или иным образом выделенные (prominently displayed), могут ранжироваться выше. Это указывает на то, что система может учитывать не только структуру HTML (заголовки), но и результирующее визуальное представление контента.
Если мой сайт не в Топе, влияет ли этот патент на меня?
Косвенно. Система анализирует именно топовые результаты для определения контекста запроса. Ваша цель — попасть в этот топ, чтобы ваш контент стал источником для извлечения Correlated Entities. Понимание того, как система анализирует контент лидеров (частота, структура, со-встречаемость), помогает вам оптимизировать свою страницу, чтобы достичь этого уровня.
Как связаны SEO и AdTech в контексте этого патента?
Они тесно связаны. Успех SEO (высокое ранжирование в органике) делает ваш контент входными данными для системы AdTech, описанной в патенте. Качество, структура и тематика вашего органического контента напрямую влияют на то, какие рекламные объявления Google будет считать релевантными для данного запроса.
Заменяет ли этот механизм современные методы NLP, такие как BERT?
Нет, не заменяет, но дополняет. Этот патент описывает более ранние статистические методы анализа. Современные модели (такие как BERT или MUM) лучше понимают контекст на более глубоком уровне. Однако базовый принцип — использование органических результатов для уточнения контекста запроса — остается актуальным, и сигналы частотности и структуры по-прежнему важны.