Как Google использует распознавание сущностей (WebRef) для понимания контента и точного подбора контекстной рекламы

Google использует систему WebRef Entities для точного понимания содержания веб-страниц и рекламных объявлений. Система идентифицирует сущности (люди, места, объекты), устраняет неоднозначности с помощью контекста и связанных сущностей (например, отличая «Jaguar» автомобиль от животного) и определяет «главную сущность» страницы. Это позволяет точно подбирать релевантную контекстную рекламу.

Описание

Какую задачу решает

Патент решает проблему неточности и неоднозначности (ambiguity) при автоматическом выборе контекстного контента (преимущественно рекламы) для веб-страниц. Традиционные методы, основанные только на ключевых словах, могут ошибаться в интерпретации смысла (например, путая «Jaguar» как автомобиль и как животное). Изобретение улучшает точность (accuracy) подбора контента за счет использования однозначно идентифицированных концепций.

Что запатентовано

Запатентована система выбора контента, которая использует классификацию сущностей (classification of entities) для семантического понимания содержания веб-страницы и рекламы. Система идентифицирует Web Reference (WebRef) Entities, каждая из которых имеет уникальный идентификатор (unique identifier). Затем она сопоставляет сущности страницы с доступным контентом в репозитории, чтобы выбрать наиболее релевантные элементы для показа.

Как это работает

Система работает следующим образом:

Идентификация сущностей: Система сканирует текст веб-страницы и рекламы для идентификации WebRef entities, используя базу знаний (например, manually created taxonomy или entity graph).
Устранение неоднозначности (Disambiguation): Система анализирует взаимосвязи между сущностями на странице для точной идентификации. Например, если на странице есть «Jaguar» и сущности, связанные с автомобилями (например, «C-X75», «SS 90»), система выберет сущность «Jaguar (автомобиль)».
Определение Главной Сущности: Система оценивает (score) сущности страницы, чтобы определить main entities (главные сущности).
Сопоставление (Matching): Система выбирает контент несколькими способами, включая прямое сопоставление сущностей, расширение сущности до ключевых слов (Placement Criteria), или повышение веса ключевых слов на странице, если их сущность совпадает с главной сущностью страницы.
Ранжирование: Выбор контента учитывает релевантность, прогнозируемую эффективность (estimated performance, например CTR) и ставки (bids) рекламодателей на сущности.

Актуальность для SEO

Высокая. Понимание сущностей является фундаментом современных систем Google (Knowledge Graph) и NLP-моделей (BERT, MUM). Описанные в патенте механизмы идентификации, устранения неоднозначности и определения «главной сущности» страницы критически важны для интерпретации контента, как в рекламе, так и в органическом поиске.

Важность для SEO

Патент имеет умеренное прямое влияние на SEO (6.5/10). Он описывает механизмы, предназначенные в первую очередь для выбора контекстной рекламы, а не для органического ранжирования. Однако он предоставляет критически важные инсайты о том, как Google технически реализует распознавание и классификацию сущностей (Entity Recognition and Disambiguation) на уровне документа. Понимание этих механизмов необходимо Senior SEO-специалистам для оптимизации контента под семантический поиск.

Детальный разбор

Термины и определения

Web Reference Entity (WebRef Entity): Сущность (человек, место, предмет или тема), которая имеет unique identifier для устранения неоднозначности между похожими названиями. Используется для точного понимания текста.
Entity Classification (Классификация сущностей): Структурированная категоризация сущностей (онтология или таксономия). Включает типы, свойства, атрибуты и взаимосвязи. Может быть создана вручную (manual classification).
Unique Identifier (Уникальный идентификатор): Идентификатор, однозначно определяющий сущность и ее классификацию (например, /dining/cuisine или /American_football/football_coach).
Main Entity (Главная сущность): Сущность веб-страницы, получившая наивысшую оценку (score) и считающаяся основной темой страницы.
Placement Criteria (Критерии размещения): Ключевые слова, термины или семантические темы, используемые для сопоставления контента со страницей. Могут быть производными от сущностей.
Crowdsourcing (Краудсорсинг): Процесс привлечения группы людей для выполнения задач, в данном контексте — для создания или классификации сущностей (manual classification).
Entity ID Circuit (Модуль идентификации сущностей): Компонент системы, ответственный за анализ текста и идентификацию присутствующих в нем сущностей.
Matching Circuit (Модуль сопоставления): Компонент, ответственный за корреляцию сущностей веб-страницы с доступным контентом в репозитории.
Estimated Performance (Предполагаемая эффективность): Прогнозируемые метрики эффективности, такие как CTR (Click-Through Rate) или Conversion Rate, используемые для ранжирования сущностей и контента.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод предоставления контента.

Система получает классификацию (classification) множества сущностей.
Система получает запрос на контент для веб-страницы.
Система идентифицирует сущность (entity) этой веб-страницы. Эта сущность включает unique identifier, который определяет классификацию сущности.
Система сопоставляет (matching) эту сущность с контентом в репозитории, основываясь на классификации сущности, чтобы выбрать контент для отображения.

Claim 4 (Зависимый от 1): Уточняет природу классификации.

Классификация является manual classification, которая включает структурированные данные, обеспечивающие созданную вручную таксономию сущностей (manually created taxonomy).

Claim 5 (Зависимый от 1): Описывает метод сопоставления через расширение сущности (Entity Expansion).

Процесс сопоставления включает:

Определение placement criteria (например, ключевых слов), связанных с сущностью.
Сопоставление этих placement criteria с контентом в репозитории.

Claim 6 (Зависимый от 1): Описывает метод прямого сопоставления сущностей (Direct Entity Matching).

Сущность страницы является первой сущностью. Процесс сопоставления включает:

Определение второй сущности для контента в репозитории.
Сопоставление первой сущности со второй сущностью.

Claim 2 и 3 (Зависимые от 1): Детализируют взаимодействие с поставщиком контента (рекламодателем).

Система может запросить (prompt) у поставщика дополнительную информацию (например, для уточнения неоднозначных сущностей в рекламе) и сохранить ответ.

Claim 8, 9, 10 (Зависимые от 1): Описывают механизмы скоринга и ранжирования.

Система ранжирует сущности на основе их предполагаемой эффективности (estimated performance) (Claim 8).
Система определяет оценку (score) сущности и ранжирует связанный контент на основе этой оценки (Claim 9).
Оценка может определяться на основе полученной ставки (bid) на эту сущность (Claim 10).

Где и как применяется

Изобретение применяется в системе выбора и размещения контекстного контента (например, в рекламных сетях типа Google AdSense). Оно затрагивает следующие этапы, хотя и в контексте выбора рекламы, а не органического ранжирования:

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит анализ контента веб-страниц для извлечения WebRef entities. Entity ID Circuit сканирует текст, идентифицирует потенциальные сущности, использует Entity Classification для устранения неоднозначности (Disambiguation) и определения Main Entity. Эти процессы анализа контента (NLP) аналогичны тем, что используются в органическом поиске.

METASEARCH / RANKING (в контексте выбора контента/рекламы)
Это основной этап применения патента. Когда поступает запрос на контент для страницы (content serving time):

Система использует идентифицированные сущности страницы.
Matching Circuit выполняет поиск в Content Repository (репозитории рекламы).
Сопоставление происходит с использованием различных методов (прямое, косвенное, усиление ключевых слов).
Система оценивает подходящий контент на основе релевантности сущностей, предполагаемой эффективности и ставок (bids).

Входные данные:

Контент веб-страницы (текст, метаданные, ключевые слова).
Запрос на контент.
База знаний (Entity Classification).
Репозиторий контента (реклама, связанные сущности и ставки).

Выходные данные:

Выбранный контент (например, рекламные объявления), релевантный сущностям веб-страницы.

На что влияет

Типы контента: Влияет на любые текстовые веб-страницы, где требуется автоматический подбор связанного контента или рекламы.
Конкретные ниши: Наибольшее влияние в тематиках с высокой степенью неоднозначности терминов (например, технологии, бренды, общие понятия), где точная идентификация сущностей критична для релевантности (например, финансы, где «банк» может означать учреждение или берег реки).

Когда применяется

Условия применения: Алгоритм применяется в реальном времени (content serving time), когда пользователь загружает веб-страницу, содержащую слоты для динамического контента (рекламы).
Триггеры активации: Получение запроса (request for content) от оператора веб-сайта или устройства пользователя.

Пошаговый алгоритм

Процесс можно разделить на офлайн-подготовку и онлайн-обработку.

Процесс А: Офлайн-подготовка данных

Создание и поддержка классификации сущностей: Получение и обновление Entity Classification. Это может включать ручной труд или краудсорсинг (manual classification) для создания таксономии и присвоения Unique Identifiers.
Обработка контента (рекламы):
1. Получение контента от провайдеров.
2. Идентификация сущностей в контенте.
3. Устранение неоднозначности: Если сущность неоднозначна (например, «football»), система может запросить (prompt) у провайдера уточнение (выбрать между /American_football и /soccer).
4. Сохранение контента и связанных данных в Content Repository.
5. Прием ставок (bids) на конкретные сущности.

Процесс Б: Онлайн-обработка запроса и выбор контента

Получение запроса: Система получает request for content для веб-страницы.
Идентификация сущностей страницы: Entity ID Circuit анализирует страницу для идентификации WebRef entities.
Устранение неоднозначности и Оценка: Система оценивает (score) сущности, используя взаимосвязи в базе данных. Например, если страница содержит «Jaguar» и связанные сущности типа «SS 90» или «C-X75», сущность «Jaguar (автомобиль)» получит более высокий балл, чем «Jaguar (животное)».
Определение Главной Сущности: Выбираются сущности с наивысшим весом как Main Entities.
Сопоставление контента (Matching): Matching Circuit ищет подходящий контент, используя несколько методов:
1. Прямое сопоставление: Поиск контента, который также содержит Main Entity.
2. Расширение сущности (Entity Expansion): Определение Placement Criteria (ключевых слов), связанных с Main Entity (например, сущность «Французская кухня» -> ключевые слова «багет», «фуа-гра»). Поиск контента по этим критериям.
3. Усиление ключевых слов (Keyword Boosting): Повышение оценки (score) ключевых слов страницы, если их сущность совпадает с главной сущностью страницы. Использование этих высоко оцененных ключевых слов для поиска контента.
Ранжирование и Выбор: Ранжирование подходящего контента на основе оценки сущностей, ставок (bids) и предполагаемой эффективности (estimated performance, например, CTR).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст веб-страницы и текст контента (рекламы). Ключевые слова (keywords) веб-страницы также анализируются.
Структурные/Семантические данные:
- Entity Classification / Taxonomy: Структурированные данные о сущностях, их типах, свойствах и взаимосвязях (граф знаний). Это критически важный компонент для анализа.
- Unique Identifiers: Используются для однозначной идентификации.
Поведенческие факторы (Косвенно): Упоминается estimated performance (предполагаемая эффективность), которая может включать исторические данные о взаимодействии пользователей (например, Click-Through Rate (CTR) или Conversion Rate), связанные с сущностью или контентом.
Коммерческие данные: Ставки (Bids), которые провайдеры контента делают на конкретные сущности.

Какие метрики используются и как они считаются

Entity Score (Оценка сущности на странице): Метрика для определения Main Entity и устранения неоднозначности. Рассчитывается на основе взаимосвязей между сущностями в базе данных. Наличие связанных сущностей на странице повышает оценку нужной сущности.
Keyword Score (Оценка ключевого слова): Метрика релевантности ключевого слова странице. Повышается, если сущность ключевого слова совпадает с сущностью веб-страницы.
Estimated Performance (Предполагаемая эффективность): Метрика для ранжирования сущностей и контента. Может основываться на исторических данных (CTR, Conversion Rate).
Bid Value (Значение ставки): Используется для определения оценки сущности и ранжирования контента в рекламном аукционе.

Выводы

Приоритет сущностей над ключевыми словами: Патент демонстрирует механизм, который переходит от анализа ключевых слов к анализу однозначно идентифицированных сущностей (WebRef Entities) для понимания содержания страницы.
Критичность устранения неоднозначности (Disambiguation): Система активно использует контекст (наличие связанных сущностей на странице) для различения многозначных терминов. Это ключевой компонент для определения истинной темы контента.
Концепция «Главной Сущности» (Main Entity): Патент формализует идею, что страница имеет одну или несколько главных тем (Main Entities), которые определяются путем оценки (scoring) всех присутствующих на ней сущностей на основе их взаимосвязей.
Множественные методы сопоставления: Система использует гибкий подход: прямое сравнение сущностей, расширение сущности до ключевых слов (Entity Expansion) и повышение веса ключевых слов на основе сущностей (Keyword Boosting).
Зависимость от структурированной базы знаний: Эффективность системы зависит от качества Entity Classification (таксономии или графа сущностей), которая может создаваться вручную (manual classification) или через краудсорсинг.
Фокус на контекстном контенте (Рекламе): Основное применение описанной технологии — это выбор релевантной контекстной рекламы, а не ранжирование в органическом поиске. Однако базовые технологии анализа контента (NLP) являются общими.

Практика

Best practices (это мы делаем)

Хотя патент фокусируется на выборе рекламы, он раскрывает механизмы понимания контента (NLP), которые критически важны для SEO.

Обеспечение ясности Главной Сущности: Структурируйте контент так, чтобы поисковая система могла легко определить Main Entity страницы. Главная сущность должна быть очевидна и иметь наибольший семантический вес в документе.
Использование контекста для устранения неоднозначности: Если ваша главная тема многозначна (например, «Apple», «Java», «Меркурий»), активно используйте связанные сущности (Related Entities) и термины для задания контекста. Для «Apple (компания)» упоминайте «iPhone», «Tim Cook», «Cupertino». Это поможет системе присвоить правильный Unique Identifier.
Насыщение контента связанными сущностями: Включайте в текст сущности, которые естественно связаны с Main Entity в графе знаний. Это помогает системе повысить Entity Score главной сущности, так как связи между сущностями используются для определения контекста и устранения неоднозначности.
Использование структурированных данных (Schema.org): Внедряйте микроразметку для прямой декларации сущностей и их свойств. Используйте sameAs для связи с уникальными идентификаторами в авторитетных базах (например, Wikidata). Это напрямую коррелирует с логикой WebRef.

Worst practices (это делать не надо)

Создание неоднозначного контента: Написание текстов, где сложно определить основную тему или где многозначные термины используются без достаточного контекста. Это приведет к неправильной идентификации Main Entity.
Изолированное использование ключевых слов: Фокус на точном вхождении ключевых слов без построения семантических связей и упоминания связанных сущностей. Система ищет концептуальное соответствие (сущности), а не просто совпадение строк.
Смешивание несвязанных тем: Создание контента, который охватывает множество слабо связанных сущностей. Это затрудняет определение Main Entity и может снизить общую оценку тематической релевантности страницы.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на семантическое понимание контента (Entity-First). Для долгосрочного SEO критически важно перейти от оптимизации под ключевые слова к оптимизации под сущности и их взаимосвязи. Система WebRef показывает, что Google стремится к однозначной интерпретации контента. SEO-стратегия должна фокусироваться на создании четкого, структурированного и семантически богатого контента, который легко интерпретируется в терминах графа знаний.

Практические примеры

Сценарий: Оптимизация статьи о многозначном термине (например, «Меркурий»)

Анализ интента и выбор сущности: Определить фокус статьи: планета, химический элемент (ртуть) или римский бог. Допустим, мы пишем о планете.
Внедрение контекстуальных сигналов (Связанные сущности): Чтобы система правильно идентифицировала Main Entity как планету (согласно механизму Disambiguation), необходимо включить связанные сущности:
- Солнечная система
- Орбита, Атмосфера (атрибуты)
- Венера, Земля (соседние планеты)
- NASA, Mariner 10 (исследования)
Структурирование данных: Использовать Schema.org и указать ссылку на соответствующую страницу в Wikipedia/Wikidata через sameAs для сущности «Меркурий (планета)».
Ожидаемый результат: Система точно идентифицирует Main Entity благодаря контексту, предоставленному связанными сущностями. Это улучшает понимание контента для органического поиска и гарантирует, что контекстная реклама (согласно патенту) будет подобрана корректно (например, реклама телескопов, а не средств от отравления ртутью).

Вопросы и ответы

Что такое WebRef Entity, описанная в патенте?

WebRef Entity — это концепция (человек, место, предмет), которой присвоен уникальный идентификатор (Unique Identifier) для устранения неоднозначности. Например, это позволяет системе точно знать, что термин «Jaguar» на конкретной странице относится к автомобилю, а не к животному. Это основа для точного семантического понимания контента.

Влияет ли этот патент напрямую на органическое ранжирование (SEO)?

Нет, напрямую не влияет. Патент описывает систему для выбора стороннего контента (content selection), чаще всего контекстной рекламы (например, AdSense). Однако он раскрывает базовые технологии распознавания и классификации сущностей (NLP), которые Google использует повсеместно, включая органический поиск.

Что такое «Главная Сущность» (Main Entity) страницы и как она определяется?

Main Entity — это сущность, которую система определила как основную тему веб-страницы. Система анализирует все сущности на странице, оценивает их (score) на основе их взаимосвязей и контекста, и выбирает ту, что имеет наибольший вес. Для SEO важно, чтобы Main Entity соответствовала целевому интенту.

Как работает устранение неоднозначности (Disambiguation) в этом патенте?

Устранение неоднозначности происходит за счет анализа контекста. Если на странице есть многозначный термин (например, «Java»), система смотрит на другие сущности на этой же странице. Если рядом упоминаются «Oracle», «JVM» и «Programming», система выберет сущность «Java (язык программирования)», а не «Java (остров)».

Как SEO-специалист может использовать знание об этом патенте на практике?

Ключевое применение — это оптимизация контента для лучшего распознавания сущностей. Необходимо убедиться, что основная тема (Main Entity) ясна, и использовать достаточное количество связанных сущностей (Related Entities) в тексте. Это помогает устранить неоднозначность и подтвердить релевантность страницы целевой теме.

Что такое «Расширение Сущности» (Entity Expansion)?

Это процесс, при котором система берет Main Entity и определяет связанные с ней ключевые слова или темы (Placement Criteria) на основе ее классификации в базе знаний. Например, из сущности «Французская кухня» система может получить ключевые слова «круассан», «рататуй». Это позволяет находить релевантный контент, даже если он не использует точное название сущности.

Патент упоминает «manually created taxonomy» и «crowdsourcing». Что это значит?

Это означает, что база знаний (Entity Classification), которую использует система для понимания сущностей, может создаваться и классифицироваться вручную людьми, в том числе с помощью краудсорсинга (как Freebase или Wikidata). Это подчеркивает зависимость системы от качественных структурированных данных.

Как связаны этот патент и разметка Schema.org?

Патент описывает использование внутренней системы классификации (WebRef) и уникальных идентификаторов. На практике использование Schema.org является основным способом для SEO-специалистов явно указать сущности и их взаимосвязи на странице, что помогает системам, подобным описанной, правильно интерпретировать контент.

Могут ли рекламодатели таргетироваться на сущности напрямую?

Да. Патент описывает возможность для рекламодателей делать ставки (bids) непосредственно на WebRef Entities. Это позволяет реализовывать более точный семантический таргетинг по сравнению с традиционным таргетингом по ключевым словам.

Что важнее для понимания контента системой: ключевые слова или сущности?

Патент подтверждает, что сущности являются фундаментом. Ключевые слова – это способ выражения сущностей в тексте. Система стремится понять, о каких именно сущностях идет речь, чтобы определить релевантность и контекст. Оптимизация должна фокусироваться на сущностях и их атрибутах.