Как Google определяет главную сущность веб-страницы и разрешает неоднозначности (Disambiguation) с помощью анализа контента и анкоров

Google использует эту систему, чтобы понять, о какой конкретной сущности (например, месте или человеке) идет речь на веб-странице, особенно когда названия неоднозначны. Система анализирует доминирование упоминаний сущности на странице (соотношения), расположение упоминаний (заголовок или тело документа), контекстуальные связи и анкорный текст входящих ссылок, чтобы связать страницу с правильной уникальной сущностью в своей базе данных.

Описание

Какую задачу решает

Патент решает проблему неоднозначности имен сущностей (entity name ambiguity) в поиске. Одно и то же имя (например, «Париж» или «Ягуар») может относиться к нескольким разным уникальным сущностям (distinct entities). Изобретение призвано улучшить качество поиска путем (1) точного определения, к какой уникальной сущности относится конкретный цифровой ресурс (веб-страница), и (2) предоставления пользователю результатов поиска, сгруппированных по этим уникальным сущностям, в ответ на неоднозначный запрос.

Что запатентовано

Запатентована система для идентификации и ранжирования ресурсов, относящихся к уникальным сущностям. Система включает методы для анализа ресурсов (офлайн) с целью определения их релевантности конкретной сущности. Это достигается путем анализа контента страницы (используя соотношение упоминаний, контекст и их расположение) и анализа анкорных текстов входящих ссылок. На этапе обработки запроса система использует эти данные для разрешения неоднозначности и предоставления отдельных результатов для каждой уникальной сущности.

Как это работает

Система работает в двух основных режимах:

Анализ ресурсов (Индексирование): Система (например, Place Recognition Engine) анализирует контент ресурса. Для определения главной сущности используется расчет соотношений (ratios): количество упоминаний конкретной сущности делится на общее количество упоминаний всех сущностей. Сущность с наибольшим соотношением считается основной. Также учитывается контекст (иерархические связи), расположение упоминаний (в <TITLE> вес выше, чем в <BODY>, и близость к началу документа) и анализ анкорных текстов.
Обработка запроса (Ранжирование): Когда поступает запрос, содержащий имя сущности, система обращается к базе данных, где хранятся связи между уникальными сущностями и ресурсами. Если имя неоднозначно, система предоставляет отдельные результаты (кластеры) для каждой из них.

Актуальность для SEO

Критически высокая. Понимание сущностей и разрешение неоднозначностей (Disambiguation) являются фундаментальными компонентами современных поисковых систем (например, Knowledge Graph). Описанные механизмы, связывающие контент и ссылки с конкретными сущностями, лежат в основе Entity SEO, локального поиска и оценки E-E-A-T. Этот патент описывает базовую логику того, как Google определяет тематику и фокус страницы на уровне сущностей.

Важность для SEO

Патент имеет критическое значение (90/100) для SEO-стратегии. Он детально описывает механизмы, с помощью которых Google определяет основную сущность веб-страницы. Понимание этих механизмов (доминирование сигналов, важность контекста, вес расположения контента и роль анкорных текстов) необходимо для обеспечения того, чтобы контент был правильно ассоциирован с целевыми сущностями в индексе Google.

Детальный разбор

Термины и определения

Anchor Text (Анкорный текст): Текст гиперссылки в исходном ресурсе, который используется для определения релевантности целевого ресурса сущности, упомянутой в анкоре.
Database of names of distinct entities (База данных имен уникальных сущностей): Индекс (130), который хранит результаты офлайн-анализа: ассоциации между каждой уникальной сущностью и релевантными ей цифровыми ресурсами, а также метрики релевантности. Используется на этапе обработки запроса.
Distinct Entity (Уникальная сущность): Конкретный экземпляр сущности с уникальным идентификатором (например, «Рим, Италия», в отличие от «Рим, Джорджия»).
Entity / Place (Сущность / Место): Объект реального мира. В формуле изобретения используется общий термин «сущность» (Entity), но примеры в описании фокусируются на географических местах (Places).
Item of content (Элемент контента): Слово или фраза в ресурсе, которая указывает на сущность (например, имя сущности или связанный объект, такой как достопримечательность).
Likelihood Value (Значение вероятности): Метрика релевантности ресурса сущности. Рассчитывается на основе расположения упоминания (First likelihood value для заголовка, Second likelihood value для тела) или на основе анализа анкорных текстов.
Offset (Смещение): Расстояние от начала раздела <BODY> до элемента контента. Меньшее смещение указывает на большую важность.
Place Recognition Engine (Механизм распознавания мест): Компонент системы (128), отвечающий за офлайн-анализ ресурсов для определения их релевантности конкретным сущностям.
Places Database (База данных мест): База знаний (140, аналог Knowledge Graph), хранящая информацию о сущностях (местах), включая имена, иерархические отношения (Parent-child), сиблинговые связи (Sibling relationships) и связанные объекты.
Ratio (Соотношение): Ключевая метрика для определения основной сущности ресурса. Рассчитывается как отношение количества элементов контента, указывающих на конкретную сущность, к общему количеству элементов контента, указывающих на все сущности в ресурсе.

Ключевые утверждения (Анализ Claims)

Патент содержит независимые пункты, описывающие как процесс обработки запроса (онлайн), так и процесс анализа ресурсов (офлайн).

Claim 1 (Независимый пункт): Описывает процесс обработки запроса с использованием анализа контента для определения релевантности.

Система получает запрос с ключевым словом, идентифицированным как имя сущности.
Выполняется поиск в базе данных уникальных сущностей.
Определяется, что ключевое слово связано с несколькими сущностями (например, Сущность 1 и Сущность 2).
Извлекаются ресурсы, релевантные этим сущностям.
Ключевой момент: Релевантность ресурса определяется на основе соотношения (ratio): (i) количества элементов контента, указывающих на эту сущность, и (ii) количества элементов контента, указывающих на все сущности в ресурсе.
В ответ на запрос предоставляются отдельные результаты для Сущности 1 и Сущности 2.

Claim 4 (Зависимый от 1): Детализирует метод определения релевантности из Claim 1.

Ресурс ассоциируется с той сущностью, которая имеет наибольшее соотношение (greatest ratio) упоминаний среди всех упомянутых сущностей.

Claim 6 и 7 (Зависимые): Детализируют влияние расположения контента на оценку релевантности.

Упоминание в заголовке (Title) получает более высокое значение вероятности (First likelihood value), чем упоминание в теле документа (Body).
При упоминании в теле документа определяется смещение (Offset). Упоминания ближе к началу документа получают более высокое значение вероятности, чем упоминания в конце.

Claim 8 (Независимый пункт): Описывает процесс обработки запроса (аналогично Claim 1), но определяет релевантность на основе анализа анкорных текстов (Anchor Text Analysis).

Идентифицируются входящие ссылки на ресурс.
Определяется подмножество ссылок, чьи анкорные тексты являются именами сущностей.
Уникальная сущность определяется на основе количества ссылок в этом подмножестве, которые используют имя этой сущности в анкоре.

Claim 26 и 27 (Независимые пункты): Описывают офлайн-процессы анализа ресурса.

Claim 26: Офлайн-анализ контента. Система рассчитывает ratios упоминаний, определяет наибольшее соотношение и идентифицирует соответствующую сущность как основную тему ресурса.
Claim 27: Офлайн-анализ анкоров. Система анализирует входящие ссылки и определяет релевантность сущности на основе количества анкоров, использующих ее имя.

Где и как применяется

Изобретение охватывает несколько ключевых этапов поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Place Recognition Engine выполняет офлайн-анализ:

Извлечение сущностей: Сканирование контента и идентификация упоминаний сущностей с использованием базы знаний (Places Database).
Разрешение неоднозначности ресурса (Disambiguation): Применение алгоритмов анализа контента (расчет Ratios, учет иерархии и расположения) и анализа анкоров для определения основной уникальной сущности (Distinct Entity).
Сохранение данных: Ассоциация между ресурсом и уникальной сущностью, а также метрики релевантности (Likelihood Values), сохраняются в Database of names of distinct entities.

QUNDERSTANDING – Понимание Запросов
Система определяет, что ключевое слово в запросе является именем сущности, и выявляет потенциальную неоднозначность (т.е. имя соответствует нескольким уникальным сущностям).

METASEARCH – Метапоиск и Смешивание / RANKING – Ранжирование
Система извлекает предварительно рассчитанные ассоциации.

Поиск в индексе сущностей: Система ищет в Database of names of distinct entities.
Формирование SERP: Система предоставляет отдельные результаты поиска (кластеры) для каждой уникальной сущности. Ресурсы внутри кластера ранжируются, используя Likelihood Values, частоту упоминаний и, возможно, topic-independent resource quality scores.

На что влияет

Типы контента: Влияет на ресурсы, фокусирующиеся на именованных сущностях (статьи, локальные страницы, биографии, обзоры).
Специфические запросы: Наибольшее влияние на запросы, содержащие неоднозначные имена сущностей (например, [Lincoln], [Paris], [Apple]).
Локальный поиск (Local SEO): Механизмы географической иерархии и разрешения неоднозначности критически важны для различения бизнесов с одинаковыми названиями в разных локациях.

Когда применяется

Во время индексирования (Офлайн): Применяется при обработке каждого ресурса для определения его релевантности сущностям.
Во время запроса (Онлайн): Активируется, когда система идентифицирует ключевое слово запроса как неоднозначное имя сущности.
Пороговые значения: Метод анализа анкоров использует порог (threshold). В описании патента упоминается пример порога 0.75 для подтверждения релевантности.

Пошаговый алгоритм

Процесс А: Определение релевантности ресурса (Анализ Контента)

Идентификация упоминаний: Извлечь все элементы контента в ресурсе, соответствующие записям в базе знаний (Places Database).
Разрешение неоднозначности (Disambiguation): Определить основную сущность. Патент описывает два подхода:
- Метод Ratios (Claim 4): Рассчитать соотношение для каждой сущности: (Упоминания сущности X) / (Общее число упоминаний всех сущностей). Определить сущность с наибольшим соотношением (greatest ratio).
- Метод Иерархии (Описание патента): Итеративно сужать список кандидатов, используя иерархию (Континент -> Страна -> Город). На каждом шаге выбирать регион с наибольшим соотношением кандидатов внутри него. Это позволяет использовать контекст (например, «Париж» и «Эйфелева башня» указывают на Францию).
Расчет оценки вероятности (Likelihood Value): Для доминирующей сущности рассчитать оценку:
- Если упоминание в <TITLE>: присвоить высокое значение (First likelihood value).
- Если в <BODY>: рассчитать смещение (Offset). Присвоить более высокое значение для упоминаний в начале документа и более низкое (Second likelihood value) для упоминаний в конце.
Сохранение: Сохранить ассоциацию между ресурсом и уникальной сущностью в Database of names of distinct entities.

Процесс Б: Определение релевантности ресурса (Анализ Анкоров)

Идентификация входящих ссылок и анкоров.
Фильтрация анкоров: Определить подмножество ссылок, чьи анкорные тексты являются именами сущностей.
Расчет вероятности: Для каждой сущности (m) рассчитать вероятность: (Количество анкоров с сущностью m) / (Общее количество анкоров, называющих любую сущность).
Проверка порога: Сравнить вероятность с порогом (например, 0.75).
Сохранение: Если порог превышен, сохранить ассоциацию.

Процесс В: Обработка запроса (Онлайн)

Получение и анализ запроса: Идентифицировать ключевое слово как неоднозначное имя сущности (Сущность А, Сущность Б).
Поиск ресурсов: Обратиться к Database of names of distinct entities и извлечь ресурсы для Сущности А и Сущности Б.
Ранжирование и представление: Ранжировать ресурсы для каждой сущности и предоставить отдельные результаты поиска.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст в <TITLE> и <BODY>. Расположение текста (Offset) и частота упоминаний. Альтернативный текст и имена файлов изображений (например, «Rome.jpg»).
Ссылочные факторы: Анкорные тексты (Anchor Text) входящих ссылок.
Технические факторы: Домен верхнего уровня (TLD) ресурса (например, .co.uk).
Контекстные сигналы: Телефонные номера (коды стран/регионов), имена связанных людей (например, мэр), источник публикации (например, локальная газета).
Данные Базы Знаний: Иерархические (Parent-child) и сиблинговые (Sibling) отношения между сущностями.

Какие метрики используются и как они считаются

Ratio (Соотношение упоминаний): Метрика доминирования сущности в контенте. Формула: (Упоминания Сущности X) / (Общее упоминания всех сущностей).
Likelihood (Вероятность по анкорам): Метрика релевантности на основе анкоров. Формула: (Анкоры с Сущностью X) / (Все анкоры с любыми сущностями).
First/Second Likelihood Values: Оценки релевантности по расположению. First (Title) > Second (Body).
Offset (Смещение): Используется для корректировки Second Likelihood Value. Меньшее смещение = более высокая оценка.
Threshold (Порог): Используется в анализе анкоров (например, 0.75).

Выводы

Доминирование сущности (Entity Dominance) критично: Ключевым механизмом для определения основной темы страницы является расчет соотношений (Ratios). Сигналы, связанные с целевой сущностью, должны статистически доминировать над сигналами других сущностей на странице.
Расположение контента определяет его вес: Патент явно определяет иерархию важности: Заголовок (Title) > Начало тела документа (малый Offset) > Остальная часть тела документа. Это напрямую влияет на расчет релевантности.
Анкорный текст как прямой сигнал классификации сущности: Входящие анкоры используются как средство определения основной сущности целевой страницы. Пропорция анкоров, называющих конкретную сущность, должна быть высокой (превышать порог), чтобы повлиять на классификацию.
Контекст и Иерархия необходимы для Disambiguation: Система активно использует контекстные сигналы и иерархические связи в базе знаний для разрешения неоднозначности. Упоминание родительских сущностей (страна/штат) или связанных объектов (достопримечательности) помогает точно идентифицировать сущность.
Разделение индексации и выдачи: Ассоциация ресурса с сущностью происходит офлайн и сохраняется в специальной базе данных, что позволяет быстро формировать выдачу, сгруппированную по уникальным сущностям.

Практика

Best practices (это мы делаем)

Обеспечение доминирования целевой сущности: Убедитесь, что целевая сущность является основной темой контента. Частота ее упоминаний и связанных терминов должна значительно превышать упоминания других сущностей (максимизация Ratio).
Фронтальная загрузка ключевой информации (Front-loading): Размещайте наиболее важные упоминания целевой сущности в <TITLE> и в самом начале <BODY> (первый абзац), чтобы максимизировать Likelihood Value за счет минимального Offset.
Использование контекстных сигналов для Disambiguation: Всегда предоставляйте контекст для разрешения неоднозначности. Если вы пишете о Париже, Техас, упоминайте Техас, США, и локальные ориентиры. Используйте иерархические связи (город, штат, страна) для укрепления контекста.
Стратегия построения ссылок с фокусом на сущности: Стремитесь получать ссылки с анкорными текстами, которые явно называют целевую уникальную сущность (например, «Спрингфилд, Иллинойс», а не просто «Спрингфилд»). Убедитесь, что такие анкоры доминируют в ссылочном профиле страницы (превышение Threshold).
Использование дополнительных идентификаторов: Включайте в контент телефонные коды, имена связанных людей или используйте соответствующий TLD, так как патент упоминает их как сигналы для разрешения неоднозначности.

Worst practices (это делать не надо)

Смешивание несвязанных сущностей (Entity Mixing): Создание контента, который в равной степени охватывает множество разных сущностей без явного фокуса. Это приведет к низким значениям Ratio для всех сущностей.
Отсутствие контекста (Ambiguous Content): Написание о сущности с неоднозначным именем без предоставления уточняющей информации. Система может неверно классифицировать ресурс.
«Закапывание» важной информации: Размещение первого или основного упоминания целевой сущности глубоко в контенте. Это увеличивает Offset и снижает Likelihood Value.
Игнорирование анкорного профиля: Получение большого количества ссылок с общими анкорами или анкорами, указывающими на неверные сущности. Это мешает системе уверенно определить основную тему страницы через анализ ссылок.

Стратегическое значение

Этот патент подчеркивает переход Google от сопоставления ключевых слов к глубокому пониманию сущностей и контекста (Entity-first indexing). Стратегически это означает, что SEO должно быть сосредоточено на создании четких, недвусмысленных сигналов, которые помогают Google правильно классифицировать контент в рамках Knowledge Graph. Успех зависит от способности точно ассоциировать веб-ресурсы с уникальными сущностями, используя как внутренние, так и внешние сигналы.

Практические примеры

Сценарий: Оптимизация страницы для локального бизнеса в городе с неоднозначным названием (например, Спрингфилд).

Задача: Убедиться, что страница автосервиса в Спрингфилде, Иллинойс (IL), ассоциируется именно с этим городом, а не со Спрингфилдом, Массачусетс (MA).
Действия (Анализ контента):
- В <TITLE> включить: «Лучший автосервис в Спрингфилде, Иллинойс». (Высокий Likelihood Value).
- В первом абзаце (минимальный Offset) указать полный адрес, включая штат (IL) и индекс.
- Упомянуть локальные ориентиры Иллинойса (например, Капитолий штата). Это помогает иерархическому анализу и повышает Ratio для IL.
Действия (Анализ анкоров):
- При регистрации в локальных каталогах использовать анкоры типа «Автосервис Спрингфилд Иллинойс».
- Стремиться к тому, чтобы эти анкоры превысили порог (Threshold) среди всех анкоров, содержащих названия мест.
Ожидаемый результат: Система уверенно классифицирует страницу как релевантную сущности «Спрингфилд, Иллинойс» и корректно отображает ее в локальной выдаче.

Вопросы и ответы

Как система определяет, какая сущность является основной для страницы, если на ней упоминается несколько сущностей?

Система использует механизм расчета соотношений (Ratios). Для каждой упомянутой сущности рассчитывается отношение: количество упоминаний этой сущности к общему количеству упоминаний всех сущностей на странице. Сущность с наибольшим соотношением (greatest ratio) обычно идентифицируется как основная. Также используется иерархический анализ для проверки контекстуальной близости упомянутых сущностей в базе знаний.

Насколько важно расположение упоминания сущности на странице?

Расположение критически важно. Патент явно определяет иерархию: упоминания в заголовке (<TITLE>) получают наивысший вес (First likelihood value). Упоминания в теле документа (<BODY>) получают меньший вес, который дополнительно снижается по мере увеличения смещения (Offset) от начала документа. SEO-специалистам следует размещать ключевые упоминания как можно раньше.

Как входящие анкорные тексты влияют на определение сущности страницы?

Анкорные тексты используются как независимый метод определения релевантности. Система анализирует долю анкоров, называющих конкретную сущность, среди всех анкоров, называющих любые сущности. Если эта доля превышает определенный порог (в описании патента упоминается пример 0.75), система считает ресурс релевантным этой сущности. Это требует целенаправленной стратегии построения ссылок с использованием анкоров, ориентированных на сущности.

Что произойдет, если страница посвящена двум сущностям в равной степени?

Если расчет соотношений (Ratios) дает два равных или очень близких значения для разных сущностей, патент предусматривает возможность того, что ресурс может быть идентифицирован как релевантный обеим сущностям. Однако для достижения высокого ранжирования обычно лучше фокусироваться на одной основной сущности, чтобы максимизировать ее доминирование.

Как система разрешает неоднозначность, например, если я пишу о «Париже»?

Система ищет контекстные сигналы для disambiguation. Для географических мест используется иерархический анализ. Если на странице упоминаются «Париж» и «Эйфелева башня», система видит, что обе сущности связаны через узел «Франция» в иерархии (компактный граф), и определяет, что речь идет о Париже, Франция. Если контекста нет, ассоциация может не состояться.

Применяется ли этот патент только к географическим местам?

Хотя большинство примеров в патенте используют географические места (Places) и описывают Place Recognition Engine, формула изобретения (Claims) использует более широкий термин «сущность» (Entity). Основные принципы — анализ соотношений упоминаний, вес расположения контента и анализ анкорных текстов — применимы к любым типам сущностей (люди, организации, продукты).

Какие еще сигналы, кроме текста и анкоров, использует система для идентификации сущностей?

Патент упоминает несколько дополнительных сигналов. К ним относятся имена людей, тесно связанных с сущностью (например, мэр города), телефонные номера (коды регионов), домены верхнего уровня (например, .fr), имена файлов изображений (например, Rome.jpg), а также источник публикации (например, локальная газета). Использование этих сигналов в контенте укрепляет ассоциацию с уникальной сущностью.

Как этот патент связан с Knowledge Graph?

Этот патент описывает фундаментальные механизмы, необходимые для наполнения и использования Knowledge Graph. Places Database можно рассматривать как часть Knowledge Graph (база знаний), а Database of names of distinct entities — как индекс, связывающий веб-ресурсы с узлами в графе. Описанные процессы обеспечивают точность данных, определяя, какие ресурсы действительно релевантны каким узлам.

Что важнее для определения сущности: анализ контента или анализ анкоров?

Патент описывает их как два отдельных метода (в разных независимых пунктах формулы изобретения) для определения релевантности ресурса сущности. Они могут использоваться независимо или в комбинации. Для обеспечения надежной ассоциации с сущностью рекомендуется оптимизировать оба аспекта: обеспечить доминирование сущности в контенте и релевантный профиль анкорных текстов.

Что такое «сиблинговые связи» (Sibling relationships) и как они используются?

Это связи между сущностями, которые имеют общие характеристики, но не находятся в прямой иерархии (например, «Столицы Европы» или «Финансовые центры»). Они упоминаются в описании патента. Система может использовать эти связи для группировки результатов или ответа на запросы, соответствующие этим общим характеристикам, извлекая все связанные сущности.