
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
Патент решает фундаментальную проблему обработки информации: неоднозначность (Ambiguity) имен и терминов. Он описывает механизм, позволяющий поисковой системе различать разные сущности с одинаковыми именами (например, "Ягуар" как животное и "Ягуар" как автомобиль) и точно определять (Disambiguation), о какой именно сущности идет речь в конкретном документе. Это улучшает точность сбора данных о сущностях и организацию информации.
Запатентована система и метод итеративного устранения неоднозначности ссылок на сущности в документах. Система использует процесс бутстрэппинга (итеративного обучения): она начинает с базовой модели распознавания, основанной на известных признаках (Features) сущности, идентифицирует набор релевантных документов, а затем анализирует эти документы для выявления часто встречающихся паттернов. На основе этого анализа строится уточненная модель (subsequent model), и процесс повторяется. Система также рассчитывает оценку важности (importance) сущности.
Ключевой механизм — это итеративное уточнение модели:
Fact Repository) и базовой модели (First Model).Entity Importance), суммируя показатели важности ссылающихся документов (явно упоминается PageRank), взвешенные на вероятность того, что документ действительно ссылается на эту сущность.Высокая. Распознавание именованных сущностей (NER) и устранение неоднозначности (NED) являются краеугольными камнями современного семантического поиска, работы Knowledge Graph и алгоритмов, таких как MUM и BERT. Описанные принципы итеративного обучения и анализа сопутствующих признаков (co-occurrence) остаются фундаментальными для понимания того, как Google интерпретирует контент и определяет авторитетность сущностей (E-E-A-T).
Патент имеет критическое значение для SEO (9/10). Он описывает базовые механизмы, с помощью которых Google понимает, о чем именно ваша страница и какие сущности на ней представлены. Понимание процесса дисамбигуации позволяет оптимизаторам стратегически использовать сопутствующие признаки (related features) для обеспечения правильной интерпретации контента. Кроме того, патент явно связывает PageRank документа с расчетом важности самой сущности, подтверждая, что ссылочный авторитет напрямую влияет на значимость сущностей (брендов, авторов) в глазах Google.
Object ID. Функциональный аналог Knowledge Graph.PageRank) документов, ссылающихся на нее.Property of document) для расчета важности сущности.Claim 1 (Независимый пункт): Описывает основной итеративный метод идентификации документов, ссылающихся на сущность, и обнаружения новых признаков.
first model) и Первый Набор Признаков (first set of features). Модель определяет, какие комбинации признаков достаточны для идентификации.second model) на основе анализа признаков, найденных в первом наборе документов. (Этап уточнения понимания того, какие признаки лучше всего идентифицируют сущность).Ядро изобретения — это итеративный процесс обучения (бутстрэппинг), который позволяет системе одновременно уточнять модель дисамбигуации и автоматически обнаруживать новые релевантные признаки (features) для сущности на основе анализа корпуса документов.
Claim 4 (Зависимый от 1): Уточняет механизм определения второй модели.
Определение второй модели включает определение количества вхождений (number of occurrences) первого набора признаков в первом наборе документов. Это указывает на статистический анализ, где частота признаков используется для обучения или уточнения весов в модели.
Claim 8, 9, 10 (Зависимые от 1): Описывают расчет важности сущности.
Важность (importance) сущности оценивается на основе второго набора документов (Claim 8). Эта оценка может базироваться на количестве документов (Claim 9) или на оценке важности самих этих документов (Claim 10), например, их PageRank.
Изобретение в первую очередь применяется на этапах анализа данных для построения и уточнения базы знаний Google (Fact Repository или Knowledge Graph).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Система извлекает признаки из документов. Описанный механизм (Disambiguation Engine) затем обрабатывает эти данные для устранения неоднозначности сущностей и связывания фактов с правильными Object ID. Это процесс аннотирования контента и его связи с семантической базой данных. Также на этом этапе рассчитывается и обновляется Entity Importance.
RANKING / RERANKING – Ранжирование и Переранжирование
Результаты работы этого алгоритма напрямую влияют на ранжирование:
PageRank, может использоваться как сигнал ранжирования или для определения приоритета показа сущности в Knowledge Panel.Входные данные:
PageRank).Выходные данные:
Entity Importance).YMYL-тематиках для правильной идентификации экспертов, организаций и медицинских понятий, где точность идентификации сущности влияет на оценку E-E-A-T.Алгоритм применяется в процессе обработки и анализа индекса (офлайн или во время индексации) для построения и обновления Fact Repository. Он активируется, когда необходимо обработать документы, содержащие неоднозначные ссылки на сущности, или когда система стремится расширить знания о конкретной сущности и оценить ее важность. Итеративный процесс останавливается при достижении сходимости (стабилизации модели), исчерпания ресурсов или по достижении заданного числа итераций.
Процесс итеративного распознавания и обучения (Бутстрэппинг).
features) надежно появляются вместе (co-occurrence) в документах, посвященных этой сущности.Fact Repository без ручного вмешательства, основываясь на статистических паттернах в контенте.Entity Importance) рассчитывается не просто по количеству упоминаний, а как сумма PageRank документов, которые на нее ссылаются, взвешенная на вероятность того, что ссылка действительно релевантна. Ссылочный авторитет напрямую влияет на значимость сущности.co-occurrence pattern), который помогает модели правильно идентифицировать сущность.PageRank документа напрямую используется для расчета Entity Importance, необходимо активно работать над получением качественных обратных ссылок на страницы, где упоминаются ваши ключевые сущности. Авторитетные ссылки повышают не только позиции страницы, но и значимость самой сущности в глазах Google.Person, Organization) и используйте свойство sameAs для связи с авторитетными источниками (например, Wikidata), чтобы предоставить системе надежные начальные признаки.Features для работы алгоритма дисамбигуации.PageRank), противоречат механизму расчета Entity Importance, описанному в патенте.Патент подтверждает стратегическую важность Entity-based SEO. Он демонстрирует, что понимание контента Google основано на статистическом анализе связей между сущностями и их признаками. Ключевое стратегическое значение имеет прямая связь между традиционным ссылочным авторитетом (PageRank) и семантическим весом (Entity Importance). Это означает, что классический линкбилдинг и работа над E-E-A-T являются синергетическими: ссылки придают вес сущностям, а контент определяет связи между ними.
Сценарий: Устранение неоднозначности для названия бренда
Задача: Убедиться, что Google правильно идентифицирует упоминания компании "Аврора" (Aurora), занимающейся беспилотными автомобилями, и отличает ее от "Аврора" (Aurora) – природного явления.
Entity Importance компании. Она берет PageRank страниц TechCrunch и Wired, умножает его на высокую вероятность того, что эти страницы ссылаются на компанию (благодаря сильным признакам), и суммирует результат.Knowledge Panel по релевантным запросам.Как этот патент связан с PageRank и ссылочным продвижением?
Связь прямая и критически важная. Патент явно описывает формулу расчета важности сущности (Entity Importance), которая суммирует PageRank документов, ссылающихся на эту сущность, взвешенный на вероятность того, что документ действительно о ней. Это означает, что авторитетные обратные ссылки напрямую увеличивают значимость ваших сущностей (бренда, авторов) в глазах Google, что является фундаментальным аспектом E-E-A-T.
Что такое "итеративное обучение" или "бутстрэппинг" в контексте этого патента?
Это процесс, при котором Google постоянно уточняет свое понимание сущности. Система начинает с базового предположения о том, какие документы релевантны сущности, затем анализирует эти документы, чтобы найти общие паттерны и признаки (Features), и использует эти находки для создания более точной модели распознавания. Этот цикл повторяется многократно, позволяя системе самообучаться и адаптироваться.
Как система определяет, какие признаки (Features) важны для сущности?
Важность определяется статистически в процессе итеративного обучения. Система сравнивает частоту появления признака в документах, предположительно посвященных сущности, с частотой его появления во всем корпусе документов. Если признак часто встречается в релевантных документах и редко в остальных (дискриминативный признак), он считается сильным индикатором этой сущности и получает больший вес в модели.
Может ли система автоматически узнать новые факты о сущности?
Да. Патент (Claim 1) описывает механизм, позволяющий идентифицировать новые признаки, которые часто встречаются в документах, посвященных сущности. Если эти новые признаки проходят валидацию (система определяет, что они действительно связаны с сущностью), они могут быть добавлены в Fact Repository (Граф Знаний) и использоваться в последующих итерациях распознавания.
Как SEO-специалисту использовать знание о важности сопутствующих признаков (co-occurrence)?
Необходимо обеспечить семантическую полноту контента. При упоминании основной сущности окружайте ее контекстом: связанными фактами, датами, именами, терминами и атрибутами, которые являются дискриминативными для нее. Это создает надежный и последовательный паттерн признаков, который помогает Disambiguation Engine правильно идентифицировать сущность и классифицировать вашу страницу как высокорелевантную.
Учитывает ли система опечатки или разные названия одной и той же сущности?
Да. Патент указывает на использование гибких методов сопоставления признаков (Feature Matching). Сюда входят кластеризация строк, оценка близости, синонимия, семантические категории и модели расстояния редактирования для учета типографских ошибок. Это позволяет системе понять, что разные варианты написания могут относиться к одной и той же сущности.
Влияет ли источник (домен) документа на распознавание сущности?
Да, патент явно упоминает это. Домен, с которого получен документ, может рассматриваться как неявный признак (implicit feature). Например, документ с сайта espn.com может быть неявно связан с признаком "спорт", даже если это слово отсутствует в тексте. Это помогает в устранении неоднозначности.
Что важнее для этого алгоритма: количество упоминаний сущности или качество этих упоминаний?
Качество упоминаний и авторитетность источников имеют решающее значение. Важность сущности рассчитывается с учетом PageRank источника и вероятности того, что упоминание действительно релевантно (что зависит от наличия дискриминативных признаков). Одно упоминание на авторитетном сайте с четким контекстом даст больший вклад в Entity Importance, чем множество упоминаний на низкокачественных сайтах.
Как этот патент связан с Knowledge Graph?
Этот патент описывает фундаментальные механизмы, необходимые для построения и поддержания Knowledge Graph (называемого в патенте Fact Repository). Процессы устранения неоднозначности гарантируют, что факты привязываются к правильным сущностям, а механизм обнаружения новых признаков позволяет автоматически расширять граф новыми знаниями, извлеченными из веба.
Применяется ли этот алгоритм в реальном времени при обработке запроса?
Патент описывает процесс анализа данных и построения моделей, который, скорее всего, происходит офлайн или во время индексации. Однако результаты этой работы — уточненные данные о сущностях, их признаках и их важности — сохраняются в Fact Repository и используются системой ранжирования в реальном времени для интерпретации запросов и оценки релевантности документов.

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Knowledge Graph
Мультимедиа

Knowledge Graph
SERP
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Knowledge Graph
SERP

Поведенческие сигналы
SERP
Семантика и интент

Ссылки
Мультимедиа
Поведенческие сигналы

Структура сайта
Техническое SEO
Индексация

Персонализация
Поведенческие сигналы
SERP

Техническое SEO
Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
