
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
Патент решает проблему масштабируемого и автоматического обнаружения синонимичных названий (псевдонимов, алиасов) для сущностей, хранящихся в базе данных фактов (Fact Repository, аналог Knowledge Graph). Ручной сбор синонимов неэффективен и дорог. Без знания синонимов поисковая система может не найти релевантную информацию, если запрос пользователя содержит псевдоним (например, "IBM"), а в базе данных сущность идентифицирована только официальным названием ("International Business Machines Corporation").
Запатентована система для автоматического изучения синонимичных названий сущностей. Метод основан на анализе анкорных текстов (Anchor Texts) ссылок, которые ведут на исходные документы (Source Documents), из которых ранее были извлечены факты об этой сущности. Система предполагает, что анкорный текст, используемый для ссылки на авторитетный источник о сущности, часто содержит альтернативное название этой сущности.
Система работает следующим образом:
Object) система определяет список исходных документов (Source Documents), из которых были извлечены ее факты.Linking Documents), которые ссылаются на эти исходные документы.Anchor Synset).Высокая. Понимание сущностей и их взаимосвязей является фундаментом современного поиска и Knowledge Graph. Способность системы распознавать различные названия одной и той же сущности критически важна для точного понимания запросов и предоставления релевантных результатов. Этот патент описывает ключевой механизм для масштабируемого сбора этих данных.
Патент имеет высокое стратегическое значение для SEO, особенно в контексте оптимизации под Knowledge Graph и entity-based search. Он раскрывает, как Google использует ссылочный граф интернета для семантического понимания сущностей. Это подчеркивает важность не только того, кто ссылается на ваш сайт, но и того, как (с каким анкором) ссылаются на авторитетные источники о вашей сущности (например, на вашу страницу в Википедии).
Object в репозитории.Knowledge Graph.Source Document.Claim 1 (Независимый пункт): Описывает основной метод определения синонимичного названия для сущности.
Source Document), из которого были извлечены факты о сущности.Linking Documents), имеющие гиперссылки на исходный документ, и их анкорные тексты (Anchor Texts).Score) для каждого кандидата на основе функции оценки (Score Function).Frequency of Occurrence) кандидата и его долю (Proportion) в общей коллекции кандидатов.Claim 3 и 4 (Зависимые): Детализируют процесс генерации кандидатов, включающий нормализацию анкорных текстов. Нормализация может включать применение специфичных для языка правил (Normalization Rules for the Language) на основе определенного языка ссылающегося документа.
Claim 5 (Зависимый): Уточняет, что генерация кандидатов может включать извлечение именной группы (Noun Phrase) из анкорного текста. Это помогает отделить описательную часть анкора от потенциального названия сущности.
Claim 6 (Зависимый): Уточняет, что генерация кандидатов может включать удаление префиксов или суффиксов из анкорных текстов (например, удаление "статья о" из анкора "статья о Короле").
Claim 7 и 8 (Зависимые): Описывают использование Black List и White List. Если анкор совпадает с черным списком, он удаляется из кандидатов. Если совпадает с белым списком, он добавляется в коллекцию кандидатов.
Claim 9 и 11 (Зависимые): Описывают выбор синонимов на основе пороговых значений частоты. Выбираются кандидаты, частота которых не ниже минимального порога (Minimum Threshold) и не выше максимального порога (Maximum Threshold).
Claim 13 (Зависимый): Уточняет, что выбор синонима может основываться на качестве (Quality) ссылающихся документов. Синонимы, полученные из анкоров на более качественных сайтах, получают преимущество.
Изобретение применяется в первую очередь на этапе обработки и обогащения данных в репозитории фактов.
INDEXING – Индексирование и извлечение признаков
Основная активность происходит здесь, но не во время первичного сканирования, а во время последующей обработки данных (в патенте упоминаются процессы Janitor). Система использует уже извлеченные факты и данные о происхождении этих фактов (Source Documents). Также используется полный ссылочный граф веба, включая анкорные тексты.
QUNDERSTANDING – Понимание Запросов
Результаты работы этого патента напрямую влияют на этот этап. Зная синонимы сущности, система может лучше интерпретировать запрос пользователя, содержащий псевдоним, и связать его с соответствующим объектом в Knowledge Graph.
METASEARCH – Метапоиск и Смешивание
Улучшенное понимание сущностей позволяет более точно формировать блоки Knowledge Panel и другие функции выдачи, связанные с сущностями.
Входные данные:
Object ID).Source Documents).Anchor Text).Black List, White List).PageRank для Linking Documents, который упоминается в описании патента).Выходные данные:
Object ID.Janitor process). Он выполняется периодически по мере обновления репозитория фактов и индекса ссылок, чтобы отражать изменения в том, как сущности упоминаются в интернете.Процесс определения синонимов для сущности:
Fact Repository для анализа.Source Documents, из которых были получены факты для данного объекта.Linking Documents и извлекает соответствующие Anchor Texts.Noun Phrases).Black List. Включение анкоров, совпадающих с White List.Score). Функция оценки учитывает: Quality) ссылающихся документов, из которых был получен кандидат.Fact Repository как новые факты типа "Имя" для исходного объекта.Патент фокусируется на использовании ссылочных данных для семантического обогащения.
Anchor Texts входящих ссылок, направленных на Source Documents. Также используется структура ссылочного графа для идентификации Linking Documents.Source Documents и Linking Documents.Source Documents.Linking Document может использоваться для применения специфических правил нормализации.Linking Document. Хотя патент не указывает конкретную метрику в Claims, в описании упоминается, что качество может быть определено на основе PageRank.Score Function, которая учитывает частоту, долю и, возможно, качество источника (Claim 1, 14).Minimum/Maximum Threshold), используемые для фильтрации кандидатов.Anchor Text является одним из основных сигналов, используемых Google для понимания того, как интернет ссылается на сущность, и для выявления ее альтернативных названий.Source Documents, из которых были извлечены факты. Часто это авторитетные сторонние ресурсы (например, Википедия, официальные реестры).Quality, например, PageRank) сайтов, которые ссылаются на исходные документы. Псевдонимы, полученные из анкоров на авторитетных сайтах, считаются более надежными.Source Documents) о вашей сущности (бренд, ключевые сотрудники). Это включает наличие страниц в Википедии, профилей в авторитетных отраслевых базах данных и официальных социальных сетях.Anchor Text.Linking Documents учитывается при валидации синонимов, ссылки с авторитетных ресурсов помогут Google быстрее принять нужные вам синонимы.Frequency of Occurrence) нужных кандидатов и ускорит их принятие в качестве синонимов.Linking Documents и использует пороги частотности, что затрудняет спам.Этот патент является важной частью перехода Google к entity-based search. Он демонстрирует механизм, с помощью которого строится семантическое понимание мира. Для SEO это означает, что стратегия должна охватывать весь цифровой след сущности (оптимизация под Knowledge Graph), а не только принадлежащий ей веб-сайт. То, как интернет "говорит" о вашей сущности (через Anchor Text), напрямую влияет на то, как Google ее идентифицирует и ранжирует.
Сценарий: Улучшение распознавания аббревиатуры компании
Компания "Российские Железные Дороги" хочет убедиться, что Google четко ассоциирует аббревиатуру "РЖД" с их основной сущностью.
Source Documents.Source Documents, использующих анкор "РЖД".Knowledge Graph.Применяется ли этот механизм к ссылкам, ведущим непосредственно на мой собственный сайт?
Да, если ваш сайт является исходным документом (Source Document), из которого Google извлек факты о вашей сущности. В этом случае анкорный текст входящих ссылок на ваш сайт будет проанализирован для выявления синонимов. Однако Google часто использует сторонние авторитетные источники (например, Википедию) в качестве основных Source Documents, поэтому ссылки на них также критически важны.
Как качество ссылающегося сайта (PageRank) влияет на определение синонимов?
Патент утверждает (Claim 13 и описание), что качество (Quality) ссылающегося документа (Linking Document) учитывается при выборе синонимов. Синонимы, полученные из анкоров на высококачественных, авторитетных сайтах (с высоким PageRank), считаются более надежными и с большей вероятностью будут приняты системой. Ссылки с низкокачественных сайтов имеют меньший вес или игнорируются.
Что такое "нормализация" и "очистка" анкорного текста в контексте этого патента?
Нормализация приводит текст к стандартному виду (регистр, пунктуация, стоп-слова). Очистка (Claims 5, 6) — это более сложный процесс удаления частей анкора, которые не являются названием сущности. Это включает удаление стандартных префиксов (например, "узнать больше о") и извлечение именных групп (Noun Phrases), чтобы оставить только суть, например, извлечение "IBM" из "лучшая статья об IBM здесь".
Почему система использует минимальные и максимальные пороги частотности?
Минимальный порог (Claim 9) используется для отсева шума: случайных фраз, опечаток или узкоспециализированных терминов, которые не являются общепринятыми синонимами. Максимальный порог (Claim 11) используется для отсева слишком общих фраз (например, "эта компания", "веб-сайт"), которые хотя и часто встречаются в анкорах, не являются уникальными идентификаторами сущности.
Как я могу повлиять на то, какие синонимы Google ассоциирует с моим брендом?
Ключевая стратегия — влиять на то, как интернет ссылается на авторитетные источники о вашем бренде. Убедитесь, что существуют качественные Source Documents (Википедия, официальный сайт). Затем работайте над тем, чтобы качественные внешние сайты ссылались на эти источники, используя нужные вам варианты названия (включая аббревиатуры) в качестве Anchor Text.
Что произойдет, если конкуренты начнут использовать негативные фразы в анкорах, ссылаясь на мои источники?
Теоретически, если негативная фраза будет использоваться очень часто и пройдет фильтры нормализации (например, будет распознана как Noun Phrase), она может стать кандидатом. Однако система использует агрегированные данные и метрики качества. Если авторитетные сайты используют корректные названия, а негативные фразы исходят от низкокачественных источников или не достигают порога частотности, они вряд ли будут приняты как синонимы.
Учитывает ли система язык документа при анализе анкоров?
Да. Патент (Claim 4) явно упоминает возможность применения правил нормализации, специфичных для языка (language-dependent normalization rules). Это означает, что система определяет язык ссылающегося документа и применяет соответствующие лингвистические правила (например, разные наборы стоп-слов) при обработке анкорного текста.
Как быстро Google обнаружит новый синоним, если мы начнем его активно использовать?
Это зависит от скорости индексации ссылок и частоты запуска процессов обработки данных (Janitor processes). Если новый синоним быстро набирает популярность и используется в анкорах ссылок с авторитетных сайтов на ваши Source Documents, он будет обнаружен относительно быстро. Однако он должен достичь определенного порога частотности, чтобы быть принятым.
Что важнее для этого алгоритма: количество ссылок или их качество?
Оба фактора важны и взаимосвязаны. Количество (частота) необходимо для преодоления минимального порога и демонстрации общепринятости термина. Качество ссылающихся документов необходимо для валидации надежности этого термина. Несколько ссылок с высококачественных сайтов могут быть более ценными, чем множество ссылок с низкокачественных ресурсов.
Используется ли этот механизм для определения локальных названий сущностей?
Да. Поскольку система может применять языкозависимую нормализацию и анализирует ссылки из разных сегментов интернета, она способна обнаруживать синонимы на разных языках или локальные варианты названий. Например, она может узнать, что "Мюнхен" и "Munich" относятся к одному и тому же городу, анализируя анкоры на немецких и английских сайтах соответственно.

Knowledge Graph
Ссылки
EEAT и качество

Knowledge Graph
Семантика и интент
Ссылки

Семантика и интент
Ссылки

Семантика и интент
Структура сайта
Ссылки

Knowledge Graph

Поведенческие сигналы
SERP
Мультимедиа

EEAT и качество
Поведенческие сигналы

Ссылки
Индексация
Поведенческие сигналы

Структура сайта
SERP
Ссылки

Ссылки
Мультиязычность
Семантика и интент

Индексация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
SERP
Семантика и интент

Поведенческие сигналы
Индексация
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Ссылки
EEAT и качество
SERP
