Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph

    ANCHOR TEXT SUMMARIZATION FOR CORROBORATION (Суммаризация анкорного текста для подтверждения фактов)
    • US9208229B2
    • Google LLC
    • 2015-12-08
    • 2006-03-31
    2006 EEAT и качество Патенты Google Семантика и интент Ссылки

    Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу обеспечения точности и достоверности фактов, собираемых из интернета для наполнения базы знаний (Fact Repository, аналог Knowledge Graph). Ключевая проблема — как эффективно идентифицировать независимые, авторитетные документы, которые действительно релевантны конкретной сущности (Object), чтобы использовать их для верификации (Corroboration) или опровержения собранных данных, минимизируя влияние противоречивой или ненадежной информации.

    Что запатентовано

    Запатентована система и метод использования анкорного текста (Anchor Text) входящих ссылок как ключевого сигнала для определения релевантности документа конкретной сущности. Система анализирует и суммаризирует (находит консенсус) все анкорные тексты, указывающие на документ. Если этот консенсусный текст совпадает с названием сущности (Object Name), документ признается авторитетным источником для проверки фактов об этой сущности.

    Как это работает

    Механизм работает на этапе обработки индекса (Janitors):

    • Агрегация Анкоров: Для документа собираются все анкорные тексты из входящих ссылок.
    • Суммаризация (Консенсус): Используя метод кластеризации (N-gram clustering), система определяет «центр масс» (Center of Mass) анкорных текстов, взвешивая их по частоте. Это позволяет найти наиболее репрезентативное описание.
    • Сравнение с Сущностью: Консенсусный анкорный текст сравнивается с именем сущности в базе знаний.
    • Валидация Документа: Если есть совпадение, система проверяет, что анкорный текст не является шумом («click here») и что имя сущности или анкорный текст действительно присутствует в самом документе (например, в заголовке </strong>).</li> <li><strong>Подтверждение Фактов:</strong> Если все проверки пройдены, документ используется для валидации (<strong class=»term-highlight»>Corroboration</strong>) фактов об этой сущности.</li> </ul>

    Актуальность для SEO

    Высокая. Построение, валидация и обновление Knowledge Graph является критически важной задачей для Google. Использование анкорного текста как сигнала авторитетности и тематичности остается фундаментальным принципом. Описанные механизмы, направленные на определение консенсуса и фильтрацию шума (включая защиту от манипуляций с анкорами), крайне актуальны для понимания E-E-A-T и того, как Google определяет авторитетные источники.

    Важность для SEO

    Патент имеет высокое стратегическое значение (85/100). Он детально описывает, как Google использует анкорные тексты не только для ранжирования, но и для определения фундаментальной темы страницы в контексте извлечения знаний (Information Extraction) и Entity SEO. Чтобы сайт был признан авторитетным источником для сущности, критически важно, чтобы консенсус входящих анкорных текстов четко соответствовал имени сущности и заголовку </strong> целевой страницы.</p>

    Детальный разбор

    Термины и определения

    Anchor Text (Анкорный текст)
    Видимый пользователю текст ссылки, ведущей на целевой документ. Используется как ключевой сигнал для определения релевантности и темы целевого документа.
    Center of Mass (Центр масс)
    В контексте патента — это точка в n-мерном пространстве, представляющая собой взвешенный консенсус всех анкорных текстов, указывающих на документ. Отражает коллективное мнение веба о содержании документа.
    Corroboration (Подтверждение, Корроборация)
    Процесс проверки точности фактов, хранящихся в базе знаний, путем сравнения их с информацией из независимых авторитетных источников.
    Corroboration Janitor (Агент подтверждения)
    Программный модуль (Janitor), отвечающий за поиск релевантных документов и выполнение процесса подтверждения фактов.
    Fact Repository (Репозиторий фактов)
    База данных, хранящая извлеченные факты, организованные по сущностям (Objects). Аналог Google Knowledge Graph.
    Importer (Импортер)
    Модуль, который обрабатывает документы, извлекает из них факты и определяет, к каким сущностям они относятся.
    Janitor (Агент очистки/обработки)
    Программные модули, которые обрабатывают факты после извлечения: нормализуют данные, удаляют дубликаты, объединяют сущности и подтверждают факты.
    Known Noise (Известный шум)
    Анкорные тексты, которые не несут семантической нагрузки о целевом документе (например, «click here», «more info»).
    N-gram Clustering (N-граммная кластеризация)
    Метод, используемый для группировки анкорных текстов на основе их сходства в n-мерном пространстве для определения Center of Mass.
    Object (Объект, Сущность)
    Представление реальной сущности в Fact Repository. Состоит из набора фактов, связанных общим идентификатором (Object ID) и имеющих название (Object Name).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод подтверждения набора фактов в репозитории.

    1. Система идентифицирует набор фактов, связанных с объектом (сущностью), у которого есть имя. Факты были извлечены ранее из нескольких документов.
    2. Система получает новый (первый) документ и ссылку на него. Ссылка содержит видимый пользователю анкорный текст (user-viewable anchor text), извлеченный из второго документа.
    3. Определяется, соответствует ли анкорный текст имени сущности.
    4. Определяется, появляется ли имя сущности И/ИЛИ анкорный текст в первом документе.
    5. Если (3) и (4) истинны, первый документ используется для подтверждения (corroborating) набора фактов.
    6. Подтверждение включает сравнение фактов из документа с существующим набором фактов и обновление набора (добавление новых фактов или корректировка статуса существующих).

    Ядро изобретения — это использование комбинации двух сигналов для определения пригодности документа к верификации фактов: совпадение входящего анкорного текста с названием сущности И присутствие этого названия/текста в самом документе.

    Claim 2 и 4 (Зависимые): Уточняют обработку множественных анкоров.

    Если получено множество кандидатов в анкорные тексты, система сначала выбирает один репрезентативный анкорный текст. Этот выбор осуществляется с помощью N-gram clustering (Claim 4).

    Claims 7 и 9 (Зависимые): Уточняют место проверки наличия имени/анкора в документе (пункт 4 из Claim 1).

    Если первый документ является HTML, анализ включает поиск имени сущности (Claim 7) или анкорного текста (Claim 9) в заголовке (header) HTML-документа (например, в теге Title).

    Claim 11 (Зависимый): Описывает фильтрацию шума.

    Анализ анкорного текста включает сравнение его со списком известного шумового текста (known noise text), чтобы определить, содержит ли документ релевантные данные.

    Где и как применяется

    Изобретение применяется в инфраструктуре построения и валидации базы знаний (Knowledge Graph).

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются данные, необходимые для работы алгоритма: контент документов и граф ссылок, включая анкорные тексты.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента.

    • Information Extraction: Importers извлекают факты из документов и создают Objects (сущности).
    • Data Processing/Validation: Corroboration Janitor запускается для валидации этих фактов. Он использует данные веб-графа (анкорные тексты) и контент проиндексированных страниц для поиска авторитетных источников (corroborating documents).

    Алгоритм не влияет напрямую на ранжирование в реальном времени (RANKING), но повышает качество данных в Fact Repository, которые затем используются системами ранжирования и для генерации SERP features.

    Входные данные:

    • Сущность (Object) и ее имя (Name).
    • URL и содержимое потенциального подтверждающего документа.
    • Набор всех анкорных текстов, указывающих на этот URL.
    • Список известного шума (Known Noise).

    Выходные данные:

    • Обновленный статус фактов сущности (например, повышение показателя уверенности для подтвержденных фактов).
    • Потенциально новые факты, извлеченные из подтверждающего документа.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на страницы, которые являются авторитетными источниками информации о конкретных сущностях (официальные сайты, авторитетные биографии, профили продуктов).
    • Специфические запросы: Влияет на точность ответов на фактоидные запросы и качество информации, отображаемой в Панелях Знаний (Knowledge Panels).
    • Конкретные ниши или тематики: Критически важно для всех тематик, где важна точность фактов, включая YMYL, данные о компаниях, людях, продуктах и т.д.

    Когда применяется

    • Условия работы: Алгоритм применяется в процессе построения или обновления Fact Repository, когда системе необходимо проверить точность извлеченных фактов для конкретной сущности.
    • Триггеры активации: Активируется, когда Corroboration Janitor ищет авторитетные источники для валидации фактов сущности.

    Пошаговый алгоритм

    Процесс определения авторитетного источника для подтверждения фактов сущности.

    1. Инициализация: Corroboration Janitor идентифицирует сущность и потенциальный подтверждающий документ.
    2. Агрегация анкорных текстов: Система собирает все анкорные тексты из входящих ссылок на этот документ и подсчитывает частоту каждого уникального анкора.
    3. Маппинг и Кластеризация (N-gram Clustering): Уникальные анкорные тексты маппируются в n-мерное пространство на основе их сходства.
    4. Расчет Центра Масс: Система вычисляет Center of Mass (консенсусное описание), где каждый анкорный текст взвешивается по его частоте.
    5. Выбор Репрезентативного Анкора: Выбирается анкорный текст, находящийся ближе всего к Center of Mass.
    6. Сравнение с Сущностью: Система сравнивает выбранный репрезентативный анкорный текст с именем сущности.
      • Если НЕТ совпадения: Процесс останавливается.
      • Если ЕСТЬ совпадение: Переход к валидации документа.
    7. Валидация (Фильтрация шума): Система проверяет, содержит ли выбранный анкорный текст известный шум (например, «click here»).
      • Если ДА: Возвращается индикация шума. Процесс останавливается.
    8. Валидация (Проверка контента): Система проверяет, присутствует ли имя сущности И/ИЛИ выбранный анкорный текст внутри самого документа (например, в HTML </strong> или заголовках). <ul> <li><em>Если НЕТ:</em> Возвращается индикация шума (защита от манипуляций анкорами). Процесс останавливается.</li> <li><em>Если ДА:</em> Возвращается индикация валидных данных.</li> </ul> </li> <li><strong>Подтверждение Фактов (Corroboration):</strong> Документ используется для подтверждения фактов сущности. Факты в базе сравниваются с данными в документе, и их статус обновляется.</li> </ol> <h2>Какие данные и как использует</h2> <h3>Данные на входе</h3> <p>Алгоритм использует следующие типы данных для определения авторитетности источника:</p> <ul> <li><strong>Ссылочные факторы (Критически важно):</strong> Входящие анкорные тексты (<strong class=»term-highlight»>Anchor Text</strong>). Анализируется полный набор анкоров, указывающих на документ. Также может учитываться авторитетность источника ссылки (например, PageRank) при взвешивании.</li> <li><strong>Контентные факторы:</strong> Содержимое целевого документа, в частности, текст внутри HTML заголовков (<strong class=»term-highlight»>Header</strong>) или тега <strong class=»term-highlight»><TITLE></strong>. Используется для валидации релевантности документа.</li> </ul> <h3>Какие метрики используются и как они считаются</h3> <ul> <li><strong>Частота анкорного текста (Frequency):</strong> Количество повторений конкретного анкорного текста. Используется как вес при расчете <strong class=»term-highlight»>Center of Mass</strong>.</li> <li><strong>Сходство анкорных текстов (Similarity):</strong> Метрика, определяющая расстояние между анкорными текстами в n-мерном пространстве при кластеризации.</li> <li><strong>Center of Mass (Центр масс):</strong> Вычисляемая метрика, представляющая консенсус анкорных текстов. Рассчитывается как средневзвешенное положение агрегированных анкорных текстов в пространстве сходства.</li> <li><strong>Совпадение (Match Score):</strong> Метрика сравнения (может быть пороговой) между консенсусным анкорным текстом и именем сущности.</li> </ul>

    Выводы

    1. Анкорный текст как идентификатор сущности: Патент демонстрирует, что Google использует анкорный текст не просто как сигнал релевантности запросу, а как прямое указание на то, какой именно сущности (Entity/Object) посвящена страница.
    2. Важность консенсуса (Center of Mass): Google не полагается на отдельные анкоры. Система агрегирует все анкорные тексты, взвешивает их и использует сложные методы кластеризации (N-gram clustering) для определения «центра масс». Это позволяет найти наиболее репрезентативное описание страницы, основанное на коллективном мнении веба.
    3. Обязательная валидация на странице (Anti-Manipulation): Патент включает критически важный механизм защиты от манипуляций (например, Google bombing). Недостаточно иметь релевантные входящие анкоры; целевая страница должна подтвердить свою релевантность, упоминая имя сущности или консенсусный анкор в своем контенте (в частности, в </strong>).</li> <li><strong>Фильтрация шума:</strong> Система активно игнорирует неинформативные анкорные тексты («click here»), что подчеркивает необходимость использования семантически значимых анкоров.</li> <li><strong>Цель – найти канонический источник для фактов:</strong> Весь процесс направлен на идентификацию авторитетных документов в вебе для проверки фактов в Knowledge Graph. Статус «подтверждающего источника» (<strong class=»term-highlight»>corroborating source</strong>) является сильным сигналом доверия.</li> </ol>

    Практика

    Best practices (это мы делаем)

    • Стратегия анкорных текстов (Entity-Focused): При построении ссылочного профиля для ключевых страниц (бренды, продукты, авторы) стремитесь к тому, чтобы консенсус (Center of Mass) анкорных текстов точно соответствовал имени целевой сущности.
    • Согласованность сигналов (On-page и Off-page): Обеспечьте четкое соответствие между названием основной сущности на странице, тегом </strong> и анкорными текстами входящих ссылок. Согласно патенту, это соответствие является обязательным условием для того, чтобы страница использовалась Google для подтверждения фактов.</li> <li><strong>Стимулирование описательных анкоров:</strong> Привлекайте ссылки с четкими, семантически значимыми анкорами. Избегайте генерации большого количества ссылок с «шумовыми» анкорами, так как они фильтруются.</li> <li><strong>Мониторинг анкорного профиля:</strong> Регулярно анализируйте профиль входящих анкоров. Убедитесь, что «центр масс» вашего анкорного профиля соответствует целевой сущности, а не размыт побочными темами или спамными конструкциями.</li> </ul> <h3>Worst practices (это делать не надо)</h3> <ul> <li><strong>Игнорирование профиля анкорных текстов:</strong> Отсутствие четкого консенсуса в анкорных текстах или доминирование нерелевантных анкоров приведет к тому, что система не сможет связать вашу страницу с целевой сущностью для целей проверки фактов.</li> <li><strong>Манипуляции с анкорами без подтверждения на странице:</strong> Использование агрессивных тактик построения ссылок с оптимизированными анкорами, если целевая страница не подтверждает эту релевантность (например, анкор и <strong class=»term-highlight»><TITLE></strong> не совпадают). Страница не пройдет валидацию контента.</li> <li><strong>Использование шумовых анкоров:</strong> Активное использование анкоров типа «здесь», «сайт», «подробнее» (<strong class=»term-highlight»>Known Noise</strong>) неэффективно для установления тематической авторитетности по этому алгоритму.</li> </ul> <h3>Стратегическое значение</h3> <p>Этот патент подтверждает стратегическую важность интеграции Off-Page и On-Page SEO в эпоху семантического поиска (Entity-Based Search). Он предоставляет четкий механизм того, как Google связывает внешние сигналы (анкорные тексты) с внутренними сигналами (<strong class=»term-highlight»><TITLE></strong>/контент) для определения авторитетности источника в контексте Knowledge Graph. Для долгосрочной стратегии, особенно в области <strong class=»term-highlight»>E-E-A-T</strong>, необходимо целенаправленно формировать ссылочный профиль так, чтобы он соответствовал модели <strong class=»term-highlight»>Corroboration</strong>.</p> <h3>Практические примеры</h3> <p><strong>Сценарий: Установление авторитетности сайта компании «Acme Corp»</strong></p> <ol> <li><strong>Цель:</strong> Сделать сайт Acme.com каноническим источником для сущности «Acme Corp» в Knowledge Graph.</li> <li><strong>Анализ текущего состояния:</strong> SEO-специалист обнаруживает, что 40% анкоров – это «click here» (Шум), 30% – «лучшие виджеты» (Нерелевантно сущности), и только 30% – «Acme Corp».</li> <li><strong>Действия (Off-Page):</strong> Запускается кампания по линкбилдингу и PR для увеличения доли ссылок с анкорным текстом «Acme Corp». Цель – сместить <strong class=»term-highlight»>Center of Mass</strong> к точному названию компании.</li> <li><strong>Действия (On-Page):</strong> Проверяется, что тег <strong class=»term-highlight»><TITLE></strong> главной страницы четко указывает «Acme Corp». Это гарантирует прохождение валидации контента.</li> <li><strong>Ожидаемый результат:</strong> При следующей итерации <strong class=»term-highlight»>Corroboration Janitor</strong>, консенсус анкоров совпадет с именем сущности «Acme Corp», и сайт пройдет валидацию. Google начнет использовать Acme.com как эталонный источник для проверки фактов о компании.</li> </ol>

    Вопросы и ответы

    Что такое «Center of Mass» (Центр масс) в контексте анкорных текстов?

    Это консенсусное мнение веба о содержании страницы. Система анализирует все входящие анкорные тексты, группирует их по схожести (используя N-gram clustering) и взвешивает по частоте. Center of Mass — это наиболее репрезентативное описание, которое отражает как тематику, так и популярность различных вариантов анкоров. Система выбирает анкор, ближайший к этому центру.

    Как этот патент влияет на стратегию выбора анкорных текстов при линкбилдинге?

    Стратегия должна фокусироваться на формировании четкого консенсуса. Это означает приоритет анкорных текстов, которые точно соответствуют имени сущности, которую представляет страница (например, название бренда или продукта). Необходимо минимизировать долю шумовых анкоров («здесь», «ссылка»), так как они фильтруются системой.

    Почему важна проверка контента страницы (например, Title), если входящие анкоры уже релевантны?

    Это механизм защиты от манипуляций (например, Google Bombing). Система должна убедиться, что анкорный текст не вводит в заблуждение и что целевая страница действительно посвящена данной теме. Если имя сущности или консенсусный анкор отсутствуют на странице, она не будет использоваться для подтверждения фактов.

    Как этот патент связан с E-E-A-T и Knowledge Graph?

    Он напрямую связан. Патент описывает механизм, с помощью которого Google идентифицирует авторитетные источники (Authority в E-E-A-T) для валидации данных в Fact Repository (Knowledge Graph). Если ваш сайт признан «подтверждающим источником» (corroborating document) согласно этому патенту, это является мощным сигналом авторитетности и доверия (Trust) для систем Google.

    На каком этапе поиска работает этот механизм?

    Он работает на этапе индексирования и обработки данных (INDEXING). Это не алгоритм ранжирования в реальном времени, а механизм валидации данных в базе знаний, который выполняется агентами обработки (Janitors) после извлечения фактов импортерами (Importers).

    Что важнее согласно патенту: разнообразие анкорных текстов или их частота?

    Важен баланс, но частота играет роль веса в алгоритме Center of Mass. Цель состоит в том, чтобы наиболее частые и схожие между собой анкорные тексты точно соответствовали имени сущности. Редкие или сильно отличающиеся анкоры меньше влияют на итоговый результат кластеризации.

    Если я изменю страницы, как это повлияет на работу этого алгоритма?</p> <p>Это может иметь критическое влияние. Если новый <strong class=»term-highlight»><TITLE></strong> перестанет совпадать с именем сущности или консенсусным анкорным текстом, страница может не пройти этап валидации контента. В результате она перестанет считаться авторитетным источником для подтверждения фактов об этой сущности.</p> </div> <div class=’qa-item’> <p class=’question’>Как система определяет, что является «шумом» в анкорных текстах?</p> <p>Патент упоминает использование списка <strong class=»term-highlight»>Known Noise</strong> (известного шума). Это предопределенные списки неинформативных фраз, таких как «click here», «more info», «visit website», которые система автоматически игнорирует при определении тематики целевого документа.</p> </div> <div class=’qa-item’> <p class=’question’>Использует ли система авторитетность ссылающихся сайтов при анализе анкоров?</p> <p>В основном описании алгоритма кластеризации вес анкорного текста определяется его частотой. Однако в патенте (Description) упоминается возможность использования различных метрик для взвешивания, например, PageRank источника ссылки. Логично предположить, что анкоры с более авторитетных сайтов могут иметь больший вес.</p> </div> <div class=’qa-item’> <p class=’question’>Может ли этот механизм извлекать новые факты или только подтверждать существующие?</p> <p>Основная цель, описанная в патенте (Claim 1), — это подтверждение (<strong class=»term-highlight»>Corroboration</strong>) существующего набора фактов и обновление этого набора. Обновление включает как корректировку статуса существующих фактов, так и добавление (storing) пар атрибут-значение из подтверждающего документа в набор фактов сущности.</p> </div>

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.