Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует анкорный текст входящих ссылок для определения главной сущности (субъекта) страницы

    IDENTIFYING THE UNIFYING SUBJECT OF A SET OF FACTS (Идентификация объединяющего субъекта набора фактов)
    • US8719260B2
    • Google LLC
    • 2014-05-06
    • 2005-05-31
    2005 EEAT и качество Патенты Google Семантика и интент Ссылки

    Google анализирует тексты ссылок (анкоры), ведущих на страницу, чтобы определить ее основную тему или сущность (Unifying Subject). Система выбирает наиболее репрезентативный анкор, используя частотность, авторитетность ссылающихся сайтов (Page Importance Metric) или векторный анализ. Это имя затем используется как каноническое название сущности в базе знаний (Fact Repository).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему надежной идентификации основного субъекта (сущности или темы) веб-страницы в процессе извлечения из нее фактической информации. Поскольку способы обозначения темы на самой странице сильно варьируются (например, в HTML title, заголовках, основном тексте) или могут отсутствовать, системе сложно определить, к чему относятся извлеченные данные. Это создает неоднозначность при организации фактов в базе знаний (Fact Repository).

    Что запатентовано

    Запатентована система, которая использует внешние (off-page) сигналы для определения «объединяющего субъекта» (Unifying Subject) документа и содержащихся в нем фактов. Основным источником данных являются анкорные тексты (Anchor Texts) гиперссылок на других сайтах (Linking Documents), ведущих на анализируемую страницу. Система генерирует кандидатов из этих анкоров и выбирает наилучшую метку, используя различные критерии оценки.

    Как это работает

    Система работает на этапе индексирования и извлечения фактов:

    • Анализ ссылок: Идентифицируются документы (Linking Documents), ссылающиеся на целевую страницу (Source Document).
    • Извлечение и нормализация анкоров: Извлекаются Anchor Texts входящих ссылок и нормализуются для создания меток-кандидатов (Candidate Labels).
    • Оценка и выбор: Метки оцениваются для выбора Unifying Subject. Патент описывает два основных метода:
      1. Частотный анализ: Выбор наиболее частого анкора, опционально взвешенного по авторитетности ссылающихся страниц (Page Importance Metric, например, PageRank).
      2. Векторный анализ: Поиск метки, наиболее близкой к «центру» (Centroid Vector) всех анкоров в векторном пространстве.
    • Ассоциация: Выбранная метка ассоциируется с фактами, извлеченными из Source Document, и сохраняется в Fact Repository.

    Актуальность для SEO

    Высокая. Понимание сущностей (Entity Understanding) и интерпретация анкорного текста остаются фундаментальными аспектами работы Google. Определение канонического имени сущности на основе внешних сигналов критически важно для построения и поддержания Knowledge Graph. Описанные методы, включая взвешивание по авторитетности и векторный анализ, актуальны для современных поисковых систем.

    Важность для SEO

    Патент имеет высокое значение (85/100). Он подтверждает, что анкорный текст является не просто сигналом ранжирования, а ключевым механизмом, позволяющим Google понять, какую сущность представляет страница. Это напрямую влияет на то, как Google назовет вашу сущность (бренд, продукт, персону) в своей базе знаний. Точность и консистентность внешнего анкорного профиля критически важны для Entity SEO.

    Детальный разбор

    Термины и определения

    Anchor Text (Анкорный текст)
    Текстовое содержимое гиперссылки в ссылающемся документе. Основной источник данных для определения субъекта целевого документа.
    Attribute-Value pairs (A-V pairs) (Пары атрибут-значение)
    Формат представления фактов, извлеченных из документа (например, Атрибут: «Дата рождения», Значение: «22 февраля 1732 года»).
    Candidate Labels (Метки-кандидаты)
    Нормализованные версии анкорных текстов, рассматриваемые как потенциальные имена для субъекта документа.
    Centroid Vector (Центроидный вектор)
    Вектор, представляющий собой «центр» или среднее значение векторов частотности всех кандидатов. Используется для нахождения наиболее репрезентативного имени.
    Cosine Distance/Similarity (Косинусное расстояние/сходство)
    Метрика для измерения близости между вектором кандидата и центроидным вектором. Чем ближе значение к 1, тем ближе вектор к центру.
    Fact Repository / Facts Database (Репозиторий / База фактов)
    База данных для хранения извлеченной фактической информации (предшественник или компонент Knowledge Graph).
    Frequency Vector (Вектор частотности)
    Векторное представление метки-кандидата, основанное на частоте встречаемости n-грамм (подстрок) в его тексте.
    Linking Document (Ссылающийся документ)
    Документ, содержащий гиперссылку на исходный документ.
    N-grams (N-граммы)
    Подстроки длиной N символов, используемые для создания вектора частотности (например, 5-граммы).
    Object (Объект)
    Представление сущности в базе фактов. Состоит из набора фактов (A-V pairs) и имени (Name Fact).
    Page Importance Metric (Метрика важности страницы)
    Мера важности или авторитетности документа (например, PageRank). Может использоваться для взвешивания голосов при выборе имени.
    Source Document (Исходный документ)
    Документ, из которого извлекаются факты и для которого определяется субъект.
    Unifying Subject (First Label) (Объединяющий субъект / Первая метка)
    Выбранная метка-кандидат, которая считается наиболее репрезентативным именем сущности, описанной в документе.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс генерации базы фактов путем обработки документов.

    1. Система получает доступ к исходному документу (Source Document).
    2. Извлекает один или несколько фактов из него.
    3. Идентифицирует набор ссылающихся документов (Linking Documents), содержащих ссылки с анкорным текстом на исходный документ.
    4. Генерирует набор меток-кандидатов (Candidate Labels) из этих анкорных текстов.
    5. Выбирает одну из меток в качестве объединяющего субъекта (Unifying Subject) для извлеченных фактов.
    6. Сохраняет в базе фактов информационный набор (отличный от исходного документа), включающий Unifying Subject, извлеченные факты и информацию об исходном документе.

    Ядро изобретения — использование внешних анкорных текстов для присвоения имени (Unifying Subject) набору фактов, извлеченных из целевой страницы.

    Claim 3 (Зависимый от 1): Детализирует один из методов выбора кандидата (векторный анализ).

    1. Для каждой метки-кандидата определяется набор частот подстрок (n-грамм).
    2. Генерируется вектор частотности (Frequency Vector) на основе этих частот.
    3. Определяется центроидный вектор (Centroid Vector) на основе векторов всех кандидатов.
    4. Выбирается кандидат, чей вектор имеет кратчайшее расстояние до Centroid Vector.

    Этот пункт защищает конкретный лингвистический метод выбора наиболее «типичного» или «центрального» имени из множества вариантов анкоров.

    Где и как применяется

    Изобретение применяется на этапе построения базы знаний (Facts Database).

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются данные, необходимые для работы алгоритма: сами документы и структура ссылок между ними (link graph), включая анкорные тексты и данные для расчета авторитетности.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения патента. Компонент Importer (Импортер) анализирует контент и извлекает факты (A-V pairs). Для сохранения этих фактов система должна определить, к какому объекту (сущности) они относятся. Здесь активируется описанный механизм:

    1. Система использует данные из CRAWLING (link graph), чтобы найти Linking Documents и их Anchor Texts.
    2. Используются Page Importance Metrics (например, PageRank) для взвешивания анкоров.
    3. Происходит генерация и выбор Unifying Subject.
    4. Repository Manager сохраняет извлеченные факты и присваивает им выбранное имя в Fact Repository.

    Входные данные:

    • Исходный документ (контент и URL).
    • Извлеченные A-V pairs.
    • Данные ссылочного графа: URL ссылающихся документов, их анкорные тексты.
    • Page Importance Metrics ссылающихся документов.

    Выходные данные:

    • Объект в Fact Repository, содержащий A-V pairs.
    • Name Fact (Имя факта) для этого объекта, которым является выбранный Unifying Subject (и опционально вторичные имена).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент, богатый сущностями и фактами (страницы о людях, местах, продуктах, организациях, событиях). Алгоритм помогает системе понять, как канонически называть эти сущности.
    • Идентификация Сущностей: Влияет на то, как сущности будут распознаваться и именоваться в базе знаний, что впоследствии используется при ответе на запросы пользователей и формировании Knowledge Graph.

    Когда применяется

    • Условия применения: Алгоритм применяется во время процесса извлечения фактов (часть индексирования), когда обрабатывается документ, содержащий потенциальные факты.
    • Триггеры активации: Необходимым условием является наличие у исходного документа хотя бы одной входящей ссылки с информативным анкорным текстом, из которого можно сгенерировать Candidate Label.

    Пошаговый алгоритм

    Процесс определения объединяющего субъекта для набора фактов.

    1. Идентификация источника: Определяется исходный документ, содержащий факты (A-V pairs).
    2. Сбор данных о ссылках: Идентифицируются все ссылающиеся документы и извлекаются анкорные тексты ссылок, ведущих на исходный документ. Также могут быть получены Page Importance Metrics ссылающихся документов.
    3. Генерация кандидатов (Нормализация): Анкорные тексты нормализуются для создания Candidate Labels. Это может включать приведение к нижнему регистру, удаление пунктуации и удаление слов с низкой ценностью (например, «click here»).
    4. Оценка и выбор субъекта: Применяется один из описанных методов для выбора Unifying Subject (First Label).

    Метод А: Оценка на основе частотности (Frequency-based Scoring)

    1. Расчет оценок: Для каждого кандидата рассчитывается оценка на основе количества ссылающихся документов, использующих соответствующий анкорный текст.
    2. Взвешивание (Опционально): Оценка может быть взвешена с использованием Page Importance Metric ссылающихся документов. Оценка = сумма метрик важности всех документов, использующих данный анкор.
    3. Выбор: Выбирается кандидат с наивысшей оценкой.

    Метод Б: Векторный анализ (Vector Analysis)

    1. Генерация векторов: Для каждого кандидата генерируется Frequency Vector, основанный на частоте n-грамм (например, 5-грамм) в его тексте.
    2. Расчет центроида: Векторы нормализуются, суммируются (возможно, с весами, основанными на Page Importance Metric), и результат снова нормализуется для получения Centroid Vector.
    3. Измерение расстояния: Рассчитывается расстояние (например, Cosine Similarity) между вектором каждого кандидата и центроидом.
    4. Выбор: Выбирается кандидат, чей вектор имеет кратчайшее расстояние (наибольшее косинусное сходство) до центроида.
    1. Ассоциация и хранение: Выбранный Unifying Subject ассоциируется с извлеченными A-V pairs и сохраняется в Fact Repository как имя объекта (Name Fact).
    2. Выбор вторичных имен (Опционально): Другие кандидаты, удовлетворяющие определенным критериям (например, превышающие порог оценки или косинусного сходства), могут быть выбраны как вторичные имена (алиасы).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется преимущественно на использовании ссылочных данных для идентификации субъекта.

    • Ссылочные факторы:
      • Anchor Texts: Критически важные данные. Это основной материал для генерации Candidate Labels.
      • Входящие ссылки: URL ссылающихся документов используются для идентификации анкоров.
    • Системные данные (Факторы авторитетности):
      • Page Importance Metrics (например, PageRank): Используются для взвешивания голосов ссылающихся документов. Голос более авторитетного сайта имеет больший вес.
    • Контентные факторы:
      • Содержимое Source Document используется для извлечения фактов (A-V pairs), которые затем ассоциируются с субъектом.

    Какие метрики используются и как они считаются

    В патенте описаны две основные группы метрик для оценки кандидатов:

    Метрики частотности и авторитетности:

    • Frequency Count (Частота использования): Простое количество документов, использующих определенный анкорный текст.
    • Weighted Score (Взвешенная оценка): Сумма Page Importance Metrics документов, использующих определенный анкорный текст. Формула: Score(Label) = Σ P(Linking Document).

    Метрики векторного анализа:

    • N-gram Frequencies (Частоты N-грамм): Количество вхождений подстрок длиной N в текст кандидата. Используются для построения Frequency Vector.
    • Cosine Similarity (Косинусное сходство): Мера близости между двумя векторами (вектором кандидата и Centroid Vector). Используется для определения кандидата, наиболее близкого к лингвистическому центру.

    Выводы

    1. Анкорный текст как инструмент идентификации сущностей: Патент демонстрирует, что анкорный текст используется не только как сигнал ранжирования, но и как основной механизм для идентификации и присвоения канонического имени сущностям (Entity Identification и Naming) в базе знаний Google.
    2. Приоритет внешних сигналов для именования: Google полагается на то, как внешние сайты описывают страницу (Anchor Text), чтобы определить ее Unifying Subject, вместо того чтобы полагаться только на внутренние элементы страницы (такие как title или H1).
    3. Влияние авторитетности на выбор имени: Качество и авторитетность (Page Importance Metric / PageRank) ссылающихся сайтов могут напрямую влиять на то, какое имя Google выберет для сущности. Голоса от авторитетных сайтов имеют больший вес.
    4. Гибкость в выборе имени: Описаны два различных метода выбора: «мудрость толпы» (наиболее частый или авторитетно поддерживаемый анкор) и лингвистический анализ (наиболее типичный анкор, близкий к Centroid Vector). Это позволяет системе адаптироваться к разным паттернам ссылок.
    5. Основа для Knowledge Graph: Описанный механизм является фундаментальным для наполнения Facts Database (предшественника Knowledge Graph). Точность извлечения фактов зависит от точности идентификации субъекта, которую и обеспечивает данный патент.

    Практика

    Best practices (это мы делаем)

    • Стратегическое управление анкорным профилем: Необходимо активно работать над тем, чтобы входящие ссылки использовали описательный, точный и консистентный анкорный текст, который точно отражает основную сущность или тему целевой страницы. Это напрямую влияет на то, как Google идентифицирует ваш контент.
    • Приоритет авторитетных ссылок с релевантными анкорами: Поскольку оценки могут взвешиваться по Page Importance Metric, получение ссылок с высокоавторитетных сайтов с правильными анкорами имеет решающее значение не только для ранжирования, но и для корректной идентификации сущности.
    • Консистентность брендинга и именования во внешних источниках: Убедитесь, что ваш бренд, продукты или ключевые персоны упоминаются и на них ссылаются консистентно на разных площадках. Это увеличивает вероятность того, что желаемое имя будет иметь высокий балл частотности или будет близко к Centroid Vector.
    • Мониторинг анкорного профиля: Регулярно анализируйте анкор-лист входящих ссылок, чтобы понимать, как внешние сайты описывают ваши ключевые страницы, и выявлять нерелевантные или спамные анкоры, которые могут искажать определение Unifying Subject.

    Worst practices (это делать не надо)

    • Использование неинформативных анкоров: Построение ссылок с анкорами типа «здесь», «читать далее», «click here». Патент явно указывает, что такие слова могут фильтроваться при генерации Candidate Labels и не несут ценности для идентификации субъекта.
    • Игнорирование анкорного текста при линкбилдинге: Сосредоточение только на количестве ссылок или авторитетности домена без учета анкорного текста. Это упущенная возможность повлиять на то, как Google идентифицирует вашу сущность.
    • Непоследовательное именование: Использование слишком большого количества различных названий для одной и той же сущности во внешних кампаниях. Это может привести к «размыванию» сигнала и выбору неоптимального Unifying Subject системой.
    • Фокус на низкокачественных ссылках: Получение ссылок с сайтов с низким Page Importance Metric неэффективно для этого механизма, так как их вес при голосовании за имя сущности минимален.

    Стратегическое значение

    Этот патент подчеркивает глубокую интеграцию между ссылочным графом и графом знаний. Он показывает, что линкбилдинг и Entity SEO тесно связаны. Для построения тематического авторитета (Topical Authority) недостаточно просто создавать контент; необходимо также обеспечить, чтобы внешняя экосистема (через ссылки и анкоры) точно описывала этот контент и связанные с ним сущности. Анкорный текст выступает мостом, который позволяет Google переносить информацию из ссылочного графа в базу знаний.

    Практические примеры

    Сценарий: Определение канонического имени для страницы нового продукта

    Компания выпускает новый гаджет «Brand X Model 5000». Цель SEO — чтобы Google идентифицировал страницу продукта именно под этим именем.

    1. Действия SEO-специалиста: При проведении PR и линкбилдинг кампаний команда активно продвигает использование анкора «Brand X Model 5000». Они также допускают использование вариаций, таких как «Обзор Brand X 5000» или «Новый гаджет X 5000».
    2. Анализ Google (Метод А — Частотность/Вес): Система видит 50 ссылок с анкором «Brand X Model 5000», 20 ссылок с анкором «X 5000» и 100 ссылок с анкором «купить новый гаджет». Если используется взвешивание по авторитетности (Page Importance Metric), и ссылки с «Brand X Model 5000» идут с авторитетных обзорных сайтов, то этот анкор получит наивысший балл и будет выбран как Unifying Subject, даже если он не самый частотный.
    3. Анализ Google (Метод Б — Векторный анализ): Система анализирует n-граммы. «Brand X Model 5000», «Brand X 5000» и «Обзор Brand X 5000» лингвистически близки. Система вычисляет Centroid Vector. Анкор, наиболее близкий к этому центру (вероятно, «Brand X Model 5000» или «Brand X 5000»), будет выбран как Unifying Subject.
    4. Результат: Благодаря консистентному и авторитетному анкорному профилю, Google корректно идентифицирует сущность как «Brand X Model 5000» в своей базе фактов.

    Вопросы и ответы

    Влияет ли авторитетность (PageRank) ссылающегося сайта на выбор имени сущности?

    Да, напрямую. Патент описывает возможность взвешивания «голосов» (анкорных текстов) с помощью Page Importance Metric (например, PageRank) ссылающегося документа. Это означает, что анкорный текст с высокоавторитетного сайта имеет значительно больший вес при определении Unifying Subject, чем анкоры с множества низкокачественных сайтов.

    Что произойдет, если у страницы нет входящих ссылок или у всех ссылок пустые/неинформативные анкоры?

    Патент описывает метод, основанный исключительно на анализе анкорных текстов входящих ссылок. Если данных нет (нет ссылок или нет информативных анкоров, например, только «click here»), этот конкретный механизм не сработает. В таких случаях система должна будет полагаться на другие методы идентификации субъекта, не описанные в данном патенте (например, анализ контента страницы, заголовков).

    Как этот патент связан с Knowledge Graph?

    Этот патент описывает механизм наполнения Fact Repository или Facts Database, что является предшественником или основой Knowledge Graph. Процесс извлечения фактов (A-V pairs) и присвоения им имени (Unifying Subject) — это именно то, как строится граф знаний. Анкорный текст используется для определения канонического имени узлов (сущностей) в этом графе.

    Какой метод выбора имени (частотность или векторный анализ) Google использует чаще?

    Патент описывает оба метода как возможные варианты реализации (embodiments). Он не указывает предпочтений. Частотный метод (особенно взвешенный по авторитетности) эффективен для популярных сущностей с четкими анкорами. Векторный анализ может быть более полезен для определения наиболее лингвистически репрезентативного имени среди множества похожих, но немного отличающихся анкоров.

    Что такое N-граммы и Centroid Vector в контексте анкоров?

    N-граммы — это подстроки символов (например, 5 символов подряд) внутри анкорного текста. Система строит вектор частотности этих подстрок для каждого анкора. Centroid Vector — это усредненный вектор всех анкоров, указывающих на страницу. Система ищет анкор, который наиболее близок к этому среднему значению, считая его самым типичным и репрезентативным именем.

    Может ли этот механизм привести к выбору спамного анкора в качестве имени сущности?

    Теоретически, если большинство входящих ссылок (особенно с авторитетных сайтов) используют спамный анкор, он может быть выбран. Однако механизм взвешивания по Page Importance Metric частично защищает от этого, если авторитетные сайты используют корректные анкоры. Также в патенте упоминается предварительная фильтрация (нормализация) слов с низкой ценностью из анкоров.

    Как SEO-специалисту повлиять на выбор Unifying Subject?

    Ключевая стратегия — обеспечение консистентности и качества внешнего анкорного профиля. Необходимо стремиться к тому, чтобы авторитетные сайты использовали желаемое каноническое имя сущности (бренда, продукта) в качестве анкорного текста при ссылке на вашу страницу. Это требует интеграции SEO и PR усилий.

    Учитывает ли система внутреннюю перелинковку сайта при определении Unifying Subject?

    Патент не делает явных различий между внутренними и внешними ссылками; он говорит о Linking Documents в целом. Однако, исходя из того, что упоминается использование Page Importance Metric для взвешивания, и учитывая, что цель метода — получить надежный внешний сигнал, логично предположить, что внешние ссылки обладают большим приоритетом и влиянием в этом процессе.

    Что такое «Second Labels» и как они используются?

    Помимо основного имени (First Label или Unifying Subject), система может выбрать Second Labels. Это другие анкоры, которые также набрали высокий балл или близки к центроиду. Они сохраняются в базе фактов как вторичные имена или алиасы (Secondary Names) для сущности, что помогает системе распознавать ее при разных упоминаниях.

    Заменяет ли этот механизм анализ Title и H1 страницы?

    Он не обязательно заменяет их, но дополняет и может иметь приоритет. Патент был создан для решения проблемы, когда внутренние сигналы (такие как Title) ненадежны или отсутствуют. Если внешние сигналы (анкоры) сильны и консистентны, они, вероятно, будут предпочтительнее для определения канонического имени сущности в базе фактов.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.