Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует текст ссылок и окружающий контекст для понимания и ранжирования целевых страниц

    ANCHOR TAG INDEXING IN A WEB CRAWLER SYSTEM (Индексирование анкорных тегов в системе веб-краулера)
    • US10210256B2
    • Google LLC
    • 2019-02-19
    • 2003-07-03
    2003 Индексация Патенты Google Семантика и интент Ссылки

    Google индексирует не только анкорный текст ссылки, но и окружающий ее текст («annotation text») в исходном документе. Эта информация ассоциируется с целевой страницей и используется для ее ранжирования, даже если сама целевая страница еще не была просканирована или не содержит текста (например, является изображением или видео).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности индексирования, основанного только на контенте самой страницы. Он описывает механизм использования экстринсивной (внешней) информации, найденной на страницах, которые ссылаются на целевой документ. Это позволяет индексировать и ранжировать страницы, которые: (1) еще не были просканированы; (2) содержат мало или совсем не содержат текста (изображения, видео, файлы); или (3) когда ссылающаяся страница содержит более точное описание целевой страницы, чем она сама.

    Что запатентовано

    Запатентована система и метод индексирования документов путем использования annotation text (аннотационного текста). Система идентифицирует текст на исходной странице, находящийся в пределах predetermined distance (заданного расстояния) от исходящей ссылки, и ассоциирует этот текст с целевой страницей в индексе. Для эффективной обработки этих данных создается Sorted Anchor Map (Отсортированная Карта Анкоров), которая группирует все входящие аннотации по целевому документу.

    Как это работает

    Система работает в рамках инфраструктуры краулинга и индексирования:

    • Сбор данных (Краулинг): Краулеры извлекают документы. Content Filters идентифицируют исходящие ссылки и извлекают annotation text (анкор и окружающий текст).
    • Логирование: Эта информация записывается в Link Log (Журнал Ссылок).
    • Обработка и Инверсия: Global State Manager обрабатывает Link Log и создает Sorted Anchor Map. Эта карта инвертирует данные, организуя их по целевому документу. Параллельно создается Sorted Link Map для расчета PageRank.
    • Индексирование: Индексаторы используют Sorted Anchor Map, чтобы ассоциировать термины из annotation text с целевым документом в поисковом индексе.
    • Поиск: При запросе система может вернуть целевой документ, если термины запроса совпадают с его внешним annotation text.

    Актуальность для SEO

    Критически высокая. Этот патент, выданный в 2019 году, является продолжением (continuation) заявок, поданных ключевыми инженерами Google (Jeffrey Dean, Sanjay Ghemawat) еще в 2003 году. Он описывает фундаментальные механизмы обработки ссылок и их контекста, которые лежат в основе современного поиска. Принципы использования внешней информации для оценки релевантности остаются краеугольным камнем SEO.

    Важность для SEO

    Влияние на SEO фундаментальное (95/100). Патент подтверждает и детализирует, что контекст вокруг ссылки (а не только сам анкорный текст) используется для понимания и ранжирования целевой страницы. Это напрямую влияет на стратегии внутреннего и внешнего линкбилдинга, подчеркивая важность релевантности контента, окружающего исходящие ссылки.

    Детальный разбор

    Термины и определения

    Annotation Text (Аннотационный текст)
    Текст, извлеченный из исходного документа, связанный с исходящей ссылкой. Он определяется как текст, находящийся в пределах predetermined distance от ссылки. Может включать текст как внутри тега <a> (анкор), так и снаружи (околоссылочный текст). Может также включать атрибуты текста (например, выделение).
    Anchor Map (Карта анкоров) / Sorted Anchor Map
    Структура данных, содержащая записи (anchor records), отсортированные по идентификаторам целевых документов. Группирует все исходные документы, ссылающиеся на цель, и соответствующий Annotation Text. Используется индексаторами.
    Anchor Tag (Анкорный тег)
    HTML-элемент (обычно <a>), определяющий гиперссылку.
    Global State Manager
    Системный компонент, который обрабатывает Link Logs и генерирует Sorted Anchor Maps и Sorted Link Maps. Управляет сортировкой и слиянием этих карт.
    Link Log (Журнал ссылок)
    Структура данных, генерируемая краулером/фильтрами контента. Содержит записи (link records) о просканированных документах: идентификатор источника, список идентификаторов целей и Annotation Text.
    Link Map (Карта ссылок) / Sorted Link Map
    Структура данных, отсортированная по идентификаторам исходных документов. Содержит граф ссылок (кто на кого ссылается) без текста. Используется для расчета PageRank.
    Predetermined Distance (Заданное расстояние)
    Критерий для определения границ Annotation Text вокруг ссылки. Может основываться на количестве символов, структуре HTML или иных критериях (anchor text identification criteria).
    Source Document / Target Document
    Исходный документ (Source) содержит ссылку; целевой документ (Target) – это страница, на которую ведет ссылка.
    URL Fingerprint (FP) (Отпечаток URL)
    Уникальный идентификатор документа (например, 64-битное число), используемый для эффективной обработки и сортировки.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс использования аннотационного текста для индексации целевой страницы и ответа на запрос.

    1. Система получает (через краулер) исходный документ (source document).
    2. В нем идентифицируется annotation text — текст в пределах заданного расстояния (predetermined distance) от исходящей ссылки на целевой документ (target document).
    3. В индексе сохраняется ассоциация между термином из этого текста и исходным документом.
    4. Ядро изобретения: В индексе также сохраняется ассоциация между этим же термином и целевым документом.
    5. При получении запроса с этим термином система идентифицирует (в том числе) целевой документ как ассоциированный с термином.
    6. Целевой документ включается в список результатов и возвращается пользователю.

    Система защищает метод, при котором текст вокруг ссылки на странице А используется для того, чтобы страница Б могла быть найдена по этому тексту.

    Claims 7 и 17 (Зависимые): Уточняют, что annotation text может включать текст, находящийся за пределами анкорного тега (text outside of an anchor tag) в исходном документе.

    Это критически важное уточнение: для индексации целевой страницы используется не только анкор, но и околоссылочный текст.

    Claims 2 и 12 (Зависимые): Указывают, что система может работать, даже если целевой документ еще не был просканирован (has not yet been crawled).

    Это позволяет индексировать новые URL сразу после их обнаружения через ссылки.

    Claims 10, 14, 15, 20 (Зависимые): Указывают, что механизм применяется, когда целевой документ не содержит текстовой информации (lacks textual information), например, является изображением (Claim 14) или аудиофайлом (Claim 15).

    Claims 8 и 9 (Зависимые): Описывают использование системы для расчета query-independent relevance metric, такой как PageRank (Claim 9), путем суммирования частичных вкладов от ссылающихся документов.

    Где и как применяется

    Изобретение является ключевой частью инфраструктуры обработки ссылок и контента.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе краулеры (Robots) получают исходные документы и передают их в Content Filters.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента.

    1. Извлечение Ссылок и Контекста: Content Filters анализируют документы, извлекают исходящие ссылки и Annotation Text (анкор + текст в пределах predetermined distance).
    2. Логирование: Эта информация записывается в Link Log.
    3. Обработка Логов (Global State Manager): Global State Manager читает Link Logs и преобразует данные.
    4. Генерация Карт: Создаются две структуры:
      • Sorted Anchor Maps: Организованы по Target URL. Используются Индексаторами для определения релевантности.
      • Sorted Link Maps: Организованы по Source URL. Используются Page Rankers для расчета авторитетности (PageRank).
    5. Индексирование Контента: Индексаторы используют Sorted Anchor Maps для добавления терминов из Annotation Text в индекс для соответствующих целевых документов.

    RANKING – Ранжирование
    На этапе ранжирования система использует индекс, созданный с учетом Annotation Text, для определения релевантности документа запросу, а также рассчитанный PageRank как сигнал авторитетности.

    Входные данные:

    • Просканированные документы.
    • Link Logs.

    Выходные данные:

    • Sorted Anchor Maps.
    • Sorted Link Maps.
    • Поисковый индекс с ассоциациями внешнего текста.

    На что влияет

    • Типы контента: Наибольшее влияние оказывается на контент, который сложно индексировать напрямую: изображения, видео, PDF-файлы, мультимедиа (Claims 10, 14, 15, 20). Также обогащает семантику стандартных веб-страниц.
    • Новые страницы: Позволяет индексировать и ранжировать новые URL до того, как они будут просканированы (Claims 2, 12).
    • Все типы запросов: Влияет на информационные, коммерческие и навигационные запросы, поскольку Annotation Text является сильным сигналом релевантности и интента.

    Когда применяется

    • Триггеры активации: Механизм активируется каждый раз, когда краулер обрабатывает документ, содержащий исходящие ссылки.
    • Условия работы: Система извлекает Annotation Text, если он присутствует и соответствует критериям anchor text identification criteria (например, находится в пределах predetermined distance).
    • Частота применения: Процесс происходит непрерывно. Обновление данных (например, обработка удаленных ссылок через записи DELETE) происходит во время операций слияния карт (Merging), которые запускаются при выполнении merge condition (по времени или объему данных).

    Пошаговый алгоритм

    Этап 1: Сбор данных и первичное логирование

    1. Сканирование: Краулер (Robot) загружает исходный документ (SourceDoc).
    2. Фильтрация и Извлечение: Content Filter анализирует SourceDoc и идентифицирует исходящие ссылки (TargetURLs).
    3. Определение Аннотаций: Для каждой ссылки извлекается Annotation Text – текст в пределах predetermined distance. Также могут извлекаться атрибуты текста (например, форматирование).
    4. Запись в Link Log: Создается запись в Link Log, содержащая идентификаторы источника, целей и соответствующие Annotation Texts.

    Этап 2: Обработка и создание Карт (Global State Manager)

    1. Чтение Link Log: Global State Manager считывает данные из Link Log.
    2. Сортировка и Агрегация: Данные обрабатываются:
      • Для Sorted Link Map: Сортировка по SourceDoc Identifier, аннотации удаляются.
      • Для Sorted Anchor Map: Сортировка по TargetURL Identifier, аннотации сохраняются и группируются.
    3. Обработка Изменений: При обнаружении изменений (например, ссылка удалена) могут генерироваться записи DELETE.
    4. Слияние Карт (Merging): Периодически слои карт (Layered Set) сливаются в консолидированные карты. На этом этапе обрабатываются DELETE записи и разрешаются конфликты (выбираются самые свежие данные).

    Этап 3: Индексирование и Поиск

    1. Расчет PageRank: Page Rankers используют Sorted Link Maps для расчета авторитетности.
    2. Индексирование: Индексатор читает Sorted Anchor Map. Термины из Annotation Text добавляются в индекс и ассоциируются с TargetURL.
    3. Обработка Запроса: При поиске система ищет термины запроса. Если термин найден в Annotation Text, ассоциированном с TargetURL, этот URL идентифицируется как релевантный кандидат.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст исходного документа. Анализируется Anchor Text (внутри ссылки) и текст, окружающий ссылку (Annotation Text в пределах predetermined distance).
    • Структурные факторы: HTML-структура используется для идентификации анкорных тегов (Anchor Tags). Также учитываются атрибуты текста, такие как выделение (Emphasized, Strongly Emphasized), цитирование (Citation) или фрагменты кода (Source Code).
    • Технические факторы: Идентификаторы документов (URL Fingerprints) используются для ключей в Link Logs и Sorted Maps.

    Какие метрики используются и как они считаются

    Патент фокусируется на инфраструктуре, но упоминает ключевые метрики и параметры:

    • Predetermined Distance: Метрика для определения объема контекста вокруг ссылки. Патент не дает точной формулы, но указывает, что она может основываться на количестве символов в HTML коде, расположении других анкорных тегов или иных критериях (anchor text identification criteria).
    • PageRank (Query-Independent Relevance Metric): Патент указывает, что Sorted Link Maps используются для расчета PageRank. Расчет основывается на сумме частичных вкладов (partial page rank contribution) от ссылающихся документов.
    • Атрибуты Аннотаций: Система фиксирует атрибуты текста в аннотациях (например, выделение жирным). Патент не уточняет, как именно эти атрибуты влияют на вес терминов, но фиксирует их наличие.

    Выводы

    1. Текст вокруг ссылки так же важен, как и анкор: Ключевой вывод – Google систематически извлекает и использует текст, окружающий ссылку (Annotation Text), а не только текст внутри тега <a> (Claims 7, 17). Этот контекст определяется на основе predetermined distance.
    2. Внешний текст как прямой сигнал релевантности: Текст, окружающий входящую ссылку, индексируется и используется для поиска так, как если бы он был частью контента целевой страницы.
    3. Индексация до сканирования: Система позволяет индексировать и ранжировать целевую страницу до того, как она будет просканирована (Claims 2, 12), исключительно на основе входящих ссылок и их контекста.
    4. Индексация нетекстового контента: Этот механизм является основным способом понимания содержания изображений, видео и других файлов, которые не содержат собственного текста (Claims 10, 14, 15).
    5. Инфраструктура и PageRank: Процесс генерации Anchor Maps (для релевантности) тесно связан с генерацией Link Maps (для авторитетности/PageRank), подтверждая комплексный подход к анализу ссылочного графа.
    6. Обработка атрибутов и удалений: Система учитывает атрибуты текста (форматирование) и имеет надежный механизм для обработки удаленных ссылок через процесс слияния карт (Merging и DELETE записи).

    Практика

    Best practices (это мы делаем)

    • Оптимизация околоссылочного текста (Surrounding Text): При размещении ссылок (внешних и внутренних) уделяйте пристальное внимание тексту, который физически окружает ссылку (предложение или абзац). Этот текст должен быть тематически релевантным целевой странице, так как он попадает в Annotation Text и используется для ее индексации.
    • Контекстуальное размещение ссылок: Наибольшую ценность имеют ссылки, размещенные внутри релевантных блоков контента. Избегайте ситуаций, когда в непосредственной близости находятся ссылки на не связанные по теме страницы, так как их контекст может смешиваться.
    • Оптимизация ссылок на медиафайлы и документы: Для изображений, видео и PDF-файлов критически важно создавать релевантные подписи и описания в непосредственной близости от ссылок на них. Это основной источник индексируемой информации для этих файлов.
    • Использование форматирования для акцентирования: Патент упоминает извлечение атрибутов (например, Strongly Emphasized). Использование логического выделения (<strong>, <em>) для ключевых терминов в анкоре или рядом с ним может быть полезным.
    • Быстрое создание ссылок на новый контент: Для ускорения индексации новых страниц размещайте на них ссылки с авторитетных и часто сканируемых разделов. Система может проиндексировать страницу по анкорам еще до ее сканирования.

    Worst practices (это делать не надо)

    • Игнорирование околоссылочного текста: Размещение ссылок без релевантного контекста (например, в длинных списках не связанных URL или в футере без тематического контекста) снижает их эффективность, так как система не сможет извлечь полезный Annotation Text.
    • Смешивание интентов вокруг ссылок: Создание блоков текста, где ссылки на страницы с разными интентами находятся слишком близко друг к другу. Система может ошибочно ассоциировать контекст одной ссылки с целевой страницей другой.
    • Использование неинформативных ссылок на медиа: Ссылки на файлы с анкорами типа «скачать», «тут» или «изображение 1» без окружающего описательного текста не дают системе информации для индексации этого контента.
    • Переоптимизация только анкоров: Фокус исключительно на точном вхождении ключа в анкор без учета окружающего текста. Патент показывает, что система анализирует более широкий контекст.

    Стратегическое значение

    Этот патент подтверждает стратегию Google по использованию всего доступного контекста для понимания контента. Для SEO это означает, что оптимизация ссылок — это не просто выбор анкора, а интеграция ссылки в семантическую структуру документа. Это подчеркивает важность качества контента и структуры сайта. Внутренняя перелинковка становится мощным инструментом для управления тем, как поисковая система интерпретирует релевантность страниц, используя как анкоры, так и окружающий текст.

    Практические примеры

    Сценарий 1: Оптимизация околоссылочного текста при аутриче (Внешняя ссылка)

    1. Задача: Получить ссылку на страницу о «выборе треккинговых ботинок для влажной погоды».
    2. Плохая реализация: Размещение ссылки в статье о путешествиях: «Не забудьте взять с собой лучшие ботинки и зонтик.»
      Результат: Annotation text слабый, контекст размыт.
    3. Хорошая реализация (Фокус на анкоре): Размещение ссылки с анкором «треккинговые ботинки для влажной погоды».
      Результат: Сильный сигнал релевантности по ключевой фразе.
    4. Лучшая реализация (Фокус на Annotation Text): Размещение ссылки внутри тематического абзаца: «При подготовке к походам в регионах с частыми дождями критически важна экипировка. Особое внимание уделите выбору треккинговых ботинок. Модели с мембраной Gore-Tex обеспечат комфорт во влажную погоду.»
      Результат: Система извлекает не только анкор, но и окружающий контекст («походы с частыми дождями», «Gore-Tex», «влажную погоду») как annotation text, усиливая релевантность.

    Сценарий 2: Оптимизация индексации изображений в E-commerce

    • Задача: Улучшить ранжирование изображений товаров в Google Images.
    • Действия: На карточке товара убедиться, что ссылка на основное изображение окружена релевантным текстом в непосредственной близости (в пределах predetermined distance).
    • Пример: <h1>Смартфон Google Pixel 8 Pro</h1> <a href=»pixel8pro.jpg»><img…></a> <p>Цвет: Черный, Память: 256GB</p>.
    • Результат: Все окружающие тексты (H1 и P) могут быть включены в Annotation Text и использованы для индексации изображения pixel8pro.jpg.

    Вопросы и ответы

    Что такое «Annotation Text» и чем он отличается от анкорного текста?

    Annotation Text — это более широкое понятие. Оно включает сам анкорный текст (текст внутри тега <a>), а также текст, который находится в пределах «заданного расстояния» (predetermined distance) от ссылки в исходном документе. Это означает, что Google учитывает не только точные слова в ссылке, но и окружающий ее контекст для определения релевантности целевой страницы.

    Подтверждает ли патент использование околоссылочного текста (текста вокруг ссылки)?

    Да, абсолютно. Claims 7 и 17 прямо указывают, что Annotation Text может включать текст за пределами анкорного тега (text outside of an anchor tag). Это прямое подтверждение того, что Google использует околоссылочный текст для понимания контекста ссылки и релевантности целевой страницы.

    Насколько большой объем текста вокруг ссылки анализирует Google (predetermined distance)?

    Патент не указывает точное значение. Он упоминает, что это расстояние может основываться на различных критериях (anchor text identification criteria), таких как количество символов в HTML-коде, расположение других анкорных тегов или структура документа. На практике SEO-специалистам следует оптимизировать как минимум предложение или абзац, в котором размещена ссылка.

    Может ли страница попасть в индекс и ранжироваться, если Googlebot ее еще не сканировал?

    Да, это одно из ключевых утверждений патента (Claim 2). Если на новую страницу появляются входящие ссылки и используют описательный текст в анкорах или вокруг них, Google может проиндексировать этот текст и ассоциировать его с вашим URL до фактического сканирования контента страницы.

    Как этот патент помогает Google понимать содержание изображений?

    Изображения сами по себе не содержат текста (Claim 10). Патент описывает, что текст, окружающий ссылку на изображение (например, название товара, подпись к фото), извлекается как Annotation Text и индексируется вместе с URL изображения. Это основной механизм, позволяющий находить изображения по текстовым запросам.

    Влияет ли форматирование текста ссылки (например, жирный шрифт) на его обработку?

    Да. Патент упоминает, что аннотации могут включать список атрибутов текста. Приводятся примеры HTML-атрибутов, таких как Emphasized (курсив), Strongly Emphasized (жирный), Citation (цитата). Это указывает на то, что система фиксирует форматирование, и оно потенциально может влиять на интерпретацию или вес терминов.

    Чем отличаются Link Map и Anchor Map и как они связаны с SEO?

    Link Map отсортирована по исходным URL и содержит структуру ссылок (кто на кого ссылается). Она используется для расчета авторитетности (PageRank). Anchor Map отсортирована по целевым URL и содержит текст ссылок и контекст (Annotation Text). Она используется для определения текстовой релевантности. Обе карты критически важны для SEO.

    Как система обрабатывает ситуацию, когда ссылка удаляется?

    Система использует инфраструктуру Global State Manager и процесс слияния карт (merge operation). Если при повторном сканировании обнаруживается, что ссылка исчезла, система генерирует запись об удалении (delete entry) в новой Sorted Anchor Map. При слиянии старой и новой карты эта запись гарантирует, что устаревшая информация о ссылке будет удалена из актуального индекса.

    Как этот патент влияет на стратегии внутренней перелинковки?

    Он подчеркивает критическую важность контекста для внутренних ссылок. Внутренняя перелинковка должна быть контекстуальной. Ссылки, размещенные внутри релевантных абзацев с оптимизированным анкором и окружающим текстом, гораздо эффективнее передают сигналы релевантности, чем ссылки в меню или футере.

    Актуален ли этот патент в эпоху NLP и алгоритмов типа BERT?

    Да, он критически актуален. Современные NLP-модели, такие как BERT, могут использоваться для более сложного анализа того, что в патенте называется Annotation Text, и для более точного определения predetermined distance. Но сама инфраструктура (Sorted Anchor Maps) и принцип использования внешнего контекста для индексации целевой страницы остаются фундаментальными.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.