Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

ANCHOR TAG INDEXING IN A WEB CRAWLER SYSTEM (Индексирование анкорных тегов в системе веб-краулера)

US7308643B1
Google LLC
2003-07-03
2007-12-11

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

Какую проблему решает

Патент решает проблему ограниченности индексирования страницы только по ее собственному контенту. Он предлагает механизм использования экстринсивной (внешней) информации — текста, контекста и атрибутов входящих ссылок — для определения релевантности целевой страницы. Это критически важно для индексации ресурсов с малым количеством текста (изображения, мультимедиа) и позволяет проиндексировать страницу еще до того, как она будет сканирована. Также решается задача масштабируемой обработки огромного объема ссылочных данных.

Что запатентовано

Запатентована система и метод для эффективной обработки информации из анкорных тегов (anchor tags). Ядром изобретения является создание Sorted Anchor Map. Эта структура данных инвертирует информацию о ссылках: вместо хранения списка исходящих ссылок со страницы-источника (Link Log), она хранит список входящих ссылок и связанных с ними аннотаций (Annotations) для каждой целевой страницы, сортируя данные по целевому URL для быстрого доступа.

Как это работает

Система работает как часть конвейера индексирования:

Извлечение: Во время обработки сканированных страниц Content filters извлекают исходящие ссылки и их Annotations (анкорный текст, контекст, атрибуты) и записывают их в Link Log.
Трансформация: Global State Manager (GSM) обрабатывает Link Log и инвертирует данные.
Генерация Карт: GSM создает Sorted Anchor Map (организованную по целевым URL, для индексации текста) и Sorted Link Map (организованную по исходным URL, для расчета PageRank).
Масштабирование и Обновление: Система использует многослойные наборы (Layered Sets) карт и периодически объединяет их (Merging) для консолидации данных и обработки удаленных ссылок.
Индексирование: Индексаторы используют Sorted Anchor Map, чтобы ассоциировать анкорный текст с целевой страницей в индексе.

Актуальность для SEO

Критически высокая. Это описание фундаментальной части инфраструктуры Google, отвечающей за обработку ссылочного графа и анкорного текста. Базовые принципы сбора, инверсии и индексации анкоров остаются центральными для работы поиска. Изобретатели (Jeffrey Dean, Sanjay Ghemawat) являются ключевыми архитекторами инфраструктуры Google.

Важность для SEO

Фундаментальное влияние (95/100). Патент описывает точный механизм, благодаря которому анкорный текст и контекст входящих ссылок становятся ключевыми факторами релевантности. Он подтверждает, что Google систематически извлекает и индексирует эту информацию, рассматривая ее как часть контента целевой страницы. Это критически важно для стратегий линкбилдинга и внутренней перелинковки.

Термины и определения

Anchor Map (Карта анкоров), Sorted Anchor Map: Структура данных, содержащая записи (Anchor Records), отсортированные по идентификатору целевого документа (Target Document Identifier). Агрегирует список исходных документов, ссылающихся на цель, и соответствующие аннотации. Представляет собой инвертированный граф ссылок.
Annotation (Аннотация): Информация, связанная со ссылкой на странице-источнике. Включает Text Passage (текстовый фрагмент) и Attributes (атрибуты текста).
Attributes (Атрибуты текста): Свойства текста в аннотации. Включают HTML-форматирование (например, , , <CITE>), позицию текста, количество слов/символов.
Delete Entry (Запись об удалении): Специальная запись в картах, указывающая на удаление ссылки (Delete Link) или документа (Delete Node). Используется при слиянии карт для актуализации данных.
Global State Manager (GSM, Менеджер глобального состояния): Системный компонент, отвечающий за обработку Link Logs, генерацию и слияние Sorted Anchor Maps и Sorted Link Maps.
Layered Set (Многослойный набор): Коллекция Sorted Maps, сгенерированных в разное время. Используется для эффективной обработки потока обновлений.
Link Log (Журнал ссылок): Необработанные данные, генерируемые краулером/фильтрами контента. Содержат записи (Link Records) о найденных ссылках, организованные по исходным документам.
Link Map (Карта ссылок), Sorted Link Map: Структура данных, отсортированная по идентификатору исходного документа. Содержит список целевых документов (без аннотаций). Представляет прямой граф ссылок и используется для расчета PageRank.
Text Passage (Текстовый фрагмент): Блок текста из исходного документа, включенный в аннотацию. Включает анкорный текст и/или текст в пределах "заданного расстояния" (predetermined distance) от анкорного тега.
URL Fingerprint (FP) (Отпечаток URL): Уникальный идентификатор (например, 64-битное число), полученный путем хеширования нормализованного URL. Используется для эффективной идентификации и сортировки.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод инверсии ссылочных данных.

Система получает доступ к Link Log (данные сканирования, организованные по источникам).
Система генерирует Sorted Anchor Map.
Sorted Anchor Map содержит записи, идентифицирующие целевой документ и список входящих ссылок (исходных документов).
Ключевое требование: Записи упорядочены на основе идентификаторов целевых документов.

Ядром изобретения является масштабируемый процесс инвертирования журнала ссылок в карту анкоров, отсортированную по цели, что обеспечивает эффективный доступ к данным во время индексации.

Claim 2, 4 и 5 (Зависимые): Детализируют состав данных.

Каждая запись в Sorted Anchor Map также содержит список Annotations (Claim 2).
Аннотация включает текстовый фрагмент (text passage) и список его атрибутов (list of attributes) (Claim 4).
Текстовый фрагмент может включать текст в пределах заданного расстояния (predetermined distance) от анкорного тега в исходном документе (Claim 5).

Это критически важно для SEO, так как подтверждает, что система фиксирует не только точный анкорный текст, но и окружающий его текст (околоссылочный контекст) и его HTML-атрибуты.

Claim 6 и 7 (Зависимые): Описывают механизм масштабирования и обновления.

Процесс генерации карт повторяется, создавая Layered Set of Sorted Anchor Maps.
При выполнении условия слияния (merge condition), подмножество карт объединяется в Merged Anchor Map.

Это описывает инфраструктуру для непрерывной обработки потока новых данных о ссылках без полной перестройки всей структуры.

Claim 19 (Независимый пункт): Описывает полный процесс индексирования аннотаций.

Сканирование и извлечение ссылок.
Генерация Link Log и затем Anchor Map (с аннотациями).
Добавление в индекс терминов из аннотаций, причем эти термины ассоциируются с целевым документом.

Этот пункт защищает конечную цель системы: использование текста внешних ссылок для индексации и поиска целевой страницы.

Где и как применяется

Изобретение является ключевой частью инфраструктуры обработки данных и затрагивает несколько этапов поиска.

CRAWLING – Сканирование и Сбор данных
На этом этапе Robots (краулеры) и Content Filters собирают сырые данные. Они извлекают исходящие ссылки и связанные с ними Annotations. Эти данные записываются в Link Log.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Global State Manager (GSM) читает Link Log и выполняет трансформацию данных:

Инверсия и Сортировка: Данные преобразуются из формата, ориентированного на источник (Link Log), в формат, ориентированный на цель (Sorted Anchor Map).
Структурирование графа: Также создается Sorted Link Map (ориентированный на источник).
Индексирование контента: Индексаторы (Indexers) читают Sorted Anchor Map и добавляют аннотации в основной индекс, связывая их с целевыми документами.
Извлечение признаков (Авторитетность): Page Rankers используют Sorted Link Maps для расчета метрик авторитетности (например, PageRank).

RANKING – Ранжирование
Проиндексированный анкорный текст (полученный на этапе INDEXING) используется алгоритмами ранжирования как сигнал релевантности целевой страницы запросу.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, который сложно проанализировать напрямую: изображения, видео, мультимедиа, файлы. Патент прямо указывает, что для таких страниц текст входящих ссылок может быть единственным источником текстовой информации для индексации.
Все типы контента: Влияет на все индексируемые документы, так как анкорный текст и его контекст предоставляют сильные сигналы релевантности.
Обнаружение контента: Позволяет индексировать страницу по входящим ссылкам еще до того, как она будет просканирована.

Когда применяется

Процесс применяется непрерывно, но в несколько этапов с разными триггерами:

Генерация Link Log: Происходит постоянно во время краулинга.
Генерация Карт (Flush Condition): Global State Manager активируется для обработки Link Log и создания новых Sorted Maps, когда выполняется условие сброса (например, по времени, объему данных в логе или доступности памяти).
Слияние Карт (Merge Condition): Операция слияния активируется, когда выполняется условие слияния (например, по расписанию, при превышении количества слоев в Layered Set или во время простоя системы).

Пошаговый алгоритм

Процесс А: Сбор данных (Выполняется Краулером и Фильтрами)

Сканирование документа: Краулер загружает исходный документ.
Извлечение ссылок и аннотаций: Фильтры контента анализируют документ, идентифицируют анкорные теги.
Определение аннотации: Извлекается анкорный текст, текст в пределах заданного расстояния от тега и HTML-атрибуты текста (Attributes).
Запись в Link Log: Создается запись, содержащая идентификатор источника, идентификатор цели и извлеченную аннотацию.

Процесс Б: Обработка Логов и Генерация Карт (Выполняется Global State Manager)

Активация (Flush Condition): Система определяет необходимость обработки накопившегося Link Log.
Чтение Link Log: Загрузка порции Link Log в память.
Генерация Sorted Link Map (Прямой Граф): Записи сортируются по идентификатору источника.
Генерация Anchor Log и Обработка изменений: Данные записываются в промежуточный Anchor Log. При обнаружении противоречий или исчезновении ссылок/документов генерируются записи об удалении (Delete Link Entry или Delete Node Entry).
Генерация Sorted Anchor Map (Обратный Граф): Anchor Sorter читает Anchor Log, консолидирует информацию для каждого целевого документа и сортирует записи по идентификатору цели. Новые карты добавляются в Layered Set.

Процесс В: Слияние Карт (Выполняется Global State Manager)

Активация (Merge Condition): Система определяет необходимость слияния существующих слоев.
Выбор подмножества карт: Выбираются несколько карт из Layered Set (предпочтительно схожего размера для эффективности).
Итеративное слияние и Разрешение конфликтов: Система проходит по записям. Приоритет отдается более свежим данным (на основе времени создания карты).
Обработка удалений: Если в более новой карте присутствует Delete Entry для ссылки, которая есть в более старой карте, эта ссылка исключается из результата.
Генерация Merged Map: Создается новая объединенная карта, которая заменяет исходное подмножество.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные краулером и записанные в Link Log:

Технические факторы:
- Идентификаторы исходных и целевых документов (используются URL Fingerprints для эффективности).
Контентные и Структурные факторы (в составе Annotation):
- Анкорный текст (Anchor Text): Текст внутри анкорного тега (<a>...</a>).
- Окружающий текст (Surrounding Text): Текст, находящийся в пределах заданного расстояния (predetermined distance) от анкорного тега на странице-источнике.
- Атрибуты текста (Attributes): HTML-атрибуты и структурные свойства текста. Патент явно упоминает:
 - Форматирование: Emphasized (), Strongly Emphasized ().
 - Семантические теги: Citation (<CITE>), Variable name (<VAR>), Source Code (<CODE>).
 - Метрики: Позиция текста (text position), количество символов, количество слов.

Какие метрики используются и как они считаются

Патент фокусируется на инфраструктуре обработки данных, а не на вычислении метрик ранжирования. Он оперирует следующими методами:

Сортировка и Инверсия: Основные операции для преобразования данных из формата (Источник -> Цели) в формат (Цель <- Источники + Аннотации) и сортировки для быстрого доступа.
Слияние (Merging): Консолидация данных из нескольких слоев с учетом временных меток (свежести данных) и обработки записей Delete Entry.

Хотя патент не описывает детали расчета PageRank, он указывает, что Sorted Link Maps создаются для его вычисления, и приводит базовую формулу PageRank: $PR(A) = (1-d) + d * \sum (PR(Ti)/C(Ti))$ .

Индексирование экстринсивной (внешней) информации: Патент описывает фундаментальный механизм, позволяющий Google ранжировать страницу на основе информации (анкорный текст и контекст), которая физически на этой странице отсутствует.
Анкорный текст как контент целевой страницы: Система обрабатывает анкорный текст со страниц-источников как контент, ассоциированный с целевой страницей (Claim 19). Это делает оптимизацию анкоров критически важной для SEO.
Аннотации шире, чем просто анкорный текст: Система фиксирует Annotations, которые включают не только текст ссылки, но и текст в пределах «заданного расстояния» (околоссылочный текст) (Claim 5).
Учет атрибутов текста (Форматирование и Структура): В аннотацию включаются HTML-атрибуты (например, выделение ) и структурные свойства (например, позиция текста). Это предполагает, что оформление и расположение ссылки могут влиять на ее интерпретацию.
Разделение обработки для Релевантности и Авторитетности: Система генерирует две разные структуры: Sorted Anchor Maps (для индексации текста/релевантности) и Sorted Link Maps (для расчета авторитетности/PageRank).
Масштабируемая обработка обновлений: Механизм Layered Sets и Merge Operations с использованием Delete Entry позволяет эффективно обновлять ссылочный граф, учитывая появление и удаление ссылок.

Best practices (это мы делаем)

Оптимизация анкорного текста (Внутреннего и Внешнего): Необходимо использовать релевантный, описательный анкорный текст. Патент подтверждает, что этот текст напрямую попадает в Anchor Map и используется при индексации целевой страницы.
Оптимизация околоссылочного контекста: Поскольку Annotations включают текст в пределах «заданного расстояния» от ссылки, крайне важно, чтобы контент, окружающий ссылку на странице-доноре, тематически соответствовал целевой странице. Контекст должен усиливать сигнал анкора.
Использование семантической разметки и атрибутов: Система фиксирует HTML-атрибуты (STRONG, EM, CITE и т.д.) как часть Annotation. Использование логического выделения ключевых терминов в анкорном тексте или рядом с ним может влиять на интерпретацию аннотации.
Продвижение нетекстового контента: Для изображений, видео и файлов необходимо обеспечить наличие входящих ссылок с описательным анкорным текстом и контекстом, так как это основной способ для Google понять их содержание.
Мониторинг ссылочного профиля: Понимание механизма Delete Entry подчеркивает, что Google имеет эффективную систему для учета удаленных ссылок. Необходимо регулярно отслеживать и восполнять потерю важных ссылок.

Worst practices (это делать не надо)

Игнорирование контекста ссылки: Получение ссылки с релевантным анкором из нерелевантного или противоречащего контекста. Система фиксирует этот окружающий текст как часть Annotation, что может снизить ценность ссылки.
Манипуляции с анкорным текстом (Переоптимизация): Чрезмерное использование коммерческих ключей делает профиль уязвимым для алгоритмов, которые анализируют данные из Anchor Maps на предмет неестественности.
Использование только безанкорных или общих ссылок: Использование исключительно анкоров типа «здесь», «сайт», «подробнее» лишает страницу важного источника релевантности, который Google специально разработал для использования.
Размещение ссылок вне основного контента без контекста: Размещение ссылок в футерах, сайдбарах или списках, где отсутствует релевантный окружающий текст, снижает объем полезной информации в Annotation.

Стратегическое значение

Этот патент является фундаментальным для SEO. Он подтверждает, что релевантность страницы определяется не только ее собственным контентом, но и тем, как ее описывает остальной веб. Стратегически это означает, что линкбилдинг и внутренняя перелинковка должны фокусироваться не только на количестве или авторитетности ссылок, но и в равной степени на качестве, контексте и атрибутах самих анкоров. Долгосрочная стратегия должна быть направлена на формирование естественного и тематически релевантного анкорного профиля.

Практические примеры

Сценарий 1: Оптимизация околоссылочного текста и атрибутов при аутриче

Ситуация: Вы договариваетесь о размещении ссылки на ваше руководство по «миграции на HTTPS».
Действие (Плохое): В статье о веб-дизайне вставлен абзац: «Существует много технических аспектов. Вы можете почитать руководство по миграции на HTTPS тут. Вернемся к дизайну...»
Действие (Хорошее): В статье о веб-безопасности вставлен абзац: «Ключевым шагом является корректный переезд сайта на защищенный протокол. Мы рекомендуем это детальное руководство по миграции на HTTPS, которое охватывает настройку редиректов и проверку сертификатов.»
Обработка по патенту: В хорошем варианте Annotation будет включать анкор, атрибут  и релевантный окружающий текст («защищенный протокол», «настройка редиректов»), так как он находится в пределах predetermined distance.
Результат: Ссылка из хорошего варианта передает значительно больше релевантной информации для индексации целевой страницы.

Сценарий 2: Индексирование PDF-документа

Задача: Обеспечить ранжирование PDF-файла "Исследование рынка электромобилей 2025.pdf".
Действие: Разместить ссылки на этот файл на сайте и внешних ресурсах с описательными анкорами и контекстом. Например: "Скачайте наш подробный отчет о рынке электромобилей за 2025 год, чтобы узнать о последних трендах."
Результат: Google использует эту Annotation для заполнения Anchor Map для PDF-файла, позволяя ему ранжироваться по запросу [отчет о рынке электромобилей 2025], даже если сам PDF плохо индексируется.

Что такое Annotation в контексте этого патента и чем она отличается от Anchor Text?

Annotation — это более широкое понятие. Она включает сам Anchor Text (текст внутри тега <a>), а также текст, находящийся в "пределах заданного расстояния" (околоссылочный контекст). Кроме того, Annotation хранит атрибуты этого текста, такие как выделение (strong, em) или цитирование (cite). Для SEO это означает, что оптимизировать нужно не только анкор, но и весь текстовый фрагмент вокруг ссылки.

Учитывает ли Google форматирование анкорного текста (например, выделение жирным)?

Да. В патенте указано, что Annotations включают список атрибутов (Attributes) текста. Приводятся конкретные примеры:  (Strongly Emphasized),  (Emphasized), <CITE> (Citation). Это означает, что форматирование анкора или окружающего текста сохраняется системой и может учитываться при индексировании.

В чем разница между Link Log, Link Map и Anchor Map?

Link Log – это сырые данные краулинга, организованные по источнику (Откуда -> Куда + Текст). Link Map – это обработанные данные, организованные по источнику, но без текста (Откуда -> Куда), используемые для расчета PageRank. Anchor Map – это инвертированные данные, организованные по цели (Куда <- Откуда + Текст), используемые для определения релевантности целевой страницы.

Как система обрабатывает удаление ссылок или изменение анкора?

Когда исходная страница пересканируется, Global State Manager обнаруживает изменения. Если ссылка удалена, генерируется Delete Entry. Если анкор изменился, создается новая запись. Эти изменения фиксируются в новых слоях Anchor Map. Во время процесса слияния (Merging) система обрабатывает эти записи хронологически и консолидирует актуальное состояние, отдавая приоритет более свежим данным.

Объясняет ли этот патент, почему Google медленно учитывает новые или удаленные ссылки?

Да, объясняет. Процесс не происходит в реальном времени. Сначала страница должна быть пересканирована (генерация Link Log). Затем Global State Manager должен обработать этот лог (генерация новой Anchor Map). И, наконец, для полной консолидации данных должен пройти цикл слияния (Merging) старых и новых карт. Эта многоступенчатая архитектура неизбежно приводит к задержкам.

Может ли страница ранжироваться, если Google ее еще не сканировал?

Да. Патент явно указывает это как одно из преимуществ. Если на новую страницу уже ведут ссылки с других известных сайтов, информация из их аннотаций попадает в Anchor Map и позволяет проиндексировать целевую страницу по этим текстам еще до ее фактического сканирования.

Как этот патент влияет на линкбилдинг для изображений или PDF?

Он подчеркивает критическую важность линкбилдинга для нетекстового контента. Поскольку в самих файлах мало или нет текста, Annotations (анкор и контекст) входящих ссылок становятся основным источником информации о содержании файла. Ссылки на такие файлы должны иметь максимально точный и описательный контекст.

Использует ли система информацию о дубликатах страниц при обработке анкоров?

Да. Патент упоминает, что индексаторы могут также получать доступ к информации в Sorted Anchor Maps, соответствующей ссылкам на дубликаты индексируемой страницы. Это позволяет агрегировать анкорный текст не только канонической страницы, но и ее дубликатов (в патенте указано ограничение размера этого списка, например, от 2 до 10 записей), что расширяет охват и полезно, например, для сбора анкоров на разных языках.

Влияет ли этот механизм на внутреннюю перелинковку?

Абсолютно. Внутренние ссылки обрабатываются точно так же, как и внешние. Они попадают в Link Log и используются для генерации Sorted Anchor Maps. Это делает внутреннюю перелинковку мощным инструментом для управления тем, как Google понимает контент и контекст страниц внутри сайта.

Используется ли этот патент сегодня?

Да, это фундаментальный патент, описывающий базовую архитектуру обработки ссылок в Google. Хотя конкретные реализации могли эволюционировать, базовые принципы инверсии ссылочного графа для индексации анкоров (Sorted Anchor Map) и расчета авторитетности (Sorted Link Map) остаются центральными для работы поисковой системы.

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта

Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.

US9208233B1
2015-12-08

Ссылки
Семантика и интент
Индексация

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент