Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

IDENTIFYING INFORMATION USING REFERENCED TEXT (Идентификация информации с использованием ссылочного текста)

US9971746B2
Google LLC
2014-01-30
2018-05-15

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

Какую проблему решает

Патент решает проблему автоматического извлечения наиболее релевантного контента (summary content) из веб-страниц для использования в качестве сниппетов в поисковой выдаче. Основная сложность — отличить основное содержание от шаблонного контента (boilerplate), такого как реклама или навигация. Изобретение предлагает метод точной идентификации местоположения ключевой информации и извлечения структурированных данных на основе анализа внутренних ссылочных паттернов сайта.

Что запатентовано

Запатентована система генерации шаблонов домена (Domain Template Generation System). Эта система изучает структуру сайта, анализируя повторяющиеся паттерны внутренних ссылок. Она сопоставляет текст, расположенный рядом с внутренней ссылкой на одной странице (Subordinate Text), с контентом целевой страницы. При совпадении система определяет точное местоположение (DOM path) этой информации и создает Domain Template, который используется для масштабного извлечения сниппетов с однотипных страниц этого домена.

Как это работает

Ключевой механизм основан на предположении, что текст, используемый сайтом для описания страницы в списках, является хорошим кандидатом для сниппета.

Идентификация паттернов: Система ищет повторяющиеся HTML-структуры (Repeated HTML Pattern) на странице (например, список товаров), содержащие внутренние ссылки.
Извлечение контекста: Извлекается текст, подчиненный анкорю (Subordinate Text) — анкор или текст рядом с ним (Proximate Text).
Верификация: Система переходит на целевую страницу и проверяет, присутствует ли там этот текст.
Генерация шаблона: Если текст найден, система определяет его DOM path и создает Domain Template.
Расширенное извлечение (DOM Expansion): Система может анализировать родительские и соседние (sibling) DOM-узлы, чтобы включить в сниппет дополнительную структурированную информацию (например, характеристики товара).
Применение: Шаблон применяется ко всем страницам сайта с аналогичной структурой для автоматического извлечения сниппетов.

Актуальность для SEO

Высокая. Точная генерация сниппетов и понимание структуры страницы (Page Understanding) критически важны для современного поиска. Этот патент описывает конкретный механизм для автоматического создания структурированных сниппетов (Rich Results) и отделения основного контента от boilerplate, что особенно актуально для e-commerce и контентных проектов с шаблонной структурой.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он напрямую влияет на то, как контент сайта отображается в SERP, что критично для оптимизации CTR. Понимание этого механизма позволяет SEO-специалистам структурировать HTML-шаблоны и внутреннюю перелинковку таким образом, чтобы гарантировать правильное извлечение ключевой информации (цен, характеристик, кратких описаний) в сниппеты, даже без использования микроразметки.

Термины и определения

Anchor (Анкорь): Элемент в исходном ресурсе (например, HTML-ссылка), который ссылается на целевой ресурс в пределах того же домена.
Domain Template (Шаблон домена): Сгенерированное правило для конкретного домена, которое определяет местоположение (DOM path) ключевого сводного текста на страницах этого домена, имеющих схожую структуру.
DOM Path / DOM Node (Путь в DOM / Узел DOM): Путь в дереве объектной модели документа, ведущий к конкретному узлу (DOM node), содержащему текст. Узлы могут быть родительскими (Parent), дочерними (Child) или соседними (Sibling).
First Resource / Second Resource (Первый и Второй ресурс): Две страницы одного домена. Первый ресурс (например, листинг) содержит ссылку на Второй ресурс (например, карточку товара). Система анализирует контекст ссылки на Первом и ищет этот контекст на Втором.
Proximate Text (Близлежащий текст): Текстовый контент, расположенный в непосредственной близости к анкорю в Первом ресурсе. Пример: краткое описание или цена под ссылкой на товар.
Repeated HTML Pattern (Повторяющийся HTML-паттерн): Структура в исходном коде Первого ресурса, где один и тот же стиль HTML-элементов повторяется (например, список товаров в категории). Наличие такого паттерна является триггером для анализа.
Subordinate Text (Подчиненный текст): Общий термин для текста, связанного с анкорем. Включает Anchor Text и/или Proximate Text.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации шаблона и его использования для сниппетов.

Система получает доступ к Первому ресурсу домена.
Выбирается анкорь, ссылающийся на Второй ресурс того же домена.
Идентифицируется конкретный текст, который подчинен и близок к анкорю (subordinate to and proximate to the anchor) в Первом ресурсе.
Система определяет, содержит ли Второй ресурс этот идентифицированный текст.
Если ДА: Генерируется Domain Template для этого домена, который указывает местоположение этого текста во Втором ресурсе.
Определяются другие ресурсы домена, имеющие структуру, соответствующую Domain Template.
Для каждого такого ресурса извлекается соответствующий текст.
При получении поискового запроса, если один из этих ресурсов релевантен, извлеченный текст предоставляется в качестве сниппета (snippet) на странице результатов поиска.

Claim 2, 3 и 4 (Зависимые): Детализируют, как выбирается анкорь для анализа.

Выбор анкоря основан на идентификации Repeated HTML Pattern. Элементы в этом повторении должны содержать анкорь, ссылающийся на ресурс внутри того же домена (Claim 3). Анкорь выбирается, если количество повторений удовлетворяет пороговому значению (Claim 4).

Claim 8 (Зависимый): Описывает критически важный механизм расширенного извлечения структурированных данных (DOM Expansion).

Идентифицируется конкретный DOM-узел (тот, что содержит совпавший текст).
Идентифицируется родительский DOM-узел этого узла (parent DOM node).
Идентифицируются другие DOM-узлы (Sibling DOM Nodes), которые также являются дочерними для этого родительского узла.
Итоговый текст для сниппета извлекается из (i) конкретного DOM-узла И (ii) из соседних DOM-узлов.

Пример: Если система нашла совпадение по Цене, она может извлечь Название, Характеристики и Рейтинг из соседних узлов, если они находятся под общим родителем.

Где и как применяется

Изобретение применяется на этапах индексирования и формирования поисковой выдачи.

CRAWLING – Сканирование и Сбор данных
Система собирает HTML-код страниц, необходимый для последующего анализа структуры и внутренних ссылок.

INDEXING – Индексирование и извлечение признаков
Основной этап работы алгоритма. Domain Template Generation System работает здесь:

Анализ структуры и ссылок: Система анализирует HTML/DOM страниц, выявляет внутренние ссылки и ищет Repeated HTML Patterns.
Извлечение и верификация контента: Происходит сопоставление Subordinate Text между связанными страницами.
Генерация шаблонов: Создаются и сохраняются Domain Templates, привязанные к домену.
Извлечение признаков: Сводный текст извлекается из страниц с помощью шаблонов и сохраняется в индексе как предпочтительный кандидат для сниппета.

METASEARCH / RERANKING (Формирование SERP)
На этапе формирования SERP система выбирает сниппет для отображения. Текст, извлеченный с помощью Domain Template, получает высокий приоритет, так как он был идентифицирован как точное и структурированное описание контента.

Входные данные:

HTML/DOM структура страниц домена.
Данные о внутренних ссылках (URL, анкоры, окружающий текст).

Выходные данные:

Domain Templates (правила извлечения контента на основе DOM Path).
Извлеченный сводный текст и структурированные данные (кандидаты в сниппеты).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на сайты с четкой шаблонной структурой и большим количеством однотипных страниц:
- E-commerce: Страницы категорий (листинги) и продуктов. Позволяет точно извлекать названия, цены, характеристики.
- Недвижимость, Авто, Вакансии: Листинги и страницы объектов.
- Контентные проекты (Блоги, Q&A): Позволяет извлекать краткие описания статей или ответы на вопросы.
Форматы контента: Влияет на генерацию стандартных текстовых сниппетов и структурированных сниппетов (Rich Snippets), особенно через механизм DOM Expansion (Claim 8).

Когда применяется

Алгоритм активируется при выполнении нескольких условий в процессе индексирования:

Триггер активации 1: Наличие на странице Repeated HTML Pattern, где количество повторений превышает определенный порог (Claim 4).
Триггер активации 2: Элементы паттерна содержат внутренние ссылки (ссылки в пределах того же домена) (Claim 3).
Условие генерации шаблона: Subordinate Text (текст возле ссылки на Первом ресурсе) должен совпадать с текстом на Втором ресурсе (целевой странице) (Claim 1).

Пошаговый алгоритм

Процесс А: Генерация Domain Template

Выборка ресурсов: Система получает доступ к набору страниц домена.
Идентификация паттернов: На Первом ресурсе система ищет Repeated HTML Pattern. Проверяется, превышает ли количество повторений порог.
Фильтрация ссылок: Проверяется, содержат ли элементы паттерна внутренние ссылки. Выбирается анкорь для анализа.
Извлечение контекста: Идентифицируется и извлекается Subordinate Text (анкор и/или Proximate Text) рядом с анкорем на Первом ресурсе.
Верификация на целевой странице: Система обращается ко Второму ресурсу и ищет совпадение извлеченного текста.
- Если НЕТ: Шаблон не генерируется.
- Если ДА: Перейти к шагу 6.
Анализ DOM: Определяется точный DOM path, ведущий к совпавшему тексту на Втором ресурсе.
Создание шаблона: Генерируется Domain Template для домена, специфицирующий этот DOM path.

Процесс Б: Расширенное извлечение (DOM Expansion - Claim 8)

Идентификация узла: Используется DOM-узел, найденный в Процессе А.
Анализ структуры DOM: Система идентифицирует родительский узел.
Идентификация соседей: Система идентифицирует Sibling DOM Nodes (другие дочерние узлы этого родителя).
Расширение извлечения: Система извлекает текст не только из исходного узла, но и из соседних узлов (например, извлечение всех характеристик товара после нахождения цены).

Процесс В: Применение шаблона

Проверка структуры: Для каждой страницы домена система проверяет, соответствует ли ее структура Domain Template.
Извлечение сводки: Если структура соответствует, система извлекает текст из указанных в шаблоне DOM path (включая расширенное извлечение, если применимо).
Использование в поиске: Извлеченный текст используется как сниппет при отображении страницы в результатах поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на структурных, ссылочных и контентных факторах, присутствующих в коде страниц.

Структурные факторы:
- Исходный код HTML и Объектная модель документа (DOM).
- Repeated HTML Patterns (повторяющиеся элементы в коде).
- Иерархия DOM-узлов (родительские, дочерние, соседние отношения) — критично для Claim 8.
Ссылочные факторы:
- Внутренние анкоря (Anchors).
- Anchor Text (текст ссылки).
Контентные факторы:
- Proximate Text / Subordinate Text (текст, окружающий анкорь).
- Текст, содержащийся в DOM-узлах на целевой странице (для верификации).

Какие метрики используются и как они считаются

Порог повторения (Threshold value): Минимальное количество повторений HTML-элементов в Repeated HTML Pattern, необходимое для активации анализа (Claim 4).
Совпадение текста (Text Match): Бинарная проверка (Да/Нет) наличия Subordinate Text с Первого ресурса на Втором ресурсе.
Соответствие шаблону (Structure Matching): Проверка соответствия DOM path страницы структуре, определенной в Domain Template.

Google использует внутреннюю перелинковку для понимания структуры сайта: То, как сайт сам описывает свои страницы во внутренних блоках ссылок (анкоры и окружающий текст), используется Google как сильный сигнал о расположении основного контента и как предпочтительный источник для сниппетов.
Автоматическое извлечение структурированных данных (DOM Expansion): Механизм Claim 8 крайне важен. Он позволяет Google извлекать не просто блок текста, а набор атрибутов. Анализируя соседние DOM-узлы (Sibling DOM Nodes), система может собрать структурированную информацию (Цена, Рейтинг, Характеристики) для формирования Rich Snippets, даже без явной микроразметки.
Важность консистентности шаблонов: Система полагается на Domain Templates. Если сайт использует согласованные HTML-шаблоны для однотипных страниц, Google может эффективно создать правило извлечения и применять его масштабно. Хаотичная структура блокирует этот процесс.
Механизм отделения основного контента от Boilerplate: Идентифицируя DOM path текста, который совпадает с описанием из другого места на сайте, Google эффективно определяет местоположение основного контента и игнорирует шаблонные элементы (навигацию, рекламу) при генерации сниппета.
Приоритет извлеченного текста: Текст, полученный с помощью Domain Template, с высокой вероятностью будет использован в качестве сниппета в SERP, переопределяя другие источники (например, meta description).

Best practices (это мы делаем)

Обеспечение консистентности HTML-шаблонов: Используйте чистую, семантическую и идентичную HTML-структуру для всех однотипных страниц (товары, статьи). Это позволит Google легко сгенерировать и применить Domain Template.
Оптимизация контекста внутренних ссылок в листингах: В блоках Repeated HTML Patterns (категории, похожие товары/статьи) используйте дескриптивные анкоры и/или Proximate Text (цена, краткое описание). Критически важно, чтобы этот текст также присутствовал на целевой странице в основном контенте.
Структурирование атрибутов в DOM (для Claim 8): Группируйте ключевые атрибуты (Название, Цена, Рейтинг, Характеристики) так, чтобы они являлись соседними DOM-узлами (Sibling DOM Nodes) под общим родителем. Использование списков определений (<dl>) или чистой блочной структуры облегчает расширенное извлечение данных.
Приоритет серверного рендеринга (SSR) для ключевой информации: Убедитесь, что ключевая информация и структура DOM доступны для анализа и не скрыты за сложным клиентским JavaScript, что может затруднить идентификацию паттернов и извлечение данных.

Worst practices (это делать не надо)

Использование разных HTML-шаблонов для однотипных страниц: Это блокирует создание Domain Template и приводит к непредсказуемой генерации сниппетов.
Несоответствие текста в листингах и на целевых страницах: Если цена или описание в категории (Первый ресурс) не совпадает с текстом на странице товара (Второй ресурс), механизм верификации не сработает.
Использование общих анкоров без контекста: Использование только ссылок типа «Подробнее» без окружающего дескриптивного текста (Proximate Text) в повторяющихся блоках не дает системе данных для анализа.
Сложная и запутанная структура DOM для атрибутов: Размещение атрибутов товара в разных частях DOM-дерева вместо группировки их под общим родителем не позволит Google применить механизм расширенного извлечения (Claim 8).

Стратегическое значение

Патент подтверждает, что Google активно использует машинное обучение для понимания архитектуры сайтов в масштабе. Вместо анализа каждой страницы индивидуально, система стремится вывести правила на уровне домена (Domain Templates). Для SEO это означает, что архитектурная согласованность, техническая чистота кода и информационная архитектура напрямую влияют на видимость сайта в поиске через качество и структурированность сниппетов.

Практические примеры

Сценарий: Генерация структурированного сниппета для E-commerce (Механизм Claim 8)

Задача: Добиться отображения ключевых характеристик (Цена, Скорость CPU, Рейтинг) в сниппете товара.

Анализ Листинга (Первый ресурс): Убеждаемся, что в листинге рядом со ссылкой указана Цена ($500.00).
Анализ Карточки товара (Второй ресурс): Проверяем DOM-структуру. Характеристики разбросаны по разным блокам.

Действие: Перерабатываем HTML так, чтобы все характеристики находились под одним родительским элементом и являлись Sibling DOM Nodes.

<div class="product-specs"> <!-- Родительский узел --> <span class="price">$500.00</span> <!-- Sibling 1 (Найденный узел) --> <span class="cpu">2.0 GHz</span> <!-- Sibling 2 --> <span class="rating">4.1/5.0</span> <!-- Sibling 3 --> </div>

Ожидаемый результат: Google идентифицирует Цену ($500.00) из листинга на карточке товара (Sibling 1). Затем система анализирует родительский узел ("product-specs") и извлекает данные из соседних узлов (Sibling 2 и 3), формируя структурированный сниппет, включающий все эти данные.

Что такое «Domain Template» и почему он важен для SEO?

Domain Template — это правило, созданное Google для конкретного сайта, которое определяет точное местоположение (DOM path) основного контента на однотипных страницах. Это критически важно для SEO, потому что текст, извлеченный с помощью этого шаблона, почти гарантированно станет сниппетом в поисковой выдаче. Контролируя шаблон через структуру сайта, вы контролируете сниппет и, следовательно, CTR.

Что такое «Repeated HTML Pattern» и как его найти на моем сайте?

Это блок кода, где одна и та же HTML-структура повторяется несколько раз (Claim 2), и количество повторений превышает определенный порог (Claim 4). Типичные примеры — это листинг товаров в категории, список статей в блоге или блок «Похожие товары». Система ищет такие паттерны как отправную точку для анализа.

Что важнее для этого алгоритма: Anchor Text или Proximate Text (текст рядом со ссылкой)?

Патент указывает, что система может использовать и то, и другое (называя это Subordinate Text). Если анкор дескриптивный (например, название товара), он может быть использован. Если анкор общий («Купить»), система будет искать Proximate Text (например, цену или краткое описание). Важно, чтобы хотя бы один из этих элементов точно совпадал с текстом на целевой странице.

Как работает расширенное извлечение данных (Claim 8) и как его оптимизировать?

Это механизм для создания структурированных сниппетов (DOM Expansion). Когда система находит совпадение текста в определенном DOM-узле, она поднимается к родительскому узлу и смотрит на соседние узлы (Sibling DOM Nodes). Чтобы оптимизировать это, группируйте связанные атрибуты (Цена, Рейтинг, Характеристики) под общим родителем в чистой и семантичной DOM-структуре.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Не заменяет, но дополняет. Этот механизм позволяет Google извлекать структурированные данные имплицитно (через анализ DOM), даже если разметка отсутствует. Однако явная разметка Schema.org всегда предпочтительнее, так как она устраняет неоднозначность и является более надежным сигналом, особенно при сложной верстке.

Что делать, если Google показывает неправильные сниппеты для моих страниц?

Это может означать, что Google не смог создать корректный Domain Template. Проверьте консистентность ваших HTML-шаблонов. Убедитесь, что текст, который вы используете в листингах (рядом с внутренними ссылками), точно совпадает с текстом на целевых страницах и находится в основном контентном блоке, а не в сайдбаре или футере.

Влияет ли этот патент на ранжирование напрямую?

Патент описывает механизм генерации сниппетов, а не ранжирование. Однако, поскольку качественные и структурированные сниппеты значительно повышают CTR, этот механизм оказывает сильное косвенное влияние на поведенческие факторы. Кроме того, способность системы отделять основной контент от boilerplate может влиять на оценку качества страницы.

Как этот алгоритм обрабатывает сайты на JavaScript (SPA/CSR)?

Система анализирует DOM после рендеринга. Если JavaScript формирует консистентную и доступную для анализа DOM-структуру, механизм будет работать. Однако, если ключевая информация требует сложного или отложенного JavaScript-рендеринга, система может столкнуться с трудностями при идентификации совпадений и генерации шаблона. Рекомендуется использовать SSR или пререндеринг.

Применяется ли этот механизм к ссылкам с внешних сайтов?

Нет. Патент четко указывает (Claim 1, Claim 3), что анализируются ссылки между ресурсами, принадлежащими одному и тому же домену (belonging to the particular domain). Это механизм, основанный на анализе внутренней структуры сайта.

Может ли этот механизм объяснить, почему Google игнорирует мой Meta Description?

Да, вполне. Если Google сгенерировал надежный Domain Template, который позволяет извлекать точное и структурированное описание контента непосредственно со страницы, он предпочтет использовать этот текст вместо указанного вручную Meta Description, считая его более релевантным и полезным для пользователя.

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта

Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.

US9208233B1
2015-12-08

Ссылки
Семантика и интент
Индексация

Как Google генерирует сниппеты для Sitelinks, используя контент целевых страниц, а не исходный запрос

Google использует специальный метод для генерации сниппетов в расширенных результатах поиска (Sitelinks). Сниппет для главной страницы часто основан на запросе пользователя, но сниппеты для внутренних ссылок (sub-documents) генерируются на основе "репрезентативных ключевых слов" (например, Title) самой внутренней страницы, а не исходного навигационного запроса. Это позволяет сделать описание Sitelinks более точным и релевантным теме целевой страницы.

US9081831B2
2015-07-14

SERP
Семантика и интент
Структура сайта

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента

Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.

US8898296B2
2014-11-25

Структура сайта
Семантика и интент
Техническое SEO

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи

Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.

US8538970B1
2013-09-17

Персонализация
Поведенческие сигналы
SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа