Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии

PREDICTIVE-BASED CLUSTERING WITH REPRESENTATIVE REDIRECT TARGETS (Кластеризация на основе прогнозирования с использованием целевых редиректов представителей)

US8661069B1
Google LLC
2008-03-31
2014-02-25

Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.

Какую проблему решает

Патент решает проблему неэффективного и неточного обнаружения дубликатов контента в процессе индексирования. Стандартные методы могут не идентифицировать все дубликаты, особенно если они скрыты за цепочками редиректов или имеют разные шаблоны URL (например, с сессионными идентификаторами). Это приводит к ошибкам каноникализации, распылению сигналов ранжирования, засорению индекса и трате ресурсов поисковой системы.

Что запатентовано

Запатентована система итеративного обнаружения дубликатов и каноникализации. Система группирует документы в кластеры и выбирает лучший документ (Representative) в каждом кластере на основе метрик качества. Ключевым элементом является анализ конечной цели редиректа (Final Target Document) этого представителя. Если представители разных кластеров в конечном итоге ведут на один и тот же (или дублирующийся) целевой документ, исходные кластеры объединяются.

Как это работает

Процесс является итеративным:

Кластеризация: Документы группируются с использованием различных методов (например, Predictive-based clustering по шаблонам URL).
Выбор Представителя: В каждом кластере определяется документ с наивысшей оценкой качества (Measure of Quality), основанной на ссылках, ранге страницы, эстетике URL и т.д.
Разрешение Редиректов: Система следует по цепочке редиректов от представителя до конечного целевого документа (Final Target Document).
Объединение Кластеров: Система проверяет, являются ли конечные целевые документы разных кластеров дубликатами (например, используя Predictive-based clustering). Если да, исходные кластеры объединяются.
Итерация и Финализация: Процесс повторяется для объединенного кластера (например, с использованием Content-based clustering по контрольным суммам), пока не будет выбран финальный канонический документ (Canonical) для индексации.

Актуальность для SEO

Высокая. Управление дубликатами и точная каноникализация остаются фундаментальными задачами инфраструктуры поиска Google. Описанные методы — итеративная кластеризация, анализ шаблонов URL (Predictive-based clustering), разрешение редиректов и использование метрик качества для выбора канонической версии — являются основополагающими для конвейера индексирования.

Важность для SEO

Патент имеет значительное влияние на техническое SEO (8/10). Он напрямую описывает механизм, который Google использует для выбора канонической версии страницы из множества дубликатов. Патент раскрывает конкретные критерии (Quality Information), используемые для этого выбора, включая эстетику URL и ссылочные сигналы, а также подчеркивает критическую важность корректной настройки редиректов и архитектуры сайта для консолидации сигналов ранжирования.

Термины и определения

Canonical Document (Канонический документ): Финальный документ, выбранный из кластера дубликатов для индексации и представления в результатах поиска.
Checksum ID (Идентификатор контрольной суммы): Идентификатор, вычисленный на основе контента документа (например, хеш). Используется в Content-based clustering для группировки документов с идентичным контентом.
Cluster (Кластер): Группа документов, идентифицированных как дубликаты друг друга на основе определенного критерия.
Content-based clustering (Кластеризация на основе контента): Метод обнаружения дубликатов путем анализа содержимого документов. Включает вычисление контрольных сумм (Checksum ID) или анализ информации о редиректах (Target ID).
Final Target Document (Конечный целевой документ): Документ, на который в конечном итоге указывает исходный документ после прохождения всей цепочки редиректов.
Predictive-based clustering (Кластеризация на основе прогнозирования): Метод обнаружения дубликатов без анализа контента, основанный на анализе адресов (URL). Использует набор правил для генерации Predictive ID, например, путем игнорирования неважных частей URL (session ID) или определения эквивалентных хостов.
Predictive ID (Прогнозный идентификатор): Идентификатор, присваиваемый документу на основе его URL с использованием правил Predictive-based clustering.
Quality Information (Информация о качестве): Любая информация, используемая для оценки документа. Включает: ссылочную информацию, ранг страницы (page rank), анкорный текст, эстетическую ценность адреса (aesthetic value of an address), популярность, качество и возраст сайта-источника.
Representative Document (Документ-представитель): Документ, выбранный из кластера на определенном этапе итеративного процесса. Обычно это документ с наивысшей оценкой качества (Measure of Quality) в данном кластере.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод обработки дубликатов.

Система кластеризует документы на подмножества (например, Кластер А и Кластер Б).
Выбирается документ-представитель для каждого подмножества (Представитель А, Представитель Б).
Определяется целевой документ редиректа для каждого представителя (Цель А, Цель Б).
Система определяет, являются ли Цель А и Цель Б дубликатами друг друга.
Если ДА, система выполняет повторную кластеризацию (re-clustering), объединяя Кластер А и Кластер Б.
Система индексирует объединенное подмножество на основе одного из включенных в него документов.

Claim 2 (Зависимый от 1): Детализирует процесс выбора представителя.

Выбор представителя основан на определении значений качества (quality values). Представителем выбирается документ с наивысшим значением качества в кластере.

Claim 3 (Зависимый от 2): Определяет, что входит в расчет значения качества (Quality Information).

Значение качества определяется на основе как минимум одного из следующих факторов: ссылочная информация, дата создания документа, ранг документа, информация об анкорном тексте, эстетическая ценность адреса (aesthetic value of an address), мера популярности, мера качества веб-сайта, возраст веб-сайта.

Claim 5 (Зависимый от 1): Уточняет, как определяется дублирование целевых документов редиректа.

Определение того, что целевые документы являются дубликатами, основано на технике Predictive-based clustering, при которой обоим документам присваивается одинаковый прогнозный идентификатор (Predictive ID).

Claim 7 (Зависимый от 6): Важное уточнение.

Сетевые адреса (URL) дублирующихся целевых документов могут отличаться (например, если Predictive-based clustering игнорирует определенные параметры).

Где и как применяется

Изобретение применяется на этапе индексирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются исходные данные: контент документов, коды ответов сервера (включая редиректы 3xx) и информация о ссылках.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система обрабатывает сырой контент для организации индекса. Процессы, описанные в патенте, отвечают за:

Обнаружение дубликатов (Duplicate Detection).
Кластеризацию дубликатов.
Выбор канонической версии (Canonicalization).

Система работает итеративно, используя различные методы кластеризации (Predictive-based и Content-based) и метрики качества для уточнения кластеров и выбора лучшего представителя.

Входные данные:

Набор документов, полученных от краулера.
Информация о редиректах, обнаруженная при сканировании.
Предварительно рассчитанная Quality Information для каждого документа (ссылочные метрики, ранг страницы, эстетика URL и т.д.).
Правила для Predictive-based clustering.

Выходные данные:

Определенные кластеры дубликатов.
Выбранный Canonical Document для каждого кластера.
Индекс, содержащий только канонические документы, с консолидированными сигналами качества.

На что влияет

Конкретные ниши или тематики: Наибольшее влияние наблюдается в нишах, где распространено дублирование контента:
- E-commerce (страницы товаров с параметрами фильтрации, сортировки, tracking ID).
- Сайты, использующие динамические URL и сессионные идентификаторы (Session IDs).
- Сайты, доступные по нескольким адресам или прошедшие миграцию.
Технические факторы: Напрямую влияет на обработку структуры URL, параметров, редиректов и фасетной навигации.

Когда применяется

Алгоритм применяется в процессе индексирования после того, как документы были сканированы и для них были извлечены базовые признаки.

Условия работы: Применяется ко всему корпусу документов для обнаружения и устранения дубликатов.
Частота применения: Процесс является непрерывным и итеративным. Он применяется как при первичной индексации новых документов, так и при повторной обработке существующих документов по мере обновления данных.

Пошаговый алгоритм

Описанный процесс является многоэтапным и итеративным, направленным на последовательное уточнение кластеров дубликатов.

Этап 1: Инициализация и Первая Итерация Кластеризации

Идентификация документов: Система определяет набор документов для кластеризации.
Первичная кластеризация: Документы группируются в кластеры (например, с помощью Predictive-based clustering на основе шаблонов URL).
Определение качества: Для каждого документа в каждом кластере определяется мера качества (Measure of Quality) на основе Quality Information.
Выбор представителя: В каждом кластере выбирается Representative Document — документ с наивысшей мерой качества.

Этап 2: Разрешение Редиректов и Объединение Кластеров

Определение конечной цели: Для каждого представителя система анализирует информацию о редиректах и определяет Final Target Document (следует по цепочке редиректов до конца).
Проверка дублирования целей: Система определяет, являются ли конечные целевые документы из разных кластеров дубликатами (например, используя Predictive-based clustering).
Повторная кластеризация (Объединение): Если конечные целевые документы признаны дубликатами, исходные кластеры объединяются в единый кластер.

Этап 3: Вторая Итерация Кластеризации (Content-based)

Определение качества (Повторно): Для всех документов в новом объединенном кластере переоценивается мера качества.
Выбор нового представителя: Выбирается новый Representative Document для объединенного кластера.
Вычисление контрольной суммы: Определяется контрольная сумма (Checksum) контента нового представителя.
Кластеризация по контрольной сумме: Система использует Content-based clustering для группировки документов на основе Checksum ID.

Этап 4: Финализация и Индексация

Выбор канонической версии: Из финального кластера выбирается Canonical Document.
Индексация: Выбранный канонический документ индексируется. Quality Information от других документов в кластере может быть консолидирована и ассоциирована с каноническим документом.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для кластеризации и оценки качества.

Технические факторы:

URL (Address): Используется для Predictive-based clustering и для оценки эстетической ценности (aesthetic value).
Redirect Information: Данные о редиректах (HTTP коды 3xx, meta refresh, JavaScript редиректы). Используются для определения Final Target Document.

Контентные факторы:

Контент документа: Используется для вычисления контрольной суммы (Checksum) при Content-based clustering.

Факторы Качества (Quality Information, согласно Claim 3):

Ссылочные факторы: Link information (link-based score, количество ссылок, позиция ссылки), Anchor text information.
Ранг документа: Document rank (например, PageRank).
Временные факторы: Дата создания документа, возраст веб-сайта.
Популярность: Мера популярности документа.
Качество источника: Мера качества веб-сайта.
Эстетика URL: Aesthetic value of an address.

Какие метрики используются и как они считаются

Система использует ключевые идентификаторы и оценки:

Predictive ID: Вычисляется на основе URL с применением набора правил. Правила могут определять эквивалентные префиксы адресов или игнорировать неважные части адреса (например, Session IDs).
Checksum ID: Вычисляется путем хеширования контента документа.
Target ID: Идентификатор, основанный на адресе Final Target Document.
Measure of Quality (Quality Score): Агрегированная оценка, рассчитываемая на основе Quality Information. Используется для выбора Representative Document. Особо выделяется Aesthetic value of an address: короткие и/или основанные на словах URL имеют более высокую ценность, чем длинные URL, содержащие символы (?, !, *, и т.д.).

Каноникализация — это итеративный процесс: Google не принимает решение о канонической версии за один шаг. Система последовательно применяет разные методы кластеризации (по URL, по редиректам, по контенту) и итеративно объединяет кластеры дубликатов.
Редиректы как инструмент объединения: Система активно использует редиректы для консолидации дубликатов. Если документы из разных кластеров в конечном итоге указывают на одну и ту же цель (Final Target Document), эти кластеры объединяются.
Качество определяет выбор канонической версии: Выбор представителя (Representative), который часто становится каноническим, явно основан на метриках качества (Quality Information). Это не случайный выбор.
Конкретные факторы качества для каноникализации: Патент четко определяет используемые факторы: ссылочные сигналы, ранг документа (PageRank), анкорный текст, качество и возраст сайта, а также эстетическая ценность URL.
Предпочтение чистых URL: Aesthetic value of an address прямо указывает на предпочтение коротких, чистых URL перед длинными и сложными URL с параметрами и символами.
Важность анализа шаблонов URL: Predictive-based clustering играет ключевую роль в идентификации дубликатов, созданных динамически (например, из-за Session IDs), позволяя системе игнорировать незначащие части URL.

Best practices (это мы делаем)

Обеспечение высокой эстетической ценности URL: Используйте короткие, чистые, описательные URL для всех важных страниц. Патент явно указывает, что aesthetic value of an address является фактором при выборе представителя кластера дубликатов.
Консолидация ссылочных сигналов: Направляйте все внутренние и внешние ссылки на предпочтительную (каноническую) версию страницы. Link information и Anchor text information являются ключевыми компонентами Quality Information.
Использование прямых редиректов: Настраивайте редиректы так, чтобы они указывали непосредственно на Final Target Document. Это ускоряет процесс разрешения редиректов и снижает вероятность ошибок при объединении кластеров.
Оптимизация архитектуры для Predictive Clustering: Структурируйте URL последовательно и по возможности избегайте использования незначащих параметров (Session IDs, избыточные UTM-метки) в URL индексируемых страниц. Это помогает системе корректно применять Predictive-based clustering.
Повышение общего качества сайта: Работайте над авторитетностью ресурса. Quality of web site также учитывается при выборе представителя из кластера дубликатов.

Worst practices (это делать не надо)

Использование сложных и длинных URL: Создание URL с множеством параметров и динамических вставок снижает их aesthetic value и уменьшает вероятность выбора такой страницы в качестве канонической.
Создание цепочек редиректов: Длинные цепочки усложняют определение Final Target Document, замедляют обработку и могут привести к ошибкам в итеративном процессе объединения кластеров.
Распыление сигналов качества: Допущение существования множества дубликатов, на которые ведут внутренние или внешние ссылки. Это приводит к разделению Quality Information и может привести к выбору неоптимальной канонической версии.
Игнорирование технической гигиены URL: Непоследовательное использование протоколов, www, регистров и структуры URL затрудняет работу Predictive-based clustering и может привести к формированию отдельных кластеров для фактических дубликатов.

Стратегическое значение

Патент подтверждает, что техническое SEO и информационная архитектура являются критически важными элементами стратегии продвижения. То, как структурированы URL и как управляются редиректы, напрямую влияет на эффективность индексации, выбор канонических версий и консолидацию сигналов ранжирования. Система предпочитает качество и чистоту: авторитетные сайты с чистыми URL и четкими сигналами имеют преимущество в процессе каноникализации.

Практические примеры

Сценарий: Каноникализация страниц товара в E-commerce

Существуют три версии страницы товара:

URL A: /product?id=123&session=XYZ (Низкая эстетика, есть Session ID)
URL B: /product/blue-widget (Высокая эстетика, чистый URL, много ссылок)
URL C: /promo/blue-widget-sale (Временная страница, настроен 302 редирект на URL B)

Процесс обработки Google согласно патенту:

Predictive Clustering: Система анализирует URL A. Правила Predictive-based clustering игнорируют session=XYZ. Система может определить, что URL A и URL B ведут к одному контенту и помещает их в Кластер 1. URL C может попасть в Кластер 2.
Выбор Представителя: Система сравнивает Quality Information. URL B имеет больше ссылок и лучшую aesthetic value, чем URL A. URL B выбирается представителем Кластера 1. URL C выбирается представителем Кластера 2.
Разрешение Редиректов: Система определяет Final Target Document для представителя Кластера 2 (URL C) как URL B (из-за 302 редиректа).
Объединение Кластеров: Система видит, что представитель Кластера 1 (URL B) и конечная цель представителя Кластера 2 (URL B) являются дубликатами. Кластер 1 и Кластер 2 объединяются.
Финализация: В объединенном кластере (A, B, C) система выбирает Canonical Document. URL B, обладая наивысшей суммарной оценкой качества, выбирается для индексации.

Что такое "эстетическая ценность адреса" (aesthetic value of an address) и почему это важно?

Согласно патенту, это метрика в составе Quality Information. Короткие и основанные на словах URL (чистые, ЧПУ) имеют более высокую эстетическую ценность, чем длинные URL, содержащие символы (?, !, *) или параметры. При выборе канонической версии из группы дубликатов система предпочтет страницу с более высокой эстетической ценностью URL при прочих равных условиях.

Какие факторы качества использует Google для выбора канонической версии согласно этому патенту?

Патент явно перечисляет их в Claim 3: ссылочная информация (количество, качество, анкоры), ранг документа (PageRank), дата создания, популярность, эстетическая ценность URL, а также качество и возраст сайта-источника. Система вычисляет агрегированную оценку качества и выбирает версию с наивысшим баллом в качестве представителя кластера.

Как этот патент влияет на обработку URL с параметрами (например, UTM-метки или фильтры)?

Патент описывает Predictive-based clustering. Эта техника использует правила для анализа шаблонов URL и игнорирования незначащих параметров (например, Session IDs). Это позволяет системе понять, что /page?id=1 и /page?id=1&session=ABC — это один и тот же документ. Однако URL с параметрами обычно имеют низкую aesthetic value, поэтому канонической версией, скорее всего, будет выбран чистый URL без параметров.

Как система обрабатывает цепочки редиректов?

Система итеративно следует по всей цепочке редиректов от документа-представителя, чтобы найти Final Target Document. Только после определения конечной цели система принимает решение о том, следует ли объединять кластеры. Это подчеркивает важность избегания длинных цепочек для ускорения и повышения точности индексации.

Что произойдет, если два разных кластера дубликатов имеют представителей, которые редиректят на одну и ту же страницу?

Это ключевой механизм патента. Если Final Target Documents представителей разных кластеров являются дубликатами (или идентичны), система выполняет re-clustering — объединяет эти два исходных кластера в один большой кластер. Это позволяет консолидировать все сигналы.

Влияет ли этот процесс на PageRank или ссылочный вес?

Да, косвенно. Ранг документа и ссылочная информация используются для выбора представителя. В конце процесса, когда выбирается Canonical Document, патент упоминает, что Quality Information от документов в кластере может быть ассоциирована с каноническим документом. Это подразумевает консолидацию сигналов ранжирования.

Чем отличается Representative Document от Canonical Document?

Representative Document — это лучший документ в кластере на промежуточном этапе итеративного процесса. Он используется для дальнейшего анализа (например, поиска редиректов или вычисления контрольной суммы). Canonical Document — это финальный выбор системы для индексации после завершения всех итераций кластеризации и объединения.

Использует ли система анализ контента или только анализ URL и редиректов?

Система использует оба подхода итеративно. В патенте описаны как Predictive-based clustering (анализ URL) и анализ редиректов, так и Content-based clustering (анализ контента через контрольные суммы). Они применяются на разных этапах для уточнения кластеров.

Как Predictive-based clustering определяет эквивалентность URL?

Система использует набор правил, специфичных для сайта, директории или комбинации параметров. Эти правила могут включать списки эквивалентных префиксов хостов или инструкции по игнорированию определенных частей URL (например, идентификаторов сессий), которые не влияют на контент страницы.

Если я использую rel=canonical, игнорирует ли Google этот процесс?

Патент не упоминает атрибут rel=canonical. Однако, исходя из описанного механизма, можно сделать вывод, что Google все равно должен обработать все дубликаты, кластеризовать их и оценить Quality Information, чтобы принять финальное решение о каноникализации. Атрибут rel=canonical является сильным сигналом, но описанный в патенте процесс является инфраструктурным механизмом для разрешения конфликтов и выбора лучшей версии на основе собственных метрик Google.

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google использует двухуровневую кластеризацию для борьбы с дубликатами и обеспечения разнообразия доменов в выдаче

Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от каждого домена. Это предотвращает избыточную кластеризацию (over-clustering), помогает эффективнее управлять дубликатами и обеспечивает разнообразие сайтов в результатах поиска.

US9053417B2
2015-06-09

Индексация
SERP

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)

Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). Это обеспечивает стабильность выбора каноникалов и предотвращает индексацию устаревших дубликатов.

US7836108B1
2010-11-16

Индексация
Краулинг
Техническое SEO

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса

Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.

US7627613B1
2009-12-01

Краулинг
Индексация
Техническое SEO

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте

Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.

US9396235B1
2016-07-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество