Как Google использует двухуровневую кластеризацию для борьбы с дубликатами и обеспечения разнообразия доменов в выдаче

DOMAIN LEVEL CLUSTERING (Кластеризация на уровне домена)

US9053417B2
Google LLC
2012-12-13
2015-06-09

Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от каждого домена. Это предотвращает избыточную кластеризацию (over-clustering), помогает эффективнее управлять дубликатами и обеспечивает разнообразие сайтов в результатах поиска.

Какую проблему решает

Патент решает проблему «избыточной кластеризации» (over clustering) при обработке документов (веб-страниц, изображений, видео). Традиционные методы могут ошибочно объединять в один кластер документы, которые не являются дубликатами, особенно если они имеют общие признаки или шаблонные элементы. Это приводит к неэффективному индексированию и снижению разнообразия (diversity) в результатах поиска. В частности, патент предотвращает ошибочное слияние разных страниц одного сайта.

Что запатентовано

Запатентована система двухуровневой кластеризации документов. На первом этапе создаются кластеры первого уровня (first-level clusters), объединяющие документы по схожим признакам. На втором этапе создаются кластеры второго уровня (second-level clusters) путем объединения первых. Ключевым элементом изобретения является жесткое ограничение: кластер второго уровня не может содержать более одного кластера первого уровня с одного и того же домена.

Как это работает

Система работает в два этапа:

Этап 1 (Кластеризация первого уровня): Документы группируются на основе критериев классификации (classification criterion), таких как совпадение заголовков (Titles) или описаний (Descriptions). Часто это группировка внутри одного домена.
Этап 2 (Кластеризация второго уровня): Система пытается объединить кластеры первого уровня. Объединение происходит только при выполнении двух условий: (1) кластеры похожи (удовлетворяют критерию второго уровня) И (2) их домены НЕ совпадают.

Если два кластера похожи, но принадлежат одному домену, они принудительно разделяются, гарантируя разнообразие доменов внутри итогового кластера.

Актуальность для SEO

Высокая. Управление дублированным контентом, каноникализация и обеспечение разнообразия выдачи (diversity) являются фундаментальными и постоянными задачами для Google. Хотя конкретные методы определения схожести эволюционировали (например, к векторным эмбеддингам), описанный структурный подход к организации индекса и предотвращению over-clustering остается актуальным.

Важность для SEO

Патент имеет умеренное, но важное значение для SEO (6.5/10). Он не описывает сигналы ранжирования, но раскрывает инфраструктуру индексирования. Он напрямую влияет на то, как Google обрабатывает дубликаты и похожие страницы внутри сайта и между сайтами. Понимание этого механизма критично для управления индексацией крупных сайтов (особенно E-commerce) и связано с механизмом обеспечения разнообразия доменов в SERP (Host Crowding).

Термины и определения

Document (Документ): Любой индексируемый объект (веб-страницы, изображения, видео).
Domain (Домен): Источник документа (например, извлеченный из URL). Является ключевым ограничением на втором этапе.
First-level cluster (FLC) / Domain-level cluster (Кластер первого уровня): Первичная группа документов, удовлетворяющих критерию классификации первого уровня. Часто содержит документы с одного домена.
Second-level cluster (SLC) / Top-level cluster (Кластер второго уровня): Итоговая группа, сформированная из кластеров первого уровня. Может содержать не более одного FLC от каждого домена.
Classification Criterion / Feature Value (Критерий классификации / Значение признака): Признаки документа, используемые для определения схожести. В патенте упоминаются Title (Заголовок) и Description (Описание).
Over clustering (Избыточная кластеризация): Ситуация, когда алгоритм ошибочно объединяет в один кластер документы, которые должны рассматриваться отдельно.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод и логику ограничения по домену.

Система получает кластеры первого уровня (FLC1, FLC2, FLC3) с соответствующими доменами (D1, D2, D3).
Сценарий 1 (Разные домены): Если D1 ≠ D2, и FLC1 и FLC2 похожи (удовлетворяют критерию второго уровня), они объединяются в кластер второго уровня (SLC).
Сценарий 2 (Одинаковые домены - Ядро изобретения): Если D1 = D2. Система принудительно разделяет их:
- Создается первый SLC из FLC2.
- Создается второй SLC путем объединения FLC1 и FLC3 (при условии, что D1 ≠ D3).

Если два кластера с одного домена похожи, они не объединяются. Вместо этого система пытается найти им партнеров с других доменов.

Claim 9 (Независимый пункт): Описывает предотвращение транзитивной избыточной кластеризации.

Документ 1 (Признаки A, B; Домен 1) -> FLC1.
Документ 2 (Признаки C, D; Домен 1) -> FLC2. (Разные, так как признаки отличаются).
Документ 3 (Признаки A, D; Домен 2) -> FLC3. (Документ 3 похож и на 1, и на 2).
Генерация SLC: FLC3 объединяется ЛИБО с FLC1, ЛИБО с FLC2 (так как D1 ≠ D2).
Оставшийся кластер (FLC1 или FLC2) формирует отдельный SLC.

Система не позволяет внешнему сходству (с Документом 3) объединить два разных документа (1 и 2) с одного сайта. Это предотвращает слияние FLC1 и FLC2.

Claim 14 (Независимый пункт): Описывает «жадный» алгоритм для максимизации разнообразия доменов в SLC.

Выбрать FLC с Домена А. Пометить его как начало нового SLC.
Выбрать по ОДНОМУ подходящему FLC из каждого другого доступного домена (Б, В, Г...).
Назначить их в этот SLC.
Вывести (Emit) итоговый SLC.

Этот алгоритм гарантирует соблюдение правила «один представитель на домен» и стремится создать максимально широкие кластеры.

Где и как применяется

Изобретение применяется в инфраструктуре обработки данных.

INDEXING – Индексирование и извлечение признаков (Основное применение)
Это основной этап применения патента. Двухуровневая кластеризация используется для:

Обнаружение дубликатов и Каноникализация: Идентификация групп схожего контента и помощь в выборе канонической версии.
Организация индекса: Структурирование документов для эффективного хранения и поиска. Патент упоминает создание индекса документов (Create index of documents) как финальный шаг.
Предотвращение Over-clustering: Обеспечение того, что разные страницы одного сайта не будут ошибочно склеены.

RERANKING – Переранжирование
Результаты кластеризации используются для обеспечения разнообразия выдачи (Diversity).

Host Crowding: Поскольку SLC по определению содержат не более одного представителя от каждого домена, использование этих кластеров при формировании SERP помогает ограничить количество схожих результатов с одного сайта.

Входные данные:

Набор документов или кластеров первого уровня.
Домен (из URL) для каждого элемента.
Значения признаков классификации (Title, Description).

Выходные данные:

Набор кластеров второго уровня (SLC) с соблюдением ограничения по доменам.
Индекс документов.

На что влияет

Конкретные типы контента: Веб-страницы, изображения, видео. Наибольшее влияние на контент, склонный к дублированию (товары, синдицированные статьи, агрегированный контент).
Конкретные ниши или тематики: E-commerce, новости, маркетплейсы — ниши, где часто встречается множество похожих страниц как внутри одного сайта, так и на разных доменах.

Когда применяется

При каких условиях работает алгоритм: Алгоритм применяется во время процесса индексирования для обработки корпуса документов.
Триггеры активации: Обнаружение документов или кластеров, удовлетворяющих критериям схожести (predetermined criterion). Логика разделения активируется при обнаружении схожих кластеров с одного домена.

Пошаговый алгоритм

Общий процесс двухуровневой кластеризации

Сбор данных и Извлечение признаков: Получение документов. Извлечение домена, Title, Description.
Кластеризация Первого Уровня (FLC): Группировка документов на основе критериев первого уровня (например, совпадение Заголовка ИЛИ Описания). Часто происходит внутри домена.
Инициализация Кластеризации Второго Уровня (SLC): Итерация по парам FLC для поиска кандидатов на объединение.
Проверка Условий Объединения: Для пары FLC1 и FLC2 проверяется:
- (a) Схожесть: Удовлетворяют ли они критериям второго уровня.
- (b) Различие доменов: Отличаются ли их домены.
Принятие Решения:
- Если (a) и (b) истинны: Создается SLC, объединяющий FLC1 и FLC2.
- Если домены совпадают: SLC НЕ создается из этой пары. Они принудительно разделяются.
Разрешение Конфликтов (Алгоритм из Claim 14/FIG. 6): Для эффективного построения SLC используется «жадный» алгоритм:
- Группировка FLC по доменам.
- Выбор начального FLC и создание нового SLC.
- Добавление в этот SLC по одному подходящему FLC из каждого другого доступного домена.
- Вывод SLC и повторение процесса для оставшихся FLC.
Финализация и Индексирование: Создание индекса на основе сформированных SLC.

Какие данные и как использует

Данные на входе

Технические факторы: URL используется для определения Домена (Domain). Это критически важный фактор для ограничения на втором этапе.
Контентные факторы: Патент явно упоминает Title (Заголовок) и Description (Описание) как признаки классификации (Classification Features) для определения схожести.

Какие метрики используются и как они считаются

Критерии классификации (Classification Criterion): Метрики схожести на Этапе 1 и Этапе 2. Патент не дает формул, но указывает, что они основаны на значениях признаков (например, точное совпадение Title или Description).
Совпадение домена (Domain Match): Бинарная метрика (Да/Нет). Определяет, принадлежат ли два кластера одному и тому же домену.
Разрешение конфликтов: В ситуациях неоднозначности (когда есть несколько вариантов объединения) патент упоминает использование эвристики (heuristic) или случайного выбора (randomly selecting).

Структурное обеспечение разнообразия: Google закладывает основу для разнообразия выдачи (Diversity) уже на этапе INDEXING. Механизм кластеризации второго уровня структурно ограничивает объединение похожих документов с одного сайта в один общий кластер.
Приоритет доменного ограничения над схожестью: На втором уровне кластеризации схожесть контента игнорируется, если документы происходят с одного домена. Это ключевой механизм предотвращения over-clustering.
Предотвращение транзитивной кластеризации: Система защищает от слияния разных страниц сайта. Если Страницы А и Б на одном сайте отличаются, но обе похожи на Страницу Х на другом сайте, система не позволит этому внешнему сходству объединить А и Б.
Основа для Host Crowding: Этот механизм создает кластеры, которые идеально подходят для применения правил Host Crowding на этапе RERANKING, так как кластер уже гарантированно содержит только одного представителя от каждого домена.
Важность уникальных признаков внутри сайта: Для SEO это подчеркивает критическую важность уникальности Title и Description для обеспечения раздельной индексации страниц внутри одного сайта.

Best practices (это мы делаем)

Обеспечение уникальности ключевых признаков (Title/Description): Гарантируйте, что страницы, которые должны ранжироваться отдельно, имеют уникальные Title и Description. Патент явно указывает их как признаки кластеризации. Уникальность помогает разделить страницы на разные кластеры первого уровня, что является условием их раздельного существования в индексе.
Четкая каноникализация технических дубликатов: Используйте rel=canonical для управления техническими дубликатами (например, параметры URL, фасеты). Это помогает контролировать, как документы группируются на первом этапе кластеризации.
Управление синдицированным контентом: Если ваш контент публикуется на других доменах, он попадет в один Second-Level Cluster с копиями. Необходимо работать над сигналами авторитетности и качества, чтобы ваша версия была выбрана представителем кластера (каноникалом).
Мониторинг индексации: Анализируйте отчеты об индексации (например, в GSC) на предмет исключенных дубликатов. Если важные страницы классифицируются как дубликаты, необходимо усилить уникальность их признаков и контента.

Worst practices (это делать не надо)

Использование шаблонных заголовков и описаний: Создание множества страниц с одинаковыми Titles и Descriptions (например, вариации товаров). Это увеличивает вероятность их слияния в один кластер первого уровня и индексации только одной страницы.
Массовая генерация почти дубликатов (Doorways): Создание сотен страниц с минимальными отличиями (например, гео-лендинги). Система кластеризации спроектирована для борьбы с таким контентом, склеивая его на первом уровне.
Игнорирование уникальности контента: Размещение контента, скопированного с других сайтов (например, описаний от поставщика). Ваша страница будет помещена в SLC вместе с оригиналом, что снижает вероятность её ранжирования.

Стратегическое значение

Патент подтверждает, что обеспечение разнообразия (Diversity) — это не просто фильтр на этапе ранжирования, а фундаментальное свойство архитектуры индекса Google. Стратегия SEO должна учитывать, что Google активно применяет структурные ограничения на уровне доменов. Это подчеркивает важность технического SEO и архитектуры сайта, особенно для крупных проектов (E-commerce, маркетплейсы), для обеспечения полноты индексации и уникальности каждой страницы.

Практические примеры

Сценарий 1: Обработка карточек товаров в E-commerce

Сайт продает кроссовки в разных цветах. Как обеспечить индексацию обоих цветов?

Плохая реализация: URL: /shoe?color=blue и /shoe?color=red. Title одинаковый: "Кроссовки Модель 1".
- Результат: На Этапе 1 страницы попадут в один кластер первого уровня из-за совпадения Title. В индекс попадет только одна страница.
Хорошая реализация: URL: /shoe-1-blue и /shoe-1-red. Title уникальные: "Кроссовки Модель 1 - Синие" и "Кроссовки Модель 1 - Красные".
- Результат: На Этапе 1 страницы попадут в разные кластеры первого уровня (FLC-Синий, FLC-Красный). На Этапе 2 они НЕ будут объединены, так как принадлежат одному домену. Обе страницы индексируются отдельно.

Сценарий 2: Предотвращение транзитивной кластеризации

Ситуация: Сайт А имеет две статьи: С1 (Заголовок Т1, Тема Спорт) и С2 (Заголовок Т2, Тема Политика). Сайт Б публикует статью С3 (Заголовок Т1, Тема Политика).
Проблема: С3 похожа на С1 (по Заголовку Т1) и на С2 (по Теме Политика). Есть риск, что С1 и С2 будут объединены через С3.
Решение по патенту: Так как С1 и С2 на одном домене (Сайт А), они не могут быть в одном SLC. Система выберет одно объединение, например SLC1={С1, С3}, а С2 останется в отдельном кластере SLC2={С2}. Уникальность С1 и С2 сохранена.

Что такое «Избыточная кластеризация» (Over clustering) и почему Google с ней борется?

Избыточная кластеризация — это ошибка, когда алгоритм объединяет в одну группу документы, которые не являются дубликатами. Например, объединение двух разных товаров из-за похожего описания или шаблонных элементов сайта. Google борется с этим для поддержания качества индекса, корректного определения дубликатов и предоставления пользователям разнообразных и точных результатов поиска.

В чем ключевое отличие кластера первого уровня от второго?

Кластер первого уровня (First-level cluster) группирует похожие документы, часто внутри одного домена (например, технические дубликаты страницы). Кластер второго уровня (Second-level cluster) группирует кластеры первого уровня, но имеет жесткое ограничение: он не может содержать более одного представителя от каждого домена. Это обеспечивает междоменную дедупликацию и разнообразие.

Как этот патент влияет на Host Crowding (ограничение количества результатов с одного сайта)?

Влияние прямое. Host Crowding — это механизм обеспечения разнообразия в SERP. Описанная система кластеризации создает идеальную структуру данных для этого: кластеры второго уровня по определению содержат похожий контент с разных доменов. При формировании выдачи системе легко ограничить показ нескольких результатов из одного такого кластера.

Какие признаки используются для определения схожести документов?

Патент явно указывает Title (Заголовок) и Description (Описание) документа в качестве примеров признаков классификации. Хотя на практике Google использует гораздо больше сигналов (контент, структура, эмбеддинги), упоминание Title и Description подчеркивает их фундаментальную важность для базовой кластеризации и дедупликации.

Что произойдет, если у меня на сайте две разные страницы, но они обе похожи на страницу конкурента?

Это ключевой сценарий (Claim 9). Система предотвратит слияние ваших двух страниц. Страница конкурента будет объединена в кластер второго уровня только с ОДНОЙ из ваших страниц (выбор может быть случайным или основан на эвристике). Вторая ваша страница останется в отдельном кластере. Это защищает структуру вашего сайта от влияния внешнего сходства.

Как обеспечить раздельную индексацию похожих страниц сайта (например, вариантов товара)?

Необходимо максимизировать их различия на первом этапе кластеризации. Это достигается уникализацией ключевых признаков — заголовков, описаний и основного контента. Если система разделит их на разные кластеры первого уровня, ограничение второго уровня гарантирует, что они останутся разделенными в индексе.

Влияет ли этот механизм на каноникализацию?

Да. Процесс кластеризации является основой для систем каноникализации. Когда несколько документов (с разных доменов) попадают в один кластер второго уровня, Google должен выбрать один из них как канонический для показа в поиске. Этот механизм помогает точно определить группу, из которой происходит выбор.

На каком этапе поиска работает этот алгоритм?

Алгоритм работает на этапе INDEXING (Индексирование). Это часть процесса организации данных в базе Google, а не процесс ранжирования в реальном времени. Результаты кластеризации затем используются на этапе RERANKING для обеспечения разнообразия.

Применяется ли этот алгоритм только к веб-страницам?

Нет. В патенте указано, что термин «документ» (Document) интерпретируется широко и включает любые машиночитаемые продукты, в том числе веб-страницы, изображения и видео. Механизм может использоваться для дедупликации любого типа контента в индексах Google.

Если система не может решить, какой вариант кластеризации выбрать, что она делает?

Патент предусматривает такие ситуации неоднозначности. Если существует несколько допустимых конфигураций кластеров второго уровня, система может использовать эвристику (heuristic) для выбора наилучшего варианта или выбрать один из вариантов случайным образом (randomly selecting).

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

US8090717B1
2012-01-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии

Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.

US8661069B1
2014-02-25

Индексация
Техническое SEO
Структура сайта

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует гибридную итеративную кластеризацию для организации документов в системах E-Discovery

Патент Google описывает метод оптимизации для анализа больших наборов документов в системах E-Discovery (юридический анализ). Документы сначала быстро кластеризуются по одному типу данных (например, метаданным), а затем итеративно уточняются с использованием других типов данных (например, основного текста). Это балансирует скорость и точность тематической группировки и не связано с веб-поиском.

US9268844B1
2016-02-23

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends

Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.

US8145623B1
2012-03-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)

Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.

US9317605B1
2016-04-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)

Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.

US8386495B1
2013-02-26

Поведенческие сигналы
Ссылки
SERP

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP