Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе

IDENTIFYING SIMILAR DIGITAL TEXT VOLUMES (Идентификация похожих цифровых текстовых томов)

US8527516B1
Google LLC
2012-02-24
2013-09-03

Индексация

Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.

Какую проблему решает

Патент решает вычислительную проблему идентификации похожих, идентичных или частично пересекающихся текстовых томов (Digital Text Volumes, например, оцифрованных книг) в массивном корпусе данных. Прямое сравнение каждого документа и каждой страницы с другими невыполнимо в больших масштабах. Изобретение позволяет эффективно обнаруживать дубликаты, выбирать репрезентативные версии контента, выявлять аномалии и обнаруживать плагиат или пиратство в масштабе всего корпуса.

Что запатентовано

Запатентована система для эффективной идентификации и классификации взаимосвязей между цифровыми текстовыми томами с использованием методов снижения размерности, в частности Min-Hashing и Shingling. Система сначала сравнивает тома на глобальном уровне для быстрого поиска кластеров похожих документов, а затем выполняет детальный анализ сходства на уровне страниц внутри этих кластеров для точной классификации их взаимосвязи.

Как это работает

Система работает в несколько этапов:

Генерация признаков: Текст томов и отдельных страниц преобразуется в наборы признаков (например, 5-word shingles — перекрывающиеся последовательности из 5 слов).
Снижение размерности (Min-Hashing): К признакам применяются множественные хеш-функции, и для каждой выбирается минимальное значение. Это создает компактный цифровой отпечаток (reduced feature set) для каждого тома и страницы.
Кластеризация томов: Тома, имеющие достаточное количество общих Min-Hash values, группируются в кластеры похожих документов.
Сравнение страниц: Внутри кластеров сравниваются отпечатки страниц для получения данных о постраничном сходстве (page similarity data).
Извлечение сигналов: Анализируются паттерны сходства, такие как линейное соответствие страниц (linear page-to-page fit) и корреляция последовательных страниц.
Классификация взаимосвязей: На основе сигналов определяется тип связи между томами (например, идентичные, разная пагинация, один том является подмножеством другого).

Актуальность для SEO

Высокая. Хотя патент описывает обработку книг, лежащие в его основе методы, такие как Shingling и Min-Hashing, являются фундаментальными для обнаружения почти дубликатов (near-duplicate detection) в больших масштабах. Эти методы критически важны для управления огромными корпусами данных, включая веб-индекс Google, процессов каноникализации и идентификации плагиата, и остаются актуальными в 2025 году.

Важность для SEO

(5.5/10). Это инфраструктурный патент, фокусирующийся на управлении большими текстовыми корпусами (например, Google Books), а не на алгоритмах ранжирования. Однако он детально раскрывает фундаментальные механизмы (Min-Hashing, Shingling), которые Google использует для понимания дублирования контента в веб-масштабе. Понимание этих механизмов критически важно для разработки SEO-стратегий, связанных с каноникализацией, синдикацией контента и обеспечением уникальности текстов.

Термины и определения

Corpus (Корпус): Общая коллекция цифровых текстовых томов (документов), подлежащая анализу.
Digital Text Volume (Цифровой текстовый том): Цифровое представление документа (например, книги), текст которого представлен в машиночитаемом формате (часто результат OCR).
Shingles (Шинглы): Перекрывающиеся последовательности слов, извлеченные из текста. Например, 5-word shingles. Используются как базовые признаки (features) документа.
Min-Hashing (Мин-хеширование): Метод снижения размерности. Множество шинглов преобразуется в компактный набор минимальных хеш-значений (Min-Hash values). Этот набор служит «отпечатком» документа или страницы.
Reduced Feature Set (Сокращенный набор признаков): Компактное представление тома или страницы, полученное после применения Min-Hashing.
Volume Similarity Data (Данные о сходстве томов): Метрики, описывающие степень сходства между двумя томами, обычно основанные на количестве общих Min-Hash values.
Page Similarity Data (Данные о сходстве страниц): Метрики, описывающие степень сходства между отдельными страницами двух разных томов.
Signals (Сигналы): Метрики, извлеченные из данных о сходстве томов и страниц, которые помогают классифицировать взаимосвязь между томами.
Linear page-to-page fit (Линейное соответствие страниц): Сигнал, моделирующий равномерное распределение текста по страницам с учетом смещения (offset) и множителя (multiplier). Помогает определить различия в пагинации и выявить подмножества контента.
Relative consecutive page correlation (Относительная корреляция последовательных страниц): Сигнал, определяющий периодические паттерны совпадения и несовпадения страниц. Указывает на одинаковый контент с разной пагинацией.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации взаимосвязей между цифровыми текстовыми томами.

Сравнение томов в корпусе для получения данных о сходстве томов (volume similarity data).
Идентификация кластера похожих томов на основе этих данных.
Сравнение страниц пары томов внутри кластера для определения данных о сходстве страниц (page similarity data).
Извлечение сигналов из данных о сходстве томов и страниц. Ключевое требование: извлеченные сигналы должны включать по крайней мере один из следующих:
- Меру линейного соответствия страниц (linear page-to-page fit).
- Меру относительной корреляции последовательных страниц (relative consecutive page correlation).
Классификация взаимосвязи между парой томов на основе извлеченных сигналов.
Сохранение данных классификации.

Ядро изобретения заключается в многоуровневом подходе (том -> страница) и использовании специфических сигналов для классификации типа взаимосвязи, а не просто факта дублирования.

Claim 2 (Зависимый от 1): Детализирует метод сравнения томов (Шаг 1 из Claim 1), подтверждая использование Min-Hashing.

Определение набора репрезентативных признаков для тома (например, Shingles).
Применение множества хеш-функций к этим признакам.
Выбор минимального хеш-значения (minimum hash value) для каждой функции, чтобы создать сокращенный набор признаков (reduced feature set).
Сравнение сокращенных наборов признаков разных томов для получения данных о сходстве.

Claim 4 (Зависимый от 1): Детализирует метод сравнения страниц (Шаг 3 из Claim 1). Используется тот же процесс Min-Hashing, что и в Claim 2, но применительно к признакам отдельных страниц.

Claim 7 (Зависимый от 1): Детализирует этап классификации (Шаг 5 из Claim 1).

Расчет уровня уверенности (confidence level) для каждого из множества классов. Уровень уверенности указывает на вероятность того, что взаимосвязь описывается данным классом.
Присвоение класса взаимосвязи на основе рассчитанных уровней уверенности.

Где и как применяется

Изобретение применяется на этапе обработки и организации корпуса данных.

INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Система анализирует сырой контент (цифровые тома) для извлечения признаков (Shingles, Min-Hash values). Происходит сравнение этих признаков для обнаружения дубликатов, кластеризации похожих документов и классификации взаимосвязей между ними. Это помогает в управлении индексом, выборе канонических версий (canonicalization) и идентификации оригинальных источников контента.

Это преимущественно офлайн-процесс или процесс пакетной обработки для управления качеством корпуса, а не процесс ранжирования в реальном времени.

Входные данные:

Цифровые текстовые тома (Digital Text Volumes) — необработанный текст, часто полученный через OCR.

Выходные данные:

Processing Data: Репрезентативные признаки (Min-Hash values) для томов и страниц.
Classification Data: Данные, описывающие взаимосвязи между парами томов (например, "Том А идентичен Тому Б", "Том С является подмножеством Тома D").
Кластеры связанных томов.

На что влияет

Конкретные типы контента: В первую очередь влияет на большие объемы текста, подверженные дублированию: книги, длинные документы, новостные статьи (синдикация), описания товаров в e-commerce, техническая документация.
Управление корпусом: Влияет на то, как Google управляет дублированным контентом и идентифицирует оригинальные источники или наиболее полные версии документа.

Когда применяется

Временные рамки: Применяется во время обработки и индексирования корпуса (офлайн-процесс), при добавлении новых документов или периодической переоценке корпуса.
Триггеры активации: Детальный анализ на уровне страниц активируется только для пар томов, которые были предварительно идентифицированы как похожие на уровне всего тома (т.е. принадлежат одному кластеру).
Пороговые значения: Используются пороги сходства для кластеризации. Например, тома должны иметь более определенного процента (упоминается 10%) общих Min-Hash values, чтобы считаться похожими.

Пошаговый алгоритм

Генерация признаков (Уровень тома и страницы): Система обрабатывает каждый цифровой том. Текст всего тома и текст каждой отдельной страницы преобразуется в Shingles (например, перекрывающиеся последовательности из 5 слов).
Снижение размерности (Min-Hashing): К наборам шинглов применяются множественные независимые хеш-функции (например, 100 для тома, 34 для страницы). Для каждой функции выбирается минимальное полученное значение. Это формирует компактный набор Min-Hash values для каждого тома и страницы.
Сравнение томов и первичная кластеризация: Min-Hash values томов индексируются. Система сравнивает тома и идентифицирует те, которые имеют больше порогового количества общих хеш-значений (например, >10%). При этом могут игнорироваться (дисконтироваться) хеши, которые встречаются слишком часто в корпусе (например, более чем в 300 томах). Эти тома группируются в кластеры похожих документов.
Сравнение страниц (Внутри кластера): Для каждой пары томов внутри кластера система сравнивает их страницы, используя Min-Hash values страниц. Генерируются оценки сходства для пар страниц (page similarity data).
Извлечение сигналов: Система анализирует page similarity data для извлечения метрик (сигналов), описывающих паттерны сходства. Ключевые сигналы:
- Связь между общей схожестью тома и средней схожестью страниц.
- Linear page-to-page fit (оценка смещения и множителя пагинации).
- Relative consecutive page correlation (выявление периодических паттернов совпадения/несовпадения страниц).
Классификация взаимосвязей: Извлеченные сигналы подаются на вход мультиклассового классификатора (multi-class classifier), использующего машинное обучение для определения типа взаимосвязи и расчета уровня уверенности (confidence level):
- Same pagination (Одинаковый текст и пагинация).
- Different pagination (Одинаковый текст, разная пагинация).
- Contiguous subset (Один том содержит текст другого как непрерывное подмножество).
- Overlapping text (Значительное пересечение текста).
Хранение и финальная кластеризация: Данные о классифицированных взаимосвязях сохраняются. Тома могут быть окончательно сгруппированы на основе этих данных (например, кластер всех версий одной и той же книги).

Какие данные и как использует

Данные на входе

Патент сосредоточен исключительно на анализе текстового содержания.

Контентные факторы: Полный текст цифровых томов. Критически важна последовательность слов в тексте.
Структурные факторы: Используется структурное разделение текста на страницы (пагинация), так как признаки генерируются как для всего тома, так и для отдельных страниц.

Какие метрики используются и как они считаются

Shingles (Шинглы): Базовая единица анализа. Перекрывающиеся последовательности слов (например, 5-word shingles).
Min-Hash Values: Компактное представление набора шинглов. Вычисляется путем выбора минимального значения, полученного при применении конкретной хеш-функции ко всем шинглам в наборе.
Similarity Score (Оценка сходства): Оценка сходства между двумя наборами (томами или страницами). Рассчитывается как доля общих Min-Hash values.
Пороговые значения (Thresholds): Минимальная оценка сходства для включения томов в один кластер (например, 10% общих хешей). Также используется дисконтирование хеш-значений, которые встречаются слишком часто в корпусе, чтобы избежать ложных срабатываний.
Сигналы (Производные метрики):
- Measure of volume similarity vs page similarity: Соотношение глобального сходства тома и среднего сходства страниц. Высокое сходство тома при низком сходстве страниц указывает на разную пагинацию.
- Linear page-to-page fit: Моделирует распределение текста, вычисляя смещение (offset) и множитель (multiplier). Множитель, близкий к 1, указывает на идентичную пагинацию. Большое смещение может указывать на подмножество.
- Relative consecutive page correlation: Метрика для обнаружения периодических паттернов сходства страниц, что характерно для разной пагинации.
Алгоритмы машинного обучения: Используется мультиклассовый классификатор (multi-class classifier), обученный с использованием машинного обучения на извлеченных сигналах для определения финальной классификации взаимосвязи и расчета confidence level.

Масштабируемое обнаружение дубликатов: Google использует вероятностные методы снижения размерности (Min-Hashing) для эффективного обнаружения почти дубликатов в огромных масштабах. Это позволяет избежать вычислительно затратного прямого сравнения текстов.
Важность последовательности слов: Использование Shingling означает, что система анализирует последовательность слов для определения сходства. Это делает простые текстовые манипуляции (поверхностный рерайт) малоэффективными, если основная структура фраз сохраняется.
Многоуровневый анализ: Система использует иерархический подход. Сначала определяется глобальное сходство (на уровне всего документа), которое служит фильтром перед более детальным анализом гранулярного сходства (на уровне страниц или фрагментов).
Классификация взаимосвязей, а не только дублирования: Цель системы — не просто найти дубликаты, а понять природу взаимосвязи. Классификации типа Different Pagination (реформатирование) или Contiguous Subset (синдикация/заимствование) критически важны для управления контентом и определения первоисточников.
Фундаментальная технология для каноникализации: Описанные методы являются основой для систем управления любым большим корпусом, включая веб-индекс, и играют ключевую роль в процессах каноникализации и управления дублированным контентом.

Практическое применение в SEO

ВАЖНО: Этот патент описывает внутренние процессы Google для управления корпусом оцифрованных книг (Google Books). Однако лежащие в его основе технологии — Shingling и Min-Hashing — являются стандартными техниками для обнаружения дубликатов и широко используются в веб-поиске. Приведенные ниже выводы основаны на понимании этих технологий и их влияния на SEO.

Best practices (это мы делаем)

Обеспечение четкой каноникализации: Наличие таких эффективных технологий обнаружения почти дубликатов подчеркивает необходимость использования тегов rel="canonical". Google может легко идентифицировать страницы с одинаковым или очень похожим контентом, даже если HTML-разметка или URL отличаются.
Управление синдицированным контентом: Система способна идентифицировать Contiguous Subset — когда один документ полностью содержится в другом. При синдикации контента критически важно обеспечить четкую атрибуцию и ссылку на оригинал (в идеале через rel=canonical), чтобы помочь поисковой системе правильно определить первоисточник и консолидировать сигналы ранжирования.
Фокус на подлинной уникальности контента: Поскольку система использует Shingling (анализ последовательностей слов) для сравнения, необходимо создавать действительно уникальный контент. Избегайте обширного цитирования, шаблонного текста (boilerplate) или копирования структуры предложений из других источников.

Worst practices (это делать не надо)

Рерайт и "Спиннинг" контента: Техники поверхностного рерайта, которые сохраняют исходную последовательность многих шинглов, будут эффективно обнаружены Min-Hashing. Система идентифицирует такие тексты как очень похожие на оригинал (почти дубликаты).
Публикация идентичного контента с минимальными изменениями форматирования: Система специально разработана для обнаружения случаев Different Pagination (разное форматирование/пагинация при одинаковом тексте). Изменение HTML-структуры, дизайна или разбиение текста на страницы не помешает Google распознать дубликат.
Создание множества страниц с минимальными отличиями (Doorways): Генерация страниц с высоким уровнем сходства приведет к их кластеризации с помощью Min-Hashing и выбору только одной канонической версии, что делает эту тактику неэффективной.

Стратегическое значение

Патент подтверждает техническую основу способности Google управлять дублированным контентом в веб-масштабе. Он демонстрирует, что Google анализирует сходство на уровне последовательности текста, а не на уровне HTML-кода. Стратегической целью SEO должно быть создание подлинной уникальности или четкое техническое управление дублированием. Попытки обмануть системы обнаружения дубликатов становятся все менее эффективными.

Практические примеры

Сценарий: Обнаружение синдицированных статей и каноникализация

Контент: Сайт А публикует оригинальную статью. Сайт Б (новостной агрегатор) перепечатывает статью целиком, но использует совершенно другой дизайн, HTML-шаблон, навигацию и рекламу.
Анализ Google (Shingling): Google индексирует обе страницы и преобразует основной контент в 5-word shingles. Несмотря на разный HTML, наборы шинглов основного контента идентичны.
Анализ Google (Min-Hashing): Система вычисляет Min-Hash values для обеих страниц. Поскольку наборы шинглов идентичны, Min-Hash values также будут идентичны (или почти идентичны).
Обнаружение и Классификация: Система фиксирует ~100% сходство и классифицирует взаимосвязь (например, как Different Pagination, если шаблоны сильно отличаются). Страницы помещаются в один кластер дубликатов.
Результат (Каноникализация): Google идентифицирует страницы как дубликаты. Система каноникализации затем использует другие сигналы (например, время публикации, авторитетность сайта, наличие rel="canonical" от Сайта Б к Сайту А), чтобы выбрать одну версию (Сайт А) для показа в результатах поиска.

Что такое Shingles (Шинглы) и как они используются?

Шинглы — это перекрывающиеся последовательности слов в тексте. Например, для фразы "быстрая коричневая лиса прыгнула" 3-word шинглы будут: "быстрая коричневая лиса", "коричневая лиса прыгнула". Google использует шинглы как базовые признаки текста. Сравнивая наборы шинглов двух документов, можно определить степень их текстуального сходства, учитывая порядок слов.

Что такое Min-Hashing (Мин-хеширование)?

Это техника, используемая для быстрой и эффективной оценки сходства между двумя большими документами без необходимости их прямого сравнения. Она создает компактный "отпечаток" (Min-Hash values) фиксированного размера для каждого документа. Если отпечатки похожи, то и сами документы, скорее всего, похожи. Это позволяет Google сравнивать миллиарды документов с минимальными вычислительными затратами.

Применяется ли этот патент к веб-поиску или только к Google Books?

Патент описывает применение технологии для корпуса оцифрованных книг (Digital Text Volumes). Однако используемые методы — Shingling и Min-Hashing — являются фундаментальными техниками для обнаружения почти дубликатов в любых больших корпусах данных, включая веб-индекс Google. Поэтому принципы, описанные в патенте, критически важны для понимания того, как Google обрабатывает дублированный контент в вебе.

Как это связано с дублированным контентом и каноникализацией в SEO?

Это напрямую связано с тем, как Google идентифицирует дублированный контент. Если две веб-страницы имеют высокую степень сходства, рассчитанную с помощью Min-Hashing, они будут идентифицированы как дубликаты. Патент описывает механизм обнаружения, а rel="canonical" — это инструмент, который помогает Google выбрать правильную версию из обнаруженного кластера дубликатов.

Может ли Min-Hashing обнаружить "спиннинг" или поверхностный рерайт контента?

Да, в значительной степени. Спиннинг часто сохраняет многие исходные последовательности слов (шинглы), изменяя лишь некоторые слова на синонимы. Если значительная часть шинглов остается неизменной, Min-Hashing покажет высокую степень сходства с оригиналом. Эффективность обнаружения зависит от глубины рерайта.

Может ли система обнаружить дубликат, если я изменю дизайн сайта или HTML-верстку?

Да. Система работает на уровне текста, игнорируя HTML-разметку. В патенте описаны сигналы (например, Linear page-to-page fit), которые помогают идентифицировать контент, имеющий одинаковый текст, но разное форматирование (класс Different Pagination). Изменение дизайна не сделает контент уникальным.

Каково значение классификации "Contiguous Subset" (Непрерывное подмножество)?

Эта классификация означает, что система определила, что текст Документа А полностью содержится внутри Документа Б как непрерывный блок. Это важно для идентификации случаев синдикации контента, плагиата или когда одна статья является частью более крупного сборника. Это помогает в определении первоисточника или наиболее полной версии контента.

Насколько гранулярно сравнение?

Патент описывает двухуровневый подход. Сначала происходит быстрое сравнение на уровне всего документа (Volume level) для выявления кандидатов на сходство. Затем для этих кандидатов проводится детальное сравнение на уровне страниц (Page level) для точной классификации взаимосвязи.

Как Google решает, достаточно ли похожи два документа для более детальной проверки?

Система использует пороговые значения (Thresholds). В патенте упоминается примерный порог в 10% общих Min-Hash values на уровне документа. Также система может игнорировать (дисконтировать) те Min-Hash values, которые встречаются слишком часто во всем корпусе (например, общие фразы или boilerplate), чтобы избежать ложных срабатываний.

Что такое «Linear page-to-page fit» и что он показывает?

Это модель, которая пытается предсказать, как текст одного документа распределен по страницам по сравнению с другим. Она вычисляет «множитель» и «смещение». Если множитель близок к 1 и смещение мало, пагинация идентична. Отклонения помогают понять, как именно изменилось форматирование или является ли один документ частью другого.

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах

Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.

US8122032B2
2012-02-21

Индексация
Ссылки

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета

Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.

US7707157B1
2010-04-27

Индексация
SERP

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба

Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.

US8131751B1
2012-03-06

Индексация

Как Google улучшает Min-Hash сигнатуры для более точного обнаружения почти дубликатов контента

Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.

US8447032B1
2013-05-21

Индексация
Техническое SEO

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

US10152479B1
2018-12-11

Мультимедиа
SERP
Индексация

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)

Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.

US8478519B2
2013-07-02

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи

Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.

US7996379B1
2011-08-09

Семантика и интент
Ссылки
SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам

Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.

US8788477B1
2014-07-22

Поведенческие сигналы
EEAT и качество
SERP

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей

Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.

US9244972B1
2016-01-26

EEAT и качество
Семантика и интент
SERP

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO