Как Google использует гибридный каскад алгоритмов (Shingling и SimHash) для высокоточного обнаружения дубликатов перед индексацией

DETECTING DUPLICATE AND NEAR-DUPLICATE FILES (Обнаружение дубликатов и почти дубликатов файлов)

US8015162B2
Google LLC
2006-08-04
2011-09-06

Google применяет сложный гибридный подход для обнаружения дубликатов и почти дубликатов контента. Система комбинирует каскадное и параллельное применение двух разных алгоритмов (например, Shingling/Broder и SimHash/Charikar), чтобы достичь высокой точности и полноты. Это позволяет эффективно идентифицировать и удалять из индекса страницы с минимальными различиями (порог схожести до 97%), что критически важно для процессов каноникализации.

Какую проблему решает

Патент решает проблему точности и эффективности обнаружения почти дубликатов (near-duplicate documents) в масштабах веба. Существующие алгоритмы (такие как Broder/Shingling и Charikar/SimHash) по отдельности имеют недостатки: они могут давать ложные срабатывания (низкая точность) или пропускать реальные дубликаты (низкая полнота). Особенно сложной задачей является обнаружение дубликатов на одном сайте из-за шаблонного контента (boilerplate text). Цель изобретения — повысить точность и полноту обнаружения для экономии ресурсов индексирования и улучшения качества поиска.

Что запатентовано

Запатентована гибридная система обнаружения почти дубликатов, которая комбинирует два различных метода анализа схожести. Система использует каскадный подход: первый метод (например, зависящий от порядка слов) генерирует начальный набор кандидатов, а второй метод (например, зависящий от частоты слов) фильтрует этот набор с высоким порогом. Также запатентован механизм повышения полноты (Recall) путем параллельного запуска второго метода на всем наборе данных и объединения результатов.

Как это работает

Система комбинирует каскадный и параллельный подходы:

Каскад (Точность и Эффективность): Весь корпус обрабатывается Техникой 1 (например, Shingling). Полученные кандидаты затем проверяются Техникой 2 (например, SimHash) с использованием Порога 1 (например, 96%).
Параллельный процесс (Полнота): Весь корпус независимо обрабатывается Техникой 2 с использованием Порога 2 (более высокого, например, 97%). Это находит дубликаты, которые могла пропустить Техника 1.
Объединение и Индексация: Результаты каскадного и параллельного процессов объединяются (UNION). Идентифицированные дубликаты удаляются, а оставшиеся уникальные документы индексируются.

Актуальность для SEO

Высокая. Обнаружение дубликатов и каноникализация являются фундаментальными задачами для поисковых систем. Описанные методы (Shingling, Min-Hashing, SimHash/Random Projections) являются стандартными техниками Locality-Sensitive Hashing (LSH) и широко используются в индустрии. Принцип комбинирования различных алгоритмов для балансировки точности, полноты и эффективности остается крайне актуальным.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он описывает инфраструктурные механизмы, которые напрямую определяют, будет ли контент проиндексирован или классифицирован как дубликат. Понимание этих процессов критически важно для технического SEO (управление фасетной навигацией, параметрами URL) и контент-стратегии (требования к уникальности, синдикация контента). Система определяет основу для каноникализации.

Термины и определения

Broder Algorithm (Алгоритм Бродера / Техника 1): Техника определения схожести, основанная на Shingling и Min-Hashing. В патенте характеризуется как order dependent (зависит от порядка токенов) и frequency independent (не зависит от частоты). Использует пересечение множеств (set intersection) и анализирует подмножество токенов.
Charikar Algorithm (Алгоритм Чарикара / SimHash / Техника 2): Техника определения схожести, основанная на случайных проекциях (random projections). В патенте характеризуется как order independent (не зависит от порядка) и frequency dependent (зависит от частоты токенов). Оценивает косинусное сходство и анализирует все токены.
Shingles (Шинглы): Перекрывающиеся подпоследовательности из k токенов документа (k-grams).
Minvalues (Мин-хеши): Компактное представление документа в алгоритме Бродера. Вектор, состоящий из наименьших значений, полученных после применения m различных хэш-функций ко всем шинглам документа.
Supershingles (Супершинглы): Дальнейшее сжатие вектора Minvalues. Последовательности мин-хешей объединяются и хэшируются в одно значение (супершингл) для ускорения сравнения.
Token (Токен): Единица контента (слово или хэш слова). Документы преобразуются в последовательности токенов (token sequence bit strings).
Boilerplate Text (Шаблонный текст): Повторяющийся контент (меню, футер), который усложняет обнаружение дубликатов внутри сайта.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный гибридный процесс обнаружения и удаления дубликатов перед индексированием. Это ключевое утверждение, объединяющее каскад и параллельный процесс.

Система сканирует (crawling) и идентифицирует набор документов.
Каскад, Шаг 1 (Техника 1): Обработка набора Первой техникой (token order dependent и token frequency independent) для получения Первого набора почти дубликатов.
Каскад, Шаг 2 (Техника 2): Обработка Первого набора Второй техникой (token order independent и token frequency dependent) с использованием Порога 1 (first threshold value). Результат — Второй набор.
Параллельный процесс (Повышение полноты): Обработка исходного набора Второй техникой с использованием Порога 2 (second threshold value), который выше Порога 1. Результат — Третий набор.
Объединение (Union): Финальный набор дубликатов = Второй набор ∪ Третий набор.
Индексация: Удаление Финального набора дубликатов и индексация оставшихся документов.

Claim 2 и 3 (Зависимые): Уточняют характеристики техник. Техника 1 использует подмножество токенов (как Minvalues в Broder) и пересечение множеств. Техника 2 использует все токены документа (как в Charikar) и случайные проекции.

Claims 5-7 (Зависимые): Детализируют реализацию Техники 1 (Алгоритм Бродера). Включает Shingling (k=5-10), вычисление Minvalues (m=84) и Supershingles (m'=6). Порог схожести — совпадение как минимум двух супершинглов.

Claims 8-11 (Зависимые): Детализируют реализацию Техники 2 (Алгоритм Чарикара). Включает случайные проекции в b-мерное пространство (b=100-384, например 384).

Claims 14-16 (Зависимые): Устанавливают высокие пороги для Техники 2. Например, 372 из 384 битов (Claim 14), что составляет примерно 97% (Claim 15) или минимум 96% (Claim 16).

Где и как применяется

Изобретение применяется на ранних этапах обработки контента, связывая сканирование и индексирование.

CRAWLING – Сканирование и Сбор данных
Система собирает документы, которые поступают на вход алгоритма.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Процесс происходит после сбора контента и токенизации (Pre-indexing operation), но до создания основного поискового индекса (Inverted Index).

Препроцессинг и Токенизация: Документы очищаются, текст преобразуется в токены. Упоминается возможность удаления boilerplate. URL и изображения также токенизируются.
Извлечение признаков (Feature Extraction): Генерация компактных представлений (fingerprints) для обоих алгоритмов (Supershingles и SimHash).
Обнаружение дубликатов: Выполнение гибридного каскадного и параллельного алгоритма.
Каноникализация и Очистка индекса: Идентифицированные дубликаты удаляются перед индексацией оставшихся документов (Claim 1).

Входные данные: Набор сканированных документов, преобразованных в последовательности токенов.

Выходные данные: Очищенный набор уникальных документов для индексации; Кластеры дубликатов.

На что влияет

Все типы контента: Веб-страницы, PDF, текстовые файлы, email (SPAM), новостные сниппеты.
Внутрисайтовые дубликаты: Патент специально адресует проблему дубликатов на одном сайте (same Website), вызванную шаблонным текстом. Гибридный подход повышает точность в этих сценариях.
Технические дубликаты: Эффективно обнаруживает дубликаты, возникающие из-за параметров URL, зеркалирования, разных форматов.
Плагиат и Синдикация: Обнаруживает скопированный контент на разных доменах.

Когда применяется

Триггеры активации: Применяется к каждому новому или обновленному документу в процессе индексирования.
Пороговые значения: Критически зависят от настроек:
- Порог для Техники 1 (Broder): например, минимум 2 совпадающих супершингла.
- Пороги для Техники 2 (Charikar): высокие значения, 96-97% совпадения битов. Используются два порога: T1 для фильтрации в каскаде и T2 (>=T1) для повышения полноты в параллельном процессе.

Пошаговый алгоритм

Этап А: Подготовка данных

Сбор и Токенизация: Документы сканируются и преобразуются в токены.
Генерация признаков:
- Для Техники 1 (Broder): Создаются шинглы (k=5-10), вычисляются Minvalues (m=84), генерируются Supershingles (m'=6).
- Для Техники 2 (Charikar): Вычисляется b-мерный бинарный вектор (b=384).

Этап Б: Выполнение гибридного обнаружения

Каскад, Шаг 1 (Техника 1): Сравнение Supershingles. Отбор пар, у которых совпадает ≥ 2 супершинглов. Формируется Первый набор (Кандидаты).
Каскад, Шаг 2 (Техника 2): Для каждой пары из Первого набора вычисляется схожесть по Технике 2 (количество совпадающих битов). Применение Порога 1 (например, 96%). Если схожесть ниже порога, пара удаляется. Формируется Второй набор.
Параллельный процесс (Техника 2): Применение Техники 2 ко всему корпусу документов. Применение Порога 2 (>= Порога 1, например, 97%). Формируется Третий набор.
Объединение: Финальный набор = UNION (Второй набор, Третий набор).

Этап В: Применение результатов

Удаление и Каноникализация: Документы из Финального набора помечаются как дубликаты и удаляются из набора для индексации.
Индексирование: Оставшиеся уникальные документы индексируются.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа, преобразованный в токены. Это основной источник данных.
Структурные факторы (Порядок слов): Порядок токенов критически важен для Техники 1 (Shingling), но игнорируется Техникой 2.
Мультимедиа и Технические факторы (URL/IMG): Патент предлагает токенизировать URL в тексте и тегах IMG. Это позволяет учитывать ссылки и изображения при оценке схожести. Для изображений на том же хосте может использоваться только имя файла, для внешних – полный URL.

Какие метрики используются и как они считаются

Система использует две основные метрики схожести:

1. B-similarity (Схожесть по Бродеру / Пересечение множеств):

Как считается: Оценивает коэффициент Жаккара для наборов шинглов. На практике измеряется как количество совпадающих Supershingles.
Формула (оценка):

Гибридный подход для максимальной эффективности: Google не полагается на один алгоритм. Комбинация двух комплементарных методов (один чувствителен к порядку, другой к частоте) позволяет достичь баланса между скоростью обработки, точностью (Precision) и полнотой (Recall).
Каскадная и параллельная обработка: Система использует сложную логику: каскад (Т1 -> Т2) для эффективности и точности, и параллельный запуск (Т2 с высоким порогом) для гарантии полноты охвата, компенсируя слабости отдельных алгоритмов.
Агрессивные пороги схожести: Для классификации контента как дубликата используются очень высокие пороги (96-97%). Это означает, что страницы с минимальными различиями будут агрессивно кластеризоваться.
Уникальность требует существенных отличий: Поверхностный рерайтинг или перестановка блоков контента не гарантируют уникальности, так как система анализирует контент комплексно (и порядок, и состав слов).
Борьба с шаблонным контентом (Boilerplate): Гибридный подход разработан, в том числе, для решения проблемы ложных срабатываний из-за boilerplate text на страницах одного сайта.
Индексация зависит от уникальности: Процесс является фундаментальным этапом очистки данных, происходящим до включения контента в поисковый индекс.

Best practices (это мы делаем)

Обеспечение существенной уникальности контента: Учитывая порог в 96-97%, необходимо гарантировать, что каждая индексируемая страница имеет значительный объем уникального контента. Недостаточно просто поменять несколько слов или предложений.
Глубокий рерайтинг для уникализации: При рерайтинге необходимо менять как структуру предложений и порядок следования информации (для снижения схожести по Shingling/Техника 1), так и сам набор слов и их частоту (для снижения схожести по SimHash/Техника 2).
Управление шаблонным контентом (Boilerplate): Минимизируйте объем boilerplate text по отношению к основному контенту. Убедитесь, что уникальный контент доминирует на странице, чтобы избежать ошибочной классификации страниц внутри сайта как дубликатов.
Использование уникальных медиа: Поскольку URL изображений (IMG tags) могут учитываться как токены, использование уникальных изображений (с уникальными именами файлов) может помочь дифференцировать страницы с похожим текстом.
Четкая стратегия каноникализации: Для управления техническими дублями (параметры URL, фасеты) необходимо предоставлять четкие сигналы (rel=canonical), чтобы помочь системе выбрать правильную версию из кластера дубликатов, обнаруженного этим алгоритмом.

Worst practices (это делать не надо)

Создание страниц с минимальными отличиями (Doorways): Генерация большого количества страниц путем подстановки переменных (например, названия города) в шаблон неэффективна. Система идентифицирует их как почти дубликаты.
Поверхностный спиннинг или синонимайзинг: Автоматические методы уникализации часто не меняют контент достаточно глубоко. Если порядок слов сохранен, сработает Техника 1. Если порядок изменен, но набор и частота ключевых слов остались прежними, сработает Техника 2.
Перестановка абзацев: Изменение порядка блоков контента может повлиять на алгоритм Broder, но не повлияет на алгоритм Charikar (order independent). Система все равно может признать такие страницы дубликатами.
Синдикация контента без каноникализации: Публикация вашего контента на сторонних сайтах без указания канонической ссылки на оригинал рискованна, так как система легко обнаружит дубликат и может выбрать не вашу страницу в качестве основной.

Стратегическое значение

Патент подтверждает стратегический приоритет уникального контента и демонстрирует сложность инфраструктуры Google для поддержания чистоты индекса. Долгосрочная SEO-стратегия должна фокусироваться на создании реальной добавленной ценности. Попытки масштабирования контента через дублирование или поверхностную уникализацию будут алгоритмически пресекаться еще до этапа ранжирования.

Практические примеры

Сценарий: Уникализация карточек товаров в E-commerce

Сайт продает модель смартфона в 5 цветах. Изначально создается 5 страниц с идентичным описанием и характеристиками, меняется только цвет и изображение.

Анализ Google:
- Техника 1 (Broder/Shingling): Обнаруживает очень высокую схожесть, так как порядок слов идентичен.
- Техника 2 (Charikar/SimHash): Обнаруживает схожесть >97%, так как набор и частота слов почти идентичны.
Результат: 4 из 5 страниц признаются дубликатами и исключаются из индекса.
SEO-Действие 1 (Каноникализация): Если отдельные URL необходимы, использовать rel=canonical на всех вариантах, указывая на основную версию товара.
SEO-Действие 2 (Уникализация): Переписать описания для каждого цвета, меняя структуру текста (влияет на Технику 1) и добавляя уникальную информацию (влияет на Технику 2). Добавить уникальные пользовательские отзывы для каждого варианта.
Ожидаемый результат после Действия 2: Снижение схожести по обеим техникам ниже пороговых значений (например, до 85%), что позволит страницам индексироваться как уникальным документам.

Насколько похожими должны быть страницы, чтобы Google посчитал их дубликатами согласно этому патенту?

Патент указывает на очень высокие пороги схожести. В частности, для второй техники (Charikar/SimHash) упоминается порог около 96-97% (например, 372 совпадающих бита из 384). Это означает, что страницы должны быть практически идентичными по содержанию, чтобы быть классифицированными как дубликаты этим методом.

Поможет ли изменение порядка абзацев или слов сделать контент уникальным?

Скорее всего, нет. Система использует гибридный подход. Изменение порядка слов повлияет на Технику 1 (Shingling), так как она зависит от порядка. Однако Техника 2 (SimHash) не зависит от порядка слов и анализирует общий состав и частоту токенов. Если состав слов останется прежним, Техника 2 все равно обнаружит высокую степень схожести.

Что такое Shingling (Алгоритм Бродера) и как он работает?

Shingling (Техника 1) разбивает текст на короткие перекрывающиеся последовательности слов (шинглы), например, фразы из 8 слов. Затем система сравнивает наборы этих фраз у разных документов. Если значительная часть последовательностей совпадает, документы считаются похожими. Этот метод чувствителен к точному порядку слов.

Что такое Random Projections/SimHash (Алгоритм Чарикара) и как он работает?

SimHash (Техника 2) создает компактную "подпись" (fingerprint) документа на основе всех слов в нем и их частоты, но игнорирует порядок слов. Он оценивает общую тематическую схожесть (косинусное сходство). Если подписи двух документов очень близки (например, на 97%), то и набор слов в документах схож.

Зачем Google комбинирует эти два алгоритма в сложную систему (каскад + параллельный запуск)?

Это делается для достижения баланса между точностью, полнотой и эффективностью. Каскад (Т1 -> Т2) позволяет быстро отсеять кандидатов и точно проверить их, повышая точность. Параллельный запуск (Т2 с высоким порогом) гарантирует, что очевидные дубликаты не будут пропущены, повышая полноту (Recall). Комбинация компенсирует слабости каждого отдельного алгоритма.

Как этот патент помогает бороться с Boilerplate (шаблонным контентом)?

Шаблонный контент (меню, футер) часто приводит к ложным срабатываниям Техники 1 (Shingling). Однако, если основной контент на страницах различается, Техника 2 (SimHash) покажет более низкую общую схожесть. Используя высокий порог для Техники 2, система отфильтровывает пары, которые похожи только из-за шаблонов. Также патент упоминает возможность удаления boilerplate на этапе предобработки.

Как этот патент связан с каноникализацией (rel=canonical)?

Этот патент описывает механизм, с помощью которого Google обнаруживает кластеры дубликатов. После того как дубликаты обнаружены, система каноникализации должна выбрать одну версию для индексации. Использование rel="canonical" является сильным сигналом, помогающим системе выбрать предпочтительную версию из кластера, идентифицированного этим гибридным алгоритмом.

Учитывает ли система изображения при определении дубликатов?

Да, в некоторой степени. Патент упоминает, что URL изображений (в тегах IMG) могут быть преобразованы в токены и использованы в анализе. Если страницы имеют разные изображения с разными URL или именами файлов, это внесет различия в набор токенов и может помочь снизить общий показатель схожести.

Где применяется этот алгоритм в архитектуре поиска?

Он применяется на этапе индексирования (Indexing), сразу после сбора контента (Crawling) и перед его добавлением в основной индекс. Это процесс предобработки и очистки данных, который позволяет поисковой системе не тратить ресурсы на хранение и ранжирование дубликатов.

Влияет ли этот патент на ранжирование?

Напрямую нет, так как это не алгоритм ранжирования. Однако он имеет критическое косвенное влияние: если ваша страница будет признана дубликатом и исключена из индекса (или не выбрана в качестве канонической), она не сможет ранжироваться. Обеспечение уникальности контента является необходимым условием для попадания в индекс.

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах

Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.

US8122032B2
2012-02-21

Индексация
Ссылки

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования

Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.

US8140505B1
2012-03-20

Краулинг
Индексация

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе

Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.

US8527516B1
2013-09-03

Индексация

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов

Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.

US7734627B1
2010-06-08

Индексация
Антиспам

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета

Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.

US7707157B1
2010-04-27

Индексация
SERP

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей

Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.

US10110701B2
2018-10-23

Knowledge Graph
Поведенческие сигналы
Персонализация