SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов

DOCUMENT SIMILARITY DETECTION (Обнаружение сходства документов)
  • US7734627B1
  • Google LLC
  • 2003-06-17
  • 2010-06-08
  • Индексация
  • Антиспам
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.

Описание

Какую проблему решает

Патент решает проблему надежного обнаружения похожих или почти дублирующихся документов (near duplicate documents) в условиях, когда текст может быть намеренно изменен (например, в спам-рассылках, при плагиате или рерайтинге). Существовавшие методы имели уязвимости:

  • Метод шинглов (Shingle method): Анализирует последовательные цепочки слов. Легко обходится локальными заменами, перестановками слов (например, прилагательных) или удалением слов, что разрушает цепочку.
  • Метод векторов термов (Term vector approaches): Рассматривает документ как набор слов без учета их порядка. Приводит к ложным срабатываниям, считая идентичными документы с одинаковым набором слов, но разным смыслом.

Изобретение направлено на создание метода, который учитывает порядок слов, но устойчив к локальным изменениям текста.

Что запатентовано

Запатентован метод обнаружения сходства документов, основанный на анализе относительного порядка термов. Документ характеризуется как «кластер» (cluster), состоящий из набора упорядоченных пар термов (pairs of ordered terms). Пара (U, V) означает, что терм U предшествует терму V в документе, но они не обязательно должны быть последовательными. Сходство определяется путем сравнения количества общих упорядоченных пар между новым документом и существующими кластерами.

Как это работает

Система работает в двух режимах:

1. Построение модели (Индексация):

  • Для каждого документа создается cluster путем выборки (sampling) упорядоченных пар слов. Выборка является случайной, но смещенной (biased) – например, предпочтение отдается близко расположенным словам и редким словам.
  • Создается инвертированный индекс (Inverted Index), который связывает каждую уникальную пару с кластерами (документами), в которых она встречается.

2. Проверка сходства (Сравнение):

  • В новом документе перечисляются (enumerate) его собственные пары слов (например, все пары в пределах фиксированного окна).
  • Эти пары ищутся в Inverted Index для выявления существующих кластеров, содержащих те же пары.
  • Подсчитывается количество общих пар и рассчитывается метрика сходства (similarity metric). Если она превышает порог, документы считаются похожими или дубликатами.

Актуальность для SEO

Высокая. Обнаружение дублированного, переписанного (spun) и автоматически сгенерированного контента остается критически важной задачей для Google. Описанный механизм обеспечивает устойчивый способ идентификации структурного сходства контента, который сложнее обойти, чем простые методы сравнения текста. Принципы, заложенные в патенте, лежат в основе систем каноникализации и борьбы с контент-спамом.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10), особенно в области контент-стратегии и технического SEO. Он объясняет, как поисковые системы могут идентифицировать неоригинальный контент, даже если он был подвергнут значительному рерайтингу или спиннингу. Понимание этого механизма подчеркивает бесполезность простого переписывания контента и важность создания уникальной структуры и добавленной ценности для избежания проблем с дублированием и индексацией.

Детальный разбор

Термины и определения

Cluster (Кластер)
Представление документа в модели сходства. Состоит из набора выбранных (sampled) упорядоченных пар термов (или n-ary векторов), извлеченных из этого документа.
Cluster Aggregation (Агрегация кластеров)
Процесс подсчета количества общих пар между проверяемым документом и существующими кластерами, найденными в инвертированном индексе.
Inverted Index (Инвертированный индекс)
Структура данных, которая хранит соответствие между конкретной упорядоченной парой термов и списком кластеров (документов), содержащих эту пару.
Pairs of ordered terms (Упорядоченные пары термов)
Основа изобретения. Пара (U, V), где U и V — термы (слова, фразы) из документа, и U встречается в тексте раньше V. Важно, что между U и V могут находиться другие слова (non-consecutive).
Pair Enumeration (Перечисление пар)
Процесс генерации пар термов из проверяемого документа для последующего сравнения с моделью. Может включать пары в пределах фиксированного окна (fixed window size).
Sampling (Выборка)
Процесс выбора подмножества упорядоченных пар из документа для создания его кластера. Является случайной (randomly sampling), но смещенной (biased).
Similarity Metric (Метрика сходства)
Числовое значение, определяющее степень сходства между документом и кластером. Может быть абсолютным количеством общих пар или процентом общих пар.
Similarity Model (Модель сходства)
Совокупность данных, используемых для определения сходства, включающая Inverted Index и опционально Table of Pairs.
Table of Pairs (Таблица пар)
Опциональная структура данных, хранящая общее количество пар в каждом кластере. Используется для расчета процентной метрики сходства.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения сходства.

  1. Система проводит случайную выборку (randomly sampling) упорядоченных пар термов из документа для генерации кластера.
  2. Ключевые характеристики пар: они упорядочены (первый терм предшествует второму), и между ними могут быть промежуточные термы (т.е. они не обязательно последовательны).
  3. Ключевая характеристика выборки: она смещена (biased). Смещение реализовано так, что термы, расположенные ближе друг к другу (меньше промежуточных слов), имеют больший шанс быть включенными в пару.
  4. Система строит модель сходства (similarity model), включающую этот кластер.
  5. Система сравнивает пары из целевого документа с кластерами в модели и генерирует метрики сходства (similarity metrics).

Ядром изобретения является использование упорядоченных, но непоследовательных пар в сочетании со смещенной выборкой, предпочитающей близость. Это обеспечивает баланс между устойчивостью к локальным изменениям и чувствительностью к структуре документа.

Claim 5 и 6 (Зависимые): Детализируют дополнительные смещения при выборке. Выборка предпочитает редкие (rare) термы (Claim 5), но исключает очень редкие (very rare) термы (Claim 6).

Редкие термы более информативны для определения темы документа. Очень редкие термы часто являются шумом (например, случайные символы, добавляемые спамерами), и их исключение повышает устойчивость к манипуляциям.

Claim 9 (Зависимый): Описывает процесс сравнения (comparing). При сравнении целевого документа с моделью система перечисляет пары из целевого документа так, что термы в паре находятся в пределах фиксированного расстояния (fixed distance) друг от друга (использование окна).

Claim 10 (Независимый пункт): Описывает устройство (similarity detection device), реализующее метод, включая компонент создания кластеров (с тем же смещением по близости, что и в Claim 1), Inverted Index, компонент перечисления пар и компонент выбора кластеров.

Где и как применяется

Изобретение применяется преимущественно на этапах индексирования для обеспечения качества контента и эффективности системы.

CRAWLING – Сканирование и Сбор данных

Обнаружение дубликатов может использоваться для оптимизации краулингового бюджета, предотвращая повторное сканирование или загрузку уже известного контента.

INDEXING – Индексирование и извлечение признаков

Основной этап применения. Система используется для:

  • Построения модели сходства: На этом этапе происходит выборка пар (sampling) и обновление Inverted Index для новых документов.
  • Обнаружения дубликатов и Каноникализации: При обработке нового контента система проверяет его сходство с существующей similarity model. Если обнаружено высокое сходство, новый документ может быть отброшен, объединен с существующим или использован для выбора канонической версии.

RANKING / RERANKING – Ранжирование и Переранжирование

На этапе формирования выдачи система может использовать данные о сходстве для обеспечения разнообразия SERP, предотвращая показ нескольких почти идентичных результатов (near duplicate documents) одному пользователю.

Входные данные:

  • Текст документа.
  • Существующая модель сходства (Inverted Index, Table of Pairs).
  • Данные о частотности термов в корпусе (для расчета смещений по редкости).

Выходные данные:

  • Обновленная модель сходства.
  • Метрики сходства (Similarity metrics) между документами.
  • Решение о статусе документа (дубликат/оригинал/плагиат).

На что влияет

  • Типы контента: Влияет на все типы текстового контента. Критично для статей, новостей, описаний товаров в ecommerce (где часто встречаются дубликаты от разных поставщиков или аффилиатов).
  • Spun Content и Рерайтинг: Механизм специально разработан для обнаружения контента, который был изменен путем замены синонимов, перестановки слов или добавления «воды», но сохранил основную структуру и порядок ключевых идей.
  • Плагиат: Патент упоминает использование системы для обнаружения плагиата путем сравнения как целых документов, так и отдельных сегментов (например, параграфов).

Когда применяется

Алгоритм применяется в двух основных сценариях:

  1. При индексации нового документа: Для обновления модели сходства и принятия решения о включении документа в основной индекс.
  2. При проверке документа на сходство/спам/плагиат: Для сравнения целевого документа с существующей базой.

Условия срабатывания:

  • Пороговое значение (Threshold): Сходство фиксируется, когда similarity metric (количество или процент общих упорядоченных пар) между двумя документами превышает заданный порог.

Пошаговый алгоритм

Процесс А: Построение модели сходства (Индексация)

  1. Получение документа: Система получает документ для анализа.
  2. Выборка пар (Sampling): Документ обрабатывается для получения набора упорядоченных пар термов (кластера). Применяется смещенная случайная выборка:
    • Смещение по близости: Предпочтение парам, расположенным близко друг к другу (Claim 1).
    • Смещение по частотности: Предпочтение редким термам, но исключение очень редких (Claim 5, 6).
    • Смещение по локации (опционально): Предпочтение термам из определенных разделов документа (например, верхняя средняя часть, как указано в описании).
  3. Обновление инвертированного индекса: Inverted Index обновляется, чтобы включить ссылки на новый кластер для каждой выбранной пары.
  4. Обновление таблицы пар (Опционально): Table of Pairs обновляется, чтобы отразить общее количество пар в новом кластере.

Процесс Б: Проверка сходства документа

  1. Получение документа: Система получает целевой документ для проверки.
  2. Перечисление пар (Pair Enumeration): Генерируются упорядоченные пары из целевого документа. Обычно это пары в пределах фиксированного окна (fixed window size) (Claim 9).
  3. Поиск пар (Pair Lookup): Каждая перечисленная пара ищется в Inverted Index для получения списка кластеров, содержащих эту пару.
  4. Агрегация кластеров (Cluster Aggregation): Система подсчитывает количество общих пар между целевым документом и каждым найденным кластером.
  5. Определение метрики сходства (Similarity Metric): Рассчитывается метрика сходства. Это может быть абсолютное число общих пар или процентное соотношение (число общих пар / общее число пар в кластере).
  6. Сравнение с порогом (Threshold Check): Метрика сравнивается с порогом. Если порог превышен, целевой документ помечается как похожий или дубликат.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Основные данные — это термы (слова) документа и их относительный порядок. Система может игнорировать определенные элементы, например, термы внутри HTML-тегов (как указано в описании).
  • Структурные факторы: Местоположение термов в документе может использоваться в процессе выборки (смещение по локации). Структура документа анализируется через порядок термов.
  • Технические факторы: Длина документа может влиять на количество сэмплируемых пар (больше пар для длинных документов).

Какие метрики используются и как они считаются

Метрики выборки (Sampling Biases):

  • Близость термов (Proximity): Расстояние между термами U и V. Вероятность выбора пары выше, если расстояние меньше (Claim 1).
  • Частотность термов (Term Frequency): Статистика частоты термов в корпусе. Используется для определения «редких» и «очень редких» слов (Claims 5, 6).
  • Позиция в документе (Document Location): Положение терма в тексте (начало, середина, конец). Может использоваться для смещения выборки.

Метрики сходства (Similarity Metrics):

  • Абсолютное совпадение: Количество упорядоченных пар, общих для проверяемого документа и существующего кластера.
  • Процентное совпадение (Нормализованное): (Количество общих пар) / (Общее количество пар в кластере). Для этого используется Table of Pairs.

Пороговые значения (Thresholds):

  • Используются для принятия бинарного решения (похож/не похож) на основе рассчитанной Similarity Metric.

Выводы

  1. Структурное сходство важнее точных формулировок: Google может определять сходство документов, анализируя относительный порядок ключевых термов, а не только совпадение последовательных фраз (шингов). Это делает систему устойчивой к локальным изменениям текста.
  2. Устойчивость к спиннингу и рерайтингу: Методы, такие как замена синонимов, перестановка прилагательных или добавление «воды», неэффективны против этого алгоритма, так как они часто сохраняют базовый порядок основных термов документа.
  3. Смещенная выборка (Biased Sampling) как ключ к эффективности: Система фокусируется на наиболее значимых связях для повышения точности и защиты от манипуляций:
    • Пары, расположенные близко друг к другу, имеют больший вес (Claim 1).
    • Редкие слова имеют больший вес, чем частые, но очень редкие (шум) игнорируются (Claims 5, 6).
  4. Фундаментальный механизм для каноникализации: Этот механизм является критически важным для определения дубликатов, что напрямую влияет на то, какие страницы будут проиндексированы и какая версия будет выбрана в качестве канонической.
  5. Обнаружение частичного плагиата: Система может работать на уровне сегментов (параграфов), позволяя обнаруживать не только полные дубликаты, но и документы, составленные из фрагментов других источников.

Практика

Best practices (это мы делаем)

  • Создание уникальной структуры контента: При написании контента фокусируйтесь не только на уникальности формулировок, но и на уникальной структуре и последовательности изложения идей. Оригинальность должна быть на уровне архитектуры документа, а не только на уровне предложений.
  • Добавление значимой ценности и глубокая переработка: При использовании сторонних источников информации необходимо значительно перерабатывать контент, добавляя новые данные, аналитику или экспертные мнения. Это изменит набор и порядок ключевых термов, снижая метрику сходства.
  • Управление техническими дубликатами и каноникализацией: Используйте канонические теги (rel=canonical) для управления дубликатами (например, параметры URL, версии для печати). Это помогает системе консолидировать сигналы ранжирования на правильной версии.
  • Минимизация шаблонного контента (Boilerplate): Убедитесь, что объем уникального контента значительно превышает объем повторяющегося шаблонного текста (футеры, сайдбары). Большое количество boilerplate увеличивает структурное сходство между разными страницами сайта.
  • Фокус на качестве в основной части документа: Поскольку патент упоминает возможность смещения выборки в сторону определенных разделов (например, верхней средней части) для борьбы со спамом, убедитесь, что основное содержание документа качественно и уникально, и не полагайтесь на добавление шума в начале или конце.

Worst practices (это делать не надо)

  • Поверхностный рерайтинг и спиннинг: Использование автоматических инструментов для спиннинга или ручной рерайтинг, заключающийся только в замене слов на синонимы или изменении порядка слов в предложении. Этот патент напрямую направлен против таких тактик, так как относительный порядок ключевых термов сохраняется.
  • «Разбавление» контента шумом или «водой»: Добавление случайного текста или нерелевантных параграфов для обмана систем сходства. Патент предусматривает игнорирование шума путем фокусировки выборки на редких термах (исключая очень редкие) или на конкретных разделах документа.
  • Создание множества страниц с шаблонным контентом: Генерация большого количества страниц (например, локальных лендингов или дорвеев), где меняются только несколько ключевых слов, а основная структура остается неизменной. Такие страницы будут иметь высокую Similarity Metric.
  • Компиляция чужого контента: Создание статей путем компиляции параграфов из разных источников без значительной переработки. Система может обнаружить сходство на уровне отдельных параграфов.

Стратегическое значение

Патент подтверждает, что Google обладает сложными механизмами для понимания оригинальности контента на структурном уровне. Это подчеркивает стратегическую необходимость инвестиций в создание действительно уникального и ценного контента. Стратегии, основанные на массовом производстве низкокачественного или переработанного контента, несут высокие риски, так как такой контент может быть классифицирован как дублирующийся. Для SEO-специалистов это означает, что оценка уникальности должна включать анализ структуры и добавленной ценности.

Практические примеры

Сценарий: Обнаружение рерайтинга статьи

  1. Оригинальный текст (Документ А): "The quick brown fox jumped over the lazy dog. This event was unprecedented."
  2. Переписанный текст (Документ Б – Спиннинг): "The brown quick fox leaped over a lazy dog. This occurrence was highly unusual."
  3. Анализ методом шинглов (длина 4): Совпадений нет.
  4. Анализ по патенту (Упорядоченные пары):
    • Несмотря на изменения слов (jumped -> leaped) и их порядка (quick brown -> brown quick), многие базовые упорядоченные пары сохраняются. Например, (fox, dog), (quick, lazy), (brown, over).
  5. Результат: Система обнаружит высокое сходство, так как ключевые термы сохраняют относительный порядок.
  6. Уникальный текст (Документ В): "The lazy dog was surprised when a brown fox jumped over him. Observers called the event unprecedented." В этом случае порядок слов изменен структурно (dog предшествует fox), что значительно снизит метрику сходства с Документом А.

Вопросы и ответы

Чем этот метод отличается от метода шинглов (Shingling)?

Метод шинглов анализирует строго последовательные цепочки слов. Если изменить одно слово в цепочке или поменять слова местами (например, «быстрый коричневый лис» на «коричневый быстрый лис»), шингл разрушается. Описанный в патенте метод использует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет обнаруживать сходство, даже если текст был локально изменен, пока общий относительный порядок ключевых слов сохраняется.

Насколько эффективен этот метод против автоматического спиннинга статей?

Он высокоэффективен против стандартного спиннинга, который основан на замене синонимов и перестановке фраз. Поскольку структура документа и последовательность основных идей (и, следовательно, порядок ключевых термов) при спиннинге часто сохраняются, система обнаружит высокую метрику сходства. Для обхода этого метода требуется глубокий рерайтинг, который полностью перестраивает структуру документа.

Что значит «смещенная выборка» (biased sampling) пар и почему она важна?

Это означает, что система не выбирает пары слов случайно, а использует правила для повышения точности. Во-первых, предпочтение отдается словам, которые находятся ближе друг к другу в тексте (Claim 1). Во-вторых, предпочтение отдается более редким (информативным) словам, но игнорируются очень редкие (шум) (Claims 5, 6). Это позволяет создать точный и устойчивый к манипуляциям отпечаток документа.

Как знание о предпочтении близко расположенных пар влияет на создание контента?

Это подчеркивает важность уникальности на уровне предложений и параграфов. Если вы берете чужой параграф и меняете в нем несколько слов, связи между оставшимися словами (которые находятся близко друг к другу) сохранятся. Чтобы создать уникальный контент, нужно не просто менять слова, а перестраивать сами связи между ними, меняя структуру изложения.

Влияет ли этот патент на каноникализацию (Canonicalization)?

Да, напрямую. Этот механизм является одним из инструментов, которые Google использует для идентификации дубликатов. Если система обнаруживает несколько страниц с высокой метрикой сходства, она запускает процесс каноникализации для выбора одной версии для индексации и ранжирования.

Эффективно ли добавлять «воду» или случайный текст для уникализации контента?

Нет. Патент предусматривает механизмы защиты от этого. Система может смещать выборку в сторону редких (значимых) слов, игнорируя частые. Также она может исключать «очень редкие» слова, которые часто являются случайным шумом. Кроме того, выборка может фокусироваться на основной части документа (например, верхней средней части), игнорируя шум в начале или конце.

Как этот патент влияет на использование шаблонного текста (boilerplate) на сайте?

Он оказывает значительное негативное влияние. Если большая часть страницы состоит из повторяющегося шаблонного текста (например, обширные футеры, сайдбары), а уникальный контент занимает малую часть, то разные страницы сайта могут быть признаны структурно похожими (near-duplicates). Необходимо следить за тем, чтобы объем уникального контента значительно превышал объем шаблонного.

Применяется ли этот метод только к целым документам?

Нет. В патенте упоминается возможность применения метода к сегментам документа, например, к отдельным параграфам. Это позволяет использовать систему для обнаружения частичного плагиата или документов, скомпилированных из разных источников.

Как лучше всего обеспечить уникальность контента с точки зрения этого патента?

Необходимо обеспечить уникальность на структурном уровне. Это означает использование уникальной последовательности изложения, включение новых данных, сущностей и примеров, а также глубокую переработку информации. Контент должен иметь уникальный набор упорядоченных пар ключевых термов, а не просто уникальные формулировки предложений.

Актуален ли этот метод в эпоху нейронных сетей и эмбеддингов?

Да, концептуально он актуален. Хотя современные методы могут генерировать сложные векторные представления (эмбеддинги) для оценки семантического сходства, методы структурного сравнения, подобные описанному, по-прежнему полезны для быстрого и эффективного обнаружения точных или почти точных дубликатов в масштабах веба. Они часто используются как часть многоступенчатого процесса дедупликации.

Похожие патенты

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах
Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.
  • US8122032B2
  • 2012-02-21
  • Индексация

  • Ссылки

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба
Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.
  • US8131751B1
  • 2012-03-06
  • Индексация

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
  • US8527516B1
  • 2013-09-03
  • Индексация

Как Google объединяет дубликаты изображений в кластеры и индексирует их как единое целое для улучшения визуального поиска
Google оптимизирует визуальный поиск, группируя почти идентичные изображения (измененный размер, обрезка) в единый кластер. Система индексирует не отдельные картинки, а совокупность всех визуальных признаков ("визуальных слов") из всех вариантов в кластере. Это повышает эффективность индекса и гарантирует согласованность результатов при поиске по изображению.
  • US8923626B1
  • 2014-12-30
  • Индексация

  • Мультимедиа

Популярные патенты

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
  • US20130144836A1
  • 2013-06-06
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату
Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.
  • US9355158B2
  • 2016-05-31
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска
Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.
  • US11568003B2
  • 2023-01-31
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
  • US8903812B1
  • 2014-12-02
  • Поведенческие сигналы

  • SERP

  • Антиспам

seohardcore