SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба

ALGORITHMS FOR SELECTING SUBSEQUENCES (Алгоритмы выбора подпоследовательностей)
  • US8131751B1
  • Google LLC
  • 2008-12-03
  • 2012-03-06
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.

Описание

Какую проблему решает

Патент решает фундаментальную проблему масштабируемости при сравнении огромного корпуса документов (например, веб-индекса). Сравнение полных текстов или даже полного набора всех возможных подпоследовательностей (шинглов) требует колоссальных вычислительных ресурсов и хранения избыточной информации. Цель изобретения — предоставить алгоритмы для выбора меньшего, но репрезентативного подмножества шинглов. Это позволяет эффективно определять сходство документов (например, для обнаружения дубликатов), гарантируя при этом consistency (одинаковый выбор шинглов для одинаковых последовательностей) и coverage (каждая часть документа представлена хотя бы одним выбранным шинглом).

Что запатентовано

Запатентованы методы выбора подпоследовательностей (шинглов) из последовательности токенов (документа) для создания эффективного цифрового отпечатка. Суть изобретения заключается в применении специфических математических критериев отбора к шинглам, чтобы сократить их общее количество, сохраняя при этом возможность точного или приблизительного сравнения документов. Запатентованы три основных алгоритма отбора: на основе экстремальных значений токенов, на основе значений токенов по модулю k и на основе предопределенных групп меньших шинглов.

Как это работает

Система работает в несколько этапов:

  • Токенизация и Хеширование: Документ разбивается на токены (слова, символы), и каждому токену присваивается числовое значение (например, хеш или fingerprint).
  • Шинглирование (Shingling): Из последовательности токенов извлекаются все возможные перекрывающиеся подпоследовательности фиксированной длины k (k-tuples или шинглы).
  • Выборка (Selection): К полному набору шинглов применяется один из запатентованных алгоритмов для выбора подмножества. Например, алгоритм "Экстремальных значений" сохраняет шингл, только если его первый или последний токен имеет наибольшее (или наименьшее) числовое значение внутри этого шингла.
  • Сравнение: Выбранные подмножества шинглов (отпечатки) двух документов сравниваются для определения степени их сходства (например, с использованием коэффициента Жаккара (Match Rate)).

Актуальность для SEO

Высокая. Обнаружение дубликатов, почти дубликатов (near-duplicates) и определение сходства контента остаются фундаментальными задачами для поисковых систем. Эффективные алгоритмы шинглирования критически важны для масштабируемости процессов индексации и каноникализации. Хотя могут использоваться и более современные методы (например, нейросетевые эмбеддинги), классические методы шинглирования по-прежнему применяются для быстрого и вычислительно дешевого сравнения контента.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает базовую инфраструктуру, которую Google может использовать для обнаружения дублированного, переписанного (spun content) или шаблонного контента. Понимание механизмов шинглирования позволяет SEO-специалистам лучше понять, как Google воспринимает уникальность контента на структурном уровне, и почему важно не только менять слова, но и структуру предложений для создания действительно оригинального контента. Это напрямую влияет на стратегии каноникализации, синдикации и создания контента.

Детальный разбор

Термины и определения

Token (Токен)
Элементарная единица последовательности. В контексте веб-документов это может быть буква, символ, слово или строка символов.
Fingerprint (Отпечаток) / Numerical Value
Числовое значение, присваиваемое токену, часто генерируемое с помощью хеш-функции. Используется для быстрого сравнения токенов.
Sequence (Последовательность)
Упорядоченный набор токенов. Например, текст документа.
Shingle (Шингл) / Subsequence (Подпоследовательность)
Непрерывная подпоследовательность токенов, извлеченная из основной последовательности.
k-tuple (k-кортеж)
Шингл, состоящий ровно из k токенов.
Shingling (Шинглирование)
Процесс извлечения набора шинглов из последовательности. Обычно реализуется как скользящее окно размером k.
Consistency (Консистентность/Согласованность)
Свойство алгоритма выбора шинглов, гарантирующее, что для идентичных последовательностей будут выбраны идентичные наборы шинглов.
Coverage (Покрытие)
Свойство алгоритма выбора шинглов, гарантирующее, что каждый токен в исходной последовательности включен хотя бы в один выбранный шингл.
Extreme Value (Экстремальное значение)
Наибольшее или наименьшее числовое значение (fingerprint) среди токенов внутри одного шингла.
Modulo k (По модулю k)
Операция вычисления остатка от деления числового значения токена на длину шингла k.
Match Rate (Степень совпадения)
Метрика для оценки сходства двух последовательностей (A и B), часто рассчитываемая как коэффициент Жаккара: (Пересечение шинглов A и B) / (Объединение шинглов A и B).

Ключевые утверждения (Анализ Claims)

Патент описывает три основных алгоритма выбора шинглов. Все они направлены на создание репрезентативного подмножества шинглов для сравнения.

Алгоритм 1: Выбор на основе экстремальных значений (Claims 1, 29)

Claim 1 (Независимый пункт): Описывает метод выбора шинглов с использованием наибольших значений.

  1. Система парсит первую последовательность токенов (документ) в шинглы длины k.
  2. Выбирается первое подмножество шинглов. Критерий выбора: в каждом выбранном шингле токен, находящийся на первой позиции ИЛИ на последней позиции, должен иметь НАИБОЛЬШЕЕ числовое значение среди всех токенов в этом шингле.
  3. Тот же процесс повторяется для второй последовательности.
  4. Полученные подмножества сравниваются.

Claim 29 (Независимый пункт): Аналогичен Claim 1, но использует НАИМЕНЬШЕЕ числовое значение в качестве критерия выбора.

Этот метод гарантирует coverage и consistency. Идея в том, что если два документа имеют общую длинную последовательность, они выберут одинаковые шинглы из этой последовательности, так как экстремальные значения будут совпадать.

Алгоритм 2: Выбор на основе значений по модулю k (Claim 9)

Claim 9 (Независимый пункт): Описывает метод выбора на основе соответствия значения и позиции.

  1. Система парсит последовательность в шинглы длины k.
  2. Для каждого шингла вычисляются значения токенов по модулю k (остаток от деления значения токена на k).
  3. Определяются позиции токенов в шингле (например, от 0 до k-1).
  4. Выбирается подмножество шинглов. Критерий выбора: в каждом выбранном шингле значение хотя бы одного токена по модулю k должно СОВПАДАТЬ с его позицией в этом шингле.
  5. Полученные подмножества для разных последовательностей сравниваются.

Этот метод также обеспечивает coverage и consistency, используя другой механизм привязки выбора к содержимому шингла.

Алгоритм 3: Выбор на основе групп меньших шинглов (Claim 15)

Claim 15 (Независимый пункт): Описывает более сложный метод выбора.

  1. Система парсит последовательность в шинглы длины k.
  2. Определяется группа S, состоящая из предопределенных шинглов меньшей длины m (m <= k).
  3. Выбирается смещение (offset) относительно начала шингла длины k.
  4. Выбирается подмножество шинглов длины k. Критерий выбора (должно выполняться одно из двух условий):
    1. Шингл длины m, начинающийся с выбранного смещения внутри шингла длины k, принадлежит к группе S.
    2. ИЛИ Ни один шингл длины m внутри шингла длины k не принадлежит к группе S.
  5. Полученные подмножества сравниваются.

Этот алгоритм позволяет более тонко настраивать частоту выбора шинглов в зависимости от их содержимого и предопределенных паттернов (Группа S).

Где и как применяется

Изобретение является частью инфраструктуры обработки и сравнения контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе собирается сырой контент, который затем будет обработан с использованием этих алгоритмов.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. В процессе индексации система должна определить, является ли новый или обновленный контент дубликатом уже существующего.

  • Извлечение Признаков (Feature Extraction): Алгоритмы шинглирования используются для генерации стабильных и эффективных признаков (отпечатков) документа.
  • Обнаружение дубликатов и Каноникализация: Сгенерированные отпечатки сравниваются с отпечатками документов в индексе. Если степень совпадения (Match Rate) высока, документы могут быть признаны почти дубликатами (near-duplicates), что влияет на выбор канонической версии.

Входные данные:

  • Сырой текст документа (последовательность токенов).
  • Числовые значения (хеши/fingerprints) для каждого токена.
  • Параметр k (длина шингла).

Выходные данные:

  • Репрезентативное подмножество шинглов (отпечаток документа).
  • Метрики сходства при сравнении с другими документами.

На что влияет

  • Конкретные типы контента: Влияет на все типы текстового контента. Особенно критично для контента, склонного к дублированию: новости, описания товаров в e-commerce, статьи в блогах, юридические документы.
  • Структура контента: Алгоритмы чувствительны к порядку слов. Изменение порядка токенов меняет состав шинглов и, следовательно, финальный отпечаток.
  • Шаблонный контент (Boilerplate): Поскольку алгоритмы обеспечивают consistency, шаблонные части документа (меню, футер, сайдбар) будут генерировать одинаковые наборы шинглов на разных страницах.

Когда применяется

  • Триггеры активации: Применяется каждый раз, когда система обрабатывает текстовый контент во время индексации для генерации его отпечатка.
  • Условия работы: Алгоритмы предназначены для сравнения двух или более последовательностей на предмет сходства. Они могут использоваться как для точного (exact matching), так и для приблизительного (approximate matching) сравнения.

Пошаговый алгоритм

Описание на примере Алгоритма 1 (Экстремальные значения, Claim 1).

  1. Токенизация: Исходный документ преобразуется в последовательность токенов (например, слов).
  2. Хеширование: Каждому токену присваивается числовое значение (fingerprint).
  3. Шинглирование (Парсинг): Последовательность парсится в перекрывающиеся шинглы длины k. (Например, при k=5, скользящее окно перемещается по документу).
  4. Определение Экстремума: Для каждого сгенерированного шингла определяется НАИБОЛЬШЕЕ значение (fingerprint) среди его k токенов.
  5. Проверка Условия Выбора: Проверяется, находится ли токен с этим наибольшим значением на ПЕРВОЙ или ПОСЛЕДНЕЙ позиции в данном шингле.
  6. Выборка: Если условие выполнено, шингл выбирается и добавляется в первое подмножество (отпечаток документа А).
  7. Повторение для Документа Б: Шаги 1-6 повторяются для второго документа, создавая второе подмножество (отпечаток документа Б).
  8. Сравнение: Первое и второе подмножества сравниваются для определения количества общих шинглов.
  9. Оценка Сходства: Рассчитывается Match Rate (например, Коэффициент Жаккара) на основе количества общих и уникальных шинглов в двух подмножествах.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке последовательностей и не зависит от традиционных SEO-факторов, таких как ссылки или мета-теги. Он использует исключительно контентные данные.

  • Контентные факторы: Текст документа, представленный как последовательность токенов. Важен порядок токенов.
  • Системные данные: Числовые значения (хеши, fingerprints), присвоенные токенам.

Какие метрики используются и как они считаются

  • k (Длина шингла): Ключевой параметр. Определяет гранулярность анализа. Меньшие k (например, 2-3) обнаруживают более мелкие совпадения, большие k (например, 8-10) используются для обнаружения совпадений на уровне предложений или абзацев.
  • Экстремальное значение (Max/Min): Используется в Алгоритме 1. Сравнение числовых значений токенов внутри шингла.
  • Значение по модулю k: Используется в Алгоритме 2. Вычисляется как остаток от деления значения токена на k.
  • Позиция токена: Используется в Алгоритмах 1 и 2. Определяет местоположение токена внутри шингла (например, первый, последний, или позиция от 0 до k-1).
  • Match Rate (Степень совпадения): Метрика сходства двух наборов шинглов. В патенте упоминается формула (Коэффициент Жаккара): Match Rate(A,B)=∣Shingles(A)∩Shingles(B)∣∣Shingles(A)∪Shingles(B)∣\text{Match Rate}(A, B) = \frac{|\text{Shingles}(A) \cap \text{Shingles}(B)|}{|\text{Shingles}(A) \cup \text{Shingles}(B)|}

Выводы

  1. Фундаментальный механизм обнаружения дубликатов: Патент описывает ключевые алгоритмы для эффективного сравнения контента в масштабах веба. Шинглирование является основой для систем обнаружения почти дубликатов (near-duplicate detection).
  2. Чувствительность к порядку слов: Алгоритмы основаны на непрерывных последовательностях (шинглах). Изменение порядка слов или структуры предложения радикально меняет набор генерируемых шинглов и, следовательно, итоговый отпечаток документа.
  3. Эффективность за счет выборки: Ключевая инновация заключается не в самом шинглировании, а в методах выбора репрезентативного подмножества шинглов (например, через экстремальные значения). Это позволяет значительно сократить объем данных, необходимых для сравнения, сохраняя точность.
  4. Гарантии Consistency и Coverage: Описанные методы гарантируют, что одинаковый контент всегда будет генерировать одинаковый отпечаток (consistency), и что весь контент будет учтен (coverage). Это критически важно для надежной каноникализации.
  5. Не семантическое сходство: Шинглирование обнаруживает лексическое сходство (совпадение последовательностей слов), а не семантическое (смысловое) сходство. Два документа с разным содержанием, но использующие похожие стандартные фразы, могут иметь определенный Match Rate, но система не "понимает" смысл через эти алгоритмы.

Практика

Best practices (это мы делаем)

  • Фокус на уникальности структуры контента: При создании нового контента или оптимизации существующего уделяйте внимание не только уникальности слов, но и уникальности порядка слов и структуры предложений. Это гарантирует генерацию уникального набора шинглов.
  • Мониторинг уникальности контента: Используйте инструменты, основанные на шинглировании (многие инструменты проверки плагиата работают по схожим принципам), для проверки уникальности вашего контента относительно конкурентов и других страниц вашего сайта.
  • Управление синдикацией и агрегацией: При синдикации контента или использовании контента из внешних источников (например, описаний товаров от поставщика) осознавайте, что этот контент будет генерировать идентичные шинглы. Убедитесь, что каноникализация настроена правильно, или добавьте достаточно уникальной ценности на страницу, чтобы общий отпечаток отличался.
  • Дифференциация шаблонного контента: Хотя патент не фокусируется на удалении шаблонного контента (boilerplate), он подчеркивает, что шаблонный текст генерирует одинаковые шинглы. Убедитесь, что соотношение уникального контента к шаблонному достаточно велико, чтобы страницы не были классифицированы как почти дубликаты друг друга.

Worst practices (это делать не надо)

  • Контент-спиннинг (Content Spinning) низкого качества: Простая замена слов на синонимы может быть неэффективной, если структура предложений сохраняется. Многие шинглы могут остаться неизменными или очень похожими, что приведет к высокому Match Rate.
  • Плагиат и Склейка (Patchwriting): Копирование целых предложений или абзацев напрямую обнаруживается системами шинглирования, так как они генерируют идентичные последовательности шинглов.
  • Чрезмерное внутреннее дублирование: Создание большого количества страниц с минимальными отличиями (например, гео-страницы, отличающиеся только названием города). Если основной контент идентичен, страницы будут иметь почти идентичные отпечатки и могут быть классифицированы как дубликаты.

Стратегическое значение

Патент подтверждает, что обнаружение дубликатов является критически важной и высоко оптимизированной частью инфраструктуры Google. Для SEO это означает, что попытки манипулировать уникальностью с помощью поверхностных изменений с высокой вероятностью будут неэффективны. Стратегия должна быть направлена на создание действительно оригинального контента с уникальной структурой. Понимание шинглирования также помогает интерпретировать проблемы с индексацией и каноникализацией, когда Google выбирает не ту страницу, которую ожидает владелец сайта.

Практические примеры

Сценарий: Оптимизация описания товара в E-commerce

Проблема: Интернет-магазин использует стандартное описание товара от производителя, как и сотни других сайтов. Страница ранжируется плохо.

Применение знаний из патента:

  1. Анализ: Система Google применила шинглирование (например, с k=8) к описанию товара. Поскольку текст идентичен другим сайтам, сгенерированный набор шинглов также идентичен. Google классифицирует контент как дубликат и выбирает другой сайт в качестве канонического.
  2. Действие (Неэффективное): SEO-специалист заменяет несколько слов на синонимы, но сохраняет структуру предложений. Результат: Большинство шинглов длины 8 остаются прежними или меняются незначительно. Match Rate остается высоким. Проблема не решена.
  3. Действие (Эффективное): SEO-специалист полностью переписывает описание, меняя структуру предложений, порядок изложения характеристик и добавляя уникальные выводы или отзывы. Результат: Новый текст генерирует совершенно другой набор шинглов. Match Rate с оригинальным описанием значительно снижается. Google воспринимает контент как уникальный.

Вопросы и ответы

Что такое шингл (Shingle) и токен (Token) в контексте этого патента?

Токен — это базовая единица контента, обычно слово или символ. Шингл — это непрерывная последовательность из фиксированного числа (k) токенов, взятых из документа. Например, если k=3, фраза "быстрая коричневая лиса" является шинглом: {"быстрая", "коричневая", "лиса"}.

Зачем Google выбирает только подмножество шинглов, а не использует все?

Использование всех возможных шинглов создает огромный объем данных из-за значительного перекрытия между соседними шинглами. Это неэффективно для хранения и сравнения в масштабах веба. Патент предлагает алгоритмы для выбора меньшего, но репрезентативного подмножества, что значительно ускоряет процесс сравнения документов, сохраняя точность.

Что означают Consistency и Coverage, упомянутые в патенте?

Consistency (Консистентность/Согласованность) гарантирует, что если два документа идентичны или имеют идентичный фрагмент, алгоритм выберет из них одинаковый набор шинглов. Coverage (Покрытие) гарантирует, что каждая часть документа (каждый токен) будет представлена хотя бы в одном выбранном шингле. Оба свойства критичны для надежного обнаружения дубликатов.

Как работает алгоритм выбора на основе "Экстремальных значений"?

Каждому токену присваивается числовое значение (хеш). Алгоритм проверяет каждый шингл и выбирает его, только если наибольшее (или наименьшее) числовое значение в этом шингле принадлежит первому ИЛИ последнему токену шингла. Это способ детерминированного и консистентного отбора.

Обнаруживает ли этот патент семантическое сходство (смысл) или только лексическое (текст)?

Этот патент описывает методы обнаружения лексического сходства. Он проверяет совпадение последовательностей слов (токенов). Он не анализирует смысл текста. Для анализа семантического сходства Google использует другие технологии, такие как нейронные сети и эмбеддинги (BERT, MUM).

Как этот патент влияет на контент-спиннинг (Content Spinning)?

Он делает низкокачественный спиннинг неэффективным. Если при спиннинге сохраняется оригинальная структура предложений и меняются только отдельные слова, многие шинглы могут остаться неизменными или очень похожими. Для создания уникального контента необходимо менять структуру и порядок слов.

Влияет ли длина шингла (k) на обнаружение дубликатов?

Да, очень сильно. Маленькое значение k (например, 2-3) обнаруживает совпадения коротких фраз. Большое значение k (например, 8-10) используется для обнаружения совпадений на уровне целых предложений. Поисковые системы могут использовать разные значения k для разных задач.

Как эти алгоритмы связаны с каноникализацией (rel=canonical)?

Эти алгоритмы являются частью системы, которую Google использует для определения того, являются ли две страницы почти дубликатами. Если Match Rate между двумя страницами очень высок, система кластеризует их вместе и принимает решение о выборе канонической версии, учитывая сигналы вроде rel=canonical, но также и другие факторы.

Может ли изменение шаблонного контента (меню, футер) повлиять на уникальность страницы?

Да. Хотя системы могут пытаться идентифицировать и игнорировать шаблонный контент (boilerplate), он все равно участвует в генерации шинглов. Если на двух страницах уникальный контент минимален, а шаблонный текст значительно отличается, это может повлиять на общую оценку сходства страниц.

Являются ли эти алгоритмы единственным способом, которым Google ищет дубликаты?

Нет. Патент описывает конкретные эффективные алгоритмы шинглирования, поданные в 2008 году. Google использует множество других сигналов и алгоритмов, включая анализ ссылок, поведенческие данные и, вероятно, более современные методы, основанные на машинном обучении, для обнаружения дубликатов и определения качества контента.

Похожие патенты

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах
Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.
  • US8122032B2
  • 2012-02-21
  • Индексация

  • Ссылки

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.
  • US7707157B1
  • 2010-04-27
  • Индексация

  • SERP

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
  • US8527516B1
  • 2013-09-03
  • Индексация

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.
  • US7734627B1
  • 2010-06-08
  • Индексация

  • Антиспам

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
  • US8625033B1
  • 2014-01-07
  • Мультимедиа

  • Индексация

Популярные патенты

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов
Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.
  • US9009153B2
  • 2015-04-14
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента
Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.
  • US9098511B1
  • 2015-08-04
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса
Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.
  • US9454621B2
  • 2016-09-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы
Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.
  • US20120278171A1
  • 2012-11-01
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории
Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.
  • US8788490B1
  • 2014-07-22
  • Local SEO

  • Ссылки

  • SERP

seohardcore