Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета

DOCUMENT NEAR-DUPLICATE DETECTION (Обнаружение почти дубликатов документов)

US7707157B1
Google LLC
2004-03-25
2010-04-27

Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.

Какую проблему решает

Патент решает проблему эффективного и масштабируемого обнаружения документов, которые являются дубликатами или почти дубликатами (near-duplicates) друг друга в больших корпусах данных, таких как World Wide Web. Это необходимо для поисковых систем, чтобы избежать индексации и хранения избыточного контента, а также для улучшения качества поисковой выдачи за счет предотвращения показа пользователю нескольких идентичных результатов.

Что запатентовано

Запатентована система и метод генерации компактного представления документа, называемого цифровым отпечатком (fingerprint). Этот отпечаток создается путем выборки перекрывающихся блоков документа (sampling), выбора подмножества этих блоков на основе определенных критериев (например, наименьших значений контрольных сумм) и последующего сжатия (compacting) выбранного подмножества в отпечаток фиксированного размера. Схожесть документов определяется путем сравнения их отпечатков.

Как это работает

Система работает в два основных этапа: генерация отпечатка и обнаружение схожести.

Генерация отпечатка: Документ обрабатывается с помощью скользящего окна фиксированного размера для создания перекрывающихся блоков текста (шингов). Для каждого блока вычисляется контрольная сумма (checksum). Затем система выбирает фиксированное количество этих контрольных сумм (например, 128 наименьших значений). Эти выбранные значения хешируются и используются для модификации битов в итоговом отпечатке (путем "переворачивания" битов).
Обнаружение схожести: Для сравнения двух документов система сравнивает их отпечатки, вычисляя расстояние Хэмминга (Hamming distance) — количество различающихся битов. Если расстояние ниже определенного порога, документы считаются почти дубликатами.

Актуальность для SEO

Высокая. Обнаружение почти дубликатов является фундаментальной задачей для любой крупной поисковой системы. Методы, основанные на шинглировании (shingling) и генерации локально-чувствительных хешей (Locality-Sensitive Hashing), к которым относится описанный метод (схожий с Min-Hashing и SimHash), активно используются Google для каноникализации, управления краулинговым бюджетом и обеспечения разнообразия выдачи.

Важность для SEO

Влияние на SEO критически важно (85/100). Хотя это инфраструктурный патент, описанные механизмы лежат в основе того, как Google обрабатывает контент. Понимание этих механизмов необходимо для эффективного управления каноникализацией, синдикацией контента, решением проблем с дублированным контентом (например, из-за параметров URL или шаблонного текста) и понимания того, как Google идентифицирует плагиат или низкокачественный контент-спиннинг.

Термины и определения

Checksum (Контрольная сумма): Числовое значение, вычисленное для блока данных (sampled block) с использованием математической функции или хеш-функции. Используется как идентификатор содержимого блока.
Compacting (Сжатие): Процесс преобразования выбранного набора контрольных сумм в компактный цифровой отпечаток фиксированного размера.
Fingerprint (Цифровой отпечаток): Компактное представление документа фиксированного размера (например, 128 бит или 16 байт), используемое для сравнения с другими документами.
Fingerprint Creation Component (Компонент создания отпечатков): Часть системы, отвечающая за генерацию цифрового отпечатка для входящего документа.
Hamming Distance (Расстояние Хэмминга): Метрика для измерения различия между двумя бинарными строками одинаковой длины. Равна количеству позиций, в которых соответствующие биты различаются. Используется для сравнения отпечатков.
Near-duplicate (Почти дубликат): Документ, который практически идентичен другому документу, с незначительными отличиями.
Overlapping Blocks / Samples (Перекрывающиеся блоки / Выборки): Последовательности текста фиксированной длины, извлеченные из документа с помощью скользящего окна (процесс, известный в Information Retrieval как шинглирование).
Sampling (Выборка): Процесс извлечения блоков из документа и выбора подмножества этих блоков (или их контрольных сумм) для дальнейшей обработки.
Similarity Detection Component (Компонент обнаружения схожести): Часть системы, которая сравнивает два отпечатка (например, используя расстояние Хэмминга) для определения степени схожести документов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации цифрового отпечатка документа.

Получение множества перекрывающихся блоков путем выборки (sampling) документа.
Генерация набора контрольных сумм (checksum values) из этих блоков.
Выбор подмножества из этого набора контрольных сумм (меньшего, чем весь набор).
Инициализация отпечатка документа путем установки всех битов в ноль.
Адресация определенного бита отпечатка с помощью определенного значения контрольной суммы.
"Переворачивание" (flipping) этого определенного бита количество раз, соответствующее количеству раз, когда это значение контрольной суммы встречается в выбранном подмножестве.

Claim 10 (Независимый пункт): Уточняет критерии выбора контрольных сумм, описанные в Claim 1.

Выборка документа для получения перекрывающихся образцов.
Генерация набора контрольных сумм.
Выбор подмножества контрольных сумм, соответствующего предопределенному количеству наименьших (smallest) или наибольших (largest) значений контрольных сумм. (Это схоже с реализацией концепции Min-Hashing или Max-Hashing).
Адресация и переворачивание битов отпечатка на основе частоты встречаемости этих выбранных значений.

Claim 6 и 13 (Зависимые): Уточняют, что перед адресацией битов выбранные контрольные суммы хешируются (hashing) до длины, необходимой для индексации отпечатка (например, до 7 бит для 128-битного отпечатка).

Где и как применяется

Изобретение применяется на ранних этапах обработки контента для эффективного управления ресурсами и качеством индекса.

CRAWLING – Сканирование и Сбор данных
Система может использовать эти отпечатки для оптимизации краулинга. Если вновь обнаруженный URL ведет на контент, чей fingerprint является почти дубликатом уже известного документа, система может принять решение не скачивать или не архивировать новый документ, экономя ресурсы (Crawl Budget).

INDEXING – Индексирование и извлечение признаков
Основное применение. На этом этапе генерируются отпечатки для всех проиндексированных документов. Они используются для:

Каноникализация: Группировка почти дубликатов и выбор одной канонической версии для включения в основной поисковый индекс.
Детекция плагиата/скрейпинга: Идентификация сайтов, копирующих контент друг у друга.

RERANKING – Переранжирование
Может использоваться для обеспечения разнообразия выдачи (Diversity). Если несколько результатов в топе являются почти дубликатами (на основе сравнения их fingerprints), система может применить твидлеры (Twiddlers) для понижения дубликатов, позволяя показать результаты с других сайтов.

Входные данные:

Текст документа произвольного размера.

Выходные данные:

Компактный fingerprint фиксированного размера (например, 128 бит).
При сравнении двух отпечатков: мера схожести (Hamming distance).

На что влияет

Конкретные типы контента: Влияет на все типы текстового контента. Особенно сильно влияет на страницы с большим количеством шаблонного текста (boilerplate), страницы пагинации, страницы с параметрами в URL, а также на синдицированный контент и пресс-релизы.
Конкретные ниши или тематики: Влияет на E-commerce (одинаковые описания товаров на разных сайтах или разные URL одного товара), новостные сайты (перепечатка новостей) и агрегаторы.

Когда применяется

Триггеры активации: Применяется ко всем документам, попадающим в систему обработки (сканирование и индексирование).
Пороговые значения: Ключевой порог — максимальное Hamming distance, при котором документы считаются почти дубликатами. В патенте упоминается пример порога 18 для 128-битного отпечатка. Выбор порога балансирует между ложноположительными (False Positives) и ложноотрицательными (False Negatives) срабатываниями.

Пошаговый алгоритм

Алгоритм состоит из двух процессов: Генерация отпечатка и Сравнение.

Процесс А: Генерация цифрового отпечатка (Fingerprint Generation)

Инициализация и Выборка (Sampling/Shingling): Документ обрабатывается скользящим окном фиксированного размера (например, 64 байта) для создания последовательности перекрывающихся блоков (шингов). Если документ меньше размера окна, он дополняется нулевыми символами.
Вычисление контрольных сумм (Checksum Calculation): Для каждого извлеченного блока вычисляется контрольная сумма (например, 32-битная).
Фильтрация и Отбор (Selection): Из всего набора вычисленных контрольных сумм выбирается фиксированное количество (например, 128) уникальных значений на основе критерия отбора: наименьшие или наибольшие значения. Это обеспечивает согласованность выбора для схожих документов.
Инициализация отпечатка (Fingerprint Initialization): Создается битовый массив для отпечатка (например, 128 бит), инициализированный нулями.
Хеширование и Адресация (Hashing): Каждое выбранное значение контрольной суммы сокращается (хешируется) до длины, необходимой для адресации битов в отпечатке (например, 7 бит для 128-битного отпечатка).
Сжатие и Модификация (Compacting/Bit Flipping): Для каждого хешированного значения система обращается к соответствующему биту в отпечатке и "переворачивает" его (с 0 на 1 или с 1 на 0). Если один и тот же бит адресуется несколько раз, он переворачивается соответствующее количество раз.
Завершение: Полученный битовый массив является итоговым отпечатком документа.

Процесс Б: Сравнение отпечатков (Similarity Detection)

Получение отпечатков: Система получает Fingerprint A и Fingerprint B.
Вычисление расстояния Хэмминга: Система сравнивает два отпечатка побитово и подсчитывает количество позиций, в которых биты различаются.
Применение порога: Полученное расстояние сравнивается с порогом. Если расстояние меньше или равно порогу, документы считаются почти дубликатами.

Какие данные и как использует

Данные на входе

Контентные факторы: Основные данные — это сам текст документа. Система анализирует последовательности символов (байтов) в документе. Мета-теги, заголовки и прочие элементы анализируются как часть общего текста.

Какие метрики используются и как они считаются

Размер блока (Block Size): Фиксированный размер скользящего окна (например, 64 байта).
Размер контрольной суммы (Checksum Size): Разрядность вычисляемой контрольной суммы (например, 32 бита).
Количество выбранных контрольных сумм: Фиксированное число наименьших или наибольших значений (например, 128).
Размер отпечатка (Fingerprint Size): Фиксированная длина итогового отпечатка (например, 128 бит).
Размер хеша для адресации: Длина, необходимая для индексации отпечатка. Например, 7 бит для 128-битного отпечатка ( $2^7=128$ ).
Hamming Distance: Метрика схожести, вычисляемая при сравнении двух отпечатков.
Порог схожести (Similarity Threshold): Максимальное значение Hamming distance для признания документов почти дубликатами.

Эффективность и Масштабируемость: Патент описывает метод, позволяющий Google очень быстро и с минимальными затратами памяти сравнивать миллиарды документов. Сжатие документа любого размера до компактного отпечатка (например, 16 байт) критически важно для работы в масштабе веба.
Устойчивость к незначительным изменениям: Механизм устойчив к небольшим правкам в документе. Использование перекрывающихся блоков (шингов) и выбор наименьших/наибольших контрольных сумм гарантирует, что если два документа отличаются незначительно, их итоговые отпечатки также будут очень похожи. Изменение шаблонного текста, даты или добавление небольшого блока текста не сильно изменит набор наименьших контрольных сумм.
Математическая основа схожести: Схожесть контента для системы — это не субъективная оценка, а математически вычисляемая метрика (Hamming distance между отпечатками). Это позволяет алгоритмически принимать решения о каноникализации и дублировании.
Важность уникального контента: Алгоритм подчеркивает необходимость создания действительно уникального контента. Контент-спиннинг или поверхностный рерайтинг с высокой вероятностью будут обнаружены как почти дубликаты, так как многие базовые блоки (шинги) останутся неизменными.
Фундамент для Каноникализации: Этот механизм является основой для систем каноникализации, позволяя Google группировать дубликаты и выбирать представительную версию, даже если сигналы каноникализации (rel=canonical, редиректы) отсутствуют или противоречивы.

Best practices (это мы делаем)

Обеспечение уникальности основного контента: Сосредоточьтесь на том, чтобы основное содержимое (Main Content) страницы было уникальным. Хотя Google может отделять основной контент от шаблонного (boilerplate), сильное пересечение по отпечаткам с другими страницами (вашими или чужими) увеличивает риск неканонического статуса.
Управление параметрами URL и фасеточной навигацией: Корректно настраивайте каноникализацию для страниц, генерирующих почти дубликаты (например, параметры сортировки, отслеживания, идентификаторы сессий). Если такие страницы не управляются, система обнаружения дубликатов объединит их, но выбор канонической версии может быть непредсказуемым.
Стратегия синдикации контента: При публикации контента на сторонних площадках убедитесь, что используются корректные ссылки (cross-domain canonical) на оригинал. Без этого система может посчитать синдицированную копию и оригинал почти дубликатами и выбрать в качестве канонической версии более авторитетный сайт (не обязательно ваш).
Мониторинг уникальности в E-commerce: Для интернет-магазинов критически важно создавать уникальные описания товаров, а не использовать стандартные описания от производителя, так как они будут идентифицированы как дубликаты на сотнях других сайтов.

Worst practices (это делать не надо)

Контент-спиннинг и поверхностный рерайтинг: Создание контента путем автоматической замены слов на синонимы или незначительного изменения структуры предложений неэффективно. Описанный алгоритм работает на уровне блоков текста (шингов), и многие из них останутся неизменными, что приведет к генерации очень похожих отпечатков.
Создание Doorway Pages с минимальными вариациями: Создание большого количества страниц, таргетированных под разные регионы или ключевые слова, но имеющих практически идентичный контент, будет обнаружено. Эти страницы будут классифицированы как почти дубликаты.
Игнорирование шаблонного текста (Boilerplate): Размещение чрезмерно больших блоков повторяющегося текста на всех страницах (например, огромные футеры или сайдбары) уменьшает долю уникального контента, что может привести к тому, что страницы с разным основным контентом будут ошибочно признаны почти дубликатами.
Скрейпинг и публикация чужого контента: Копирование контента с других сайтов будет немедленно обнаружено через сравнение отпечатков.

Стратегическое значение

Патент подтверждает, что обнаружение дубликатов является краеугольным камнем инфраструктуры Google. Стратегически это означает, что инвестиции в создание действительно оригинального и ценного контента являются обязательными. Попытки масштабирования за счет генерации низкокачественных почти дубликатов неэффективны, так как система фильтрует такой контент на этапе индексации. Понимание работы fingerprinting помогает SEO-специалистам точнее диагностировать проблемы с индексацией и каноникализацией.

Практические примеры

Сценарий: Управление фасеточной навигацией в интернет-магазине

Ситуация: Сайт продает обувь. Есть основная страница категории /shoes/. Пользователи могут фильтровать по цвету и размеру, что генерирует URL: /shoes/?color=black&size=10.
Анализ Google: Google сканирует оба URL. Система генерирует отпечатки для обеих страниц. Так как контент (список товаров) практически идентичен или очень похож, отпечатки имеют минимальное Hamming distance.
Действие Google: Система классифицирует их как почти дубликаты. Она пытается выбрать каноническую версию.
Действие SEO-специалиста (Правильно): Установить атрибут rel="canonical" на странице с параметрами, указывающий на /shoes/. Это помогает Google понять структуру и консолидировать сигналы ранжирования на основной странице категории.
Действие SEO-специалиста (Неправильно): Разрешить индексацию всех URL с параметрами без каноникализации. Google самостоятельно объединит дубликаты, но может выбрать неправильную версию в качестве канонической и потратит краулинговый бюджет на обработку дубликатов.

Насколько сильно должен измениться контент, чтобы Google перестал считать его почти дубликатом?

Изменение должно быть существенным. Алгоритм основан на выборке множества блоков текста (шингов) по всему документу. Чтобы сгенерировать значительно отличающийся отпечаток, необходимо изменить значительную часть этих блоков. Изменение нескольких предложений, даты публикации или шаблонных элементов (header/footer) практически не повлияет на итоговый fingerprint, так как набор наименьших контрольных сумм останется преимущественно тем же.

Может ли этот алгоритм использоваться для определения первоисточника контента?

Сам по себе этот алгоритм определяет только степень схожести между двумя документами в момент сравнения. Он не определяет, какой из них появился раньше. Однако, он является ключевым инструментом для систем определения первоисточника. Google использует его для идентификации дубликатов, а затем применяет другие сигналы (например, дату первого обнаружения, входящие ссылки, авторитетность сайта) для выбора канонической версии (первоисточника).

Эффективен ли контент-спиннинг против этого метода обнаружения дубликатов?

Против этого метода контент-спиннинг малоэффективен. Спиннинг часто сохраняет структуру документа и многие последовательности слов неизменными. Поскольку алгоритм использует перекрывающиеся блоки (шинги), многие из этих блоков останутся идентичными, что приведет к генерации очень похожих контрольных сумм и, как следствие, похожих отпечатков. Для эффективности требуется глубокий, качественный рерайтинг.

Как этот патент связан с каноникализацией (rel=canonical)?

Этот патент описывает механизм, который Google использует для алгоритмического обнаружения дубликатов. Если система обнаруживает несколько почти дубликатов, она запускает процесс каноникализации, чтобы выбрать один для индекса. Атрибут rel="canonical" является сигналом для этой системы, помогая ей выбрать предпочтительную версию. Если этот сигнал отсутствует, система полагается на другие факторы, но обнаружение дубликатов происходит именно благодаря таким методам, как описанный в патенте.

Влияет ли скорость загрузки или технические аспекты сайта на генерацию отпечатка?

Нет. Генерация отпечатка зависит исключительно от контента (текста) документа после его загрузки и, возможно, рендеринга. Скорость загрузки, код ответа сервера или используемые технологии (до тех пор, пока контент может быть извлечен) не влияют на сам математический процесс создания fingerprint.

Учитывает ли этот алгоритм изображения или видео?

Патент фокусируется на обработке документов (document processing), что в данном контексте подразумевает текстовое содержание. Для обнаружения дубликатов изображений и видео Google использует другие, специализированные алгоритмы анализа визуальных данных, не описанные в этом патенте.

Что означает "переворачивание бита" (bit flipping) в контексте генерации отпечатка?

Это специфический метод сжатия данных, описанный в патенте. После выбора ключевых контрольных сумм и их хеширования, они используются для адресации битов в отпечатке. "Переворачивание" означает изменение значения бита на противоположное (0 на 1, 1 на 0). Если бит адресуется четное количество раз, он вернется к исходному значению; если нечетное — останется измененным. Это создает финальный шаблон отпечатка.

Отличается ли этот метод от стандартного алгоритма SimHash?

Описанный метод имеет отличия от стандартного SimHash, хотя оба служат схожей цели. Стандартный SimHash обычно присваивает веса признакам (шингам), суммирует эти веса побитово и определяет финальный бит по знаку суммы. Описанный в патенте метод использует выборку наименьших/наибольших контрольных сумм (схоже с Min-Hashing) и затем применяет механизм "переворачивания битов" на основе частоты адресации.

Как управлять ситуацией, когда большой объем шаблонного текста (boilerplate) заставляет разные страницы выглядеть как дубликаты?

Необходимо минимизировать объем шаблонного текста и максимизировать объем уникального основного контента. Хотя современные алгоритмы Google умеют определять зоны основного контента, сильное доминирование boilerplate увеличивает риск ошибок классификации. Используйте структурированную разметку и семантическую верстку (например, теги <main>, <aside>), чтобы помочь системам лучше понять структуру страницы.

Может ли использование этого метода привести к потере трафика?

Да, если ваш контент классифицирован как почти дубликат чужого, более авторитетного контента, или если неканонические версии ваших собственных страниц конкурируют с основными версиями. Это может привести к тому, что ваши страницы будут исключены из индекса в пользу канонических версий. Правильное управление уникальностью и каноникализацией необходимо для предотвращения этого.

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования

Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.

US8140505B1
2012-03-20

Краулинг
Индексация

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба

Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.

US8131751B1
2012-03-06

Индексация

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе

Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.

US8527516B1
2013-09-03

Индексация

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах

Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.

US8122032B2
2012-02-21

Индексация
Ссылки

Как Google использует цифровые отпечатки контента для автоматического выявления и исправления орфографических ошибок в метаданных

Google использует технологию цифровых отпечатков (fingerprinting) для идентификации идентичного контента (например, видео, аудио, изображений), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и орфографические ошибки. Это позволяет улучшить полноту поисковой выдачи, связывая разные варианты написания.

US8458156B1
2013-06-04

Индексация
Мультимедиа

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы