
Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.
Патент решает проблему навигации в больших цифровых корпусах (Corpus), таких как оцифрованные книги (например, Google Books), где отсутствуют естественные гиперссылки между документами. Изобретение позволяет автоматически идентифицировать общие сегменты текста (цитаты, дубликаты, заимствования) и создавать навигационные ссылки между ними, улучшая пользовательский опыт и имитируя веб-браузинг.
Запатентована система (Passage Mining Engine), которая использует технику шинглирования (shingling) для обнаружения идентичных или почти идентичных отрывков текста (Similar Passages) в разных документах. Система идентифицирует общие последовательности шинглов, объединяет их, ранжирует на основе длины и частоты встречаемости («интересности») и создает структуру ссылок между документами, содержащими эти отрывки.
Механизм работает в несколько этапов:
shingles).Shingle Table), сопоставляющий каждый уникальный шингл с документами и позициями, где он встречается.Sequences) шинглов, которые являются общими для исходного и одного или нескольких целевых документов.Высокая. Технология шинглирования остается фундаментальным и эффективным методом в информационном поиске (Information Retrieval) для обнаружения дубликатов и почти дубликатов (near-duplicates) в больших масштабах. Это критически важно для индексирования, каноникализации и выявления плагиата.
Среднее влияние (6/10). Патент в первую очередь описывает инфраструктуру и функции для улучшения навигации в закрытых корпусах (например, Google Books), а не алгоритм веб-ранжирования. Однако он имеет критическое значение для понимания того, как Google алгоритмически обнаруживает дублированный, синдицированный и цитируемый контент в вебе. Понимание этого механизма необходимо для эффективного управления уникальностью контента и стратегиями синдикации.
Source Document), так и хотя бы в одном целевом документе (Target Document).Shingle ID) с документами (Doc ID) и позициями (Pos ID), где этот шингл встречается.Shingle Table, содержащая список всех вхождений для конкретного Shingle ID.Merging) перекрывающихся Sequences.Shingle Table). Определяет границы между группами последовательностей.Claim 1 (Независимый пункт): Описывает основной метод идентификации похожих отрывков с использованием шинглирования и секвенирования.
Shingle Table для корпуса.Sequence смежных шинглов, общей для исходного документа и подмножества документов.Merging) перекрывающихся шинглов в последовательности для формирования объединенной последовательности.Similar Passage на основе объединенной последовательности и его сохранение.Это алгоритмический процесс поиска точных совпадений текстовых сегментов. Ключевым моментом является требование смежности и сохранения порядка: система итеративно проверяет, что шинглы следуют друг за другом в одинаковом порядке как в исходном, так и в целевом документе. Это обеспечивает высокую точность при поиске дубликатов и цитат.
Claim 5 (Зависимый от 1): Уточняет роль Source Gap.
Шингл, который встречается только в исходном документе (Source Gap), используется для определения границы (завершения) текущей Sequence.
Claim 6 и 7 (Зависимые от 1): Детализируют механизм ранжирования отрывков.
Similar Passage ранжируется относительно других отрывков в документе. Ранжирование основано на вычислении оценки (score), которая учитывает длину отрывка и частоту его появления в других документах корпуса.
Claim 8 и 9 (Зависимые от 1): Описывают применение результатов в пользовательском интерфейсе.
Система отображает найденный Similar Passage и предоставляет гиперссылку, позволяющую пользователю перейти к другому документу, содержащему этот отрывок.
Изобретение применяется на этапе обработки данных после их сбора.
INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Passage Mining Engine обрабатывает Corpus для извлечения признаков (похожих отрывков) и построения базы данных Similar Passage DB. Это включает:
Shingling и Sequencing анализируют содержимое для выявления общих последовательностей.Merging и Ranking определяют границы и значимость общих отрывков.Патент указывает, что этот анализ выполняется офлайн, периодически или инкрементально, а не в реальном времени в ответ на запрос.
METASEARCH (Уровень представления UI)
Результаты работы (Similar Passage DB) используются веб-сервером для генерации пользовательского интерфейса (например, в Google Books), отображения популярных фрагментов и создания гиперссылок.
Входные данные:
Corpus (документы с Doc ID и позициями слов Pos ID).Выходные данные:
Similar Passage DB, хранящая идентифицированные отрывки, их местоположение в разных документах и их ранги (scores).Source Gap).Процесс работы Passage Mining Engine:
Shingle Table), который сопоставляет каждый уникальный Shingle ID со списком (Shingle Bucket) его вхождений (Doc ID, Pos ID).Source Gap).Source Gap, завершить все активные последовательности.Source Gaps).score) для каждого похожего отрывка на основе эвристик длины и частоты встречаемости.Pos ID) для идентификации смежных шинглов и построения последовательностей.Sequences смежных слов в строгом порядке. Это отличает его от методов семантического поиска, которые ищут сходство по смыслу.Similar Passages, присутствующие на множестве других сайтов.rel=canonical для указания первоисточника.E-E-A-T).Патент подтверждает алгоритмическую способность Google идентифицировать и картировать общий контент по всему интернету на лексическом уровне. Хотя Google активно использует семантический анализ (NLP, Entities), этот патент напоминает, что обнаружение дубликатов на основе точного совпадения остается фундаментальной частью инфраструктуры индексирования. Долгосрочная стратегия должна фокусироваться на оригинальности.
Сценарий: Управление описаниями товаров в E-commerce
Similar Passages. Система видит, что последовательности шинглов на всех этих сайтах идентичны.Что такое «шингл» (Shingle) и как работает шинглирование?
Шингл — это группа смежных слов из текста, следующих в порядке чтения (например, 8 слов). Шинглирование — это процесс разбиения текста на такие шинглы с перекрытием (сдвиг на одно слово). Этот метод позволяет эффективно сравнивать тексты: если два документа имеют много общих шинглов, следующих в одинаковом порядке, они содержат идентичные участки текста.
Описывает ли этот патент, как Google ранжирует документы в поиске?
Нет, напрямую он не описывает ранжирование документов. Он описывает, как Google ранжирует сами Similar Passages по «интересности» (длине и частоте) для улучшения навигации (например, в Google Books). Однако технология обнаружения дубликатов, описанная здесь, является важной частью инфраструктуры индексирования, влияющей на каноникализацию.
Как эта технология влияет на синдикацию контента или цитирование?
Она позволяет Google точно идентифицировать синдицированный контент и цитаты как Similar Passages. Для SEO это означает, что Google знает, что этот текст не уникален для вашего сайта. Необходимо добавлять значительную уникальную ценность вокруг этого контента и использовать правильную атрибуцию (например, rel=canonical).
Может ли эта система обнаружить парафразированный контент или спиннинг (рерайтинг)?
Описанный метод фокусируется на точных смежных последовательностях слов. Если парафразирование значительно изменяет порядок слов, этот конкретный метод может не обнаружить сходство. Однако шинглирование часто используется как основа для систем обнаружения почти дубликатов (near-duplicates), которые могут быть устойчивы к небольшим изменениям и поверхностному рерайтингу.
Что делает общий отрывок «интересным» согласно патенту?
«Интересность» определяется эвристической оценкой, учитывающей длину отрывка и частоту его встречаемости в корпусе. Цель состоит в том, чтобы отфильтровать очень короткие фразы (незначимые) и очень частые или длинные пассажи (шаблонный текст или целые книги), сосредоточившись на значимых цитатах.
Что такое «Source Gap» (Разрыв в источнике) и почему он важен?
Source Gap — это шингл в исходном документе, который не встречается ни в одном другом документе. Он важен, потому что действует как граница. Когда система обнаруживает Source Gap, она завершает текущие активные последовательности общих шинглов, разделяя разные похожие отрывки в одном документе.
Выполняется ли этот процесс в реальном времени при запросе пользователя?
Нет. Патент описывает это как офлайн-процесс, выполняемый Passage Mining Engine периодически или инкрементально во время индексирования и анализа корпуса. Результаты сохраняются в базе данных и используются позже.
Как это связано с каноникализацией?
Эта технология является фундаментальной для каноникализации. Прежде чем выбрать каноническую версию из набора дубликатов, Google должен сначала идентифицировать эти дубликаты. Шинглирование и построение последовательностей, описанные здесь, являются эффективным методом для точной идентификации документов с идентичным контентом.
Какие конкретные метрики используются для ранжирования похожих отрывков?
Используется формула, основанная на взвешенном геометрическом среднем оценки длины (LS) и оценки частоты (FS). Приведен пример весов: 0.7 для длины и 0.3 для частоты. Также применяются фильтры, например, рассматриваются только отрывки длиной от 10 до 100 слов с частотой от 1 до 1000.
Как интернет-магазинам следует управлять описаниями товаров на основе этого патента?
Следует избегать использования стандартных описаний от производителей, которые используются сотнями других продавцов. Поскольку Google легко идентифицирует этот текст как Similar Passages с помощью шинглирования, такие страницы вряд ли будут хорошо ранжироваться. Стратегия должна заключаться в создании уникальных описаний продуктов.

Индексация

Индексация

Индексация
Антиспам

Индексация
SERP

Семантика и интент
Индексация
Knowledge Graph

Поведенческие сигналы
Семантика и интент
SERP

Ссылки
SERP
EEAT и качество

Индексация
Поведенческие сигналы

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
EEAT и качество

Ссылки
SERP
Свежесть контента

Ссылки
SERP

Антиспам
SERP
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Индексация
SERP
