Как Google автоматически находит похожие страницы внутри одного сайта, используя текст текущей страницы как запрос (Query by Example)

Анализ патента Google, описывающего технологию автоматического поиска связанного контента внутри одного веб-сайта. Система анализирует текст просматриваемой страницы, извлекает и взвешивает ключевые термины на основе их уникальности, а затем использует их как поисковый запрос (Query by Example) для нахождения тематически похожих документов на том же сайте. Используются классические формулы информационного поиска (TF-IDF/BM25).

Описание

Какую задачу решает

Патент решает проблему автоматизации поиска и представления связанного контента в пределах одного крупного веб-сайта. Ручное связывание страниц (например, создание блоков «Похожие материалы» или назначение тегов) трудоемко и сложно в поддержке, особенно на динамичных сайтах. Изобретение предлагает автоматизированный метод (Website Integration) для идентификации тематически похожих документов на основе анализа контента текущей страницы.

Кроме того, патент решает инфраструктурную проблему эффективности информационного поиска (Information Retrieval), предлагая оптимизации структуры индекса (Compressed Document Surrogates) и алгоритма поиска.

Что запатентовано

Запатентован метод автоматического поиска документов внутри веб-сайта, связанных с документом, который в данный момент просматривает пользователь. Система использует текст текущего документа для автоматической генерации взвешенного поискового запроса (подход «Query by Example»). Этот запрос выполняется по индексу данного веб-сайта, и результаты (похожие страницы) представляются пользователю. Также запатентованы техники оптимизации этого процесса.

Как это работает

Система работает следующим образом:

Извлечение терминов: Когда пользователь открывает документ (веб-страницу), система анализирует его содержание и извлекает термины.
Взвешивание терминов (W_T): Каждому термину присваивается вес (W_T). Этот вес рассчитывается путем сравнения частоты термина в данном документе с его частотой на всем веб-сайте. Более уникальные для документа термины получают больший вес.
Генерация запроса: Из взвешенных терминов формируется поисковый запрос.
Поиск и ранжирование: Запрос выполняется по коллекции документов сайта. Другие документы ранжируются с использованием классической модели информационного поиска, в частности Robertson’s Term Frequency (компонент BM25), с учетом весов терминов из запроса.
Оптимизация: Процесс поиска оптимизирован за счет использования Compressed Document Surrogates (CDS) и алгоритма досрочного завершения поиска (S_Max).

Актуальность для SEO

Средняя. Концепция автоматического связывания контента актуальна. Однако техническая реализация, описанная в патенте (основанная на статистическом взвешивании терминов и Robertson’s TF), относится к классическому информационному поиску (оригинальная заявка имеет приоритет от 2000 года). Современные системы в 2025 году преимущественно используют нейросетевые подходы и векторные эмбеддинги для определения схожести документов. Тем не менее, описанные принципы и формулы (BM25) остаются фундаментальными.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент в первую очередь фокусируется на улучшении пользовательского опыта внутри одного веб-сайта (например, системы рекомендаций контента или внутрисайтовый поиск), а не на ранжировании в глобальном поиске Google. Однако он предоставляет глубокое понимание классических методов информационного поиска (взвешивание TF-IDF, BM25). Понимание того, как статистическая значимость терминов используется для определения релевантности и схожести, критически важно для разработки контент-стратегии и оптимизации внутренней структуры сайта.

Детальный разбор

Термины и определения

Compressed Document Surrogate (CDS) (Сжатый суррогат документа): Структура данных, организованная по документу. Содержит список всех значимых терминов, встречающихся в документе, их частоту и/или позиции. Использует методы сжатия (например, Golomb Coding). Позволяет быстро определить, какие термины содержатся в документе, ускоряя финальный расчет оценки.
Golomb Coding (Кодирование Голомба): Метод энтропийного сжатия данных, используемый в патенте для кодирования разницы между идентификаторами терминов в CDS.
IDF (Inverse Document Frequency) (Обратная частота документа): Метрика, отражающая важность термина для коллекции документов. Редкие термины имеют высокий IDF.
Inverted Term List (Инвертированный список терминов): Стандартная структура данных индекса, организованная по терминам. Для каждого термина содержит список документов, в которых этот термин встречается.
Query by Example (Запрос по примеру): Метод поиска, при котором в качестве запроса используется существующий документ для поиска похожих документов.
Robertson’s Term Frequency (Частота термина по Робертсону): Специфическая формула расчета Term Frequency (TF), являющаяся компонентом алгоритма BM25. Учитывает длину документа и эффект насыщения (повторение термина приносит убывающую пользу).
S_Max (Максимальная оценка): В контексте алгоритма оптимизации поиска — это максимально возможная оценка, которую может получить еще не найденный документ, исходя из оставшихся необработанных терминов запроса. Используется для досрочного завершения поиска (early termination).
Weight (W_T) (Вес термина в запросе): Значение, присваиваемое термину, извлеченному из исходного документа. Рассчитывается на основе статистической значимости (уникальности) термина для этого документа по сравнению со всем сайтом.

Ключевые утверждения (Анализ Claims)

Патент имеет 19 пунктов формулы изобретения. Ключевым является независимый пункт 1.

Claim 1 (Независимый пункт): Описывает метод автоматической интеграции контента веб-сайта.

Система предоставляет пользователю первый документ с веб-сайта.
Система автоматически генерирует поисковый запрос из терминов, содержащихся в первом документе. Процесс генерации включает специфическое взвешивание терминов:
- Определение первого соотношения (first ratio): количество вхождений термина в первом документе к общему количеству терминов в первом документе.
- Определение второго соотношения (second ratio): количество вхождений термина на всем веб-сайте к общему количеству терминов на всем веб-сайте.
- Вычисление веса (weight) для термина на основе первого и второго соотношений.
- Присвоение этого веса термину в поисковом запросе.
Использование этого взвешенного поискового запроса для определения оценок (scores) для множества других документов на этом же веб-сайте.
Идентификация набора документов на основе этих оценок.

Claim 10 (Зависимый от 1): Уточняет формулу расчета веса.

Вес термина вычисляется путем вычисления логарифма отношения между первым соотношением (first ratio) и вторым соотношением (second ratio) для этого термина.

Claim 6 (Зависимый от 1): Уточняет механизм оценки.

Определение оценок для документов выполняется с использованием Compressed Document Surrogates (CDS). CDS содержит данные, представляющие количество вхождений терминов в соответствующем документе.

Где и как применяется

Изобретение применяется в рамках системы информационного поиска, обслуживающей конкретный веб-сайт (например, внутрисайтовый поиск или система рекомендаций контента), а не в глобальном веб-поиске.

INDEXING – Индексирование и извлечение признаков

Сбор статистики: На этом этапе система анализирует все документы веб-сайта для расчета глобальной статистики: общее количество документов (N), количество документов, содержащих термин (N_T), общая частота терминов на сайте, длина документов (L_D) и средняя длина документа (L_0).
Расчет метрик: Вычисляются TF (Robertson’s TF) и IDF.
Построение индекса: Создаются ключевые структуры данных: Inverted Term Lists и Compressed Document Surrogates (CDS) для каждого документа.

RANKING – Ранжирование (Внутрисайтовое)

Это основной этап применения патента, который активируется при доступе пользователя к документу.

Генерация запроса: Текст просматриваемого документа используется как основа для запроса (Query by Example). Вычисляются веса терминов (W_T).
Выполнение поиска (Retrieval): Система выполняет взвешенный запрос по индексу сайта. Используется оптимизированный алгоритм поиска, который итеративно обрабатывает Inverted Term Lists, начиная с наиболее значимых терминов, и использует механизм досрочного завершения (S_Max).
Расчет оценок (Scoring): Финальные оценки релевантности (S_D) рассчитываются с использованием формулы, объединяющей W_T, TF и IDF. Для ускорения этого процесса используются CDS.

Входные данные:

Текст первого (просматриваемого) документа.
Статистика по терминам и документам веб-сайта (TF, IDF, длины документов).
Структуры индекса (Inverted Term Lists, CDS).

Выходные данные:

Ранжированный список связанных документов внутри того же веб-сайта.

На что влияет

Типы контента и форматы: Влияет на любые текстовые документы внутри сайта (статьи, описания товаров, новости), которые индексируются системой.
Внутренняя навигация: Напрямую влияет на формирование блоков автоматической внутренней перелинковки и рекомендаций контента.

Когда применяется

Триггеры активации: Алгоритм активируется либо автоматически при каждом доступе пользователя к документу на сайте (Claim 2), либо по явному запросу пользователя (например, нажатие кнопки «Найти похожие») (Claim 3).

Пошаговый алгоритм

Процесс А: Генерация и выполнение запроса по примеру (Website Integration)

Получение исходного документа (D1): Пользователь обращается к документу на сайте.
Извлечение терминов: Система извлекает значимые термины (T) из D1.
Расчет весов терминов (W_T): Для каждого термина T рассчитывается вес по формуле (согласно Claim 1 и 10):

Выводы

Фокус на внутрисайтовой интеграции: Патент описывает механизм для автоматического определения связанных документов строго в пределах одного веб-сайта (Website Integration). Он не описывает алгоритмы ранжирования глобального поиска Google.
Классический IR и статистическая релевантность: Система основана на классических моделях (TF-IDF, BM25). Это подтверждает, что статистический анализ частотности и распределения терминов является фундаментальным методом определения тематической связи между документами.
Взвешивание запроса по примеру (W_T): Ключевой особенностью является взвешивание терминов исходного документа. Вес W_T подчеркивает термины, которые чаще встречаются в документе, чем в среднем по сайту (дискриминативные термины), что позволяет выделить основную тему документа.
Инфраструктурная оптимизация (CDS): Введение Compressed Document Surrogates (CDS) позволяет оптимизировать расчет оценок, предоставляя быстрый доступ к информации о терминах, содержащихся в документе.
Оптимизация алгоритма поиска (S_Max): Описан эффективный алгоритм поиска с досрочным завершением. Обработка начинается с наиболее значимых терминов, и если Топ-N результатов уже набрали достаточно высокие оценки, обработка прекращается.

Практика

Best practices (это мы делаем)

Хотя патент описывает автоматизированную систему для внутрисайтовой интеграции, понимание его принципов полезно для общей SEO и контент-стратегии.

Поддержание четкой тематической структуры сайта: Система полагается на статистическое распределение терминов по сайту. Четкая кластеризация контента поможет системе точнее определять базовую вероятность термина на сайте (P_T(R-bar)) и, следовательно, точнее вычислять вес W_T для выделения уникальной темы документа.
Использование тематически значимой и уникальной лексики: Для того чтобы страницы эффективно связывались друг с другом, они должны содержать лексику, которая является статистически значимой. Используйте специфические, релевантные для темы термины (которые получат высокий IDF и высокий W_T), а не только общие слова.
Оптимизация длины и фокуса документа: Формула Robertson’s TF учитывает длину документа (нормализация). Слишком длинные документы, охватывающие множество тем, могут размывать статистическую значимость отдельных терминов. Поддерживайте фокус на основной теме страницы.
Внедрение блоков «Похожие материалы»: Если вы используете сторонние решения или собственные алгоритмы для генерации блоков похожих материалов (автоматическая перелинковка), этот патент предоставляет валидированный подход к реализации такого функционала, основанный на взвешенном TF-IDF/BM25.

Worst practices (это делать не надо)

Искусственное завышение частоты терминов (Keyword Stuffing): Формула Robertson’s TF специально разработана для сглаживания влияния чрезмерной частоты (эффект насыщения). Переспам не даст линейного прироста релевантности в этой модели и может исказить профиль документа.
Дублирование контента и Boilerplate текст: Если один и тот же контент или шаблонный текст часто повторяется на разных страницах, это исказит глобальную статистику сайта (IDF и P_T(R-bar)), делая термины из этого контента менее значимыми (низкий W_T) для системы интеграции.
Создание страниц с размытой тематикой: Страницы, охватывающие несвязанные темы, сгенерируют разрозненный запрос по примеру, что приведет к некачественным рекомендациям связанного контента.

Стратегическое значение

Патент подтверждает важность классических принципов информационного поиска в определении схожести контента. Он демонстрирует, как математически определяется релевантность на основе статистики использования слов. Для SEO-специалистов это подчеркивает, что контент должен быть не только качественным, но и обладать четкими статистическими характеристиками, позволяющими алгоритмам идентифицировать его основную тематику и отличать от другого контента на сайте.

Практические примеры

Сценарий: Автоматическая генерация блока «Связанные статьи» на контентном сайте.

Исходная страница (D1): Статья про «Уход за Абиссинской кошкой». Сайт посвящен кошкам.
Анализ контента: Система извлекает термины. Термины «кошка» и «Абиссинская» встречаются часто.
Взвешивание (W_T):
- Термин «кошка» часто встречается на всем сайте. Вероятность P(R-bar) высока. Вес W_T будет низким или умеренным.
- Термин «Абиссинская» встречается на сайте реже. Вероятность P(R-bar) низкая. Вес W_T будет высоким, так как он является дискриминативным для этой статьи.
Поиск: Система выполняет взвешенный запрос, где «Абиссинская» имеет значительно больший приоритет, чем «кошка».
Результат: В блоке «Связанные статьи» будут показаны страницы, наиболее релевантные запросу, например, «История Абиссинской породы» и «Болезни Абиссинских кошек», а не общие статьи про уход за любыми кошками.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования Google Поиска?

Нет, напрямую не описывает. Патент сфокусирован на технологии «Website Integration» — автоматическом поиске связанных документов строго в пределах одного веб-сайта. Это скорее технология для внутреннего поиска или автоматических блоков похожих материалов, чем алгоритм глобального веб-поиска. Однако используемые принципы информационного поиска (TF-IDF, BM25) являются фундаментальными и применяются в различных поисковых системах.

Что такое Compressed Document Surrogate (CDS) и зачем он нужен?

CDS — это оптимизированная структура данных, которая хранит информацию о том, какие термины содержатся в документе и как часто. В отличие от стандартного инвертированного индекса (организован по терминам), CDS организован по документам. Это позволяет системе быстрее рассчитывать итоговую оценку документа по многословному запросу, избегая многократных поисков документа в списках терминов.

Как именно рассчитывается вес термина W_T?

Вес W_T рассчитывается как логарифм отношения двух вероятностей: вероятности встретить термин в данном документе к вероятности встретить этот термин на всем сайте. Если термин встречается в документе значительно чаще, чем в среднем по сайту, он получает высокий вес W_T. Это позволяет выделить термины, которые определяют уникальную тему документа.

Насколько актуальны описанные методы TF-IDF/BM25 в эпоху нейронных сетей (BERT, MUM)?

Описанные методы относятся к классическому информационному поиску. В современных системах для определения схожести контента преимущественно используются нейросетевые модели и векторные эмбеддинги, которые обеспечивают лучшее понимание семантики. Классические методы, такие как BM25, могут использоваться в гибридных системах или на ранних стадиях отбора кандидатов.

Что такое оптимизация поиска с досрочным завершением (S_Max)?

Это техника для ускорения поиска. Система обрабатывает термины запроса, начиная с самых важных. Она рассчитывает S_Max — максимально возможную оценку, которую может получить любой документ за счет оставшихся терминов. Если Топ-N результатов уже имеют оценки выше S_Max, поиск прекращается, так как найти более релевантные документы уже невозможно. Это экономит вычислительные ресурсы.

Влияет ли длина документа на расчет релевантности?

Да, влияет. В патенте используется формула Robertson’s TF (компонент BM25), которая включает нормализацию по длине документа (L_D/L_0). Это означает, что при прочих равных, короткие документы, содержащие нужные термины, могут получить более высокую оценку TF, чем длинные документы с тем же количеством вхождений этих терминов.

Могу ли я использовать этот патент для улучшения внутренней перелинковки?

Да, принципы, описанные в патенте, можно использовать как основу для создания собственного алгоритма генерации автоматической внутренней перелинковки или блоков «Похожие материалы». Использование взвешенного подхода TF-IDF/BM25 для определения схожести страниц является надежным методом, хотя современные векторные методы могут дать более точные результаты.

В патенте упоминается «Robertson’s Term Frequency». Это то же самое, что BM25?

Да, это тесно связанные понятия. Robertson’s Term Frequency — это компонент расчета частоты термина (TF) в алгоритме Okapi BM25. Патент фактически описывает использование BM25 (или очень близкого к нему алгоритма) для оценки релевантности документов.

Поможет ли этот механизм ранжироваться моему сайту выше в Google?

Нет, этот механизм предназначен для улучшения навигации и интеграции контента внутри вашего сайта. Он не влияет напрямую на позиции сайта в глобальной выдаче Google. Однако улучшение пользовательского опыта, глубины просмотра и поведенческих факторов за счет качественной внутрисайтовой интеграции может косвенно положительно влиять на SEO.

Как наличие шаблонного текста (boilerplate) повлияет на работу этой системы?

Негативно. Термины из шаблонного текста встречаются на многих страницах, поэтому они получат очень низкий вес W_T (они не являются уникальными). Если уникального контента на странице мало, а шаблонного много, это может «зашумлять» процесс и приводить к нерелевантным рекомендациям.