
Анализ патента Google, описывающего технологию автоматического поиска связанного контента внутри одного веб-сайта. Система анализирует текст просматриваемой страницы, извлекает и взвешивает ключевые термины на основе их уникальности, а затем использует их как поисковый запрос (Query by Example) для нахождения тематически похожих документов на том же сайте. Используются классические формулы информационного поиска (TF-IDF/BM25).
Патент решает проблему автоматизации поиска и представления связанного контента в пределах одного крупного веб-сайта. Ручное связывание страниц (например, создание блоков "Похожие материалы" или назначение тегов) трудоемко и сложно в поддержке, особенно на динамичных сайтах. Изобретение предлагает автоматизированный метод (Website Integration) для идентификации тематически похожих документов на основе анализа контента текущей страницы.
Кроме того, патент решает инфраструктурную проблему эффективности информационного поиска (Information Retrieval), предлагая оптимизации структуры индекса (Compressed Document Surrogates) и алгоритма поиска.
Запатентован метод автоматического поиска документов внутри веб-сайта, связанных с документом, который в данный момент просматривает пользователь. Система использует текст текущего документа для автоматической генерации взвешенного поискового запроса (подход "Query by Example"). Этот запрос выполняется по индексу данного веб-сайта, и результаты (похожие страницы) представляются пользователю. Также запатентованы техники оптимизации этого процесса.
Система работает следующим образом:
W_T). Этот вес рассчитывается путем сравнения частоты термина в данном документе с его частотой на всем веб-сайте. Более уникальные для документа термины получают больший вес.Robertson's Term Frequency (компонент BM25), с учетом весов терминов из запроса.Compressed Document Surrogates (CDS) и алгоритма досрочного завершения поиска (S_Max).Средняя. Концепция автоматического связывания контента актуальна. Однако техническая реализация, описанная в патенте (основанная на статистическом взвешивании терминов и Robertson's TF), относится к классическому информационному поиску (оригинальная заявка имеет приоритет от 2000 года). Современные системы в 2025 году преимущественно используют нейросетевые подходы и векторные эмбеддинги для определения схожести документов. Тем не менее, описанные принципы и формулы (BM25) остаются фундаментальными.
Влияние на SEO умеренное (6/10). Патент в первую очередь фокусируется на улучшении пользовательского опыта внутри одного веб-сайта (например, системы рекомендаций контента или внутрисайтовый поиск), а не на ранжировании в глобальном поиске Google. Однако он предоставляет глубокое понимание классических методов информационного поиска (взвешивание TF-IDF, BM25). Понимание того, как статистическая значимость терминов используется для определения релевантности и схожести, критически важно для разработки контент-стратегии и оптимизации внутренней структуры сайта.
Golomb Coding). Позволяет быстро определить, какие термины содержатся в документе, ускоряя финальный расчет оценки.CDS.IDF.Term Frequency (TF), являющаяся компонентом алгоритма BM25. Учитывает длину документа и эффект насыщения (повторение термина приносит убывающую пользу).Патент имеет 19 пунктов формулы изобретения. Ключевым является независимый пункт 1.
Claim 1 (Независимый пункт): Описывает метод автоматической интеграции контента веб-сайта.
first ratio): количество вхождений термина в первом документе к общему количеству терминов в первом документе.second ratio): количество вхождений термина на всем веб-сайте к общему количеству терминов на всем веб-сайте.weight) для термина на основе первого и второго соотношений.scores) для множества других документов на этом же веб-сайте.Claim 10 (Зависимый от 1): Уточняет формулу расчета веса.
Вес термина вычисляется путем вычисления логарифма отношения между первым соотношением (first ratio) и вторым соотношением (second ratio) для этого термина.
Claim 6 (Зависимый от 1): Уточняет механизм оценки.
Определение оценок для документов выполняется с использованием Compressed Document Surrogates (CDS). CDS содержит данные, представляющие количество вхождений терминов в соответствующем документе.
Изобретение применяется в рамках системы информационного поиска, обслуживающей конкретный веб-сайт (например, внутрисайтовый поиск или система рекомендаций контента), а не в глобальном веб-поиске.
INDEXING – Индексирование и извлечение признаков
N_T), общая частота терминов на сайте, длина документов (L_D) и средняя длина документа (L_0).TF (Robertson's TF) и IDF.Inverted Term Lists и Compressed Document Surrogates (CDS) для каждого документа.RANKING – Ранжирование (Внутрисайтовое)
Это основной этап применения патента, который активируется при доступе пользователя к документу.
Query by Example). Вычисляются веса терминов (W_T).Inverted Term Lists, начиная с наиболее значимых терминов, и использует механизм досрочного завершения (S_Max).S_D) рассчитываются с использованием формулы, объединяющей W_T, TF и IDF. Для ускорения этого процесса используются CDS.Входные данные:
Выходные данные:
Процесс А: Генерация и выполнение запроса по примеру (Website Integration)
Website Integration). Он не описывает алгоритмы ранжирования глобального поиска Google.TF-IDF, BM25). Это подтверждает, что статистический анализ частотности и распределения терминов является фундаментальным методом определения тематической связи между документами.W_T подчеркивает термины, которые чаще встречаются в документе, чем в среднем по сайту (дискриминативные термины), что позволяет выделить основную тему документа.Compressed Document Surrogates (CDS) позволяет оптимизировать расчет оценок, предоставляя быстрый доступ к информации о терминах, содержащихся в документе.Хотя патент описывает автоматизированную систему для внутрисайтовой интеграции, понимание его принципов полезно для общей SEO и контент-стратегии.
P_T(R-bar)) и, следовательно, точнее вычислять вес W_T для выделения уникальной темы документа.IDF и высокий W_T), а не только общие слова.Robertson's TF учитывает длину документа (нормализация). Слишком длинные документы, охватывающие множество тем, могут размывать статистическую значимость отдельных терминов. Поддерживайте фокус на основной теме страницы.TF-IDF/BM25.Robertson's TF специально разработана для сглаживания влияния чрезмерной частоты (эффект насыщения). Переспам не даст линейного прироста релевантности в этой модели и может исказить профиль документа.IDF и P_T(R-bar)), делая термины из этого контента менее значимыми (низкий W_T) для системы интеграции.Патент подтверждает важность классических принципов информационного поиска в определении схожести контента. Он демонстрирует, как математически определяется релевантность на основе статистики использования слов. Для SEO-специалистов это подчеркивает, что контент должен быть не только качественным, но и обладать четкими статистическими характеристиками, позволяющими алгоритмам идентифицировать его основную тематику и отличать от другого контента на сайте.
Сценарий: Автоматическая генерация блока "Связанные статьи" на контентном сайте.
W_T будет низким или умеренным.W_T будет высоким, так как он является дискриминативным для этой статьи.Описывает ли этот патент алгоритмы ранжирования Google Поиска?
Нет, напрямую не описывает. Патент сфокусирован на технологии "Website Integration" — автоматическом поиске связанных документов строго в пределах одного веб-сайта. Это скорее технология для внутреннего поиска или автоматических блоков похожих материалов, чем алгоритм глобального веб-поиска. Однако используемые принципы информационного поиска (TF-IDF, BM25) являются фундаментальными и применяются в различных поисковых системах.
Что такое Compressed Document Surrogate (CDS) и зачем он нужен?
CDS — это оптимизированная структура данных, которая хранит информацию о том, какие термины содержатся в документе и как часто. В отличие от стандартного инвертированного индекса (организован по терминам), CDS организован по документам. Это позволяет системе быстрее рассчитывать итоговую оценку документа по многословному запросу, избегая многократных поисков документа в списках терминов.
Как именно рассчитывается вес термина W_T?
Вес W_T рассчитывается как логарифм отношения двух вероятностей: вероятности встретить термин в данном документе к вероятности встретить этот термин на всем сайте. Если термин встречается в документе значительно чаще, чем в среднем по сайту, он получает высокий вес W_T. Это позволяет выделить термины, которые определяют уникальную тему документа.
Насколько актуальны описанные методы TF-IDF/BM25 в эпоху нейронных сетей (BERT, MUM)?
Описанные методы относятся к классическому информационному поиску. В современных системах для определения схожести контента преимущественно используются нейросетевые модели и векторные эмбеддинги, которые обеспечивают лучшее понимание семантики. Классические методы, такие как BM25, могут использоваться в гибридных системах или на ранних стадиях отбора кандидатов.
Что такое оптимизация поиска с досрочным завершением (S_Max)?
Это техника для ускорения поиска. Система обрабатывает термины запроса, начиная с самых важных. Она рассчитывает S_Max — максимально возможную оценку, которую может получить любой документ за счет оставшихся терминов. Если Топ-N результатов уже имеют оценки выше S_Max, поиск прекращается, так как найти более релевантные документы уже невозможно. Это экономит вычислительные ресурсы.
Влияет ли длина документа на расчет релевантности?
Да, влияет. В патенте используется формула Robertson's TF (компонент BM25), которая включает нормализацию по длине документа (L_D/L_0). Это означает, что при прочих равных, короткие документы, содержащие нужные термины, могут получить более высокую оценку TF, чем длинные документы с тем же количеством вхождений этих терминов.
Могу ли я использовать этот патент для улучшения внутренней перелинковки?
Да, принципы, описанные в патенте, можно использовать как основу для создания собственного алгоритма генерации автоматической внутренней перелинковки или блоков "Похожие материалы". Использование взвешенного подхода TF-IDF/BM25 для определения схожести страниц является надежным методом, хотя современные векторные методы могут дать более точные результаты.
В патенте упоминается «Robertson's Term Frequency». Это то же самое, что BM25?
Да, это тесно связанные понятия. Robertson's Term Frequency — это компонент расчета частоты термина (TF) в алгоритме Okapi BM25. Патент фактически описывает использование BM25 (или очень близкого к нему алгоритма) для оценки релевантности документов.
Поможет ли этот механизм ранжироваться моему сайту выше в Google?
Нет, этот механизм предназначен для улучшения навигации и интеграции контента внутри вашего сайта. Он не влияет напрямую на позиции сайта в глобальной выдаче Google. Однако улучшение пользовательского опыта, глубины просмотра и поведенческих факторов за счет качественной внутрисайтовой интеграции может косвенно положительно влиять на SEO.
Как наличие шаблонного текста (boilerplate) повлияет на работу этой системы?
Негативно. Термины из шаблонного текста встречаются на многих страницах, поэтому они получат очень низкий вес W_T (они не являются уникальными). Если уникального контента на странице мало, а шаблонного много, это может «зашумлять» процесс и приводить к нерелевантным рекомендациям.

Ссылки
Семантика и интент
Техническое SEO

Семантика и интент
Персонализация
Мультимедиа

Семантика и интент
SERP

Индексация
SERP
Семантика и интент

Индексация
Структура сайта
Техническое SEO

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
SERP
EEAT и качество

Семантика и интент
Персонализация
SERP

Антиспам
Ссылки
Семантика и интент

Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Мультиязычность
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Безопасный поиск
Поведенческие сигналы
