Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

Описание

Какую задачу решает

Патент решает проблемы традиционных методов оценки релевантности, таких как TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF часто ошибочно придает большой вес редким, но малозначимым словам (например, сложным терминам или опечаткам) и недооценивает распространенные, но важные для темы слова. Также традиционные методы плохо справляются с анализом значимости словосочетаний (фраз). Изобретение предлагает более точный метод определения схожести документов.

Что запатентовано

Запатентована система идентификации похожих документов на основе векторного пространства (vector-space algorithm). Ключевое нововведение — замена TF-IDF на две отдельные метрики: Prominence Score (Оценка Значимости термина внутри документа) и Descriptiveness Score (Оценка Описательности термина в целом). Система также включает механизм для оценки вероятности того, что два соседних слова образуют значимое словосочетание (Bigram Probability).

Как это работает

Система анализирует текст и метаданные документа и выполняет следующие шаги:

Анализ фраз: Для каждой пары слов вычисляется Bigram Probability — вероятность того, что они образуют устойчивое словосочетание.
Расчет Prominence Score: Определяется значимость слова или фразы внутри документа. Эта оценка зависит от того, в каком поле документа находится термин (Term Weight, например, заголовок важнее описания) и от Bigram Probability.
Расчет Descriptiveness Score: Определяется, насколько информативным является слово или фраза в целом (независимо от документа). Это вычисляется путем сравнения частотности термина в тематическом корпусе и фоновом корпусе.
Создание вектора документа: Формируется Scoring Vector, где координатами являются произведения Prominence Score и Descriptiveness Score для каждого термина.
Нормализация и Масштабирование: Вектор нормализуется и корректируется с помощью Scaling Factor, который учитывает качество документа (Quality Factor).
Сравнение: Схожесть документов определяется путем вычисления косинусной близости (dot product) их векторов.

Актуальность для SEO

Высокая. Хотя современные методы (например, нейросетевые эмбеддинги) ушли далеко вперед, принципы, заложенные в этом патенте, остаются фундаментальными для информационного поиска. Идеи учета контекста расположения слова (Term Weight), анализа словосочетаний и попытки измерить информативность слова (Descriptiveness) являются ключевыми для понимания эволюции алгоритмов релевантности.

Важность для SEO

Патент имеет высокое значение для SEO. Он детально описывает механизм, который формализует важность размещения ключевых слов в значимых зонах документа (заголовки, основной контент) через Term Weights и Quality Factor. Он также подчеркивает переход от анализа отдельных слов к анализу фраз (Bigrams) и важность использования информативного, описательного языка, а не просто редких слов.

Детальный разбор

Термины и определения

Background Corpus (Фоновый корпус): Обширный корпус документов (например, весь Интернет), используемый как эталон для сравнения частотности слов при расчете Descriptiveness Score.
Bigram (Биграмма): Фраза, состоящая из двух последовательных слов. Также называется compound.
Bigram Probability (Вероятность биграммы, k(x)): Показатель вероятности того, что два слова образуют осмысленное словосочетание с некомпозиционным значением (например, «robot chicken» отличается от значения слов «robot» и «chicken» по отдельности). Вычисляется офлайн.
Cosine Similarity (Косинусная близость): Мера сходства между двумя векторами, вычисляемая как скалярное произведение (dot product) нормализованных векторов.
Descriptiveness Score (Оценка описательности, D(x)): Метрика, показывающая, насколько информативным или специфичным является слово или фраза в среднем. Зависит от корпуса, но не зависит от конкретного документа. Вычисляется офлайн.
Multi-hit boost (M) (Усиление множественных совпадений): Дополнительный компонент к оценке схожести, который усиливает связь между документами, если они содержат несколько семантически связанных терминов (например, «перчатка» и «бита» усиливают связь по теме «бейсбол»).
Non-compound Likelihood (Вероятность не-составного слова): Вероятность того, что отдельное слово (unigram) используется самостоятельно, а не как часть биграммы слева или справа от него.
Normalization (Нормализация, Norm(T)): Процесс приведения вектора документа к единичной длине для обеспечения корректного сравнения.
Prominence Score (Оценка значимости, P(x)): Метрика, определяющая важность слова или фразы в контексте конкретного документа. Зависит от Term Weight и Bigram Probability / Non-compound Likelihood.
Purpose-relevant Corpus (Целевой корпус): Корпус документов, релевантных задаче (например, корпус описаний изображений, если ищутся похожие фото). Используется для расчета Descriptiveness Score.
Quality Factor (Q) (Фактор качества): Метрика, корректирующая оценку документа. Увеличивает вес документа, если его значимые термины находятся в важных полях (metadata fields).
Scaling Factor (S) (Масштабирующий фактор): Итоговый множитель для вектора документа. Рассчитывается как Quality Factor, деленный на Normalization. Также называется document multiplier.
Scoring Vector (V) (Вектор оценки): Векторное представление документа, где измерениями являются термины (unigrams/bigrams), а коэффициентами — значения, производные от Prominence Score и Descriptiveness Score.
Term Weight (w(i)) (Вес термина): Вес, присваиваемый термину в зависимости от того, в каком поле (metadata field) документа он находится (например, заголовок имеет больший вес, чем описание).
Unigram (Униграмма): Отдельное слово.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации похожих документов.

Система получает текст первого документа.
Вычисляются:
- Prominence Score для каждого слова (на основе Term Weight и Non-compound Likelihood).
- Prominence Score для каждой пары слов (на основе Term Weight и Compound Probability/Bigram Probability).
- Descriptiveness Score для каждого слова и пары слов (на основе корпуса).
Вычисляется метрика сравнения (comparison metric) для документа на основе комбинации Prominence Scores и Descriptiveness Scores.
Система находит потенциальные документы, содержащие хотя бы одно общее слово с первым документом.
Анализируется схожесть потенциальных документов с первым на основе их метрик сравнения.

Claim 2 (Зависимый от 1): Уточняет метод анализа схожести.

Анализ схожести включает вычисление скалярного произведения (dot product) векторов оценки (scoring vector) потенциального документа и исходного документа.

Claim 4 (Зависимый от 2): Детализирует расчет скалярного произведения с учетом качества.

Вычисляется фактор нормализации (normalization factor) для каждого вектора.
Вычисляется оценка качества (quality score / Quality Factor) для каждого вектора на основе весов терминов (Term Weights).
Скалярное произведение умножается на (Оценку Качества / Фактор Нормализации) для обоих документов. Это произведение (Q/Norm) и есть Scaling Factor.

Claim 5 (Зависимый от 1): Определяет расчет Non-compound likelihood.

Non-compound likelihood для слова основана на вероятности того, что оно НЕ образует составное слово со словом слева И на вероятности того, что оно НЕ образует составное слово со словом справа.

Claim 6 (Зависимый от 1): Определяет расчет Compound probability (Bigram Probability).

Вероятность основана на частоте появления пары слов в обучающем корпусе и на частоте появления этих слов на определенном расстоянии друг от друга в этом корпусе.

Claim 8 (Зависимый от 1): Определяет расчет Descriptiveness score.

Оценка рассчитывается на основе частоты слова/фразы в целевом корпусе (purpose-relevant corpus) и частоты в фоновом корпусе (background corpus).

Где и как применяется

Изобретение описывает фундаментальный механизм оценки релевантности и схожести контента, который применяется на разных этапах поиска.

INDEXING – Индексирование и извлечение признаков
Большая часть работы происходит на этом этапе или в офлайн-процессах, поддерживающих индексирование.

Офлайн-вычисления: Bigram Probabilities (k(x)) и Descriptiveness Scores (D(x)) вычисляются заранее путем анализа больших корпусов текста и сохраняются в базах данных (Compound Likelihood Database и Descriptive Database).
Индексирование документа: При обработке документа система извлекает униграммы и биграммы, запрашивает их оценки k(x) и D(x), определяет Term Weights (w(i)) на основе структуры документа. Затем вычисляются Prominence Scores (P(x)). На основе этих данных формируется Scoring Vector (V), рассчитываются Normalization (Norm(T)), Quality Factor (Q) и итоговый Scaling Factor (S). Этот вектор и фактор сохраняются в индексе (Retrieval Database).

RANKING – Ранжирование / RERANKING – Переранжирование
На этих этапах система использует предварительно вычисленные векторы для определения схожести.

Поиск похожих документов: При запросе на поиск похожих документов (например, для блока «Связанный контент»), система извлекает Scoring Vector исходного документа и сравнивает его с векторами других документов в индексе.
Вычисление схожести: Схожесть рассчитывается как скалярное произведение (dot product) векторов, скорректированное масштабирующими факторами и, возможно, Multi-hit boost.

Входные данные:

Текст и метаданные документа.
Структура документа (для определения Term Weights).
Compound Likelihood Database (для k(x)).
Descriptive Database (для D(x)).

Выходные данные:

Scoring Vector (V) для документа.
Scaling Factor (S) для документа.
Список похожих документов с оценками схожести.

На что влияет

Конкретные типы контента: Патент универсален и применим к любым документам, содержащим текст, включая веб-страницы, фото, видео (через их описания и метаданные), аудио и поисковые запросы.
Структура контента: Алгоритм напрямую зависит от структуры документа. Контент, размещенный в более важных полях (с высоким Term Weight), оказывает большее влияние на итоговый вектор и оценку качества (Quality Factor).

Когда применяется

Триггеры активации: Алгоритм применяется всякий раз, когда системе необходимо оценить релевантность документа или определить его схожесть с другими документами. Это может быть как часть основного ранжирования, так и специализированные задачи (поиск связанного контента, кластеризация новостей, дедупликация).

Пошаговый алгоритм

Процесс А: Офлайн-вычисление Bigram Probabilities (k(x))

Выбор корпуса: Выбирается обучающий корпус текстов.
Подсчет биграмм: Подсчитывается общее количество вхождений каждой биграммы в корпусе.
Подсчет близости: Подсчитывается, сколько раз слова, составляющие биграмму, появляются рядом друг с другом (например, в одном предложении или на расстоянии X слов).
Вычисление вероятности: Bigram Probability рассчитывается как отношение частоты биграммы к частоте близости слов. (Высокая частота биграммы при низкой частоте близости указывает на сильное словосочетание).
Сохранение: Вероятности сохраняются в Compound Likelihood Database.

Процесс Б: Офлайн-вычисление Descriptiveness Scores (D(x))

Выбор корпусов: Определяется целевой корпус (Purpose-relevant Corpus) и фоновый корпус (Background Corpus).
Подсчет в целевом корпусе: Суммируется количество вхождений (или взвешенное количество с учетом Non-compound likelihood/Bigram Probability) каждого термина в целевом корпусе.
Подсчет в фоновом корпусе: Аналогичный подсчет выполняется для фонового корпуса.
Вычисление оценки: Descriptiveness Score рассчитывается как отношение частоты в целевом корпусе к частоте в фоновом корпусе.
Корректировка (Опционально): Оценки могут быть скорректированы (down-weighted) для устранения артефактов (например, не-селебрити имен, рекламных слов, общих терминов типа «фото»).
Сохранение: Оценки сохраняются в Descriptive Database.

Процесс В: Обработка документа и создание Scoring Vector

Получение документа: Система получает текст и метаданные документа.
Токенизация: Текст разбивается на униграммы (u) и биграммы (b).
Извлечение данных: Для каждого термина запрашиваются Bigram Probability (k(x)) и Descriptiveness Score (D(x)) из баз данных. Определяется Term Weight (w(i)) на основе поля документа.
Расчет Prominence Score (P(x)):
- Для биграмм: $P(b) = max_{b_j=b}(k(b)*w(i))$
- Для униграмм: $P(u) = max_{u_j=u}((1-k(b_{i-1}))*(1-k(b_{i}))*w(i))$ (Если термин встречается несколько раз, используется максимальное значение).
Формирование базового вектора: Коэффициентом для каждого термина становится произведение P(x) * D(x).
Расчет Нормализации (Norm(T)): Вычисляется корень из суммы квадратов коэффициентов. $Norm(T) = \sqrt{\sum_{y \in T} (P(y)*D(y))^2}$
Расчет Quality Factor (Q): Определяется доля оценки, приходящаяся на важные поля (I) по сравнению со всеми полями (T). $Q = \frac{a + \frac{\sum_{x \in I} P(x)D(x)}{\sum_{x \in T} P(x)D(x)}}{a+1.0}$ (где ‘a’ — константа, например, 1.2).
Расчет Scaling Factor (S): S = Q / Norm(T).
Формирование итогового вектора (V): Базовый вектор может быть нормализован (разделен на Norm(T)) и затем умножен на Q, либо сразу умножен на S (scaled document vector).
Сохранение: Итоговый вектор и/или Scaling Factor сохраняются в индексе.

Процесс Г: Поиск похожих документов

Получение запроса: Система получает запрос на поиск документов, похожих на исходный документ (D1).
Извлечение вектора D1: Из индекса извлекается вектор V1 и фактор S1.
Поиск кандидатов: Идентифицируются потенциальные документы (D2), имеющие общие термины с D1.
Расчет схожести: Для каждого кандидата D2 извлекаются V2 и S2 и вычисляется оценка схожести.
- Базовая схожесть (Cosine Similarity): $V_1 \cdot V_2$ (если векторы нормализованы).
- Схожесть с учетом качества: $S_1*S_2*(V_1 \cdot V_2)$ .
- Схожесть с усилением (Опционально): $S_1*S_2*(V_1 \cdot V_2 + M)$ (где M — Multi-hit boost).
Фильтрация и возврат результатов: Документы с наивысшими оценками схожести (или превышающие порог) возвращаются пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа, включая содержимое различных полей (например, заголовок, описание, теги).
Структурные факторы: Идентификация полей (metadata fields), в которых находится текст. Эти данные используются для определения Term Weights (w(i)).

Какие метрики используются и как они считаются

Bigram Probability (k(x)): Вычисляется офлайн. Прямо пропорциональна частоте биграммы и обратно пропорциональна частоте появления ее компонентов рядом друг с другом в обучающем корпусе.
Descriptiveness Score (D(x)): Вычисляется офлайн. Отношение частоты термина в Purpose-relevant Corpus к частоте в Background Corpus.
Term Weight (w(i)): Заранее определенные веса для разных полей документа.
Prominence Score (P(x)): Вычисляется при индексировании. Функция от k(x) и w(i). (Формулы приведены в разделе «Пошаговый алгоритм», Процесс В, Шаг 4).
Normalization (Norm(T)): Вычисляется при индексировании. Стандартная L2 норма вектора. (Формула в Процессе В, Шаг 6).
Quality Factor (Q): Вычисляется при индексировании. Мера того, какая часть общей оценки документа приходится на термины в важных полях. (Формула в Процессе В, Шаг 7).
Scaling Factor (S): Вычисляется при индексировании. S = Q / Norm(T).
Multi-hit boost (M): Вычисляется во время сравнения документов. Усиливает схожесть при наличии нескольких связанных терминов. $M = k\sum_{i<j}(V_1(i)*V_2(i)*V_1(j)*V_2(j))$ (где k — константа, например, 5.0).

Выводы

Переход от TF-IDF к более сложным метрикам релевантности: Патент демонстрирует отход от использования только частоты и редкости (TF-IDF) к измерению реальной значимости (Prominence) и информативности (Descriptiveness). Это позволяет лучше фильтровать шум и фокусироваться на сути контента.
Математическое обоснование важности структуры документа: Важность размещения ключевых слов в значимых зонах (заголовки, основной текст) не просто учитывается через Term Weights, но и влияет на общий Quality Factor документа. Если самые важные термины находятся в неважных полях, общий вес документа снижается.
Сложный анализ словосочетаний (Bigrams): Система не просто учитывает фразы, но и оценивает вероятность того, что фраза является устойчивым выражением (Bigram Probability). Это позволяет отличать значимые словосочетания от случайного соседства слов.
Описательность важнее редкости: Descriptiveness Score направлен на выявление слов, которые хорошо описывают тему (сравнивая целевой и фоновый корпусы), а не просто редко встречаются в интернете. Это прямой ответ на недостатки IDF.
Многоуровневая оценка схожести: Итоговая оценка схожести учитывает не только совпадение терминов (Cosine Similarity), но и качество обоих документов (через Scaling Factors), а также синергию между терминами (Multi-hit boost).

Практика

Best practices (это мы делаем)

Приоритезация размещения ключевых слов: Убедитесь, что основные и наиболее описательные термины находятся в зонах с высоким Term Weight (Title, H1, начало основного контента). Это напрямую влияет на Prominence Score и Quality Factor.
Использование информативного и специфичного языка: Фокусируйтесь на терминах, которые имеют высокий Descriptiveness Score. Это слова и фразы, которые четко определяют тему и часто встречаются в релевантном контексте, а не общие слова или редкий жаргон.
Естественное использование словосочетаний: Пишите естественно, используя устоявшиеся фразы и термины. Система распознает значимые биграммы (высокий Bigram Probability) и придает им больший вес, чем отдельным словам.
Создание тематических кластеров контента: Поскольку алгоритм предназначен для поиска похожих документов, создание плотных кластеров контента по теме увеличивает вероятность того, что страницы сайта будут рекомендованы как связанные друг с другом и с внешними релевантными запросами.
Оптимизация метаданных для разных типов контента: Если вы работаете с изображениями или видео, уделите особое внимание качеству их описаний и тегов, так как этот текст является основой для анализа схожести в данном алгоритме.

Worst practices (это делать не надо)

Использование редких слов ради уникальности: Попытка повысить рейтинг за счет использования очень редких синонимов (в расчете на высокий IDF) неэффективна. Если слово не является описательным (низкий Descriptiveness Score), оно не внесет значительного вклада в вектор документа.
Keyword Stuffing в неважных зонах: Размещение ключевых слов в футере, скрытых блоках или других зонах с низким Term Weight даст минимальный эффект и может снизить общий Quality Factor документа.
Игнорирование структуры контента: Создание «простыни текста» без четкой структуры и иерархии не позволяет системе корректно определить Term Weights и снижает эффективность алгоритма.

Стратегическое значение

Этот патент подтверждает стратегическую важность качественного копирайтинга и четкой структуры документа. Он предоставляет детальный взгляд на то, как Google может алгоритмически разбирать вклад различных элементов страницы в общую релевантность. Понимание разницы между Prominence и Descriptiveness помогает SEO-специалистам выбирать правильные ключевые слова и правильно размещать их на странице, двигаясь от устаревших концепций плотности и TF-IDF к более сложным моделям релевантности.

Практические примеры

Сценарий: Оптимизация страницы товара для повышения релевантности

Сравним две страницы товара «Красные кроссовки Nike Air Max».

Страница А (Плохо):

Title: «Купить кроссовки недорого» (Низкий Term Weight для ключевых терминов).
Описание: Длинный текст с упоминанием «Nike Air Max» в конце (Низкий Prominence Score). Используются слова «обувь для бега» (Низкий Descriptiveness Score для категории).
Результат: Низкий Quality Factor, так как основные термины не в приоритетных зонах. Вектор размыт.

Страница Б (Хорошо):

Title: «Кроссовки Nike Air Max — Красные» (Высокий Term Weight).
H1: «Nike Air Max» (Устойчивая биграмма, высокий Prominence Score).
Описание: Четкое описание характеристик с использованием специфичных терминов (Высокий Descriptiveness Score).
Результат: Высокий Quality Factor. Scoring Vector точно отражает содержание страницы, увеличивая схожесть с другими релевантными документами и запросами.

Вопросы и ответы

Чем этот алгоритм отличается от TF-IDF?

TF-IDF оценивает важность слова на основе его частоты в документе (TF) и редкости в корпусе (IDF). Этот алгоритм заменяет TF на Prominence Score (учитывает расположение слова и его участие в фразах) и IDF на Descriptiveness Score (учитывает информативность слова, сравнивая целевой и фоновый корпусы). Это позволяет избежать переоценки редких, но бессмысленных слов.

Что такое Descriptiveness Score и как он влияет на SEO?

Descriptiveness Score показывает, насколько информативно слово или фраза в целом. Он выше для терминов, которые часто встречаются в тематических документах и реже в общих текстах. Для SEO это означает, что нужно использовать специфичную для ниши терминологию, которая четко описывает контент, а не общие слова или редкий жаргон.

Как система определяет, является ли фраза (Bigram) важной?

Система использует Bigram Probability (k(x)). Она выше, если два слова часто встречаются вместе как фраза, но редко встречаются просто рядом друг с другом в других контекстах. Например, «Эйфелева башня» имеет высокую вероятность, так как эти слова редко встречаются рядом, если речь не идет о конкретном объекте.

Что такое Prominence Score и почему он важен?

Prominence Score определяет важность термина внутри конкретного документа. Он зависит от того, где расположен термин (Term Weight, например, в заголовке) и является ли он частью фразы. Это критически важно для SEO, так как подтверждает необходимость размещения ключевых слов в значимых зонах документа.

Что такое Quality Factor (Q) и как он наказывает за плохую структуру?

Quality Factor измеряет, какая доля общей оценки документа приходится на термины, расположенные в важных полях (например, Title, H1). Если самые важные (Prominent и Descriptive) термины страницы находятся в неважных полях (например, в футере), Quality Factor будет низким, что снизит общий вес документа при сравнении.

Применяется ли этот алгоритм только к веб-страницам?

Нет. В патенте явно указано, что он применим к тексту, фотографиям, видео, аудио и поисковым запросам. Для мультимедиа контента анализируются его текстовые описания и метаданные. Это подчеркивает важность оптимизации метаданных для всех типов активов на сайте.

Что такое Multi-hit boost?

Это механизм, который увеличивает оценку схожести между двумя документами, если они содержат несколько семантически связанных терминов. Например, если оба документа содержат «бита» и «перчатка», их схожесть по теме «бейсбол» усиливается больше, чем если бы они содержали только одно из этих слов.

Как система обрабатывает слова, которые встречаются несколько раз на странице?

Патент указывает, что если термин встречается в нескольких полях (metadata fields), используется только то вхождение, которое дает максимальный Prominence Score. Это помогает избежать штрафов за переспам и фокусируется на наиболее значимом использовании термина.

Является ли этот патент предшественником современных векторных моделей (Embeddings)?

Да, это пример классического подхода к созданию векторов документов (Vector Space Model), который пытается улучшить TF-IDF за счет добавления лингвистических и структурных признаков. Хотя современные нейросетевые эмбеддинги работают иначе (обучаясь на контексте без явного определения правил), они решают те же задачи: определение значимости слов, понимание фраз и измерение схожести.

Как рассчитывается Non-compound Likelihood?

Это вероятность того, что слово используется самостоятельно. Она рассчитывается как произведение (1 — Вероятность биграммы слева) и (1 — Вероятность биграммы справа). Если слово часто является частью фразы, его вес как отдельного слова снижается, и наоборот.