
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
Патент решает проблемы традиционных методов оценки релевантности, таких как TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF часто ошибочно придает большой вес редким, но малозначимым словам (например, сложным терминам или опечаткам) и недооценивает распространенные, но важные для темы слова. Также традиционные методы плохо справляются с анализом значимости словосочетаний (фраз). Изобретение предлагает более точный метод определения схожести документов.
Запатентована система идентификации похожих документов на основе векторного пространства (vector-space algorithm). Ключевое нововведение — замена TF-IDF на две отдельные метрики: Prominence Score (Оценка Значимости термина внутри документа) и Descriptiveness Score (Оценка Описательности термина в целом). Система также включает механизм для оценки вероятности того, что два соседних слова образуют значимое словосочетание (Bigram Probability).
Система анализирует текст и метаданные документа и выполняет следующие шаги:
Bigram Probability — вероятность того, что они образуют устойчивое словосочетание.Term Weight, например, заголовок важнее описания) и от Bigram Probability.Scoring Vector, где координатами являются произведения Prominence Score и Descriptiveness Score для каждого термина.Scaling Factor, который учитывает качество документа (Quality Factor).Высокая. Хотя современные методы (например, нейросетевые эмбеддинги) ушли далеко вперед, принципы, заложенные в этом патенте, остаются фундаментальными для информационного поиска. Идеи учета контекста расположения слова (Term Weight), анализа словосочетаний и попытки измерить информативность слова (Descriptiveness) являются ключевыми для понимания эволюции алгоритмов релевантности.
Патент имеет высокое значение для SEO. Он детально описывает механизм, который формализует важность размещения ключевых слов в значимых зонах документа (заголовки, основной контент) через Term Weights и Quality Factor. Он также подчеркивает переход от анализа отдельных слов к анализу фраз (Bigrams) и важность использования информативного, описательного языка, а не просто редких слов.
Descriptiveness Score.Term Weight и Bigram Probability / Non-compound Likelihood.Descriptiveness Score.Quality Factor, деленный на Normalization. Также называется document multiplier.Prominence Score и Descriptiveness Score.Claim 1 (Независимый пункт): Описывает основной метод идентификации похожих документов.
Prominence Score для каждого слова (на основе Term Weight и Non-compound Likelihood).Prominence Score для каждой пары слов (на основе Term Weight и Compound Probability/Bigram Probability).Descriptiveness Score для каждого слова и пары слов (на основе корпуса).comparison metric) для документа на основе комбинации Prominence Scores и Descriptiveness Scores.Claim 2 (Зависимый от 1): Уточняет метод анализа схожести.
Анализ схожести включает вычисление скалярного произведения (dot product) векторов оценки (scoring vector) потенциального документа и исходного документа.
Claim 4 (Зависимый от 2): Детализирует расчет скалярного произведения с учетом качества.
normalization factor) для каждого вектора.quality score / Quality Factor) для каждого вектора на основе весов терминов (Term Weights).Scaling Factor.Claim 5 (Зависимый от 1): Определяет расчет Non-compound likelihood.
Non-compound likelihood для слова основана на вероятности того, что оно НЕ образует составное слово со словом слева И на вероятности того, что оно НЕ образует составное слово со словом справа.
Claim 6 (Зависимый от 1): Определяет расчет Compound probability (Bigram Probability).
Вероятность основана на частоте появления пары слов в обучающем корпусе и на частоте появления этих слов на определенном расстоянии друг от друга в этом корпусе.
Claim 8 (Зависимый от 1): Определяет расчет Descriptiveness score.
Оценка рассчитывается на основе частоты слова/фразы в целевом корпусе (purpose-relevant corpus) и частоты в фоновом корпусе (background corpus).
Изобретение описывает фундаментальный механизм оценки релевантности и схожести контента, который применяется на разных этапах поиска.
INDEXING – Индексирование и извлечение признаков
Большая часть работы происходит на этом этапе или в офлайн-процессах, поддерживающих индексирование.
Bigram Probabilities (k(x)) и Descriptiveness Scores (D(x)) вычисляются заранее путем анализа больших корпусов текста и сохраняются в базах данных (Compound Likelihood Database и Descriptive Database).Term Weights (w(i)) на основе структуры документа. Затем вычисляются Prominence Scores (P(x)). На основе этих данных формируется Scoring Vector (V), рассчитываются Normalization (Norm(T)), Quality Factor (Q) и итоговый Scaling Factor (S). Этот вектор и фактор сохраняются в индексе (Retrieval Database).RANKING – Ранжирование / RERANKING – Переранжирование
На этих этапах система использует предварительно вычисленные векторы для определения схожести.
Scoring Vector исходного документа и сравнивает его с векторами других документов в индексе.Multi-hit boost.Входные данные:
Term Weights).Compound Likelihood Database (для k(x)).Descriptive Database (для D(x)).Выходные данные:
Scoring Vector (V) для документа.Scaling Factor (S) для документа.Term Weight), оказывает большее влияние на итоговый вектор и оценку качества (Quality Factor).Процесс А: Офлайн-вычисление Bigram Probabilities (k(x))
Bigram Probability рассчитывается как отношение частоты биграммы к частоте близости слов. (Высокая частота биграммы при низкой частоте близости указывает на сильное словосочетание).Compound Likelihood Database.Процесс Б: Офлайн-вычисление Descriptiveness Scores (D(x))
Purpose-relevant Corpus) и фоновый корпус (Background Corpus).Non-compound likelihood/Bigram Probability) каждого термина в целевом корпусе.Descriptiveness Score рассчитывается как отношение частоты в целевом корпусе к частоте в фоновом корпусе.Descriptive Database.Процесс В: Обработка документа и создание Scoring Vector
Bigram Probability (k(x)) и Descriptiveness Score (D(x)) из баз данных. Определяется Term Weight (w(i)) на основе поля документа.scaled document vector).Scaling Factor сохраняются в индексе.Процесс Г: Поиск похожих документов
Multi-hit boost).Term Weights (w(i)).Purpose-relevant Corpus к частоте в Background Corpus.Prominence) и информативности (Descriptiveness). Это позволяет лучше фильтровать шум и фокусироваться на сути контента.Term Weights, но и влияет на общий Quality Factor документа. Если самые важные термины находятся в неважных полях, общий вес документа снижается.Bigram Probability). Это позволяет отличать значимые словосочетания от случайного соседства слов.Descriptiveness Score направлен на выявление слов, которые хорошо описывают тему (сравнивая целевой и фоновый корпусы), а не просто редко встречаются в интернете. Это прямой ответ на недостатки IDF.Scaling Factors), а также синергию между терминами (Multi-hit boost).Term Weight (Title, H1, начало основного контента). Это напрямую влияет на Prominence Score и Quality Factor.Descriptiveness Score. Это слова и фразы, которые четко определяют тему и часто встречаются в релевантном контексте, а не общие слова или редкий жаргон.Bigram Probability) и придает им больший вес, чем отдельным словам.Descriptiveness Score), оно не внесет значительного вклада в вектор документа.Term Weight даст минимальный эффект и может снизить общий Quality Factor документа.Term Weights и снижает эффективность алгоритма.Этот патент подтверждает стратегическую важность качественного копирайтинга и четкой структуры документа. Он предоставляет детальный взгляд на то, как Google может алгоритмически разбирать вклад различных элементов страницы в общую релевантность. Понимание разницы между Prominence и Descriptiveness помогает SEO-специалистам выбирать правильные ключевые слова и правильно размещать их на странице, двигаясь от устаревших концепций плотности и TF-IDF к более сложным моделям релевантности.
Сценарий: Оптимизация страницы товара для повышения релевантности
Сравним две страницы товара "Красные кроссовки Nike Air Max".
Страница А (Плохо):
Term Weight для ключевых терминов).Prominence Score). Используются слова "обувь для бега" (Низкий Descriptiveness Score для категории).Quality Factor, так как основные термины не в приоритетных зонах. Вектор размыт.Страница Б (Хорошо):
Term Weight).Prominence Score).Descriptiveness Score).Quality Factor. Scoring Vector точно отражает содержание страницы, увеличивая схожесть с другими релевантными документами и запросами.Чем этот алгоритм отличается от TF-IDF?
TF-IDF оценивает важность слова на основе его частоты в документе (TF) и редкости в корпусе (IDF). Этот алгоритм заменяет TF на Prominence Score (учитывает расположение слова и его участие в фразах) и IDF на Descriptiveness Score (учитывает информативность слова, сравнивая целевой и фоновый корпусы). Это позволяет избежать переоценки редких, но бессмысленных слов.
Что такое Descriptiveness Score и как он влияет на SEO?
Descriptiveness Score показывает, насколько информативно слово или фраза в целом. Он выше для терминов, которые часто встречаются в тематических документах и реже в общих текстах. Для SEO это означает, что нужно использовать специфичную для ниши терминологию, которая четко описывает контент, а не общие слова или редкий жаргон.
Как система определяет, является ли фраза (Bigram) важной?
Система использует Bigram Probability (k(x)). Она выше, если два слова часто встречаются вместе как фраза, но редко встречаются просто рядом друг с другом в других контекстах. Например, "Эйфелева башня" имеет высокую вероятность, так как эти слова редко встречаются рядом, если речь не идет о конкретном объекте.
Что такое Prominence Score и почему он важен?
Prominence Score определяет важность термина внутри конкретного документа. Он зависит от того, где расположен термин (Term Weight, например, в заголовке) и является ли он частью фразы. Это критически важно для SEO, так как подтверждает необходимость размещения ключевых слов в значимых зонах документа.
Что такое Quality Factor (Q) и как он наказывает за плохую структуру?
Quality Factor измеряет, какая доля общей оценки документа приходится на термины, расположенные в важных полях (например, Title, H1). Если самые важные (Prominent и Descriptive) термины страницы находятся в неважных полях (например, в футере), Quality Factor будет низким, что снизит общий вес документа при сравнении.
Применяется ли этот алгоритм только к веб-страницам?
Нет. В патенте явно указано, что он применим к тексту, фотографиям, видео, аудио и поисковым запросам. Для мультимедиа контента анализируются его текстовые описания и метаданные. Это подчеркивает важность оптимизации метаданных для всех типов активов на сайте.
Что такое Multi-hit boost?
Это механизм, который увеличивает оценку схожести между двумя документами, если они содержат несколько семантически связанных терминов. Например, если оба документа содержат "бита" и "перчатка", их схожесть по теме "бейсбол" усиливается больше, чем если бы они содержали только одно из этих слов.
Как система обрабатывает слова, которые встречаются несколько раз на странице?
Патент указывает, что если термин встречается в нескольких полях (metadata fields), используется только то вхождение, которое дает максимальный Prominence Score. Это помогает избежать штрафов за переспам и фокусируется на наиболее значимом использовании термина.
Является ли этот патент предшественником современных векторных моделей (Embeddings)?
Да, это пример классического подхода к созданию векторов документов (Vector Space Model), который пытается улучшить TF-IDF за счет добавления лингвистических и структурных признаков. Хотя современные нейросетевые эмбеддинги работают иначе (обучаясь на контексте без явного определения правил), они решают те же задачи: определение значимости слов, понимание фраз и измерение схожести.
Как рассчитывается Non-compound Likelihood?
Это вероятность того, что слово используется самостоятельно. Она рассчитывается как произведение (1 - Вероятность биграммы слева) и (1 - Вероятность биграммы справа). Если слово часто является частью фразы, его вес как отдельного слова снижается, и наоборот.

Свежесть контента
SERP
Семантика и интент

Семантика и интент
Индексация

Индексация
Семантика и интент
Ссылки

Семантика и интент
SERP

Индексация
Семантика и интент

Local SEO
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
SERP

EEAT и качество
Семантика и интент
SERP

Ссылки
SERP
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Индексация
Техническое SEO

Семантика и интент
Поведенческие сигналы
