SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

SYSTEMS AND METHODS FOR IDENTIFYING SIMILAR DOCUMENTS (Системы и методы идентификации похожих документов)
  • US7958136B1
  • Google LLC
  • 2008-03-18
  • 2011-06-07
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

Описание

Какую проблему решает

Патент решает проблемы традиционных методов оценки релевантности, таких как TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF часто ошибочно придает большой вес редким, но малозначимым словам (например, сложным терминам или опечаткам) и недооценивает распространенные, но важные для темы слова. Также традиционные методы плохо справляются с анализом значимости словосочетаний (фраз). Изобретение предлагает более точный метод определения схожести документов.

Что запатентовано

Запатентована система идентификации похожих документов на основе векторного пространства (vector-space algorithm). Ключевое нововведение — замена TF-IDF на две отдельные метрики: Prominence Score (Оценка Значимости термина внутри документа) и Descriptiveness Score (Оценка Описательности термина в целом). Система также включает механизм для оценки вероятности того, что два соседних слова образуют значимое словосочетание (Bigram Probability).

Как это работает

Система анализирует текст и метаданные документа и выполняет следующие шаги:

  • Анализ фраз: Для каждой пары слов вычисляется Bigram Probability — вероятность того, что они образуют устойчивое словосочетание.
  • Расчет Prominence Score: Определяется значимость слова или фразы внутри документа. Эта оценка зависит от того, в каком поле документа находится термин (Term Weight, например, заголовок важнее описания) и от Bigram Probability.
  • Расчет Descriptiveness Score: Определяется, насколько информативным является слово или фраза в целом (независимо от документа). Это вычисляется путем сравнения частотности термина в тематическом корпусе и фоновом корпусе.
  • Создание вектора документа: Формируется Scoring Vector, где координатами являются произведения Prominence Score и Descriptiveness Score для каждого термина.
  • Нормализация и Масштабирование: Вектор нормализуется и корректируется с помощью Scaling Factor, который учитывает качество документа (Quality Factor).
  • Сравнение: Схожесть документов определяется путем вычисления косинусной близости (dot product) их векторов.

Актуальность для SEO

Высокая. Хотя современные методы (например, нейросетевые эмбеддинги) ушли далеко вперед, принципы, заложенные в этом патенте, остаются фундаментальными для информационного поиска. Идеи учета контекста расположения слова (Term Weight), анализа словосочетаний и попытки измерить информативность слова (Descriptiveness) являются ключевыми для понимания эволюции алгоритмов релевантности.

Важность для SEO

Патент имеет высокое значение для SEO. Он детально описывает механизм, который формализует важность размещения ключевых слов в значимых зонах документа (заголовки, основной контент) через Term Weights и Quality Factor. Он также подчеркивает переход от анализа отдельных слов к анализу фраз (Bigrams) и важность использования информативного, описательного языка, а не просто редких слов.

Детальный разбор

Термины и определения

Background Corpus (Фоновый корпус)
Обширный корпус документов (например, весь Интернет), используемый как эталон для сравнения частотности слов при расчете Descriptiveness Score.
Bigram (Биграмма)
Фраза, состоящая из двух последовательных слов. Также называется compound.
Bigram Probability (Вероятность биграммы, k(x))
Показатель вероятности того, что два слова образуют осмысленное словосочетание с некомпозиционным значением (например, "robot chicken" отличается от значения слов "robot" и "chicken" по отдельности). Вычисляется офлайн.
Cosine Similarity (Косинусная близость)
Мера сходства между двумя векторами, вычисляемая как скалярное произведение (dot product) нормализованных векторов.
Descriptiveness Score (Оценка описательности, D(x))
Метрика, показывающая, насколько информативным или специфичным является слово или фраза в среднем. Зависит от корпуса, но не зависит от конкретного документа. Вычисляется офлайн.
Multi-hit boost (M) (Усиление множественных совпадений)
Дополнительный компонент к оценке схожести, который усиливает связь между документами, если они содержат несколько семантически связанных терминов (например, "перчатка" и "бита" усиливают связь по теме "бейсбол").
Non-compound Likelihood (Вероятность не-составного слова)
Вероятность того, что отдельное слово (unigram) используется самостоятельно, а не как часть биграммы слева или справа от него.
Normalization (Нормализация, Norm(T))
Процесс приведения вектора документа к единичной длине для обеспечения корректного сравнения.
Prominence Score (Оценка значимости, P(x))
Метрика, определяющая важность слова или фразы в контексте конкретного документа. Зависит от Term Weight и Bigram Probability / Non-compound Likelihood.
Purpose-relevant Corpus (Целевой корпус)
Корпус документов, релевантных задаче (например, корпус описаний изображений, если ищутся похожие фото). Используется для расчета Descriptiveness Score.
Quality Factor (Q) (Фактор качества)
Метрика, корректирующая оценку документа. Увеличивает вес документа, если его значимые термины находятся в важных полях (metadata fields).
Scaling Factor (S) (Масштабирующий фактор)
Итоговый множитель для вектора документа. Рассчитывается как Quality Factor, деленный на Normalization. Также называется document multiplier.
Scoring Vector (V) (Вектор оценки)
Векторное представление документа, где измерениями являются термины (unigrams/bigrams), а коэффициентами — значения, производные от Prominence Score и Descriptiveness Score.
Term Weight (w(i)) (Вес термина)
Вес, присваиваемый термину в зависимости от того, в каком поле (metadata field) документа он находится (например, заголовок имеет больший вес, чем описание).
Unigram (Униграмма)
Отдельное слово.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации похожих документов.

  1. Система получает текст первого документа.
  2. Вычисляются:
    • Prominence Score для каждого слова (на основе Term Weight и Non-compound Likelihood).
    • Prominence Score для каждой пары слов (на основе Term Weight и Compound Probability/Bigram Probability).
    • Descriptiveness Score для каждого слова и пары слов (на основе корпуса).
  3. Вычисляется метрика сравнения (comparison metric) для документа на основе комбинации Prominence Scores и Descriptiveness Scores.
  4. Система находит потенциальные документы, содержащие хотя бы одно общее слово с первым документом.
  5. Анализируется схожесть потенциальных документов с первым на основе их метрик сравнения.

Claim 2 (Зависимый от 1): Уточняет метод анализа схожести.

Анализ схожести включает вычисление скалярного произведения (dot product) векторов оценки (scoring vector) потенциального документа и исходного документа.

Claim 4 (Зависимый от 2): Детализирует расчет скалярного произведения с учетом качества.

  1. Вычисляется фактор нормализации (normalization factor) для каждого вектора.
  2. Вычисляется оценка качества (quality score / Quality Factor) для каждого вектора на основе весов терминов (Term Weights).
  3. Скалярное произведение умножается на (Оценку Качества / Фактор Нормализации) для обоих документов. Это произведение (Q/Norm) и есть Scaling Factor.

Claim 5 (Зависимый от 1): Определяет расчет Non-compound likelihood.

Non-compound likelihood для слова основана на вероятности того, что оно НЕ образует составное слово со словом слева И на вероятности того, что оно НЕ образует составное слово со словом справа.

Claim 6 (Зависимый от 1): Определяет расчет Compound probability (Bigram Probability).

Вероятность основана на частоте появления пары слов в обучающем корпусе и на частоте появления этих слов на определенном расстоянии друг от друга в этом корпусе.

Claim 8 (Зависимый от 1): Определяет расчет Descriptiveness score.

Оценка рассчитывается на основе частоты слова/фразы в целевом корпусе (purpose-relevant corpus) и частоты в фоновом корпусе (background corpus).

Где и как применяется

Изобретение описывает фундаментальный механизм оценки релевантности и схожести контента, который применяется на разных этапах поиска.

INDEXING – Индексирование и извлечение признаков
Большая часть работы происходит на этом этапе или в офлайн-процессах, поддерживающих индексирование.

  • Офлайн-вычисления: Bigram Probabilities (k(x)) и Descriptiveness Scores (D(x)) вычисляются заранее путем анализа больших корпусов текста и сохраняются в базах данных (Compound Likelihood Database и Descriptive Database).
  • Индексирование документа: При обработке документа система извлекает униграммы и биграммы, запрашивает их оценки k(x) и D(x), определяет Term Weights (w(i)) на основе структуры документа. Затем вычисляются Prominence Scores (P(x)). На основе этих данных формируется Scoring Vector (V), рассчитываются Normalization (Norm(T)), Quality Factor (Q) и итоговый Scaling Factor (S). Этот вектор и фактор сохраняются в индексе (Retrieval Database).

RANKING – Ранжирование / RERANKING – Переранжирование
На этих этапах система использует предварительно вычисленные векторы для определения схожести.

  • Поиск похожих документов: При запросе на поиск похожих документов (например, для блока "Связанный контент"), система извлекает Scoring Vector исходного документа и сравнивает его с векторами других документов в индексе.
  • Вычисление схожести: Схожесть рассчитывается как скалярное произведение (dot product) векторов, скорректированное масштабирующими факторами и, возможно, Multi-hit boost.

Входные данные:

  • Текст и метаданные документа.
  • Структура документа (для определения Term Weights).
  • Compound Likelihood Database (для k(x)).
  • Descriptive Database (для D(x)).

Выходные данные:

  • Scoring Vector (V) для документа.
  • Scaling Factor (S) для документа.
  • Список похожих документов с оценками схожести.

На что влияет

  • Конкретные типы контента: Патент универсален и применим к любым документам, содержащим текст, включая веб-страницы, фото, видео (через их описания и метаданные), аудио и поисковые запросы.
  • Структура контента: Алгоритм напрямую зависит от структуры документа. Контент, размещенный в более важных полях (с высоким Term Weight), оказывает большее влияние на итоговый вектор и оценку качества (Quality Factor).

Когда применяется

  • Триггеры активации: Алгоритм применяется всякий раз, когда системе необходимо оценить релевантность документа или определить его схожесть с другими документами. Это может быть как часть основного ранжирования, так и специализированные задачи (поиск связанного контента, кластеризация новостей, дедупликация).

Пошаговый алгоритм

Процесс А: Офлайн-вычисление Bigram Probabilities (k(x))

  1. Выбор корпуса: Выбирается обучающий корпус текстов.
  2. Подсчет биграмм: Подсчитывается общее количество вхождений каждой биграммы в корпусе.
  3. Подсчет близости: Подсчитывается, сколько раз слова, составляющие биграмму, появляются рядом друг с другом (например, в одном предложении или на расстоянии X слов).
  4. Вычисление вероятности: Bigram Probability рассчитывается как отношение частоты биграммы к частоте близости слов. (Высокая частота биграммы при низкой частоте близости указывает на сильное словосочетание).
  5. Сохранение: Вероятности сохраняются в Compound Likelihood Database.

Процесс Б: Офлайн-вычисление Descriptiveness Scores (D(x))

  1. Выбор корпусов: Определяется целевой корпус (Purpose-relevant Corpus) и фоновый корпус (Background Corpus).
  2. Подсчет в целевом корпусе: Суммируется количество вхождений (или взвешенное количество с учетом Non-compound likelihood/Bigram Probability) каждого термина в целевом корпусе.
  3. Подсчет в фоновом корпусе: Аналогичный подсчет выполняется для фонового корпуса.
  4. Вычисление оценки: Descriptiveness Score рассчитывается как отношение частоты в целевом корпусе к частоте в фоновом корпусе.
  5. Корректировка (Опционально): Оценки могут быть скорректированы (down-weighted) для устранения артефактов (например, не-селебрити имен, рекламных слов, общих терминов типа "фото").
  6. Сохранение: Оценки сохраняются в Descriptive Database.

Процесс В: Обработка документа и создание Scoring Vector

  1. Получение документа: Система получает текст и метаданные документа.
  2. Токенизация: Текст разбивается на униграммы (u) и биграммы (b).
  3. Извлечение данных: Для каждого термина запрашиваются Bigram Probability (k(x)) и Descriptiveness Score (D(x)) из баз данных. Определяется Term Weight (w(i)) на основе поля документа.
  4. Расчет Prominence Score (P(x)):
    • Для биграмм: P(b)=maxbj=b(k(b)∗w(i))P(b) = max_{b_j=b}(k(b)*w(i))P(b)=maxbj​=b​(k(b)∗w(i))
    • Для униграмм: P(u)=maxuj=u((1−k(bi−1))∗(1−k(bi))∗w(i))P(u) = max_{u_j=u}((1-k(b_{i-1}))*(1-k(b_{i}))*w(i))P(u)=maxuj​=u​((1−k(bi−1​))∗(1−k(bi​))∗w(i)) (Если термин встречается несколько раз, используется максимальное значение).
  5. Формирование базового вектора: Коэффициентом для каждого термина становится произведение P(x) * D(x).
  6. Расчет Нормализации (Norm(T)): Вычисляется корень из суммы квадратов коэффициентов. Norm(T)=∑y∈T(P(y)∗D(y))2Norm(T) = \sqrt{\sum_{y \in T} (P(y)*D(y))^2}Norm(T)=y∈T∑​(P(y)∗D(y))2​
  7. Расчет Quality Factor (Q): Определяется доля оценки, приходящаяся на важные поля (I) по сравнению со всеми полями (T). Q=a+∑x∈IP(x)D(x)∑x∈TP(x)D(x)a+1.0Q = \frac{a + \frac{\sum_{x \in I} P(x)D(x)}{\sum_{x \in T} P(x)D(x)}}{a+1.0}Q=a+1.0a+x∈T∑​P(x)D(x)x∈I∑​P(x)D(x)​​ (где 'a' — константа, например, 1.2).
  8. Расчет Scaling Factor (S): S = Q / Norm(T).
  9. Формирование итогового вектора (V): Базовый вектор может быть нормализован (разделен на Norm(T)) и затем умножен на Q, либо сразу умножен на S (scaled document vector).
  10. Сохранение: Итоговый вектор и/или Scaling Factor сохраняются в индексе.

Процесс Г: Поиск похожих документов

  1. Получение запроса: Система получает запрос на поиск документов, похожих на исходный документ (D1).
  2. Извлечение вектора D1: Из индекса извлекается вектор V1 и фактор S1.
  3. Поиск кандидатов: Идентифицируются потенциальные документы (D2), имеющие общие термины с D1.
  4. Расчет схожести: Для каждого кандидата D2 извлекаются V2 и S2 и вычисляется оценка схожести.
    • Базовая схожесть (Cosine Similarity): V1⋅V2V_1 \cdot V_2V1​⋅V2​ (если векторы нормализованы).
    • Схожесть с учетом качества: S1∗S2∗(V1⋅V2)S_1*S_2*(V_1 \cdot V_2)S1​∗S2​∗(V1​⋅V2​).
    • Схожесть с усилением (Опционально): S1∗S2∗(V1⋅V2+M)S_1*S_2*(V_1 \cdot V_2 + M)S1​∗S2​∗(V1​⋅V2​+M) (где M — Multi-hit boost).
  5. Фильтрация и возврат результатов: Документы с наивысшими оценками схожести (или превышающие порог) возвращаются пользователю.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документа, включая содержимое различных полей (например, заголовок, описание, теги).
  • Структурные факторы: Идентификация полей (metadata fields), в которых находится текст. Эти данные используются для определения Term Weights (w(i)).

Какие метрики используются и как они считаются

  • Bigram Probability (k(x)): Вычисляется офлайн. Прямо пропорциональна частоте биграммы и обратно пропорциональна частоте появления её компонентов рядом друг с другом в обучающем корпусе.
  • Descriptiveness Score (D(x)): Вычисляется офлайн. Отношение частоты термина в Purpose-relevant Corpus к частоте в Background Corpus.
  • Term Weight (w(i)): Заранее определенные веса для разных полей документа.
  • Prominence Score (P(x)): Вычисляется при индексировании. Функция от k(x) и w(i). (Формулы приведены в разделе "Пошаговый алгоритм", Процесс В, Шаг 4).
  • Normalization (Norm(T)): Вычисляется при индексировании. Стандартная L2 норма вектора. (Формула в Процессе В, Шаг 6).
  • Quality Factor (Q): Вычисляется при индексировании. Мера того, какая часть общей оценки документа приходится на термины в важных полях. (Формула в Процессе В, Шаг 7).
  • Scaling Factor (S): Вычисляется при индексировании. S = Q / Norm(T).
  • Multi-hit boost (M): Вычисляется во время сравнения документов. Усиливает схожесть при наличии нескольких связанных терминов. M=k∑i<j(V1(i)∗V2(i)∗V1(j)∗V2(j))M = k\sum_{i<j}(V_1(i)*V_2(i)*V_1(j)*V_2(j))M=ki<j∑​(V1​(i)∗V2​(i)∗V1​(j)∗V2​(j)) (где k — константа, например, 5.0).

Выводы

  1. Переход от TF-IDF к более сложным метрикам релевантности: Патент демонстрирует отход от использования только частоты и редкости (TF-IDF) к измерению реальной значимости (Prominence) и информативности (Descriptiveness). Это позволяет лучше фильтровать шум и фокусироваться на сути контента.
  2. Математическое обоснование важности структуры документа: Важность размещения ключевых слов в значимых зонах (заголовки, основной текст) не просто учитывается через Term Weights, но и влияет на общий Quality Factor документа. Если самые важные термины находятся в неважных полях, общий вес документа снижается.
  3. Сложный анализ словосочетаний (Bigrams): Система не просто учитывает фразы, но и оценивает вероятность того, что фраза является устойчивым выражением (Bigram Probability). Это позволяет отличать значимые словосочетания от случайного соседства слов.
  4. Описательность важнее редкости: Descriptiveness Score направлен на выявление слов, которые хорошо описывают тему (сравнивая целевой и фоновый корпусы), а не просто редко встречаются в интернете. Это прямой ответ на недостатки IDF.
  5. Многоуровневая оценка схожести: Итоговая оценка схожести учитывает не только совпадение терминов (Cosine Similarity), но и качество обоих документов (через Scaling Factors), а также синергию между терминами (Multi-hit boost).

Практика

Best practices (это мы делаем)

  • Приоритезация размещения ключевых слов: Убедитесь, что основные и наиболее описательные термины находятся в зонах с высоким Term Weight (Title, H1, начало основного контента). Это напрямую влияет на Prominence Score и Quality Factor.
  • Использование информативного и специфичного языка: Фокусируйтесь на терминах, которые имеют высокий Descriptiveness Score. Это слова и фразы, которые четко определяют тему и часто встречаются в релевантном контексте, а не общие слова или редкий жаргон.
  • Естественное использование словосочетаний: Пишите естественно, используя устоявшиеся фразы и термины. Система распознает значимые биграммы (высокий Bigram Probability) и придает им больший вес, чем отдельным словам.
  • Создание тематических кластеров контента: Поскольку алгоритм предназначен для поиска похожих документов, создание плотных кластеров контента по теме увеличивает вероятность того, что страницы сайта будут рекомендованы как связанные друг с другом и с внешними релевантными запросами.
  • Оптимизация метаданных для разных типов контента: Если вы работаете с изображениями или видео, уделите особое внимание качеству их описаний и тегов, так как этот текст является основой для анализа схожести в данном алгоритме.

Worst practices (это делать не надо)

  • Использование редких слов ради уникальности: Попытка повысить рейтинг за счет использования очень редких синонимов (в расчете на высокий IDF) неэффективна. Если слово не является описательным (низкий Descriptiveness Score), оно не внесет значительного вклада в вектор документа.
  • Keyword Stuffing в неважных зонах: Размещение ключевых слов в футере, скрытых блоках или других зонах с низким Term Weight даст минимальный эффект и может снизить общий Quality Factor документа.
  • Игнорирование структуры контента: Создание "простыни текста" без четкой структуры и иерархии не позволяет системе корректно определить Term Weights и снижает эффективность алгоритма.

Стратегическое значение

Этот патент подтверждает стратегическую важность качественного копирайтинга и четкой структуры документа. Он предоставляет детальный взгляд на то, как Google может алгоритмически разбирать вклад различных элементов страницы в общую релевантность. Понимание разницы между Prominence и Descriptiveness помогает SEO-специалистам выбирать правильные ключевые слова и правильно размещать их на странице, двигаясь от устаревших концепций плотности и TF-IDF к более сложным моделям релевантности.

Практические примеры

Сценарий: Оптимизация страницы товара для повышения релевантности

Сравним две страницы товара "Красные кроссовки Nike Air Max".

Страница А (Плохо):

  • Title: "Купить кроссовки недорого" (Низкий Term Weight для ключевых терминов).
  • Описание: Длинный текст с упоминанием "Nike Air Max" в конце (Низкий Prominence Score). Используются слова "обувь для бега" (Низкий Descriptiveness Score для категории).
  • Результат: Низкий Quality Factor, так как основные термины не в приоритетных зонах. Вектор размыт.

Страница Б (Хорошо):

  • Title: "Кроссовки Nike Air Max - Красные" (Высокий Term Weight).
  • H1: "Nike Air Max" (Устойчивая биграмма, высокий Prominence Score).
  • Описание: Четкое описание характеристик с использованием специфичных терминов (Высокий Descriptiveness Score).
  • Результат: Высокий Quality Factor. Scoring Vector точно отражает содержание страницы, увеличивая схожесть с другими релевантными документами и запросами.

Вопросы и ответы

Чем этот алгоритм отличается от TF-IDF?

TF-IDF оценивает важность слова на основе его частоты в документе (TF) и редкости в корпусе (IDF). Этот алгоритм заменяет TF на Prominence Score (учитывает расположение слова и его участие в фразах) и IDF на Descriptiveness Score (учитывает информативность слова, сравнивая целевой и фоновый корпусы). Это позволяет избежать переоценки редких, но бессмысленных слов.

Что такое Descriptiveness Score и как он влияет на SEO?

Descriptiveness Score показывает, насколько информативно слово или фраза в целом. Он выше для терминов, которые часто встречаются в тематических документах и реже в общих текстах. Для SEO это означает, что нужно использовать специфичную для ниши терминологию, которая четко описывает контент, а не общие слова или редкий жаргон.

Как система определяет, является ли фраза (Bigram) важной?

Система использует Bigram Probability (k(x)). Она выше, если два слова часто встречаются вместе как фраза, но редко встречаются просто рядом друг с другом в других контекстах. Например, "Эйфелева башня" имеет высокую вероятность, так как эти слова редко встречаются рядом, если речь не идет о конкретном объекте.

Что такое Prominence Score и почему он важен?

Prominence Score определяет важность термина внутри конкретного документа. Он зависит от того, где расположен термин (Term Weight, например, в заголовке) и является ли он частью фразы. Это критически важно для SEO, так как подтверждает необходимость размещения ключевых слов в значимых зонах документа.

Что такое Quality Factor (Q) и как он наказывает за плохую структуру?

Quality Factor измеряет, какая доля общей оценки документа приходится на термины, расположенные в важных полях (например, Title, H1). Если самые важные (Prominent и Descriptive) термины страницы находятся в неважных полях (например, в футере), Quality Factor будет низким, что снизит общий вес документа при сравнении.

Применяется ли этот алгоритм только к веб-страницам?

Нет. В патенте явно указано, что он применим к тексту, фотографиям, видео, аудио и поисковым запросам. Для мультимедиа контента анализируются его текстовые описания и метаданные. Это подчеркивает важность оптимизации метаданных для всех типов активов на сайте.

Что такое Multi-hit boost?

Это механизм, который увеличивает оценку схожести между двумя документами, если они содержат несколько семантически связанных терминов. Например, если оба документа содержат "бита" и "перчатка", их схожесть по теме "бейсбол" усиливается больше, чем если бы они содержали только одно из этих слов.

Как система обрабатывает слова, которые встречаются несколько раз на странице?

Патент указывает, что если термин встречается в нескольких полях (metadata fields), используется только то вхождение, которое дает максимальный Prominence Score. Это помогает избежать штрафов за переспам и фокусируется на наиболее значимом использовании термина.

Является ли этот патент предшественником современных векторных моделей (Embeddings)?

Да, это пример классического подхода к созданию векторов документов (Vector Space Model), который пытается улучшить TF-IDF за счет добавления лингвистических и структурных признаков. Хотя современные нейросетевые эмбеддинги работают иначе (обучаясь на контексте без явного определения правил), они решают те же задачи: определение значимости слов, понимание фраз и измерение схожести.

Как рассчитывается Non-compound Likelihood?

Это вероятность того, что слово используется самостоятельно. Она рассчитывается как произведение (1 - Вероятность биграммы слева) и (1 - Вероятность биграммы справа). Если слово часто является частью фразы, его вес как отдельного слова снижается, и наоборот.

Похожие патенты

Как Google использует оценку новизны (Novelty Score) для ранжирования новостей и блогов, отдавая приоритет первоисточникам
Google анализирует темпоральную последовательность документов (например, новости по одной теме) для выявления нового контента. Система идентифицирует «информационные фрагменты» (сущности, факты) и их взаимодействия. Документы, которые первыми вводят важные фрагменты или значительно дополняют существующие, получают более высокую оценку новизны (Novelty Score) и ранжируются выше, вытесняя вторичный контент.
  • US7451120B1
  • 2008-11-11
  • Свежесть контента

  • SERP

  • Семантика и интент

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства
Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.
  • US8886648B1
  • 2014-11-11
  • Семантика и интент

  • Индексация

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов
Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.
  • US7814085B1
  • 2010-10-12
  • Семантика и интент

  • SERP

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз
Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.
  • US8166045B1
  • 2012-04-24
  • Индексация

  • Семантика и интент

Популярные патенты

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи
Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.
  • US9836482B2
  • 2017-12-05
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента
Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.
  • US7788245B1
  • 2010-08-31
  • Ссылки

  • SERP

  • Семантика и интент

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала
Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.
  • US9098551B1
  • 2015-08-04
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
  • US9223897B1
  • 2015-12-29
  • Поведенческие сигналы

  • Индексация

  • Техническое SEO

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

seohardcore