
Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления в конкретной теме с частотой в общем корпусе (анализ дивергенции). Это позволяет автоматически создавать специализированные "доменные словари" для лучшего понимания контента.
Патент решает две взаимосвязанные задачи в области обработки естественного языка (NLP):
Система направлена на улучшение понимания языка путем статистического определения того, какие термины являются специфичными для определенных тем.
Запатентована система автоматического обновления тематических (доменных) словарей. Изобретение включает механизм для идентификации Topic Words (слов, определяющих тему) с использованием статистического показателя, называемого Divergence Value (Значение дивергенции). Система сравнивает распределение слова в тематическом корпусе документов с его распределением в общем корпусе. Если значение дивергенции кандидата превышает пороговое значение, установленное на основе уже известных тематических слов, кандидат добавляется в соответствующий доменный словарь. Также описан механизм обнаружения новых слов с использованием анализа Энтропии (Information Gain).
Система работает в несколько этапов:
TF-IDF и K-means) для создания тематических корпусов (Topic Document Corpus).Entropy) или Information Gain. Если включение последовательности символов как нового слова снижает общую неопределенность языковой модели, она признается словом.Divergence Value — меру того, насколько частота слова в теме отличается от частоты в общем корпусе. На основе этих значений устанавливается пороговое значение (Topic Divergence Value).Candidate Topic Word Divergence Value.Topic Word и добавляется в доменный словарь.Высокая. Понимание тематической специфичности слов и идентификация сущностей являются ядром современных поисковых систем. Методы, описанные в патенте (анализ энтропии и дивергенции), лежат в основе того, как Google строит языковые модели, понимает контекст и определяет тематическую авторитетность. Автоматическое выявление новой терминологии и ее классификация критически важны для поддержания актуальности поиска.
Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретные статистические механизмы, которые Google может использовать для определения того, какие слова и фразы являются определяющими для конкретной темы или ниши. Это напрямую влияет на оценку релевантности и тематического авторитета (Topical Authority). Понимание концепции Divergence Value подчеркивает важность использования точной, специфичной для отрасли терминологии (включая жаргон и новые термины) для ранжирования в специализированных нишах.
Патент охватывает два основных процесса: создание доменных словарей (основной фокус Claims) и обнаружение новых слов (описанное как метод генерации кандидатов).
Claim 1 (Независимый пункт): Описывает основной процесс создания доменного словаря.
Topic Divergence Value (пороговое значение S). Это значение пропорционально отношению распределения известного тематического слова в Topic Document Corpus к его распределению в общем Document Corpus.Candidate Topic Word Divergence Value (значение R) для слова-кандидата. Кандидат определяется как слово, которое еще *не* находится в тематическом словаре данной темы.New Topic Word, основываясь на сравнении R и S.Claim 3 (Зависимый от 1): Уточняет, как рассчитывается пороговое значение (S).
Claim 5 (Зависимый от 1): Уточняет условие принятия решения. Кандидат признается новым тематическим словом, если его значение дивергенции (R) больше порогового значения (S).
Claim 8 (Зависимый от 1): Включает механизм обнаружения новых слов как способ получения кандидатов для Claim 1.
Training Corpus и Development Corpus.Candidate Topic Word (т.е. новое слово, готовое к классификации).Изобретение относится к фундаментальным процессам обработки языка и построения языковых моделей.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. В ходе индексирования контента система выполняет несколько ключевых задач, описанных в патенте:
Topic Document Corpus). Это включает расчет TF-IDF и определение центроидов тем.Divergence Values и автоматическое обновление Domain Dictionaries.QUNDERSTANDING – Понимание Запросов
Результаты работы системы (обновленные доменные словари) используются на этом этапе. Когда пользователь вводит запрос, система использует эти словари для лучшего понимания интента и тематики запроса, особенно если он содержит новую или узкоспециализированную терминологию.
Входные данные:
Word Corpus / Document Corpus).Выходные данные:
Domain Dictionaries).YMYL-тематики).Information Gain).Divergence Value для конкретной темы.Система состоит из двух основных процессов.
Процесс А: Обнаружение новых слов (New Word Detection)
Training Corpus (для расчета вероятностей P) и Development Corpus (для подсчета фактических вхождений D).Training Corpus для получения базовых вероятностей слов.Development Corpus. Получение вероятностей P(x,y), P(x), P(y) из Training Corpus.Процесс Б: Создание доменных словарей (Topic Word Identification)
TF-IDF векторами и центроидами). Создание Topic Document Corpus для каждой темы.Divergence Value (Q) на основе его вероятности в теме (Pd(w)) и в общем корпусе (P(w)).Topic Divergence Value, S).Divergence Value (R) для кандидата на основе Pd(Wc) и P(Wc).Патент фокусируется исключительно на статистическом анализе текстовых данных.
Другие типы факторов (ссылочные, поведенческие, технические и т.д.) в данном патенте не упоминаются.
Система использует метрики из теории информации и статистики.
Метрики для обнаружения новых слов:
Training Corpus.Development Corpus.Information Gain) для автоматического обнаружения новых слов и фраз, которые ведут себя как единое целое. Это позволяет системе адаптироваться к изменениям в языке без ручного вмешательства.Divergence Value математически фиксирует эту разницу в распределении.Domain Dictionaries. Это подтверждает, что Google имеет списки терминов, которые он считает определяющими для различных ниш.Topic Divergence Value), установленный на основе уже известных авторитетных терминов в этой области. Это создает статистический барьер для включения общих или нерелевантных слов.TF-IDF, центроиды). Качество этой кластеризации напрямую влияет на качество создаваемых словарей.Divergence Value показывает, что система ищет слова, которые непропорционально часто встречаются в вашей теме по сравнению с общим вебом. Если вы говорите о финансах, используйте "Нетрадиционные акции" (Non-tradable shares), а не просто "акции".New Word Detection), важно отслеживать и оперативно внедрять в контент новую терминологию, появляющуюся в вашей отрасли. Это позволит вашему сайту стать частью тематического корпуса, на котором система обучается.Topic Words) вы используете естественно в контексте, тем выше вероятность того, что ваш контент будет признан тематически релевантным.Divergence Value для специализированных тем.Divergence), а не просто сырые частоты. Неестественное распределение терминов вряд ли будет соответствовать распределению в авторитетном тематическом корпусе.Этот патент подтверждает стратегический курс Google на глубокое понимание контента через статистический анализ языка и тематическую классификацию. Для SEO-специалистов это означает, что построение Тематического Авторитета (Topical Authority) требует не просто большого количества контента, но и использования правильного, специфического языка, который соответствует Domain Dictionaries Google. Стратегия контента должна быть направлена на демонстрацию экспертности через лексику, соответствующую ожиданиям системы для данной ниши.
Сценарий: Классификация термина в финансовой нише
Topic Document Corpus) и общий корпус (Document Corpus).Divergence Values (Q) и устанавливает средний порог S=5.0 (условное значение).Divergence Value (R) для "Антидемпинг", например, R=6.2.Domain Dictionary. Сайты, использующие этот термин в правильном контексте, получат преимущество в релевантности по финансовым запросам.Что такое "Divergence Value" простыми словами и почему это важно для SEO?
Divergence Value — это показатель того, насколько слово является "специализированным" для определенной темы. Он растет, если слово часто встречается в документах по этой теме и одновременно редко встречается в интернете в целом. Для SEO это критически важно, так как показывает, что для доказательства экспертности в нише нужно использовать именно ту лексику, которая имеет высокое значение дивергенции для этой ниши, а не общеупотребительные слова.
Патент говорит о "Domain Dictionaries". Значит ли это, что у Google есть фиксированные списки ключевых слов для каждой темы?
Да, патент описывает процесс автоматического создания и обновления таких списков (Domain Dictionaries или Topic Dictionaries). Это не фиксированные списки, составленные вручную, а динамически обновляемые наборы терминов, которые статистически определены как принадлежащие к определенной теме. Задача SEO-специалиста — убедиться, что контент сайта использует лексику из соответствующего доменного словаря.
Как работает механизм обнаружения новых слов на основе энтропии?
Энтропия — это мера неопределенности. Система анализирует корпус текста. Если рассмотрение последовательности слов (например, "apple" и "pie") как единого термина ("apple pie") снижает общую неопределенность (энтропию) языковой модели, значит, эта последовательность несет дополнительную информацию и является самостоятельной лексической единицей (новым словом или термином). Это позволяет системе автоматически выявлять устоявшиеся словосочетания и новые понятия.
Применяется ли этот патент только к языкам без пробелов, таким как китайский?
Хотя патент упоминает языки без пробелов как основной пример сложности при сегментации слов, описанные механизмы универсальны. Обнаружение новых терминов (например, новых названий брендов, технологий или устоявшихся фраз) и их тематическая классификация с помощью Divergence Value применимы ко всем языкам, включая русский и английский.
Как я могу использовать концепцию дивергенции для улучшения своего контента?
Сосредоточьтесь на использовании точной, специфичной для отрасли терминологии. Изучите язык, который используют эксперты и авторитетные источники в вашей нише. Вместо общих фраз используйте специализированные термины, жаргон и точные названия сущностей. Это повысит вероятность того, что система идентифицирует ваш контент как высокорелевантный для данной темы, так как ваша лексика будет иметь высокое значение дивергенции.
Что такое кластеризация документов, упомянутая в патенте, и как она влияет на процесс?
Кластеризация — это процесс группировки документов по темам (например, с использованием TF-IDF и K-means). Это первый шаг в создании доменных словарей. Система должна сначала определить, какие документы относятся к теме (создать Topic Document Corpus), чтобы затем проанализировать, какие слова используются в этих документах. Качество этой предварительной кластеризации напрямую влияет на точность определения тематических слов.
Как система определяет порог (Threshold) для включения слова в тематический словарь?
Система не использует фиксированный порог. Она берет слова, которые уже находятся в тематическом словаре (эталонные слова), вычисляет их индивидуальные значения дивергенции (Q), а затем определяет центральную тенденцию (например, среднее значение) этих показателей. Это среднее значение (S) становится порогом, который должен преодолеть кандидат, чтобы быть включенным в словарь.
Может ли слово принадлежать к нескольким доменным словарям?
Патент не исключает этого. Процесс оценки Divergence Value выполняется для каждой темы отдельно. Если слово имеет достаточно высокое значение дивергенции для нескольких тем (например, слово "Суд" может иметь высокое значение как для темы "Юриспруденция", так и для темы "Новости"), оно может быть включено в несколько доменных словарей.
Как этот патент связан с концепцией E-E-A-T?
Он предоставляет один из технических механизмов для оценки Экспертизы (Expertise). Использование точной, доменной терминологии, которая соответствует Domain Dictionaries Google, является сильным сигналом наличия экспертизы в данной области. Если лексика сайта слишком общая (низкая дивергенция), это может указывать на недостаток глубины и экспертизы.
Стоит ли мне специально оптимизировать текст под снижение энтропии?
Специально оптимизировать под энтропию сложно, но можно следовать лучшим практикам: использовать устоявшиеся словосочетания консистентно, не разбивать термины, состоящие из нескольких слов, без необходимости. Это поможет системе правильно идентифицировать ключевые фразы и сущности в вашем тексте как единое целое.

Семантика и интент

Семантика и интент
Поведенческие сигналы

Свежесть контента
SERP
Семантика и интент

Семантика и интент
Индексация
Knowledge Graph

Семантика и интент

Семантика и интент
Структура сайта
Ссылки

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
SERP

Ссылки
Структура сайта
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы

Local SEO
SERP
Ссылки

Семантика и интент
Поведенческие сигналы

Персонализация
Семантика и интент
SERP

Антиспам
SERP
Поведенческие сигналы
