Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует совместную встречаемость слов и алгоритмы типа PageRank внутри документа для определения контекстуальной важности ключевых слов

    CONTEXTUAL WEIGHTING OF WORDS IN A WORD GROUPING (Контекстуальное взвешивание слов в группировке слов)
    • US9201876B1
    • Google LLC
    • 2015-12-01
    • 2012-05-29
    2012 SERP Индексация Патенты Google Семантика и интент

    Google совершенствует понимание текста за рамками TF-IDF, анализируя, как часто слова встречаются вместе в корпусе документов (Co-occurrence Consistency). Внутри конкретного документа или запроса система запускает алгоритм типа PageRank, где слова «голосуют» друг за друга на основе этих связей. Это определяет контекстуальный вес каждого слова, выявляя ключевые концепции и снижая вес случайных терминов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальное ограничение традиционных моделей представления текста, таких как Bag-of-Words или Vector Space Model (например, TF-IDF). Эти модели предполагают независимость слов друг от друга и взвешивают их на основе частоты в документе (document-centric weight) и редкости в корпусе (corpus-centric weight). Это может привести к переоценке редких, но нерелевантных слов, или недооценке важных, но часто встречающихся слов, если не учитывать контекст, создаваемый окружающими терминами. Изобретение призвано улучшить качество текстового анализа (Text Mining) путем учета взаимосвязей между словами.

    Что запатентовано

    Запатентована система для определения контекстуальных весов (Contextual Weights) слов. Она объединяет традиционные «веса, основанные на предположении о независимости» (Independence Based Weights), такие как TF-IDF, с метрикой «согласованность совместной встречаемости» (Co-occurrence Consistency). Эта согласованность рассчитывается на основе анализа всего корпуса и показывает, насколько сильно связаны пары слов. Объединение этих двух типов весов достигается с помощью алгоритма анализа ссылок (Link Analysis, например, PageRank), применяемого к словам внутри конкретного документа или запроса.

    Как это работает

    Система работает в два основных этапа:

    • Офлайн-анализ корпуса: Система анализирует большой корпус документов (word groupings) для расчета матрицы Co-occurrence Consistency. Эта матрица показывает для каждой пары слов, насколько их совместное появление более вероятно, чем случайное совпадение.
    • Контекстуальное взвешивание: При обработке конкретного документа или запроса система строит граф, где узлы — это слова. Начальный вес узлов определяется их Independence Based Weights (например, TF-IDF). Связи между узлами взвешиваются на основе значений Co-occurrence Consistency из офлайн-матрицы. Затем запускается итеративный алгоритм анализа ссылок (Link Analysis). Слова с сильными связями (высокой согласованностью) взаимно усиливают вес друг друга. Итоговый вес слова после сходимости алгоритма является его Contextual Weight.

    Актуальность для SEO

    Высокая. Переход от простого сопоставления ключевых слов (типа TF-IDF) к глубокому пониманию контекста, семантики и взаимосвязей между терминами является основой современного поиска и NLP (включая модели типа BERT). Этот патент описывает фундаментальный метод интеграции данных о совместной встречаемости слов в процесс их взвешивания, что критически важно для определения релевантности и тематики контента.

    Важность для SEO

    Патент имеет высокое стратегическое значение (8/10). Он напрямую влияет на то, как оценивается важность ключевых слов в контенте. Он демонстрирует механизм, который отдает предпочтение семантическим кластерам и естественной совместной встречаемости связанных терминов, а не оптимизации под отдельные ключевые слова или плотности. Понимание этого механизма критично для создания контента, который система воспримет как тематически целостный и авторитетный.

    Детальный разбор

    Термины и определения

    Contextual Weight (Контекстуальный вес)
    Итоговая оценка важности слова, рассчитанная с учетом его взаимосвязей с другими словами в той же группировке. Является результатом работы алгоритма Link Analysis.
    Co-occurrence Consistency (Φ) (Согласованность совместной встречаемости)
    Метрика, показывающая, насколько сильно связаны два слова в корпусе. Определяется как вероятность того, что два слова появятся вместе, нормализованная на вероятность их случайного (incidental) появления. Может рассчитываться с помощью формул Cosine, Pointwise Mutual Information (PMI) или Jaccard coefficient.
    Co-occurrence Consistency Matrix (Матрица согласованности совместной встречаемости)
    Хранилище, содержащее значения Co-occurrence Consistency для пар слов из словаря. Создается офлайн на основе анализа корпуса.
    Corpus (Корпус)
    Набор электронно хранимых группировок слов (word groupings), используемый для анализа и определения взаимосвязей между словами.
    Independence Based Weights (Веса, основанные на предположении о независимости)
    Традиционные веса слов, которые не учитывают контекст других слов. Примеры включают Term Frequency (TF) и Term Frequency-Inverse Document Frequency (TF-IDF). Они учитывают document-centric и corpus-centric компоненты.
    Link Analysis (Анализ ссылок)
    Итеративный алгоритм (например, Random Walk или PageRank), применяемый к графу слов в группировке. Используется для расчета Contextual Weights путем распределения веса между словами на основе их Co-occurrence Consistency и Independence Based Weights.
    Word Grouping (Группировка слов)
    Любой набор слов, который анализируется системой. Примеры: теги к изображениям/видео, рекламные ключевые слова (ad keywords), слова из поисковых запросов, слова из документов, посты в социальных сетях.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает комплексный метод, включающий как создание базы взаимосвязей, так и ее применение в поисковой системе.

    Часть A: Определение взаимосвязей (Офлайн-процесс)

    1. Идентификация пар слов из словаря.
    2. Определение вероятности совместной встречаемости (co-occurrence probability) для каждой пары в корпусе.
    3. Ключевая деталь: Определение вероятности включает расчет взвешенного количества (weighted count) группировок, где пара присутствует. Вес группировки основан как минимум на двух факторах из: частота встречаемости (frequency of occurrence), взвешивание полей (field weighting) и оформление (decorations) обоих слов в документе.
    4. Определение согласованности совместной встречаемости (co-occurrence consistency) путем сравнения фактической вероятности с вероятностью случайного появления (incidental occurrence probability).
    5. Создание матрицы co-occurrence consistency matrix.

    Часть B: Применение в поиске (Онлайн-процесс)

    1. Получение поискового запроса (который является word grouping).
    2. Идентификация co-occurrence consistency для пар слов в запросе на основе созданной матрицы.
    3. Выполнение Link Analysis для слов запроса, используя идентифицированные согласованности как весовые факторы.
    4. Присвоение контекстуального веса (contextual weight) словам запроса на основе Link Analysis.
    5. Предоставление результатов поиска на основе присвоенных контекстуальных весов.

    Ядром изобретения является использование взвешенных данных (учитывающих поля, частоту, оформление) для расчета Co-occurrence Consistency и последующее применение Link Analysis (типа PageRank) к словам внутри запроса (или документа, как описано в Description) для определения их контекстуальной важности.

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поиска.

    INDEXING – Индексирование и извлечение признаков

    • Офлайн-анализ: Процесс генерации глобальной Co-occurrence Consistency Matrix происходит независимо от индексации конкретных документов, путем анализа всего корпуса (или его значительной части).
    • Индексация документа: При индексации конкретного документа (рассматриваемого как Word Grouping) система может применять механизм Link Analysis (описанный в патенте) для расчета Contextual Weights слов в этом документе. Эти веса сохраняются в индексе и используются для определения тематики и важности терминов на странице.

    QUNDERSTANDING – Понимание Запросов

    • Как явно указано в Claim 1, механизм применяется к поисковому запросу в реальном времени. Система выполняет Link Analysis на словах запроса, используя Co-occurrence Consistency Matrix, чтобы определить Contextual Weights слов в запросе. Это помогает понять, какие термины являются центральными для интента пользователя.

    RANKING – Ранжирование

    • Рассчитанные Contextual Weights (как для документа, так и для запроса) используются в качестве сигналов в моделях ранжирования для определения релевантности документа запросу.

    Входные данные:

    • Корпус документов (для офлайн-процесса).
    • Independence Based Weights слов (TF-IDF, данные о полях, оформлении).
    • Конкретная группировка слов (документ или запрос) (для онлайн-процесса).
    • Co-occurrence Consistency Matrix (для онлайн-процесса).

    Выходные данные:

    • Co-occurrence Consistency Matrix (результат офлайн-процесса).
    • Contextual Weights для слов в анализируемой группировке (результат онлайн-процесса).

    На что влияет

    • Конкретные типы контента и запросы: Влияет на все типы контента и запросов. Наибольшее влияние оказывается на сложные документы и неоднозначные запросы, где стандартные методы (TF-IDF) не могут точно определить основную тему или интент. Алгоритм помогает выделить ключевые концепции в тексте.
    • Форматы контента: Особенно важен для анализа неструктурированных текстовых данных (лонгриды, статьи, посты), а также для анализа наборов тегов или ключевых слов.

    Когда применяется

    • Офлайн-процесс: Расчет и обновление Co-occurrence Consistency Matrix происходит периодически по мере обновления корпуса данных.
    • Онлайн-процесс (Индексация/Запрос): Контекстуальное взвешивание применяется каждый раз, когда индексируется новый документ или обрабатывается поисковый запрос.

    Пошаговый алгоритм

    Процесс А: Генерация матрицы Co-occurrence Consistency (Офлайн)

    1. Создание словаря: Формируется словарь уникальных слов из корпуса группировок слов.
    2. Идентификация пар слов: Определяются пары слов из словаря.
    3. Расчет совместной встречаемости: Для каждой пары определяется количество группировок, в которых она встречается. Патент подчеркивает использование weighted count. Вес рассчитывается на основе Independence Based Weights (частота, поле, оформление) слов в каждой группировке.
    4. Создание матрицы подсчетов: Формируется Co-occurrence Count Matrix. Может применяться прунинг (удаление пар с низкой частотой).
    5. Расчет вероятностей: Вычисляются общие подсчеты, маржинальные подсчеты для отдельных слов, вероятность совместной встречаемости P(Va, Vb) и маржинальные вероятности P(Va), P(Vb).
    6. Расчет согласованности (Consistency): Для каждой пары определяется, насколько ее появление более вероятно, чем случайное. Это делается путем сравнения P(Va, Vb) с маржинальными вероятностями (например, используя формулы Cosine, PMI или Jaccard).
    7. Создание итоговой матрицы: Формируется Co-occurrence Consistency Matrix (Φ). Может применяться прунинг (удаление пар с низкой согласованностью).

    Процесс Б: Контекстуальное взвешивание (Онлайн/Индексация)

    1. Идентификация группировки слов: Получение документа или запроса.
    2. Идентификация согласованностей: Для всех пар слов в группировке извлекаются значения Co-occurrence Consistency (Φ) из глобальной матрицы.
    3. Идентификация весов независимости: Определяются Independence Based Weights (например, TF-IDF) для каждого слова в группировке.
    4. Выполнение Link Analysis (Random Walk): Запускается итеративный алгоритм:
      • Начальная вероятность (Prior Probability P0) для слова пропорциональна его Independence Based Weight.
      • Вероятность перехода (Transition Probability) от одного слова к другому пропорциональна их Co-occurrence Consistency (Φ).
      • Итеративное обновление весов: Новый вес слова рассчитывается как комбинация его начального веса (P0) и весов, полученных от других слов через переходы. Баланс между ними регулируется фактором (θ).
    5. Определение контекстуальных весов: Алгоритм выполняется до сходимости. Итоговые значения вероятностей становятся Contextual Weights слов.

    Какие данные и как использует

    Данные на входе

    Патент явно указывает на использование следующих данных для расчета Independence Based Weights, которые затем используются как для генерации матрицы (Процесс А), так и для контекстуального взвешивания (Процесс Б):

    • Контентные факторы: Сами слова в группировках (документах, запросах, тегах).
    • Частотные факторы (Property Weighting): Как часто слово встречается в группировке (frequency of occurrence).
    • Структурные факторы (Field Weighting): В каких полях документа встречается слово (например, заголовок, URL, анкорный текст).
    • Факторы оформления (Decorations): Применяемое к слову оформление (жирный шрифт, курсив, размер шрифта).
    • Позиционные факторы (Property Weighting): Как рано слово встречается в группировке.
    • Корпусные факторы (Corpus Weighting): Редкость слова в корпусе (например, Inverse Document Frequency (IDF)).

    Какие метрики используются и как они считаются

    • Weighted Count (Взвешенное количество): Количество группировок, где встречается пара слов, взвешенное с учетом Independence Based Weights этих слов в каждой группировке.
    • Co-occurrence Probability (Вероятность совместной встречаемости): Нормализованный Weighted Count для пары слов.
    • Marginal Probability (Маржинальная вероятность): Нормализованный суммарный Weighted Count для отдельного слова.
    • Co-occurrence Consistency (Φ) (Согласованность совместной встречаемости): Метрика, сравнивающая фактическую вероятность совместного появления с ожидаемой случайной. Упомянуты формулы: Cosine, Pointwise Mutual Information (PMI), Jaccard coefficient.
    • Independence Based Weights: Веса типа TF-IDF, агрегирующие частотные, структурные, позиционные и корпусные факторы.
    • Фактор (θ): Параметр в алгоритме Link Analysis, который определяет относительное взвешивание между Independence Based Weighting и Co-occurrence Based Weighting. Может настраиваться в зависимости от характеристик группировки (например, тип или длина).
    • Contextual Weight: Итоговая метрика важности слова после сходимости Link Analysis.

    Выводы

    1. Выход за рамки TF-IDF и независимости слов: Google явно признает ограничения моделей, предполагающих независимость слов (таких как TF-IDF). Контекст, формируемый окружающими словами, критически важен для определения истинной важности термина.
    2. Совместная встречаемость как фундаментальный сигнал: Co-occurrence Consistency — это ключевой сигнал, рассчитываемый на уровне всего корпуса. Он определяет семантическую связь между терминами, отфильтровывая случайные совпадения.
    3. «PageRank» внутри документа/запроса: Патент описывает применение алгоритма анализа ссылок (явно упоминая PageRank как пример) внутри отдельной группировки слов. Слова действуют как страницы, а их Co-occurrence Consistency — как вес ссылок между ними.
    4. Взаимное усиление важности: Ключевые концепции в тексте определяются, когда связанные слова взаимно усиливают вес друг друга. Слово считается важным, если оно связано с другими важными словами в том же контексте.
    5. Баланс между редкостью и контекстом: Алгоритм балансирует традиционные веса (например, IDF, который ценит редкость) и контекстуальные связи. Редкое слово с высоким IDF получит низкий Contextual Weight, если оно не связано семантически с другими словами в документе (как слово «jumbo» в примере из патента).
    6. Важность структуры и оформления контента: Структура документа (поля), частота и оформление (decorations) используются на начальном этапе для расчета Independence Based Weights, которые затем влияют как на генерацию матрицы согласованности, так и на начальные вероятности в алгоритме Link Analysis.

    Практика

    Best practices (это мы делаем)

    • Фокус на семантическом кластере и Topical Authority: Создавайте контент, который полностью охватывает тему, используя естественный язык и релевантные совместно встречающиеся термины (синонимы, связанные сущности, подтемы). Это увеличивает Co-occurrence Consistency между вашими ключевыми словами внутри документа.
    • Усиление центральной темы поддерживающей лексикой: Убедитесь, что основная тема документа четко определена и постоянно подкрепляется связанной лексикой. Это позволит алгоритму Link Analysis повысить Contextual Weight основных терминов за счет взаимного усиления.
    • Оптимизация структуры и оформления контента: Поскольку Field Weighting (заголовки, выделенный текст) и Decorations влияют на расчет начальных Independence Based Weights, важно использовать четкую структуру (H1-H6) и уместное выделение ключевых фраз. Это дает правильные начальные сигналы для алгоритма Link Analysis.
    • Анализ совместной встречаемости в нише: Изучайте, какие термины часто встречаются вместе в высококачественном контенте вашей тематики. Интеграция этих пар и кластеров в ваш контент поможет системе распознать его как релевантный и целостный.

    Worst practices (это делать не надо)

    • Keyword Stuffing (Переспам): Насыщение текста ключевыми словами нарушает естественные паттерны совместной встречаемости. Это может привести к тому, что слова не будут усиливать друг друга должным образом в алгоритме Link Analysis.
    • Фокус на редких ключевых словах без контекста: Создание тонкого контента, оптимизированного под одно редкое (высокочастотное в узкой нише) ключевое слово без поддерживающего контекста. Алгоритм понизит Contextual Weight этого слова, если оно не связано с другими терминами на странице.
    • Использование несвязанных терминов (Frankenstein Content): Попытка ранжироваться по разнообразным темам путем смешивания несвязанных терминов в одном документе. Низкая Co-occurrence Consistency между этими терминами приведет к низким Contextual Weights.

    Стратегическое значение

    Патент подтверждает стратегический сдвиг в сторону семантического поиска и моделирования тем. Он показывает, как Google математически оценивает тематическую целостность контента. SEO-стратегия должна фокусироваться на создании исчерпывающего контента, который глубоко прорабатывает тему, гарантируя, что используемая лексика естественным образом соответствует тому, как эти концепции обсуждаются в авторитетных источниках по всему интернету. Важна не плотность ключевых слов, а их семантическая связанность внутри документа.

    Практические примеры

    Сценарий: Оптимизация статьи о «Фотосинтезе»

    1. Анализ (Имитация Процесса А): SEO-специалист определяет, что в корпусе научных текстов слово «фотосинтез» имеет высокую Co-occurrence Consistency с терминами «хлорофилл», «свет», «углекислый газ», «кислород», «растения».
    2. Создание контента (Имитация Процесса Б): Создается статья.
      • Термины размещаются в важных полях (Title, H1, H2) для получения высоких начальных Independence Based Weights.
      • В тексте естественно используются все связанные термины.
    3. Ожидаемый результат (Работа алгоритма): При индексации Google запускает Link Analysis. Слово «фотосинтез» получает сильные входящие «голоса» от слов «хлорофилл», «свет» и т.д. В свою очередь, эти слова также усиливают друг друга. В результате все эти термины получают высокий Contextual Weight, и страница хорошо ранжируется по запросам, связанным с этой темой.
    4. Контрпример: Если в статье часто упоминается «фотосинтез», но отсутствуют ключевые связанные термины (например, статья поверхностная), то Link Analysis не сможет усилить вес слова «фотосинтез», так как ему не от кого получать «голоса». Его итоговый Contextual Weight будет зависеть только от его TF-IDF, что менее эффективно.

    Вопросы и ответы

    Чем описанный в патенте Contextual Weight отличается от TF-IDF?

    TF-IDF (и подобные Independence Based Weights) оценивает важность слова на основе его частоты в документе и редкости в корпусе, предполагая, что слова независимы. Contextual Weight использует TF-IDF как отправную точку, но затем корректирует его с помощью Link Analysis, который учитывает, насколько сильно это слово связано (Co-occurrence Consistency) с другими словами в том же документе. Это позволяет учесть контекст и семантические связи.

    Значит ли это, что Google использует PageRank внутри страницы для ранжирования ключевых слов?

    Да, именно так. Патент прямо указывает на использование алгоритмов Link Analysis, приводя PageRank в качестве примера, для анализа взаимосвязей между словами внутри Word Grouping (документа или запроса). Слова выступают в роли узлов (страниц), а их Co-occurrence Consistency (насколько часто они встречаются вместе по всему интернету) выступает в роли веса связей (ссылок). Слова передают вес друг другу внутри документа.

    Как SEO-специалисту оптимизировать контент под Co-occurrence Consistency?

    Оптимизация заключается не в манипулировании конкретной метрикой, а в создании тематически целостного и глубокого контента. Необходимо использовать естественный язык, включать релевантные синонимы, связанные сущности и термины, которые ожидаемо должны присутствовать при обсуждении данной темы. Чем полнее раскрыта тема с использованием правильной лексики, тем сильнее слова будут поддерживать друг друга в алгоритме Link Analysis.

    Что такое Word Grouping? Это только веб-страницы?

    Нет, Word Grouping — это любой набор слов, который анализирует система. Патент приводит примеры: слова в документе (веб-страница, PDF), поисковый запрос пользователя, набор тегов для изображения или видео, рекламные ключевые слова (ad keywords) или посты в социальных сетях. Механизм контекстуального взвешивания универсален и может применяться к любому из этих типов данных.

    Как влияют заголовки (H1, H2) и выделение текста (bold) на этот алгоритм?

    Они влияют напрямую на начальном этапе. Патент указывает, что Field Weighting (попадание в заголовки) и Decorations (оформление) используются для расчета Independence Based Weights (например, TF-IDF). Эти веса затем используются как начальные значения (Prior Probability) в алгоритме Link Analysis. Слова в заголовках получают преимущество на старте.

    Может ли редкое слово хорошо ранжироваться благодаря этому патенту?

    Только если оно контекстуально релевантно. Редкое слово имеет высокий IDF (часть Independence Based Weight). Однако, если оно используется изолированно и не имеет высокой Co-occurrence Consistency с другими словами на странице, алгоритм Link Analysis понизит его итоговый Contextual Weight. Редкость должна подкрепляться контекстом.

    Как система определяет, какие слова связаны случайно, а какие нет?

    Для этого используется метрика Co-occurrence Consistency. Она сравнивает фактическую вероятность совместного появления двух слов P(Va, Vb) с их маржинальными вероятностями P(Va) и P(Vb). Если фактическая вероятность значительно выше, чем произведение маржинальных (ожидаемое при случайном совпадении), то связь считается сильной и неслучайной.

    Влияет ли этот алгоритм на понимание поисковых запросов?

    Да, Claim 1 прямо указывает на применение этого механизма к поисковым запросам. Link Analysis выполняется на словах запроса в реальном времени, чтобы определить их Contextual Weights. Это помогает системе понять, какие слова в запросе являются ключевыми для интента, а какие второстепенными, основываясь на их связях друг с другом.

    Что такое фактор (θ) в алгоритме Link Analysis и важен ли он?

    Фактор (θ) — это коэффициент затухания (аналогичный Damping Factor в PageRank). Он определяет баланс между изначальным весом слова (Independence Based Weight) и весом, полученным от других слов (Co-occurrence Based Weight). Патент указывает, что этот фактор может настраиваться в зависимости от типа или длины документа/запроса, что позволяет гибко адаптировать алгоритм к разным задачам.

    Является ли этот патент предшественником современных NLP моделей, таких как BERT?

    Этот патент можно рассматривать как важный шаг в эволюции понимания контекста. В то время как BERT и трансформеры анализируют контекст с помощью механизмов внимания в глубоких нейронных сетях, этот патент решает ту же задачу (учет контекста для взвешивания слов) с помощью комбинации статистического анализа корпуса (Co-occurrence Consistency) и графовых алгоритмов (Link Analysis). Принципы схожи: важность слова определяется его окружением.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.