Google использует двухэтапную модель оценки релевантности (Bifurcated Scoring) и фразовое индексирование. На этапе индексирования система определяет значимость фраз внутри документа (Phrase Relevance Score). На этапе поиска запрос интерпретируется через наиболее вероятные фразы (Query Phrasification), и предварительные оценки комбинируются для вычисления итогового балла. Это повышает эффективность и точность поиска.
Описание
Какую задачу решает
Патент решает проблему ограничений традиционного поиска, основанного на отдельных словах, который упускает концепции, выраженные во фразах. Это может приводить к нерелевантным результатам, так как система не улавливает семантические связи между словами. Также патент решает задачу повышения эффективности и скорости обработки запросов в крупномасштабных системах за счет переноса части сложных вычислений релевантности с этапа ранжирования на этап индексирования.
Что запатентовано
Запатентована система, которая разделяет процесс оценки релевантности на два этапа (Bifurcated Scoring) в контексте фразового индексирования. На первом этапе (индексирование) вычисляется Phrase Relevance Score — оценка релевантности фразы документу, независимо от запроса. На втором этапе (обработка запроса) система интерпретирует запрос через процесс Query Phrasification и использует предварительно рассчитанные оценки для быстрого определения итоговой релевантности документа (Final Relevance Score).
Как это работает
Система работает следующим образом:
- Индексирование (Офлайн): Система идентифицирует значимые фразы в документе и использует первую функцию ранжирования для расчета Phrase Relevance Score. Эта оценка сохраняется в индексе (Phrase Posting List).
- Понимание запроса (Онлайн): Входящий запрос проходит Query Phrasification. Система генерирует различные варианты разбиения запроса на фразы и выбирает наилучший, отдавая предпочтение более длинным и вероятным фразам.
- Ранжирование (Онлайн): Для выбранных фраз извлекаются предварительно рассчитанные Phrase Relevance Scores. Вторая функция ранжирования комбинирует эти оценки для получения Final Relevance Score документа.
Актуальность для SEO
Высокая. Современный поиск (с использованием NLP-моделей, таких как BERT и MUM) в значительной степени полагается на понимание фраз и концепций, а не отдельных слов. Архитектурные решения, позволяющие предварительно вычислять сигналы релевантности (как Bifurcated Scoring), критически важны для масштабирования и скорости работы поисковых систем в 2025 году.
Важность для SEO
Патент имеет высокое стратегическое значение (8/10). Он формализует переход от ключевых слов к концепциям (фразам). Система оценивает, насколько центральными являются конкретные распознанные фразы для документа, еще на этапе индексирования (Phrase Relevance Score). Это подчеркивает важность оптимизации контента под естественные, значимые фразы и необходимость обеспечения глубокой статической релевантности документа этим концепциям.
Детальный разбор
Термины и определения
- Bifurcated Document Relevance Scoring (Двухэтапное определение релевантности документа)
- Модель оценки релевантности, разделенная на два этапа: первый выполняется во время индексирования, второй — во время обработки запроса.
- Candidate Phrasification (Кандидат фразификации)
- Один из возможных вариантов разбиения (партиционирования) слов запроса на последовательность непересекающихся фраз (Component Phrases).
- Component Phrases (Составляющие фразы)
- Отдельные фразы, из которых состоит конкретная фразификация запроса.
- Final Relevance Score (Итоговая оценка релевантности)
- Окончательная оценка релевантности документа запросу, рассчитанная на втором этапе (во время запроса) с использованием второй функции оценки.
- Phrase (Фраза)
- Последовательность слов, которая используется как единица для индексации и поиска. Система стремится идентифицировать «реальные» фразы, используемые в языке.
- Phrase Posting List (Список соответствия фразы)
- Структура данных в индексе, которая для конкретной фразы хранит список документов, содержащих эту фразу, и связанные с ними Phrase Relevance Scores.
- Phrase Relevance Score (Оценка релевантности фразы)
- Оценка, рассчитанная на первом этапе (во время индексирования) с использованием первой функции оценки. Показывает релевантность конкретной фразы конкретному документу, независимо от какого-либо запроса.
- Query Phrasification (Фразификация запроса)
- Процесс идентификации набора значимых фраз в запросе путем генерации и оценки различных Candidate Phrasifications.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод двухэтапного определения релевантности, включающий фразификацию запроса.
Часть 1: Процесс индексирования (Офлайн)
- Предоставляется набор фраз.
- В документах идентифицируются фразы из этого набора.
- Для каждой идентифицированной фразы вычисляется Phrase Relevance Score по отношению к документу.
- Эта оценка сохраняется в Phrase Posting List.
Часть 2: Процесс обработки запроса (Онлайн)
- Принимается поисковый запрос (из трех или более слов).
- Определяется набор действительных фраз (Valid Phrases) в запросе. Этот процесс включает:
- Декомпозицию запроса на множество Candidate Phrasifications.
- Оценку кандидатов. Оценка основана на (1) вероятности вхождения составляющих фраз в корпус документов И (2) на количестве составляющих фраз. В патенте явно указано: «кандидаты фразификации с относительно меньшим количеством составляющих фраз взвешиваются выше, чем кандидаты с относительно большим количеством составляющих фраз».
- Выбор одного или нескольких кандидатов, чьи оценки превышают порог.
- Для каждой действительной фразы извлекаются предварительно рассчитанные Phrase Relevance Scores.
- Для документов вычисляется Final Relevance Score на основе извлеченных оценок и действительных фраз запроса.
Система целенаправленно смещает интерпретацию запроса в сторону меньшего количества более длинных фраз, если они вероятны. Это ключевой механизм для понимания концептуального намерения пользователя, а не просто набора слов.
Claim 2 (Зависимый от 1): Уточняет механизм оценки.
Вычисление Phrase Relevance Score выполняется с помощью первой функции оценки (first scoring function). Вычисление Final Relevance Score выполняется с помощью второй функции оценки (second scoring function).
Это формальное разделение подтверждает, что оценка значимости контента документа происходит независимо и до оценки его соответствия конкретному запросу.
Claim 5 (Зависимый от 3): Описывает оптимизацию хранения данных.
Phrase Posting Lists могут хранить информацию, состоящую только из идентификатора документа и соответствующего Phrase Relevance Score. Это позволяет минимизировать размер индекса.
Где и как применяется
Изобретение затрагивает ключевые этапы поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
Основное применение первой части модели. На этом этапе система анализирует документы, идентифицирует фразы и вычисляет Phrase Relevance Score для каждой значимой фразы в документе с помощью первой функции оценки. Эти данные сохраняются в индексе.
QUNDERSTANDING – Понимание Запросов
Критически важный этап. Здесь происходит Query Phrasification. Система анализирует входящий запрос, генерирует различные варианты его разбиения на фразы и оценивает их, чтобы определить истинное концептуальное намерение пользователя (Valid Phrases).
RANKING – Ранжирование
На этом этапе применяется вторая часть модели. Система извлекает предварительно рассчитанные Phrase Relevance Scores для действительных фраз запроса и использует вторую функцию оценки для вычисления Final Relevance Score документа.
Входные данные:
- На этапе индексирования: Контент документа; набор известных фраз.
- На этапе запроса: Текст запроса; данные о вероятности фраз в корпусе; Phrase Relevance Scores из индекса.
Выходные данные:
- На этапе индексирования: Phrase Relevance Scores, сохраненные в Phrase Posting Lists.
- На этапе запроса: Набор действительных фраз (Valid Phrases); Final Relevance Score для каждого документа.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на многословные, информационные и концептуальные запросы (long-tail), где точное понимание фразовой структуры критично для определения интента.
- Типы контента: Влияет на любой контент, где значение передается через фразы (статьи, обзоры, документация). Оценка смещается от анализа отдельных слов к анализу значимости фраз в контексте документа.
Когда применяется
- Во время индексирования: При каждом сканировании и обработке документа для вычисления и обновления Phrase Relevance Scores.
- Во время обработки запроса: Применяется к запросам для выполнения фразификации и итогового ранжирования. В Claim 1 особо оговаривается применение механизма фразификации для запросов из трех и более слов.
Пошаговый алгоритм
Этап 1: Индексирование (Офлайн – Расчет Score 1)
- Идентификация фраз: Система анализирует документ для поиска известных системе фраз. (Предварительно фразы извлекаются из корпуса с учетом структурных и визуальных характеристик).
- Вычисление Phrase Relevance Score: Для найденных фраз применяется первая функция оценки (First Scoring Function). Она определяет значимость фразы для документа.
- Сохранение в индексе: Документ добавляется в Phrase Posting List соответствующей фразы вместе с рассчитанным Phrase Relevance Score.
Этап 2: Обработка запроса и Ранжирование (Онлайн – Расчет Score 2)
- Получение запроса: Система принимает запрос пользователя.
- Генерация фразификаций (Query Phrasification): Запрос декомпозируется на все возможные комбинации составляющих фраз (candidate phrasifications).
- Оценка фразификаций: Каждая комбинация оценивается. Оценка учитывает:
- Вероятность составляющих фраз в корпусе (P(pi)).
- Количество фраз в комбинации (N). Используется функция f(N), которая отдает предпочтение комбинациям с меньшим количеством (более длинных) фраз.
- Уверенность в фразе (C(pi)), если используются синонимы.
- Выбор действительных фраз (Valid Phrases): Выбираются комбинации, превысившие пороговое значение.
- Извлечение оценок: Система обращается к Phrase Posting Lists для действительных фраз и извлекает предварительно рассчитанные Phrase Relevance Scores (Score 1) для релевантных документов.
- Вычисление Final Relevance Score: Применяется вторая функция оценки (Second Scoring Function). Она комбинирует извлеченные Phrase Relevance Scores для расчета итоговой оценки (Score 2).
- Ранжирование: Документы сортируются по Final Relevance Score.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании предварительно вычисленных оценок и вероятностных данных. Также в описании упоминаются данные, используемые при извлечении фраз (предварительный этап).
- Контентные и Структурные факторы: Используются на этапе индексирования для расчета Phrase Relevance Score. В описании патента также упоминается, что при извлечении фраз используются структурные маркеры (semantic boundary marker, text breaks) – границы предложений, параграфов, HTML-элементы.
- Визуальные характеристики (Typeface characteristics): Шрифт, размер, стиль. Упоминаются как факторы, влияющие на оценку кандидата во фразы при извлечении.
- Ссылочные факторы: Использование фразы в качестве анкорного текста (hyperlink anchor) повышает ее оценку при извлечении.
- Данные о вероятности фраз: Вероятность появления фразы в корпусе документов (P(pi)). Критически важна для этапа Query Phrasification.
- Данные об уверенности (Confidence C(pi)): Метрика уверенности во фразе (например, если фраза получена из источника синонимов). Используется при Query Phrasification.
Какие метрики используются и как они считаются
- Phrase Relevance Score: Вычисляется офлайн. Отражает релевантность фразы документу. Конкретная формула первой функции оценки в патенте не приводится.
- Phrasification Score (S): Вычисляется онлайн для оценки качества разбиения запроса на фразы. В описании патента приводится общая модель (используется произведение, Product):
Выводы
- Приоритет концепций над ключевыми словами: Патент подтверждает стратегический сдвиг в сторону индексации и поиска на основе фраз (концепций), а не отдельных слов. Система активно идентифицирует и использует фразы как основные единицы смысла.
- Разделение оценки релевантности (Bifurcation): Процесс оценки разделен на две части. Понимание содержания документа (насколько он релевантен определенным фразам) происходит офлайн (Phrase Relevance Score). Соответствие запросу определяется онлайн путем комбинирования этих предварительных оценок (Final Relevance Score).
- Интерпретация интента через фразификацию (Query Phrasification): Намерение пользователя определяется путем вероятностного анализа структуры запроса. Система выбирает наиболее значимую комбинацию фраз, что напрямую влияет на результаты ранжирования.
- Предпочтение длинным фразам в запросах: При интерпретации запроса система отдает предпочтение меньшему количеству длинных фраз перед большим количеством коротких слов, если эти длинные фразы распознаны как значимые (имеют высокую вероятность).
- Влияние структуры и оформления контента: То, как и где используются фразы (заголовки, форматирование, анкорный текст), влияет на их идентификацию во время извлечения фраз (предварительный этап), что может влиять на Phrase Relevance Score.
- Повышение эффективности и оптимизация индекса: Двухэтапная оценка ускоряет обработку запросов за счет предварительных вычислений. Также это позволяет оптимизировать размер индекса, так как в Phrase Posting List можно хранить только ID документа и его Phrase Relevance Score (Claim 5).
Практика
Best practices (это мы делаем)
- Оптимизация под Phrase Relevance Score (Статическая релевантность): Необходимо сосредоточиться на повышении офлайн-оценки релевантности страниц ключевым фразам. Это достигается путем обеспечения того, чтобы страница была авторитетным источником по этим фразам: использование фраз в заголовках, основном тексте и четкая структура документа, подчеркивающая эти концепции.
- Фокус на концепциях и Topical Authority: Создавайте контент, который глубоко раскрывает тему, используя естественные и значимые фразы, которые Google может распознать. Стратегия должна быть направлена на то, чтобы документ считался высокорелевантным ключевым концепциям (фразам) ниши.
- Анализ интерпретации запросов (Query Phrasification): Изучайте выдачу, чтобы понять, как Google интерпретирует (фразифицирует) ключевые запросы в вашей тематике. Учитывайте, что система предпочитает более длинные фразы, и оптимизируйте контент под эти предпочтительные интерпретации.
- Структурная и визуальная оптимизация контента: Используйте форматирование и структуру. В описании патента упоминается, что характеристики шрифта (Typeface characteristics) и структурные маркеры используются при извлечении фраз и могут влиять на оценку их важности.
- Использование фраз в анкорных текстах: Используйте значимые фразы в анкорах. В описании патента указано, что использование фразы как hyperlink anchor является сигналом при идентификации и оценке значимости этой фразы.
Worst practices (это делать не надо)
- Keyword Stuffing (Переоптимизация ключевыми словами): Попытки манипулировать релевантностью путем неестественного повторения слов неэффективны. Система оценивает релевантность на уровне фраз и использует Query Phrasification для фильтрации неестественных комбинаций.
- Фокус только на отдельных ключевых словах: Оптимизация под отдельные слова менее эффективна, если основной интент является концептуальным. Система предпочтет интерпретацию запроса через более длинные, значимые фразы.
- Создание поверхностного контента: Создание контента, который лишь косвенно упоминает множество фраз, вместо глубокой проработки основных. Это приведет к низким Phrase Relevance Scores на этапе индексирования.
Стратегическое значение
Этот патент подчеркивает важность семантического поиска и NLP в стратегиях Google. Двухэтапная модель оценки означает, что SEO-специалистам необходимо выигрывать битву за релевантность еще на этапе индексации (офлайн). Если Google не присвоит вашему документу высокий Phrase Relevance Score для ключевых фраз, его будет сложно высоко ранжировать онлайн. Стратегия должна быть сфокусирована на создании контента, который четко сигнализирует о своей глубокой релевантности определенным концепциям (фразам).
Практические примеры
Сценарий: Оптимизация статьи о платформе для анализа данных
- Целевая концепция (фраза): «data science platform» (платформа для науки о данных).
- Действия (Оптимизация под Phrase Relevance Score): Необходимо сделать эту фразу центральной для документа. Использовать ее в Title, H1, первом абзаце и естественно по всему тексту, объясняя концепцию.
- Ожидаемый результат (Индексирование): Google индексирует страницу и присваивает ей высокий Phrase Relevance Score для фразы «data science platform» (Первый этап оценки).
- Действия (Учет Query Phrasification): Пользователь вводит запрос «best data science platform 2025». Google анализирует запрос. Фразификация [«best», «data science platform», «2025»] получит более высокий балл, чем [«best data», «science platform 2025»], так как «data science platform» имеет высокую вероятность.
- Ожидаемый результат (Ранжирование): Google извлекает предварительно рассчитанный высокий Phrase Relevance Score для вашей страницы по ключевой фразе и использует его для расчета Final Relevance Score (Второй этап оценки), что приводит к высокому ранжированию.
Вопросы и ответы
Что такое «Bifurcated Document Relevance Scoring» простыми словами?
Это разделение оценки релевантности на две части. Первая часть (офлайн) отвечает на вопрос: «Насколько этот документ посвящен этой конкретной фразе?». Вторая часть (онлайн) отвечает на вопрос: «Насколько этот документ соответствует запросу пользователя, учитывая его предварительные оценки по фразам запроса?». Это позволяет Google выполнять сложный анализ контента заранее и очень быстро ранжировать документы в момент запроса.
Что такое Query Phrasification и почему это важно для SEO?
Это процесс, когда Google разбирает запрос пользователя, чтобы понять, какие слова образуют значимые фразы (концепции). Например, запрос «New York Times puzzle» скорее всего будет интерпретирован как [«New York Times» + «puzzle»]. Это важно, потому что определяет, какие именно концепции Google будет искать. SEO-специалистам нужно понимать, как Google интерпретирует запросы в их нише (предпочитая более длинные фразы), и оптимизировать контент под эти конкретные интерпретации.
Как система решает, как именно разбить запрос на фразы?
Система использует вероятностную модель (Phrasification Score), формула которой приведена в патенте. Она учитывает вероятность каждой фразы в индексе и общее количество фраз в разбиении. Система отдает предпочтение разбиениям с меньшим количеством фраз (т.е. более длинным фразам), если эти фразы имеют высокую вероятность существования в корпусе.
Что такое Phrase Relevance Score и как на него повлиять?
Это оценка того, насколько конкретная фраза релевантна документу. Она рассчитывается во время индексации (офлайн). Чтобы повлиять на нее, нужно сделать фразу центральной темой документа: использовать ее в важных структурных элементах (Title, H1), часто и естественно употреблять в тексте, а также обеспечить общую авторитетность документа по этой теме.
Означает ли этот патент, что ключевые слова больше не важны?
Ключевые слова важны, но как составные части значимых фраз (концепций). Патент показывает, что Google стремится индексировать и ранжировать на основе этих фраз, а не отдельных слов. Стратегия должна смещаться от оптимизации под отдельные слова к оптимизации под концепции, выраженные фразами.
Имеет ли значение внешний вид текста (шрифт, жирность) согласно этому патенту?
Да. В описании патента (не в Claims) явно указано, что характеристики шрифта (Typeface characteristics: font, size, style) используются во время процесса извлечения фраз для оценки их значимости. Выделение ключевых фраз (например, жирным шрифтом) может положительно повлиять на их восприятие системой.
Как этот патент связан с E-E-A-T и Topical Authority?
Он предоставляет технический механизм для реализации этих концепций. Чтобы получить высокий Phrase Relevance Score (офлайн-оценка), документ должен демонстрировать глубину и авторитетность по отношению к конкретной фразе. Это напрямую коррелирует с построением Topical Authority и демонстрацией экспертизы (E-E-A-T) в рамках определенной темы.
Влияет ли эта система на long-tail запросы?
Да, очень сильно. Long-tail запросы часто представляют собой длинные фразы или сложные концепции. Механизм Query Phrasification специально разработан для того, чтобы точно интерпретировать такие запросы, находя в них наиболее значимые фразовые блоки и используя их для поиска контента с высокими Phrase Relevance Scores.
Используются ли разные функции ранжирования на разных этапах?
Да, это ключевой момент патента (Claim 2). Первая функция используется офлайн для расчета Phrase Relevance Score (документ-фраза). Вторая функция используется онлайн для расчета Final Relevance Score (запрос-документ), используя результаты первой функции как входные данные.
Стоит ли использовать фразы в анкорных текстах ссылок?
Да. В описании патента указано, что использование словосочетания в качестве анкорного текста гиперссылки (hyperlink anchor) является сигналом при идентификации и оценке значимости этой фразы. Это может положительно повлиять на идентификацию фразы и, как следствие, на Phrase Relevance Score.