
Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.
Патент решает фундаментальную проблему информационного поиска: как автоматически идентифицировать значимые фразы (концепции) в огромном корпусе документов, не прибегая к ручному составлению словарей и не индексируя триллионы возможных комбинаций слов (n-грамм). Традиционная индексация отдельных слов упускает семантику, выраженную во фразах. Изобретение предлагает масштабируемый метод для извлечения только тех фраз, которые реально используются в языке (real phrases).
Запатентован метод и система для извлечения набора валидных фраз из коллекции документов. Метод основан на идентификации кандидатов в фразы с использованием структурных и семантических особенностей документов (text breaks). Ключевым механизмом является система оценки, которая учитывает расположение фразы в документе и её взаимосвязь с подфразами (subphrase scoring или devolution), чтобы определить, является ли последовательность слов самостоятельной концепцией.
Система сканирует документы, идентифицируя последовательности слов между семантическими границами (text breaks), такими как конец предложения, абзаца или смена форматирования. Каждое вхождение оценивается в зависимости от его позиции (например, Exact, Initial) и расположения (заголовок, основной текст). Применяется механизм деволюции (devolution): оценка длинной фразы передается её подфразам. Если длинная фраза признана «сильной» (превышает strong phrase threshold), она может передавать негативную оценку своим подфразам, указывая, что они не являются самостоятельными единицами в данном контексте. Наконец, фраза признается валидной, если она имеет сильную поддержку в одном документе или достаточную агрегированную поддержку (combined score) во многих документах.
Высокая. Понимание того, как Google интерпретирует последовательности слов как единые семантические единицы (фразы или сущности), остается критически важным для SEO. Хотя современные системы (например, основанные на трансформерах) используют более сложные методы NLP, базовые принципы идентификации фраз, основанные на структуре документа, совместной встречаемости и форматировании, остаются актуальными как фундаментальные сигналы для извлечения концепций и построения семантического индекса.
Патент имеет высокое значение (85/100). Он раскрывает механизм, с помощью которого Google оценивает значимость фраз, основываясь на том, как они структурированы и представлены в контенте. Это напрямую влияет на SEO-стратегию: структура HTML, использование форматирования и расположение ключевых концепций являются прямыми сигналами, которые помогают поисковой системе правильно идентифицировать целевые фразы как значимые семантические единицы.
Document Phrase Scores по всей коллекции документов.Text Breaks. Включает:
Exact: Фраза точно совпадает с границами (начало и конец блока).Initial: Фраза находится в начале блока после разрыва.Final: Фраза находится в конце блока перед разрывом.Medial: Фраза находится в середине блока.location) и позиции (position).typeface).Claim 1 (Независимый пункт): Описывает основной метод извлечения набора валидных фраз из документов.
Document Phrase Score для каждого документа. Эта оценка базируется на комбинировании оценок отдельных вхождений (Instance Phrase Scores).location) в документе (например, заголовок vs тело).position) относительно последовательности слов, содержащей это вхождение (подразумевается позиция относительно Text Breaks).Combined Score на основе его Document Phrase Scores из разных документов.Combined Score, так и на наборе индивидуальных Document Phrase Scores.Claim 4 (Зависимый от 1): Детализирует механизм оценки подфраз (Subphrase Scoring / Devolution).
Для каждого кандидата определяются подфразы. Каждая подфраза оценивается как функция позиции подфразы относительно последовательности слов, содержащей родительскую фразу, И Document Phrase Score родительской фразы. Это подтверждает механизм, где контекст и сила родительской фразы влияют на оценку её частей.
Claim 10 (Зависимый от 1, включает суть Claims 6, 7, 8): Определяет три критерия валидации фразы.
Кандидат признается валидной фразой, если выполняется ХОТЯ БЫ ОДНО из условий:
Document Phrase Scores превышает первый порог (сильная поддержка хотя бы в одном документе).Combined Score превышает второй порог (достаточная общая поддержка в корпусе).Изобретение применяется на ранних этапах обработки контента для построения базовых структур данных, используемых в поиске.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необработанные данные (документы), включая текст и структурную информацию (HTML, форматирование), которые служат входным материалом для извлечения фраз.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс извлечения фраз (Phrase Extraction) выполняется как часть этапа индексирования (Feature Extraction) для идентификации значимых концепций в корпусе.
Phrase Identification Server) анализирует текст и структуру документов для выявления кандидатов в фразы и определения text breaks.Document Phrase Scores (включая деволюцию) и агрегированные Combined Scores.Phrase Data), который затем используется для построения индекса, основанного на фразах (Phrase Posting Lists).QUNDERSTANDING – Понимание Запросов
Патент также описывает процесс Query Phrasification (хотя это не основная тема данного анализа извлечения). Извлеченный список валидных фраз критически важен для того, чтобы система могла разбить входной запрос на известные концепции (фразы).
Входные данные:
typeface) документов.Выходные данные:
Phrase Data).text breaks.text break или при заполнении буфера сканирования (N слов).Этап 1: Извлечение и оценка кандидатов в документе
Initial, Final, Exact, Medial).Instance Phrase Score) на основе его позиции (Exact ценится выше всего), расположения (заголовок выше тела) и форматирования.Initial Phrase Identification Threshold), становятся кандидатами.Этап 2: Оценка подфраз (Devolution)
Strong Phrase Threshold.Document Phrase Score.Этап 3: Междокументная обработка и Валидация
Document Phrase Scores для каждого кандидата агрегируются в Combined Score.Document Phrase Score > Порог 1.Combined Score > Порог 2.Система использует разнообразные данные, извлеченные из документов, для оценки значимости фраз.
Location): заголовок, основной текст, списки, таблицы.Text Breaks).<title>, <p>, <h1>, <table>, <hr>). Используются для определения Text Breaks и Location.Text Breaks и для повышения оценки значимости фразы.Anchor Text). Упоминается, что оценка может быть повышена в зависимости от качества связанной страницы (например, PageRank).Hit Position (Exact > Initial/Final > Medial), Location (Title > Body) и Typeface.Document Phrase Scores по всему корпусу.Initial Phrase Identification Threshold: Для первичного отбора кандидатов.Strong Phrase Threshold: Для определения правил деволюции (положительная vs негативная).Text Breaks). То, как автор структурирует и оформляет текст, напрямую влияет на распознавание ключевых концепций.Location, например, в заголовках) или точно совпадающие с семантическими блоками (Position: Exact), получают значительно более высокие оценки.Text Breaks, которые помогают системе правильно определить границы фраз. Чистая структура повышает вероятность того, что целевые фразы будут идентифицированы как Exact Hits (например, если фраза является заголовком целиком).Document Phrase Score, повышая вероятность их валидации как сильных фраз.Initial) или конце (Final) предложений или абзацев, так как эти позиции оцениваются выше, чем серединные (Medial).Text Breaks. Важные фразы в таких блоках будут классифицированы как Medial Hits и получат низкие оценки.text breaks или быть проигнорировано как попытка манипуляции.Патент подчеркивает важность перехода от мышления отдельными ключевыми словами к мышлению концепциями (фразами). Он подтверждает, что Google стремится индексировать контент на основе семантических единиц. Для SEO это означает, что качество написания, ясность изложения и структурная организация контента являются не просто факторами UX, но и прямыми техническими сигналами, которые используются для понимания содержания документа на самом базовом уровне — идентификации значимых концепций.
Сценарий: Оптимизация определения термина для улучшения распознавания фразы
Задача: Убедиться, что Google распознает фразу «Zero-Trust Security Architecture» как значимую концепцию.
Плохая реализация (Низкая оценка фразы):
<p>В этой статье мы рассмотрим различные аспекты безопасности, включая Zero-Trust Security Architecture, а также связанные инструменты и лучшие практики...</p>
Анализ: Фраза находится в середине длинного абзаца (Medial Hit) в основном тексте (Body Location). Оценка будет низкой.
Хорошая реализация (Высокая оценка фразы):
<h2>Zero-Trust Security Architecture</h2>
<p><strong>Zero-Trust Security Architecture (ZTA)</strong> — это модель безопасности...</p>
Анализ:
1. Вхождение в H2: Высокая оценка за Location, позиция Exact Hit (фраза ограничена тегами H2).
2. Вхождение в начале абзаца (Initial Hit) с выделением (Typeface).
Это значительно увеличивает Document Phrase Score и вероятность валидации фразы как «сильной».
Что такое «Text Break» (семантический разрыв) и почему он важен для SEO?
Text Break — это индикатор семантической границы в документе, такой как конец предложения, абзаца, заголовок, элемент списка или изменение форматирования. Они критически важны, потому что система использует их для определения границ потенциальных фраз. Фразы, которые точно совпадают с этими границами (Exact Hits), получают наивысшие оценки. Правильное использование HTML-структуры создает четкие Text Breaks, помогая Google распознавать ваши целевые концепции.
Что означает «Devolution» (Деволюция оценки) и как она работает?
Devolution — это процесс, когда оценка длинной фразы передается её составным частям (подфразам). Если фраза «слабая», её оценка положительно передается подфразам, поддерживая их значимость. Если фраза «сильная» (например, устоявшийся термин), система может присвоить подфразам отрицательные оценки. Это помогает понять, используется ли подфраза самостоятельно или только как часть более крупной концепции.
Как механизм Devolution влияет на оптимизацию под общие запросы?
Он может усложнить оптимизацию. Если вы используете общий термин (например, «смартфон») только в составе очень специфической сильной фразы (например, «Купить смартфон Samsung Galaxy S25 Ultra в Москве»), система может применить негативную деволюцию и решить, что термин «смартфон» не имеет независимой ценности на этой странице. Для ранжирования по общему запросу необходимо использовать его и в других, более широких контекстах.
Влияет ли форматирование текста (жирный шрифт, курсив) на извлечение фраз?
Да, напрямую. Патент указывает, что характеристики шрифта (Typeface) используются при расчете оценки фразы. Выделение ключевой концепции жирным шрифтом или большим размером может увеличить её Instance Phrase Score. Кроме того, резкое изменение форматирования может служить как Text Break.
Как использование «стен текста» влияет на извлечение фраз?
Крайне негативно. В длинных неструктурированных блоках текста отсутствуют четкие Text Breaks. Большинство фраз в таких блоках будут классифицированы как Medial Hits (вхождения в середине), которые получают самые низкие оценки по сравнению с Exact, Initial или Final. Это снижает вероятность того, что система признает эти фразы значимыми.
Может ли фраза быть признана валидной, если она встречается только в одном документе?
Да, это возможно благодаря первому критерию валидации («Сильная поддержка»). Если фраза имеет очень высокий Document Phrase Score хотя бы в одном документе (например, она использована в заголовке авторитетного источника и выделена структурно), она может быть признана валидной, даже если её общая частота в корпусе низкая.
Учитывает ли этот алгоритм анкорные тексты ссылок?
Да. В патенте указано, что использование последовательности слов в качестве анкорного текста (Anchor Text) повышает её оценку. Более того, упоминается, что это повышение может зависеть от качества страницы, на которую ведет ссылка (например, с учетом PageRank).
Как система определяет, что подфраза является избыточной?
Избыточность определяется на финальном этапе валидации. Если подфраза имеет Combined Score, который почти полностью совпадает (например, >95%) с Combined Score более длинной родительской фразы, это означает, что подфраза практически не встречается вне контекста длинной фразы. Такая подфраза признается избыточной и удаляется.
Как использовать знание об этом патенте при работе с семантической версткой?
Семантическая верстка (использование H1-H6, P, LI) напрямую помогает алгоритму, создавая качественные Text Breaks. Используйте теги по назначению для четкого разделения семантических блоков. Это максимизирует шансы того, что ключевые фразы внутри этих блоков получат высоко оцениваемые позиции (Exact, Initial, Final), улучшая их распознавание.
Заменяет ли этот механизм современные NLP-модели, такие как BERT?
Нет, не заменяет, но может дополнять. Этот патент описывает статистический и структурный механизм для построения словаря устоявшихся фраз. Современные модели, такие как BERT, обеспечивают глубокое контекстуальное понимание языка. Однако данные о том, какие фразы являются валидными (извлеченные с помощью подобных механизмов), могут использоваться как признаки или для повышения эффективности работы нейронных сетей.

Индексация
Свежесть контента
Семантика и интент

Индексация
Семантика и интент
Ссылки

Семантика и интент

Семантика и интент
SERP

SERP
Семантика и интент
EEAT и качество

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Мультиязычность
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
EEAT и качество
Семантика и интент

Индексация
Поведенческие сигналы
Семантика и интент

Local SEO
Антиспам
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы

Свежесть контента
Антиспам
Ссылки

Поведенческие сигналы
Семантика и интент
