Google использует систему для идентификации значимых фраз (концепций) в документах, анализируя структурные и семантические границы текста (предложения, заголовки, HTML-теги). Ключевым механизмом является оценка взаимосвязи между фразами и их подфразами (Devolution). Это позволяет системе понять, какие словосочетания функционируют как единое целое, и проиндексировать контент на основе концепций, а не только отдельных слов.
Описание
Какую задачу решает
Патент решает фундаментальную проблему информационного поиска: как отличить значимые фразы (концепции) от случайного совместного употребления слов. Индексирование всех возможных комбинаций слов вычислительно невозможно и создает шум. Цель изобретения — создать масштабируемую методологию для автоматического извлечения только тех фраз, которые действительно используются в языке как семантические единицы, что позволяет перейти от индексации по терминам к индексации по концепциям.
Что запатентовано
Запатентован метод извлечения фраз из коллекции документов. Система идентифицирует кандидатов во фразы на основе структурных и семантических границ в тексте (Text Breaks). Ключевым механизмом является процесс оценки, включающий Subphrase Devolution (Деволюцию подфраз) — анализ того, как оценка фразы должна распределяться между ее подфразами. Если фраза идентифицирована как «сильная», она может подавлять значимость своих подфраз в этом контексте.
Как это работает
Система работает итеративно:
- Извлечение кандидатов: Документы сканируются. Последовательности слов становятся кандидатами, если они ограничены семантическим разрывом (например, точкой, заголовком, HTML-тегом).
- Оценка в документе: Каждому кандидату присваивается Document Phrase Score на основе его местоположения, визуального выделения и позиции относительно разрывов.
- Деволюция подфраз: Оценка кандидата передается его подфразам. Однако если кандидат превышает Strong Phrase Threshold, деволюция может стать отрицательной, чтобы избежать двойного учета и подчеркнуть целостность сильной фразы.
- Агрегация по корпусу: Оценки из всех документов объединяются в Combined Score.
- Валидация: Фраза сохраняется, если она имеет сильную поддержку (высокий балл хотя бы в одном документе), умеренную поддержку (высокий общий балл) или широкую поддержку (встречается во многих документах).
Актуальность для SEO
Высокая. Переход от «ключевых слов» к «концепциям» и «сущностям» является основой современного семантического поиска Google (включая Knowledge Graph и модели типа BERT/MUM). Этот патент описывает базовый механизм, позволяющий системе идентифицировать эти значимые лингвистические единицы (фразы) в неструктурированном тексте.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (85/100). Он объясняет, как Google интерпретирует концептуальное содержание страницы на основе структуры и контекста. Это подчеркивает критическую важность четкой семантической разметки, правильной структуры контента и визуального выделения ключевых концепций. Понимание этого механизма позволяет создавать контент, в котором ключевые темы будут правильно идентифицированы как Strong Phrases.
Детальный разбор
Термины и определения
- Candidate Phrase (Кандидат во фразу)
- Последовательность слов (обычно от 2 до N), извлеченная из документа, которая потенциально является значимой фразой.
- Combined Score (Комбинированная оценка)
- Агрегированная оценка фразы, основанная на ее Document Phrase Scores во всей коллекции документов.
- Document Phrase Score (Оценка фразы в документе)
- Показатель того, насколько вероятно, что кандидат является реальной фразой, основанный на его использовании в конкретном документе (местоположение, частота, форматирование).
- Hit Position (Позиция совпадения)
- Классификация кандидата относительно Text Breaks.
- Exact: Кандидат начинается и заканчивается разрывом.
- Initial: Начинается с разрыва, но не заканчивается им.
- Final: Заканчивается разрывом, но не начинается с него.
- Medial: Не начинается и не заканчивается разрывом (в середине текста).
- Phrase Map Table (Таблица карты фраз)
- Структура данных для хранения кандидатов и информации о них (Hit Position, местоположение, форматирование).
- Strong Phrase Threshold (Порог сильной фразы)
- Пороговое значение оценки. Если Document Phrase Score превышает этот порог, система считает фразу сильной концепцией и изменяет правила Subphrase Devolution (часто делая перенос оценки отрицательным).
- Subphrase Devolution (Деволюция подфраз)
- Процесс распределения (передачи) оценки родительской фразы ее дочерним подфразам. Используется для выявления значимых подфраз и предотвращения двойного учета.
- Text Breaks (Разрывы текста / Семантические границы)
- Индикаторы в тексте, сигнализирующие о семантическом разрыве. Примеры: границы предложений, абзацев, заголовки, HTML-элементы (таблицы, списки), значительные изменения шрифта.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод извлечения набора фраз.
- Для каждого документа: Идентифицируются кандидаты во фразы (два или более последовательных слова).
- Кандидатам присваивается Document Phrase Score на основе атрибутов их появлений в документе (причем повторяющиеся фразы могут получить более высокий балл).
- Для кандидата создается Combined Score на основе его Document Phrase Scores из разных документов.
- Кандидат выбирается для включения в итоговый набор на основании как Combined Score, так и индивидуальных Document Phrase Scores.
Claim 4 (Зависимый от 1): Детализирует расчет Document Phrase Score.
Оценка появлений (instance phrase scores) базируется на атрибуте местоположения (location attribute, например, заголовок vs тело) и атрибуте позиции (position attribute, например, Exact vs Medial) относительно последовательности слов, содержащей фразу. Document Phrase Score является комбинацией этих оценок.
Claim 5 (Зависимый от 4): Описывает механизм Subphrase Devolution.
Определяются подфразы внутри кандидата. Каждая подфраза оценивается как функция позиции подфразы относительно содержащей ее последовательности слов и Document Phrase Score родительского кандидата.
Claims 7, 8, 9 (Зависимые от 1): Определяют критерии валидации (выбора) фразы.
- Claim 7 (Сильная поддержка): Фраза выбирается, если максимальное значение ее Document Phrase Scores (т.е. лучшая оценка в одном документе) превышает первый порог.
- Claim 8 (Умеренная поддержка): Фраза выбирается, если ее Combined Score (общая оценка по корпусу) превышает второй порог.
- Claim 9 (Широкая поддержка): Фраза выбирается, если количество документов, в которых она получила хотя бы минимальную оценку, превышает третий порог.
Где и как применяется
Изобретение применяется на этапе индексирования для извлечения признаков из контента.
INDEXING – Индексирование и извлечение признаков
Это основная область применения патента. Система анализирует сырой контент (Raw Content), полученный на этапе CRAWLING, для идентификации значимых концепций (фраз). Этот процесс является ключевой частью извлечения признаков (Feature Extraction) и семантического анализа контента перед построением индекса.
- Взаимодействие: Система (Phrase Identification Server) взаимодействует с необработанными данными документов и системами хранения индекса.
- Входные данные: Текст документа, HTML-разметка, информация о форматировании (шрифт).
- Выходные данные: Валидированный набор фраз (Phrase Data), который затем используется для создания инвертированного индекса. Также на выходе аннотированные документы с идентифицированными фразами и их оценками (Document Phrase Scores).
На что влияет
- Типы контента и форматы: Влияет на все типы текстового контента. Особенно сильно влияет на контент, где важна структура и семантика (лонгриды, технические статьи, новости). Четкая структура помогает определить Text Breaks.
- Специфические запросы: Улучшает понимание информационных и сложных запросов, где пользователи ищут концепции, выраженные многословными фразами.
- Тематики: Влияет на все тематики, помогая системе понять специфическую терминологию и устоявшиеся выражения в любой нише.
Когда применяется
Алгоритм применяется в двух контекстах:
- Генерация списка фраз (Офлайн): Периодически система анализирует большой корпус документов (миллиарды страниц) или логи запросов (search query logs) для создания или обновления глобального списка валидированных фраз.
- Индексирование документов: Когда новый или обновленный документ обрабатывается системой индексирования, алгоритм используется для идентификации фраз в этом документе и расчета их значимости (Document Phrase Score).
- Триггеры активации: Внутри документа процесс активируется при обнаружении Text Break или заполнении буфера слов.
Пошаговый алгоритм
Процесс генерации списка фраз (Phrase Extraction):
Этап А: Извлечение и оценка внутри документа
- Сканирование и Буферизация: Система сканирует документ, поддерживая буфер из последних N слов (например, N=5-20).
- Идентификация Кандидатов: Кандидат фиксируется, когда буфер заполнен или встречается Text Break (семантическая граница).
- Сбор данных и Первичная Оценка: Записывается Hit Position (Exact, Initial, Final, Medial), местоположение (Title, Body) и форматирование. Присваивается первичная оценка (Exact и Title оцениваются выше).
- Subphrase Devolution (Деволюция подфраз):
- Система проверяет, превышает ли оценка кандидата Strong Phrase Threshold.
- Если НЕТ (фраза не сильная): Оценка родителя положительно распределяется между дочерними подфразами по правилам, зависящим от Hit Position (например, X/2).
- Если ДА (фраза сильная): Деволюция становится отрицательной (например, -X/2) или блокируется. Это предотвращает получение оценки подфразами, которые не имеют самостоятельного значения вне контекста сильной фразы.
- Процесс повторяется рекурсивно для всех подфраз.
- Расчет Document Phrase Score: Суммируются первичные оценки и результаты деволюции для каждой фразы в документе.
Этап Б: Валидация по корпусу (Cross-Document Validation)
- Агрегация по корпусу: Все Document Phrase Scores для каждого уникального кандидата агрегируются в Combined Score.
- Валидация фраз: Кандидат оценивается по трем критериям. Сохраняется, если удовлетворяет хотя бы одному:
- Сильная поддержка: Максимальный Document Phrase Score > Порог 1.
- Умеренная поддержка: Combined Score > Порог 2.
- Широкая поддержка: Количество документов с минимальной оценкой > Порог 3.
- Удаление избыточности: Если подфраза имеет почти такую же Combined Score (например, >95%), как и родительская фраза, подфраза удаляется.
- Финальная очистка: Применяются эвристики и языковые модели для удаления артефактов.
Какие данные и как использует
Данные на входе
Система анализирует следующие факторы для извлечения фраз и расчета их оценок:
- Контентные факторы: Непосредственно текст документа (body) и текст ссылок (anchors).
- Структурные и Технические факторы (для идентификации Text Breaks):
- HTML-разметка: Теги заголовков (H1-H6), списков (UL/OL), таблиц (TABLE), горизонтальных линий (HR), абзацев (P).
- Позиционные границы: Начало/конец документа, границы разделов.
- Лингвистические факторы (для идентификации Text Breaks):
- Пунктуация и грамматика: Границы предложений.
- Мультимедиа / Визуальные факторы (для расчета Score и Text Breaks):
- Характеристики шрифта (Typeface characteristics): Размер, стиль (bold, italic). Значительные изменения шрифта также могут служить Text Break.
- Ссылочные факторы (для расчета Score): Использование последовательности слов в качестве анкорного текста гиперссылки повышает ее оценку.
Какие метрики используются и как они считаются
- Hit Position Scores: Оценки, присваиваемые в зависимости от позиции кандидата (Exact, Initial, Medial, Final). Exact обычно оценивается выше всего.
- Document Phrase Score: Агрегация оценок всех появлений фразы в одном документе. Масштабируется в зависимости от местоположения (заголовок выше тела) и форматирования. Включает результаты Devolution.
- Combined Score: Агрегация Document Phrase Scores по всей коллекции документов.
- Strong Phrase Threshold: Порог, определяющий, является ли фраза сильной концепцией. Критичен для логики Subphrase Devolution (положительный или отрицательный перенос оценки).
- Validation Thresholds (Пороги Валидации): Три порога, используемые для финального отбора фраз на основе сильной, умеренной или широкой поддержки.
Выводы
- Google активно отличает концепции от ключевых слов: Основная цель патента — идентифицировать фразы, которые функционируют как единое целое (концепции), и отделить их от случайных сочетаний слов. Это фундаментальный механизм для перехода к семантическому поиску.
- Структура и семантика определяют концепции: Text Breaks (пунктуация, HTML-теги, форматирование) играют решающую роль в определении границ фраз. То, как автор структурирует контент, напрямую влияет на то, как Google извлекает из него концепции.
- Сильные фразы подавляют свои компоненты (Subphrase Suppression): Механизм Strong Phrase Threshold и Devolution критически важен. Если система идентифицирует сильную фразу, она может намеренно снизить оценку ее подфраз в этом контексте (отрицательная деволюция), чтобы избежать неправильной интерпретации темы и двойного учета.
- Валидация фраз требует разнообразной поддержки: Фраза не обязательно должна быть популярной, чтобы считаться валидной. Она может быть редкой, но сильно подчеркнутой в одном авторитетном документе (Сильная поддержка), или общепринятой (Широкая поддержка).
- Визуальное оформление влияет на извлечение концепций: Местоположение (заголовки) и форматирование (шрифт) используются не только для ранжирования, но и на самом базовом уровне — для идентификации того, что является ключевой фразой на странице.
Практика
Best practices (это мы делаем)
- Используйте четкую семантическую структуру: Применяйте логичную HTML-разметку (H1-H6, P, UL/OL). Заголовки, начало абзацев и элементы списков функционируют как Text Breaks, помогая Google правильно определить границы ваших ключевых концепций и присвоить им позицию Exact или Initial.
- Выделяйте ключевые концепции: Размещайте важные фразы в значимых местах (Title, H1) и используйте умеренное форматирование (например, bold). Это повышает Document Phrase Score и увеличивает вероятность идентификации фразы как Strong Phrase.
- Обеспечивайте независимое использование подфраз (Управление Devolution): Если вы продвигаете длинную фразу (например, «лечение диабета 2 типа у пожилых») и ее важную подфразу («лечение диабета 2 типа»), убедитесь, что подфраза также используется самостоятельно в сильных позициях (например, в отдельном H2). Это поможет избежать снижения ее оценки из-за отрицательной деволюции от более длинной фразы.
- Используйте фразы в анкорном тексте: Патент подтверждает, что использование фразы в качестве анкора увеличивает ее оценку. Используйте точные концептуальные фразы во внутренней перелинковке.
- Следите за грамматикой и пунктуацией: Четкая пунктуация создает качественные Text Breaks на границах предложений, способствуя правильной идентификации фраз.
Worst practices (это делать не надо)
- Keyword Stuffing и неестественные конструкции: Нагромождение ключевых слов без учета естественной структуры предложений может привести к тому, что система не распознает эти последовательности как валидные фразы из-за отсутствия правильных Text Breaks.
- Игнорирование структуры (Стены текста): Большие блоки текста без четкого разделения на абзацы или разделы затрудняют идентификацию семантических границ. Большинство фраз будут классифицированы как Medial и получат низкие оценки.
- Создание контента только вокруг отдельных слов: Фокус на отдельных ключевых словах вместо полноценных концепций противоречит подходу Google. Система стремится найти и проиндексировать именно фразы.
Стратегическое значение
Этот патент подтверждает стратегию Google по переходу к поиску, основанному на концепциях и топиках. Для SEO это означает, что структура документа — это не просто элемент UX, это прямой сигнал, который помогает Google понять, о чем ваш контент на концептуальном уровне. Техническое качество верстки и копирайтинг (ясность изложения, структура текста) неразрывно связаны с семантическим ранжированием.
Практические примеры
Сценарий: Управление Devolution при оптимизации статьи о породе собак
Задача: Оптимизировать статью под «Cavalier King Charles Spaniel» (полная фраза) и «King Charles Spaniel» (подфраза).
- Создание сильной фразы: Использование полного названия в H1: <h1>Cavalier King Charles Spaniel</h1>. Это создает Exact Hit. Фраза, вероятно, превысит Strong Phrase Threshold.
- Проблема Devolution: Из-за того, что родительская фраза сильная, подфраза «King Charles Spaniel» в этом вхождении может получить отрицательную деволюцию оценки.
- Решение: Необходимо использовать подфразу «King Charles Spaniel» независимо в другом сильном контексте. Например, в подзаголовке: <h2>История King Charles Spaniel</h2>.
- Результат: Это создает новый Exact Hit для подфразы, позволяя ей набрать собственный высокий Document Phrase Score. Обе фразы будут распознаны как значимые концепции.
Вопросы и ответы
Что такое «Text Break» (разрыв текста) и почему это важно для SEO?
Text Break — это семантическая граница в контенте. Это могут быть знаки препинания (точка), HTML-теги (конец абзаца, заголовок, элемент списка) или изменения форматирования. Они критически важны, потому что сигнализируют алгоритму о завершении одной идеи и начале другой. Правильное структурирование контента создает четкие Text Breaks, что помогает Google точно извлекать ключевые фразы вашей страницы.
Означает ли этот патент, что Google индексирует все n-граммы (любые сочетания слов)?
Нет, как раз наоборот. Патент описывает сложную систему фильтрации, чтобы избежать индексации всех возможных n-грамм, что было бы слишком ресурсоемко. Google стремится идентифицировать и индексировать только «валидированные фразы» — те сочетания слов, которые функционируют как реальные концепции, что определяется через анализ семантических границ и поддержку в корпусе.
Как механизм «Strong Phrase Threshold» и «Devolution» влияет на понимание контента?
Эти механизмы помогают Google определить наиболее полную концепцию. Если система распознает «Нью-Йорк Джайентс» как Strong Phrase, она понимает, что речь идет о команде. Благодаря механизму Devolution (подавлению подфраз), она может не учитывать фразу «Нью-Йорк» отдельно в этом контексте. Это повышает точность интерпретации и предотвращает двойной учет.
Стоит ли выделять ключевые фразы жирным шрифтом, чтобы повысить их оценку?
Да, патент указывает, что характеристики шрифта (typeface characteristics) увеличивают Document Phrase Score. Умеренное использование выделения для действительно важных концепций полезно. Однако чрезмерное использование может снизить эффективность этого сигнала или даже привести к нежелательным Text Breaks.
Как Google решает, является ли редкая фраза валидной?
Патент описывает три пути валидации. Для редкой фразы наиболее вероятный путь — это «Сильная поддержка» (Claim 7). Если фраза используется очень явно (например, в заголовке, с выделением, в позиции Exact) хотя бы в одном документе, она может быть валидирована, даже если ее общая частота в интернете низкая. Это важно для нишевых тематик.
Влияет ли этот патент на то, как нужно использовать анкорные ссылки?
Да. Патент явно упоминает, что использование последовательности слов в качестве анкорного текста (anchor text) увеличивает ее оценку при извлечении фраз. Это подтверждает важность использования осмысленных, концептуальных фраз в анкорах как внутренних, так и внешних ссылок, поскольку это помогает Google валидировать эти фразы.
Как этот патент связан с современными моделями, такими как BERT или MUM?
Этот патент можно рассматривать как предшественника или дополнение. Он описывает статистический и структурный подход к идентификации базовых лингвистических единиц (фраз). Современные модели, такие как BERT и MUM, используют эти единицы для глубокого понимания контекста и связей на более сложном уровне. Структурные сигналы по-прежнему важны для NLP.
Что делать, если мой контент представляет собой «стену текста» без четкой структуры?
С точки зрения этого патента, такой контент является неоптимальным. Отсутствие четких абзацев, заголовков и списков минимизирует количество Text Breaks. Это затрудняет для Google идентификацию границ между концепциями, что может привести к неправильному извлечению фраз или снижению их оценок (большинство вхождений будут Medial).
Что означают позиции Initial, Medial, Final, Exact и какая лучше?
Они описывают положение фразы относительно Text Breaks. Initial – в начале (после разрыва), Final – в конце (перед разрывом), Medial – в середине, Exact – полностью ограничена разрывами. Exact обычно оценивается выше всего, так как это наиболее четко определенная концепция (например, фраза является всем заголовком H1).
Может ли система извлекать фразы из логов запросов пользователей?
Да, в патенте упоминается, что логи поисковых запросов (search query logs) могут использоваться как набор документов для процесса извлечения фраз. Это помогает системе изучать новые и актуальные фразы, которые используют люди, хотя вес таких фраз может быть ниже, чем у фраз из документов.