Как Google использует сегментацию контента и n+k-граммы для классификации текста и корректирует оценку с учетом длины документа

Google использует метод построения текстовых классификаторов, который учитывает структуру HTML для разделения текста на логические блоки (сегментация). Внутри этих блоков система извлекает n+k-граммы (фразы с пропуском стоп-слов) для лучшего понимания смысла. Кроме того, патент описывает механизм коррекции оценки релевантности, чтобы длинные документы не получали преимуществ только за счет своего объема.

Описание

Какую задачу решает

Патент решает две ключевые проблемы при построении точных текстовых классификаторов (например, для определения темы документа, его качества или спамности):

Идентификация значимых фраз: Как эффективнее извлекать семантически значимые фразы из текста, игнорируя шум (стоп-слова) и учитывая структуру документа.
Смещение из-за длины документа: Как устранить систематическую ошибку стандартных линейных классификаторов, которые склонны присваивать более высокие оценки длинным документам просто потому, что в них статистически выше вероятность встретить ключевые фразы, даже если документ нерелевантен теме.

Что запатентовано

Запатентована система построения текстовых классификаторов, которая использует два ключевых механизма. Во-первых, это метод извлечения признаков n+k-grams (скип-граммы), который сначала сегментирует документ на логические блоки по HTML-тегам, а затем извлекает фразы, игнорируя стоп-слова внутри них. Во-вторых, это механизм нормализации оценки классификатора с учетом длины документа (например, через Monotonic Regression), чтобы скорректировать смещение в пользу длинных текстов.

Как это работает

Процесс построения классификатора включает несколько этапов:

Генерация фраз-кандидатов: Документы разбиваются на логические единицы (сегменты) на основе HTML-разметки (div, p, li и т.д.). Из каждого сегмента извлекаются n+k-граммы – последовательности слов, где игнорируются стоп-слова.
Фильтрация и взвешивание: Фразы фильтруются и им итеративно назначаются веса с помощью комбинации неконтролируемого (unsupervised) и контролируемого (supervised, с участием людей-асессоров) обучения.
Построение классификатора и коррекция по длине: Генерируется финальный линейный классификатор. Для него создается функция принятия решений (например, Monotonic Regression), которая корректирует итоговую оценку документа, учитывая не только сумму весов фраз, но и общую длину текста.

Актуальность для SEO

Высокая. Методы извлечения признаков, основанные на скип-граммах (n+k-grams), являются фундаментальными в NLP и легли в основу многих современных моделей (например, Word2Vec). Сегментация контента для определения контекста активно используется Google. Нормализация длины документа остается стандартной практикой в информационном поиске для обеспечения точности ранжирования независимо от объема текста.

Важность для SEO

Патент имеет высокое значение для SEO. Он раскрывает конкретные механизмы, как Google анализирует текст: система понимает семантику фраз даже при наличии стоп-слов (n+k-grams) и использует структуру HTML для определения контекстных границ (сегментация). Самое важное – патент описывает механизм, который активно противодействует стратегиям, полагающимся исключительно на большой объем текста. Длина контента сама по себе не является преимуществом, если плотность релевантных сигналов недостаточна.

Детальный разбор

Термины и определения

Candidate Phrases (Фразы-кандидаты): Набор фраз (n-грамм), извлеченных из коллекции документов, которые потенциально указывают на принадлежность документа к определенной теме.
Linear Classifier (Линейный классификатор): Алгоритм классификации, который принимает решение на основе линейной комбинации весов входных признаков (в данном случае – фраз). Документ относится к теме, если сумма весов фраз, найденных в нем, превышает порог.
n+k-gram (Скип-грамма или n+k-грамма): Метод извлечения фраз. ‘n’ – это базовый порядок (количество значимых слов), ‘k’ – переменное количество пропущенных слов (skip words). Фраза начинается и заканчивается значимым словом, содержит ровно ‘n’ значимых слов и ‘k’ стоп-слов между ними.
Skip Words (Пропущенные слова / Стоп-слова): Часто встречающиеся слова с низким семантическим значением (артикли, предлоги, местоимения), которые игнорируются при извлечении n+k-грамм.
Segmentation / Logical Units of Text (Сегментация / Логические единицы текста): Процесс разделения документа на части (сегменты) на основе структурных HTML-тегов (например, div, tr, li, p, title) и пунктуации. n+k-граммы извлекаются внутри сегментов и не пересекают их границы.
Monotonic Regression (Монотонная регрессия): Техника машинного обучения, используемая для коррекции оценки классификатора. В патенте она применяется для изучения функции p(s, n), которая определяет вероятность принадлежности к теме на основе оценки (s) и длины документа (n), корректируя смещение в пользу длинных текстов.
Supervised Improvement (Контролируемое улучшение): Этап обучения классификатора, включающий ручную разметку данных (например, асессорами) и использование этих данных для коррекции весов фраз с помощью алгоритмов вроде SVM или Perceptron.

Ключевые утверждения (Анализ Claims)

Анализ сосредоточен на патенте US9317564B1 (являющемся продолжением более ранней заявки).

Claim 1 (Независимый пункт): Описывает метод построения классификатора, включающий специфический способ извлечения признаков и коррекцию по длине.

Система получает коллекцию документов.
Для каждого документа выполняется:
- Разделение документа на фрагменты текста (pieces of text).
- Извлечение n+k-грамм из каждого фрагмента отдельно, так чтобы они не пересекались.
Извлеченные n+k-граммы используются как коллекция фраз-кандидатов для темы.
Фразам-кандидатам назначаются веса.
Генерируется линейный классификатор, использующий эти взвешенные фразы.
Ключевое условие: линейный классификатор изменяет веса (varies the weights) для каждой фразы-кандидата в зависимости от длины классифицируемого документа.

Ядро изобретения — комбинация специфического метода извлечения признаков (сегментация + n+k-граммы) и обязательное наличие механизма, который адаптирует оценку классификатора в зависимости от длины документа.

Claim 2 (Зависимый): Уточняет, что разделение документа на фрагменты происходит на основе каждого структурного HTML-тега (HTML structure tag) в документе.

Claim 3, 4, 5 (Зависимые): Детализируют определение n+k-граммы: определяется базовый порядок ‘n’ и список стоп-слов; каждая n+k-грамма содержит ровно ‘n’ значимых слов и переменное число ‘k’ стоп-слов, расположенных между значимыми словами.

Claim 8 (Зависимый): Описывает, как реализуется изменение весов в зависимости от длины документа. Это основано на процессе обучения с использованием набора размеченных документов. Процесс обучения выводит функцию принятия решений (decision function), которая присваивает метку на основе пары (оценка классификатора, длина документа).

Где и как применяется

Изобретение описывает инфраструктурный процесс построения классификаторов, который влияет на то, как контент интерпретируется и оценивается на разных этапах поиска.

CRAWLING & INDEXING – Сканирование и Индексирование
На этих этапах происходит основная обработка контента для извлечения признаков:

Сегментация: Система анализирует HTML-структуру (теги div, p, li, title и т.д.) и разбивает контент на логические единицы (Logical Units of Text). Это определяет контекстные границы текста.
Извлечение признаков (Feature Extraction): Из каждого сегмента извлекаются n+k-граммы. Эти фразы сохраняются в индексе как признаки документа.

RANKING & RERANKING – Ранжирование и Переранжирование
На этих этапах применяются классификаторы, построенные с помощью описанного метода (например, для определения тематики, качества, интента или спама).

Вычисление оценки: Система рассчитывает базовую оценку документа, суммируя веса найденных в нем n+k-грамм.
Коррекция по длине (Length Adjustment): Применяется функция принятия решений (например, Monotonic Regression), которая корректирует базовую оценку с учетом общей длины документа. Это может происходить как на этапе основного ранжирования, так и при переранжировании.

Входные данные:

Необработанный контент документа (текст и HTML-разметка).
Списки стоп-слов (Skip Words) для конкретного языка.
Наборы размеченных данных (для обучения весов и функции коррекции длины).

Выходные данные:

Набор извлеченных n+k-грамм для документа.
Обученный классификатор с весами для фраз и функцией коррекции по длине.
Скорректированная оценка классификации документа.

На что влияет

Конкретные типы контента: Влияет на любой контент, содержащий текст и HTML-разметку.
Определенные форматы контента: Оказывает значительное влияние на оценку лонгридов и кратких текстов. Механизм коррекции длины гарантирует, что лонгриды не получают необоснованного преимущества за счет объема, а короткие тексты не пессимизируются за краткость, если содержат сильные сигналы.
Структура HTML: Влияет на то, как интерпретируется контент в зависимости от его расположения в структуре документа (из-за сегментации по HTML-тегам).

Когда применяется

Механизмы извлечения признаков (сегментация и n+k-граммы) применяются при индексировании каждого документа. Процесс построения классификаторов (обучение) происходит в офлайн-режиме. Классификаторы, построенные этим методом, применяются всякий раз, когда системе необходимо оценить документ по определенному критерию (тематика, качество и т.д.) – как правило, на этапах ранжирования.

Пошаговый алгоритм

Патент описывает процесс построения классификатора, а не процесс ранжирования. Алгоритм можно разделить на этап извлечения признаков и этап обучения классификатора.

Этап 1: Извлечение признаков и генерация фраз-кандидатов (Основано на FIG. 2)

Получение документа: Система получает документ из коллекции.
Сегментация контента: Контент документа разбивается на логические единицы текста. Разрывы происходят на границах структурных HTML-тегов (div, tr, li, p, title и т.д.) и знаках пунктуации.
Извлечение n+k-грамм: Из каждого сегмента текста извлекаются n+k-граммы. Система использует предопределенный список стоп-слов. n+k-грамма должна содержать ровно ‘n’ значимых слов и может содержать ‘k’ стоп-слов между ними. Фразы не могут пересекать границы сегментов.
Сбор кандидатов: Извлеченные n+k-граммы собираются в коллекцию фраз-кандидатов.

Этап 2: Обучение классификатора (Основано на FIG. 1 и FIG. 5)

Фильтрация кандидатов (Опционально): Коллекция фраз-кандидатов фильтруется для удаления ошибочных фраз (например, путем проверки результатов поиска по этим фразам, как описано в FIG. 4).
Итеративное назначение весов:
- Инициализация: Используется начальный классификатор или всем фразам присваивается равный вес.
- Итерация (Unsupervised): Каждой фразе присваивается оценка, равная средней оценке документов (по текущему классификатору), содержащих эту фразу. Веса пересчитываются на основе этих оценок (например, с помощью Naïve Bayes).
- Итерация (Supervised Improvement): Выбираются документы определенной длины. Асессоры размечают эти документы. Размеченные данные используются для коррекции весов фраз с помощью SVM или Perceptron.
- Повторение: Этапы Unsupervised и Supervised повторяются несколько раз для уточнения весов.
Генерация финального классификатора: Создается линейный классификатор с уточненными весами.
Обучение коррекции по длине: Система анализирует набор размеченных примеров, содержащих (Оценка классификатора, Длина документа, Метка). Обучается функция принятия решений (например, Monotonic Regression p(s, n)), которая определяет итоговую вероятность принадлежности к теме с учетом длины документа.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа используется для извлечения n+k-грамм.
Структурные факторы: HTML-разметка критически важна для процесса сегментации. Используются структурные теги: div, tr, li, p, title, h1-h6, form, hr, dl, dd, dt, td, th, option, img, pre, blockquote.
Технические факторы: Длина документа (number of words) используется на этапе коррекции оценки классификатора.
Пользовательские данные (Асессоры): Ручная разметка документов (Rate documents) используется на этапе контролируемого улучшения (Supervised Improvement) для коррекции весов и для обучения функции коррекции по длине.
Системные данные: Списки стоп-слов (Skip Words) для разных языков. Логи запросов и данные о сайтах могут использоваться как альтернативные методы генерации фраз-кандидатов.

Какие метрики используются и как они считаются

n (Base order): Базовый порядок n+k-граммы (количество значимых слов).
k (Skip words count): Количество пропущенных стоп-слов в n+k-грамме.
Вес фразы (w(X)): Числовое значение, присваиваемое фразе-кандидату в процессе обучения. Может рассчитываться по формуле на основе вероятности p(T|X) (вероятность темы T при наличии фразы X), например, с использованием предположения Naïve Bayes.
Оценка документа (s): Базовая оценка, присвоенная документу классификатором (сумма весов найденных фраз).
Длина документа (n): Количество слов в документе.
Функция p(s, n): Функция, определяющая вероятность принадлежности документа к теме на основе его оценки (s) и длины (n). Изучается с помощью Monotonic Regression.

Выводы

Продвинутое понимание фраз (n+k-граммы): Google не полагается только на точное совпадение ключевых слов. Использование n+k-грамм позволяет системе распознавать семантически значимые фразы, даже если они разделены стоп-словами. Это подчеркивает важность естественного языка над механическим насыщением ключами.
Критичность HTML-структуры и сегментация: Патент явно указывает на использование структурных HTML-тегов (p, li, div, title и т.д.) для разделения текста на логические блоки (сегментация). n+k-граммы не пересекают границы этих блоков. Это означает, что контекст определяется структурой документа, и фразы в разных блоках (например, в навигации и основном контенте) анализируются раздельно.
Активная борьба с «преимуществом длины»: Существует конкретный механизм (Length Adjustment / Monotonic Regression), который нормализует оценку документа по его длине. Система корректирует тот факт, что в длинных текстах ключевые фразы могут встречаться чаще случайно. Это опровергает идею, что больший объем текста всегда лучше для SEO.
Качество важнее количества: Для достижения высокой оценки важна не общая длина текста, а достаточная плотность релевантных семантических сигналов (n+k-грамм) относительно этой длины.
Итеративное обучение с участием асессоров: Построение классификаторов – это сложный процесс, включающий как автоматические методы, так и контролируемое обучение (Supervised Improvement) на основе данных от людей-асессоров для исправления систематических ошибок.

Практика

Best practices (это мы делаем)

Фокус на естественном языке и семантике: Пишите естественно, не беспокоясь о точном порядке слов в устоявшихся фразах. Благодаря n+k-граммам, система способна понять смысл, игнорируя стоп-слова (предлоги, артикли). Например, «sound of rain» и «sound the rain» могут быть распознаны как одна и та же семантическая единица.
Логичная и чистая структура HTML: Используйте семантическую и структурную разметку (p, li, ul, div, table, h1-h6) по назначению. Патент подтверждает, что эти теги используются для сегментации контента и определения контекстных границ. Фразы анализируются внутри этих блоков. Чистая структура помогает системе корректно сегментировать текст.
Оптимизация плотности релевантных концепций: При создании лонгридов убедитесь, что объем текста оправдан глубиной раскрытия темы. Поскольку система корректирует оценку по длине документа, простое «раздувание» текста не даст преимуществ. Необходимо поддерживать высокую плотность релевантных фраз и концепций на протяжении всего текста.
Качественный контент в списках и таблицах: Так как теги списков (li) и таблиц (tr, td) явно указаны как разделители при сегментации, важно, чтобы контент внутри этих элементов был самодостаточным и качественным.

Worst practices (это делать не надо)

Искусственное увеличение объема текста («Вода»): Добавление контента с низкой плотностью релевантных фраз ради достижения целевого количества слов неэффективно. Механизм коррекции длины нивелирует потенциальное преимущество от случайного вхождения ключей в большом тексте.
Keyword Stuffing и неестественные конструкции: Попытки манипулировать текстом ради точного вхождения ключей менее эффективны из-за использования n+k-грамм. Система ценит естественность языка.
Игнорирование структуры HTML / «Стена текста»: Публикация контента без четкой структуры (без абзацев, списков, подзаголовков) усложняет процесс сегментации и может привести к некорректному извлечению признаков.
Смешивание контекстов в одном блоке: Не допускайте резкой смены темы внутри одного логического блока (например, абзаца), так как это может привести к генерации нерелевантных n+k-грамм.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от анализа ключевых слов к более глубокому семантическому анализу (NLP). Он демонстрирует, что уже на ранних этапах (патент подан в 2009 году) Google разрабатывал сложные механизмы для понимания естественного языка (n+k-grams), учета контекста (сегментация по HTML) и борьбы с низкокачественным контентом большого объема (коррекция по длине). Для SEO это означает, что долгосрочная стратегия должна фокусироваться на качестве, семантической релевантности и четкой структуре контента.

Практические примеры

Сценарий 1: Оптимизация структуры статьи для корректной сегментации

Задача: Убедиться, что система корректно извлекает признаки из статьи-обзора.
Действие: Использовать четкую HTML-структуру. Каждый отдельный пункт обзора оформлять через тег <li> или отдельный абзац <p>. Таблицы сравнения оформлять через <table>, <tr>, <td>.
Результат: Система корректно сегментирует контент на границах этих тегов. n+k-граммы извлекаются внутри каждого пункта или ячейки, что предотвращает смешивание контекстов и обеспечивает более точное извлечение релевантных фраз.

Сценарий 2: Анализ лонгрида с учетом коррекции длины

Задача: Оценить качество длинной статьи (3000 слов).
Действие: Проанализировать не только общее количество ключевых фраз, но и их плотность и распределение по тексту. Если первые 500 слов содержат много релевантных концепций, а остальные 2500 – это «вода», необходимо переработать текст для повышения плотности сигналов.
Результат: Поскольку система применяет Monotonic Regression p(s, n), статья с низкой плотностью сигналов получит скорректированную (пониженную) оценку, несмотря на большой объем. Улучшение плотности повышает шансы на высокое ранжирование.

Вопросы и ответы

Что такое n+k-граммы и почему это важно для SEO?

n+k-граммы (или скип-граммы) – это метод анализа текста, который позволяет системе распознавать фразы, даже если между значимыми словами есть стоп-слова (предлоги, артикли). ‘n’ – это число значимых слов, ‘k’ – число пропущенных стоп-слов. Для SEO это означает, что Google понимает естественный язык лучше, чем простое совпадение ключей. Не нужно жертвовать читаемостью ради точного вхождения фразы; система распознает смысл, игнорируя шум.

Как патент влияет на рекомендации по длине контента (Word Count)?

Патент радикально меняет подход к длине контента. Он описывает механизм, который активно корректирует оценку документа с учетом его длины, чтобы устранить смещение в пользу длинных текстов. Это означает, что длина сама по себе не является фактором ранжирования. Важна не длина, а плотность релевантных сигналов относительно этой длины. Длинный текст с низкой плотностью сигналов может ранжироваться хуже короткого, но насыщенного релевантными фразами текста.

Что такое сегментация контента в контексте этого патента?

Сегментация – это процесс разделения документа на логические блоки. Патент явно указывает, что для этого используются структурные HTML-теги (p, li, div, table, title и т.д.). Важно то, что n+k-граммы извлекаются внутри этих блоков и не пересекают их границы. Это означает, что HTML-структура напрямую определяет контекст, в котором анализируется текст.

Как использовать знание о сегментации на практике?

Необходимо использовать чистую и логичную HTML-разметку. Используйте абзацы (p) для разделения мыслей, списки (li) для перечислений, таблицы для данных. Это помогает поисковой системе корректно определить границы контекста и точно извлечь релевантные фразы. Избегайте «стены текста» или использования тегов не по назначению, так как это может нарушить сегментацию.

Что такое Monotonic Regression и как она используется?

Monotonic Regression – это статистический метод, который в данном патенте используется для коррекции оценки классификатора по длине документа. Система изучает зависимость между оценкой документа (s) и его длиной (n). Если длинные документы получают высокие оценки просто за счет объема, эта функция корректирует итоговую вероятность, обеспечивая более справедливую оценку независимо от длины текста.

Использует ли Google данные асессоров для построения этих классификаторов?

Да, патент описывает этап «Контролируемого улучшения» (Supervised Improvement). На этом этапе система отбирает документы определенной длины, а люди-асессоры их размечают. Эти данные затем используются для коррекции весов фраз с помощью алгоритмов машинного обучения (например, SVM). Это помогает исправить систематические ошибки автоматических алгоритмов.

Применяется ли этот патент только для определения тематики контента?

Нет. Патент описывает общий метод построения текстовых классификаторов (Construction of Text Classifiers). Эти классификаторы могут использоваться для любых задач: определения тематики, оценки качества контента (например, E-E-A-T), выявления спама, определения интента пользователя и так далее. Описанные механизмы (n+k-grams, сегментация, коррекция длины) универсальны.

Учитываются ли фразы, расположенные в разных частях страницы (например, в меню и в статье)?

Они учитываются раздельно. Благодаря сегментации по HTML-тегам, текст в меню и текст в основном контенте будут находиться в разных логических блоках. n+k-граммы не могут пересекать границы этих блоков. Система не будет объединять начало фразы из меню с окончанием фразы из статьи в одну n+k-грамму.

Являются ли n+k-граммы тем же самым, что и современные векторные представления (embeddings)?

Не совсем, но они связаны. n+k-граммы (скип-граммы) – это метод извлечения дискретных признаков (фраз) из текста. Однако этот же принцип лег в основу алгоритмов для создания векторных представлений, таких как Word2Vec (который также использует модель Skip-gram). Патент описывает использование n+k-грамм в линейных классификаторах, что было актуально на момент подачи, но эти идеи эволюционировали в современные NLP-технологии.

Стоит ли удалять стоп-слова из текста для лучшей оптимизации под n+k-граммы?

Нет, этого делать не нужно. Смысл n+k-грамм как раз в том, что система сама определяет стоп-слова и игнорирует их при анализе семантики, сохраняя при этом естественность текста. Удаление стоп-слов вручную сделает текст нечитаемым и неестественным, что негативно скажется на поведенческих факторах и общей оценке качества контента.