Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует машинное обучение и анализ стиля письма для классификации «Лонгридов» (In-Depth Articles)

    IDENTIFYING LONGFORM ARTICLES (Идентификация лонгрид-статей)
    • US9773166B1
    • Google LLC
    • 2017-09-26
    • 2015-11-03
    2015 Индексация Патенты Google Семантика и интент

    Google использует классификатор машинного обучения для идентификации «лонгридов» (In-Depth Articles), анализируя не длину или тематику, а стиль написания. Система использует глубокий NLP-анализ для извлечения лингвистических признаков, таких как структура предложений (Parse n-Grams), грамматические функции слов, частота местоимений и пунктуация. Это позволяет выделять в поиске глубокий аналитический контент.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу автоматической идентификации высококачественного, аналитического контента, определяемого как longform documents (лонгриды или in-depth articles). Цель — алгоритмически отличить статьи, которые предлагают глубокий анализ и перспективу («read-to-learn» articles), от новостных репортажей, энциклопедических обзоров или блогов. Это позволяет поисковой системе продвигать глубокий контент, даже если он не является свежим или популярным по стандартным метрикам.

    Что запатентовано

    Запатентована система генерации и использования классификатора машинного обучения (longform document classifier) для идентификации лонгридов. Ключевой особенностью является использование специфических лексических и текстуальных признаков, которые характеризуют стиль письма (writing style), а не тематику или длину документа. Система обучается распознавать лингвистические паттерны, свойственные глубоким аналитическим материалам.

    Как это работает

    Система работает на основе контролируемого машинного обучения:

    • Обучение: Собирается набор обучающих документов (положительные и отрицательные примеры лонгридов).
    • Извлечение признаков: Из контента извлекаются лингвистические признаки, характеризующие стиль: синтаксические структуры (Parse n-Grams, Linear Parse n-Grams), части речи (POS n-Grams), длина предложений, частота использования местоимений (Pronoun Person Frequency) и пунктуации (Punctuation Frequency).
    • Генерация модели: Обучается классификатор (например, Maximum Entropy Classifier), который определяет оптимальные веса для этих признаков.
    • Применение и Индексирование: Обученный классификатор применяется к корпусу документов. Поисковый индекс аннотируется (annotating an information retrieval index) результатами классификации.
    • Поиск: При получении запроса система использует эти аннотации для показа лонгридов (например, в блоке «In-Depth Articles»).

    Актуальность для SEO

    Высокая. Способность Google оценивать качество, глубину и стиль контента остается фундаментальной для поиска, особенно в контексте E-E-A-T и Helpful Content. Хотя конкретное представление блока «In-Depth Articles» в SERP эволюционировало, лежащие в основе технологии глубокого лингвистического анализа для классификации контента активно используются.

    Важность для SEO

    Патент имеет значительное влияние на SEO (75/100). Он демонстрирует, что Google количественно оценивает стиль написания, используя сложные NLP-признаки для классификации типа и глубины контента. Понимание этих лингвистических признаков критически важно для создания контента, который должен восприниматься как высококачественный, авторитетный и аналитический.

    Детальный разбор

    Термины и определения

    Dependency Parser (Синтаксический анализатор зависимостей)
    Инструмент NLP, используемый для построения дерева зависимостей (dependency parse tree), которое показывает синтаксические связи между словами в предложении.
    Feature Extraction Engine (Механизм извлечения признаков)
    Компонент, который обрабатывает контент и извлекает лексические и текстуальные признаки, характеризующие стиль письма.
    Linear Parse n-Grams (Линейные синтаксические N-граммы)
    Признак, описывающий грамматическую функцию слов в предложении (например, подлежащее, прямое дополнение). Извлекается как последовательность синтаксических тегов (parse tags).
    Longform Document / In-Depth Article (Лонгрид / Глубокая статья)
    Документ, предоставляющий глубокий анализ (insightful perspective) и стимулирующий размышления («read-to-learn»). Отличается от новостей и энциклопедических обзоров.
    Maximum Entropy Classifier (Классификатор максимальной энтропии)
    Модель машинного обучения, упомянутая в патенте, используемая для определения весов признаков, которые максимизируют вероятность правильной классификации.
    Parse n-Grams (Синтаксические N-граммы)
    Признак, извлекаемый путем обхода дерева зависимостей. Указывает на общие синтаксические структуры в документе.
    Part of Speech (POS) n-Grams (N-граммы частей речи)
    Последовательности тегов частей речи (например, существительное, глагол). Указывают на общие грамматические паттерны.
    Pronoun Person Frequency (Частота лиц местоимений)
    Относительная частота использования местоимений первого, второго и третьего лица в документе.
    Punctuation Frequency (Частота пунктуации)
    Относительная частота использования различных типов знаков препинания. Используется для определения жанра.
    Training Documents (Обучающие документы)
    Коллекция размеченных документов, включающая положительные (лонгриды) и отрицательные (не лонгриды) примеры.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает полный цикл от обучения классификатора до его применения в поиске.

    1. Получение коллекции обучающих документов (положительные и отрицательные примеры).
    2. Извлечение множества признаков, которые представляют лексическое или текстуальное содержание и указывают на стиль письма документа (document’s writing style).
    3. Генерация классификатора лонгридов (longform document classifier), обученного на этих признаках.
    4. Применение классификатора к корпусу документов.
    5. Аннотирование индекса (information retrieval index) результатами классификации для каждого документа.
    6. Использование аннотированного индекса для предоставления поисковых результатов, идентифицирующих лонгриды в ответ на запрос.

    Ядро изобретения — создание классификатора на основе признаков стиля написания и его интеграция в процесс индексирования и поиска.

    Зависимые пункты (Claims 3-8): Детализируют конкретные типы лингвистических признаков, защищаемых патентом.

    • Claim 3: Использование Parse n-gram feature (структуры на основе деревьев зависимостей).
    • Claim 4: Использование Part of speech n-gram feature.
    • Claim 5: Использование Linear parse n-gram feature (грамматические функции слов).
    • Claim 6 и 7: Использование Pronoun person frequency feature (частота местоимений и их лиц).
    • Claim 8: Использование Punctuation frequency.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на обработке контента и его представлении в выдаче.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. Во время индексирования система выполняет глубокий лингвистический анализ (NLP):

    1. Парсинг: Текст обрабатывается парсером (например, Dependency Parser) для построения грамматических деревьев.
    2. Извлечение признаков: Feature Extraction Engine извлекает стилистические признаки (Parse n-Grams, POS n-Grams, частоты и т.д.).
    3. Классификация: Обученный longform document classifier применяется к документу и генерирует оценку (classification score).
    4. Аннотирование индекса: Результат классификации сохраняется в индексе вместе с документом.

    METASEARCH – Метапоиск и Смешивание
    На этапе формирования выдачи система определяет, следует ли активировать показ лонгридов для данного запроса (Determine whether longform docs are triggered). Если да, она использует аннотированный индекс для извлечения релевантных лонгридов и может представить их в отдельном блоке (например, «In-Depth Articles»).

    RERANKING – Переранжирование
    Патент упоминает, что классификатор может предоставить оценку (classification score) по континууму, которая может использоваться поисковой системой при ранжировании результатов.

    На что влияет

    • Конкретные типы контента: Влияет на аналитические статьи, журналистские расследования, эссе. Система специально настроена так, чтобы НЕ классифицировать как лонгриды новостные репортажи, энциклопедические статьи, блоги или комментарии.
    • Специфические запросы: Влияет на запросы с интентом «read-to-learn» — когда пользователь хочет глубоко разобраться в теме.

    Когда применяется

    • При индексации: Классификация документа происходит во время его обработки.
    • При поиске (Триггеры): Показ лонгридов активируется, когда система определяет соответствующий интент запроса.
    • Ограничения (Важно для SEO): В патенте упоминается, что при обучении отрицательные примеры могут быть выбраны с длиной, сопоставимой с положительными примерами (comparable length). Это делается, чтобы уменьшить смещение классификатора по признаку длины и заставить его фокусироваться на стиле.

    Пошаговый алгоритм

    Процесс А: Обучение Классификатора (Офлайн)

    1. Сбор данных: Получение Training Documents (положительные и отрицательные примеры). Контроль длины для отрицательных примеров.
    2. NLP-обработка: Токенизация и синтаксический разбор (например, Dependency Parsing).
    3. Извлечение признаков: Извлечение стилистических признаков:
      • N-граммы (Token, Parse, POS, Linear Parse).
      • Средняя длина предложения (Sentence Length).
      • Частота местоимений (Pronoun Person Frequency).
      • Частота пунктуации (Punctuation Frequency).
    4. Нормализация (Бакетизация): Числовые признаки (длина, частоты) группируются в диапазоны (бакеты). Например, средняя длина предложения «9-11 токенов».
    5. Обучение модели: Обучение классификатора (например, Maximum Entropy Classifier) для определения оптимальных весов признаков.
    6. Валидация: Оценка эффективности классификатора на тестовой выборке.

    Процесс Б: Применение (Индексирование и Поиск)

    1. Индексация: Применение обученного классификатора к новым документам. Извлечение признаков и расчет оценки.
    2. Аннотирование индекса: Сохранение результата классификации в information retrieval index.
    3. Обработка запроса: Получение запроса и определение триггера для показа лонгридов.
    4. Извлечение и Отображение: Если триггер сработал, извлечение аннотированных лонгридов и их отображение (например, в блоке «In-Depth Articles»).

    Какие данные и как использует

    Данные на входе

    Система полагается исключительно на контент документа для этой классификации.

    • Контентные и Структурные (Лингвистические) факторы: Весь текст документа подвергается глубокому анализу. Используются:
      • Слова (Токены).
      • Части речи.
      • Синтаксические связи и грамматические функции слов.
      • Местоимения.
      • Пунктуация.
      • Границы предложений.

    Другие факторы (ссылочные, поведенческие, технические) в контексте данного патента для классификации документа как longform не упоминаются.

    Какие метрики используются и как они считаются

    Система вычисляет следующие метрики для характеристики стиля письма:

    • Частота N-грамм различных типов: Token n-Grams, Parse n-Grams (частота синтаксических структур), POS n-Grams (частота паттернов частей речи), Linear Parse n-Grams (частота грамматических функций).
    • Average Sentence Length: Средняя длина предложения.
    • Pronoun Person Frequency: Соотношение местоимений 1-го, 2-го и 3-го лица.
    • Punctuation Frequency: Соотношение различных знаков препинания.

    Методы анализа и ML:

    • NLP: Токенизация, Dependency Parsing или Constituency Parsing, Part-of-Speech Tagging.
    • Алгоритмы машинного обучения: Maximum Entropy Classifier (или другие, такие как SVM, Naïve Bayes) для определения весов признаков и расчета итоговой оценки.
    • Нормализация: Использование бакетизации (bucketing) для преобразования числовых значений (длины, частоты) в категориальные признаки.

    Выводы

    1. Стиль письма как измеримый сигнал классификации: Google использует глубокий лингвистический анализ (стилометрию) для классификации типа и назначения контента. Стиль, синтаксис и структура предложений являются количественно измеримыми признаками.
    2. Глубина контента ≠ Длина контента: Патент явно указывает на меры по нейтрализации влияния длины документа. Классификатор фокусируется на том, *как* написан текст, а не на его объеме. Длинная, но поверхностная статья не будет считаться лонгридом.
    3. Ключевые лингвистические индикаторы лонгридов: Сложность и разнообразие синтаксических конструкций (анализируемые через Parse n-Grams и Linear Parse n-Grams) являются ключевыми индикаторами. Паттерны использования пунктуации и местоимений также важны для отличия аналитики от блогов или новостей.
    4. Классификация на этапе индексирования: Идентификация лонгридов происходит во время индексирования, и результат сохраняется как аннотация в индексе, что позволяет быстро извлекать этот тип контента при поиске.
    5. Цель — выявление «вечнозеленого» качества: Механизм предназначен для выявления высококачественного контента, который предоставляет значительную ценность (read-to-learn), даже если он не имеет сильных сигналов свежести или популярности.

    Практика

    Best practices (это мы делаем)

    • Фокус на аналитическом стиле и глубине: При создании контента для интентов «read-to-learn» стремитесь к стилю качественной журналистики или аналитики. Контент должен предлагать инсайты и глубокий анализ, а не простое изложение фактов (энциклопедия) или событий (новости).
    • Использование сложных и разнообразных синтаксических структур: Поскольку система анализирует Parse n-Grams, структура предложений имеет значение. Используйте богатый язык, разнообразные грамматические конструкции и сложные предложения. Избегайте примитивного или однообразного синтаксиса.
    • Контроль стиля (Пунктуация и Местоимения): Поддерживайте профессиональный тон. Избыток восклицательных знаков (характерный для блогов) или неподходящее использование местоимений может негативно повлиять на классификацию согласно признакам Punctuation Frequency и Pronoun Person Frequency.
    • Инвестиции в профессиональный копирайтинг и редактуру: Качество письма напрямую влияет на лингвистические признаки, извлекаемые системой. Работа с авторами, владеющими аналитическим стилем, является ключевой стратегией.

    Worst practices (это делать не надо)

    • Приравнивание объема к глубине: Создание длинных, но поверхностных текстов («водянистый» контент, SEO-копирайтинг низкого качества). Система обучена игнорировать длину как основной фактор и фокусируется на стиле.
    • Упрощение языка для сложных тем: Использование примитивных конструкций и коротких рубленых предложений при написании аналитических статей. Это приведет к тому, что контент не будет распознан как longform из-за анализа Parse n-Grams и Sentence Length.
    • Использование «блогового» или разговорного стиля для аналитики: Использование стилистических приемов, которые система ассоциирует с неформальным контентом, снизит вероятность классификации как «in-depth».

    Стратегическое значение

    Патент подтверждает способность Google алгоритмически оценивать качество и стиль изложения контента на глубоком лингвистическом уровне. Это подчеркивает важность инвестиций в качественную журналистику и экспертный анализ. Для авторитетных издателей этот механизм предоставляет возможность получить видимость за счет глубины проработки темы, даже если контент был опубликован давно, подтверждая важность «вечнозеленого» контента.

    Практические примеры

    Сценарий: Оптимизация статьи для классификации как «In-Depth»

    Задача: Создать аналитическую статью по теме «Влияние ИИ на рынок труда».

    Сравнение подходов:

    1. Новостной стиль (Не лонгрид): Фокус на последних событиях, короткие абзацы, простая структура предложений («ИИ меняет рынок. Люди теряют работу.»).

    • Лингвистический результат: Простые Parse n-Grams, короткая средняя длина предложений. Классифицируется как новость.

    2. Энциклопедический стиль (Не лонгрид): Определение терминов, перечисление фактов, сухой тон.

    • Лингвистический результат: Стандартные синтаксические структуры, преобладание 3-го лица. Классифицируется как обзор.

    3. Аналитический стиль (Лонгрид): Глубокий анализ тенденций, исследование причинно-следственных связей, инсайты. Использование сложных синтаксических конструкций («Трансформация рынка труда под воздействием ИИ представляет собой сложный процесс, характеризующийся…»).

    • Лингвистический результат: Разнообразные и сложные Parse n-Grams, большая средняя длина предложений, профессиональное использование пунктуации. Классифицируется как longform document.

    Вопросы и ответы

    Является ли длина статьи основным фактором для классификации ее как лонгрида?

    Нет. Патент специально оговаривает, что при обучении классификатора используются отрицательные примеры сопоставимой длины с положительными. Это делается для того, чтобы система фокусировалась на стиле написания (writing style) и лингвистических признаках, а не на объеме текста.

    Что такое Parse n-Grams и почему они важны для SEO?

    Parse n-Grams — это последовательности синтаксических связей, извлеченные из дерева зависимостей предложения. Они отражают сложность и разнообразие используемых синтаксических структур. Для SEO это означает, что использование богатого языка, разнообразных и грамматически сложных предложений является сигналом качественного, углубленного контента.

    Какие конкретные лингвистические признаки использует Google для определения стиля письма?

    Google использует комбинацию признаков: синтаксическую структуру (Parse n-Grams, Linear Parse n-Grams), грамматические паттерны (POS n-Grams), среднюю длину предложений (Sentence Length), частоту использования местоимений разных лиц (Pronoun Person Frequency) и паттерны использования пунктуации (Punctuation Frequency).

    Как система отличает аналитическую статью от блога или комментария?

    Это достигается за счет анализа стилистических маркеров. Например, патент указывает, что Punctuation Frequency помогает различать жанры: обилие восклицательных знаков характерно для блогов/комментариев, а точек и запятых — для новостей. Также анализируется Pronoun Person Frequency и сложность синтаксиса.

    Как этот патент связан с E-E-A-T?

    Патент напрямую связан с оценкой Экспертизы (Expertise) и Качества контента. Он предоставляет механизм для автоматической оценки глубины и проработанности текста на лингвистическом уровне. Способность создать контент, классифицируемый как in-depth article, служит сильным сигналом экспертизы автора.

    Может ли Википедия считаться лонгридом согласно этому патенту?

    Нет. В патенте четко указано, что энциклопедические обзоры не считаются longform documents. Лонгрид должен предоставлять глубокий анализ и перспективу (insightful perspective), а не просто всесторонний обзор фактов.

    На каком этапе Google определяет, что документ является лонгридом?

    Это происходит на этапе индексирования (INDEXING). Система извлекает лингвистические признаки из контента, применяет обученный классификатор и сохраняет результат как аннотацию в индексе.

    Стоит ли искусственно усложнять текст, чтобы он был классифицирован как лонгрид?

    Нет. Классификатор обучается на примерах реальных качественных текстов. Неестественное усложнение текста может привести к созданию лингвистических паттернов, которые не соответствуют качественному контенту в обучающей выборке, и ухудшить читаемость.

    Использует ли этот классификатор внешние сигналы, такие как ссылки или авторитетность сайта?

    Согласно данному патенту, этот конкретный классификатор основан исключительно на лексическом и текстуальном содержании самого документа. Внешние сигналы не упоминаются как признаки для задачи классификации стиля.

    Актуален ли этот патент, если блок «In-Depth Articles» больше не виден в SERP?

    Да, патент остается актуальным. Хотя конкретное представление в SERP может меняться, базовые технологии классификации контента на основе лингвистического анализа и стиля письма по-прежнему используются Google для понимания глубины и качества материалов. Эти сигналы могут влиять на ранжирование в основном поиске.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.