SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует тематические векторы, косинусное сходство и анализ когезии кластеров для автоматической классификации контента

SYSTEM AND METHOD FOR CONTENT-BASED DOCUMENT ORGANIZATION AND FILING (Система и метод организации и хранения документов на основе контента)
  • US8458194B1
  • Google LLC
  • 2012-01-31
  • 2013-06-04
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий технологию автоматической организации документов. Система создает тематическую сигнатуру документа (вектор тем и их весов) и сравнивает её с существующими наборами документов, используя Cosine Similarity. Затем вычисляется Оценка Уверенности на основе среднего сходства и однородности набора. Патент раскрывает фундаментальные механизмы Information Retrieval, которые Google использует для понимания семантики и оценки тематической когезии контента.

Описание

Какую проблему решает

Патент решает задачу автоматизации процесса организации и хранения электронных документов. Он направлен на устранение необходимости ручной сортировки файлов, предлагая механизм для автоматического определения наиболее подходящего места хранения (например, папки, метки или коллекции) для нового документа на основе анализа его содержания и сравнения с уже существующими наборами документов.

Что запатентовано

Запатентована система для автоматической категоризации документов. Система анализирует контент исходного документа для создания Document Signature (тематической сигнатуры), состоящей из тем (Topics) и их весов (Weights). Затем она сравнивает эту сигнатуру (вектор) с сигнатурами документов в существующих наборах (Document Sets), вычисляет оценки подобия (Similarity Scores), используя, например, Cosine Similarity. Эти оценки агрегируются в Confidence Score для каждого набора, определяя наилучшее место для хранения документа.

Как это работает

Ключевой механизм работы системы:

  • Генерация Сигнатуры: Для исходного документа с помощью NLP определяется набор тем и веса, показывающие значимость каждой темы. Это формирует тематический вектор.
  • Расчет Подобия: Система вычисляет Similarity Scores между исходным документом и каждым документом в существующих Document Sets. Для этого используется сравнение тематических векторов (например, через Cosine Similarity).
  • Расчет Уверенности: Для каждого Document Set вычисляется Confidence Score. Он включает среднее значение (Mean Score) и стандартное отклонение (Variance Score) оценок подобия внутри набора.
  • Выбор и Рекомендация: Document Sets ранжируются по Confidence Score. Оценки сравниваются с пороговым значением (которое может быть динамическим, например, с помощью K-means), и лучшие наборы предлагаются как места хранения (Filing Attributes).

Актуальность для SEO

Средняя. Технологии, описанные в патенте (тематическое моделирование, Cosine Similarity, кластеризация K-means), являются фундаментальными в Information Retrieval и NLP. Они активно используются в системах классификации контента. Хотя современные системы могут использовать более продвинутые нейросетевые эмбеддинги, базовые принципы измерения подобия и оценки когезии кластеров остаются высоко актуальными.

Важность для SEO

Влияние на SEO оценивается как среднее (5 из 10). Патент не описывает алгоритмы ранжирования веб-поиска. Он сфокусирован на организации документов. Однако для Senior SEO-специалистов патент имеет важное стратегическое значение, так как детально описывает фундаментальные механизмы анализа контента: представление документов в виде тематических векторов, измерение семантического подобия и оценку однородности (когезии) кластеров. Это дает критически важное понимание основ, на которых строятся концепции Тематического Авторитета (Topical Authority).

Детальный разбор

Термины и определения

Confidence Score (Оценка уверенности)
Агрегированная метрика, определяющая, насколько исходный документ соответствует набору документов (Document Set). Основана на Similarity Scores внутри набора и включает Mean Score и Variance Score.
Cosine Similarity (Косинусное сходство)
Один из методов измерения подобия между двумя тематическими векторами. Рассчитывается как нормализованное скалярное произведение векторов. Используется для генерации Similarity Score.
Document Set (Набор документов)
Группа документов, объединенных общим признаком или местом хранения (папка, метка, коллекция). В контексте SEO может рассматриваться как аналог тематического кластера.
Document Signature / Topic Information (Сигнатура документа / Тематическая информация)
Тематическое представление документа. Включает набор тем (Topics) и их весов (Weights). Является основой для всех вычислений подобия (тематический вектор).
Filing Attribute (Атрибут хранения)
Рекомендуемое место хранения или метаданные (метка, тег) для исходного документа.
Mean Score (Средняя оценка)
Компонент Confidence Score. Среднее значение всех Similarity Scores между исходным документом и документами в Document Set. Показывает среднее подобие.
Similarity Score (Оценка подобия)
Метрика, количественно определяющая подобие между двумя документами. Рассчитывается путем сравнения их Document Signatures.
Threshold Confidence Score (Пороговая оценка уверенности)
Значение, используемое для определения релевантности набора. Может быть фиксированным или динамическим (varying), рассчитанным автоматически (например, с помощью K-means).
Topic (Тема)
Категория, концепция или предмет, представляющий содержание документа. Может быть абстрактным понятием, не обязательно присутствующим в тексте в виде конкретного термина.
Variance Score (Оценка вариативности/дисперсии)
Компонент Confidence Score. Мера разброса (например, стандартное отклонение) Similarity Scores внутри набора. Низкая вариативность указывает на высокую тематическую однородность (когезию) набора.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод категоризации документов.

  1. Система получает Topic Information (темы и веса) для исходного документа.
  2. Вычисляются Similarity Scores между исходным документом и документами в существующих Document Sets на основе сравнения весов тем.
  3. Для каждого набора вычисляется Confidence Score на основе агрегации Similarity Scores внутри набора.
  4. Confidence Score каждого набора сравнивается с пороговым значением (Threshold Confidence Score).
  5. Наборы документов категоризируются по классам на основе этого сравнения.
  6. Выбираются один или несколько классов наборов.
  7. Определяются атрибуты хранения (Filing Attributes) для исходного документа на основе выбранных классов.
  8. Атрибуты хранения выводятся.

Claim 2 (Зависимый от 1): Детализирует расчет Confidence Score.

Он определяется путем вычисления средней оценки (Mean Score) и оценки дисперсии (Variance Score) на основе Similarity Scores документов в наборе.

Claim 5 (Зависимый от 1): Описывает условие создания нового набора.

Если Confidence Score для всех существующих наборов ниже второго порогового значения, система генерирует новый Document Set, содержащий только исходный документ.

Claim 7 и 9 (Зависимые от 1): Уточняют природу порогового значения и категоризации.

Threshold Confidence Score может быть динамическим (varying) и генерироваться с использованием автоматического процесса определения порога. Категоризация может использовать автоматическую группировку (automatic grouping). В описании патента упоминаются методы типа K-means.

Где и как применяется

Патент описывает систему для организации и хранения документов (например, в файловой системе, Google Drive или CMS), а не алгоритм ранжирования веб-поиска. Однако технологии, лежащие в его основе, являются фундаментальными для Information Retrieval и применяются на различных этапах поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обработка контента, необходимая для работы системы:

  • NLP и Topic Modeling: Система анализирует контент документа с помощью NLP для извлечения тем (Topics) и определения их весов (Weights). Это формирует Document Signature (тематический вектор). Эти технологии используются Google для понимания семантики контента.

Применение базовых технологий в поиске:
Хотя сам алгоритм категоризации не применяется в ранжировании напрямую, используемые им методы применяются в поиске:

  • Измерение подобия (Similarity Measurement): Cosine Similarity между векторами является стандартным методом в IR для оценки релевантности документа запросу или для определения подобия между документами (например, для кластеризации).
  • Оценка когезии кластера (Cluster Cohesion Analysis): Механизм расчета Confidence Score (среднее и дисперсия подобия внутри группы) демонстрирует, как оценивается тематическая однородность кластера. Это может быть сигналом Тематического Авторитета.

На что влияет

Патент описывает общие механизмы обработки текстового контента и не содержит специфики по типам контента, запросов, нишам (включая YMYL) или географии. Он применим к любому сценарию, где требуется автоматическая тематическая категоризация документов.

Когда применяется

  • Условия работы: Алгоритм работает при наличии корпуса документов, организованных в Document Sets, и возможности сгенерировать Document Signatures.
  • Триггеры активации: Патент указывает, что процесс запускается в ответ на триггерное событие (trigger event), такое как создание нового документа, редактирование существующего документа, удаление документа или добавление документа в систему.

Пошаговый алгоритм

Процесс категоризации исходного документа:

  1. Получение данных: Система получает Document Signature (темы и веса) для исходного документа.
  2. Инициализация сравнения: Система идентифицирует существующие Document Sets для сравнения.
  3. Вычисление подобия (Цикл по документам): Для каждого документа в каждом наборе вычисляется Similarity Score между ним и исходным документом.
    Методы расчета: Используется Cosine Similarity или сумма произведений (sum of products) весов тем.
  4. Агрегация подобия (Цикл по наборам): Для каждого Document Set агрегируются полученные Similarity Scores.
  5. Вычисление Confidence Score: Для каждого набора рассчитывается Confidence Score, состоящий из:
    • Mean Score: Среднее значение Similarity Scores в наборе.
    • Variance Score: Стандартное отклонение Similarity Scores в наборе.
  6. Ранжирование наборов: Наборы документов ранжируются на основе их Confidence Scores (приоритет у высокого Mean и низкого Variance).
  7. Определение порога и Категоризация: Определяется Threshold Confidence Score. Оно может быть фиксированным или вычисляться динамически (например, с помощью K-means кластеризации оценок). Confidence Scores сравниваются с порогом для классификации наборов (например, "Предложенные").
  8. Проверка на создание нового набора: Если ни один набор не превысил порог (Claim 5), система может создать новый Document Set для исходного документа.
  9. Вывод результатов: Предложенные наборы (Filing Attributes) выводятся пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на тематическом содержании документов для их категоризации.

  • Контентные факторы (Внутреннее представление): Система использует Document Signature (или Topic Information). Это предварительно обработанные данные, включающие:
    • Topics: Темы, извлеченные из контента документа с помощью NLP (абстрактные концепции).
    • Weights: Веса, показывающие, насколько сильно каждая тема связана с документом.

Другие факторы (ссылочные, поведенческие, технические, временные и т.д.) в этом патенте не упоминаются.

Какие метрики используются и как они считаются

  • Similarity Score (Оценка подобия): Метрика подобия двух документов (S и D). Патент упоминает два метода:
    1. Сумма произведений (Sum of products): Перемножение весов одинаковых тем в двух документах и суммирование результатов.
    2. Cosine Similarity (Косинусное сходство):

      Sim(S,D)=S⋅D∣∣S∣∣ ∣∣D∣∣Sim(S, D) = \frac{S \cdot D}{||S||\ ||D||}

      Где S и D — тематические векторы документов. Результат нормализуется (обычно от 0 до 1).

  • Confidence Score (Оценка уверенности): Оценка принадлежности документа к набору. Состоит из:
    • Mean Score (Среднее значение Similarity Scores).
    • Variance Score (Стандартное отклонение Similarity Scores).
  • Threshold Confidence Score (Пороговая оценка уверенности): Порог для принятия решения о категоризации.
  • Методы машинного обучения: Патент упоминает использование автоматической группировки (automatic grouping), такой как K-means (K-means, difference in means), для определения динамических порогов и категоризации наборов документов.

Выводы

  1. Документы как Тематические Векторы: Патент подтверждает использование модели, где документы представлены как Topic Vectors (Document Signatures). Это основа семантического анализа, позволяющая системе понимать содержание на уровне абстрактных тем (Topics) и их весов (Weights).
  2. Измерение семантического подобия: Cosine Similarity и сумма произведений являются ключевыми методами для определения тематического подобия между документами путем сравнения их векторов.
  3. Оценка принадлежности к кластеру (Confidence Score): Механизм Confidence Score детально описывает, как оценивается принадлежность документа к группе. Важны как среднее подобие (Mean Score), так и стабильность этого подобия (Variance Score).
  4. Критическое значение когезии кластера: Чтобы документ был уверенно отнесен к набору, набор должен быть тематически когезивным (однородным), что выражается в низком Variance Score. В контексте SEO это подчеркивает фундаментальную важность создания тематически сфокусированных кластеров контента для Topical Authority.
  5. Динамическая адаптация: Система использует динамические пороги и методы кластеризации (K-means) для адаптивной категоризации контента, что указывает на способность алгоритмов автоматически адаптироваться к ландшафту контента без жестко заданных правил.

Практика

Best practices (это мы делаем)

Хотя патент описывает систему организации документов, а не ранжирования, понимание лежащих в его основе технологий Information Retrieval критически важно для построения эффективной SEO-стратегии.

  • Фокус на темах и семантике, а не только на ключевых словах: Разрабатывайте контент с целью полного раскрытия темы и связанных подтем. Это необходимо для того, чтобы система NLP сформировала четкий и сильный тематический вектор (Document Signature) для страницы.
  • Построение когезивных тематических кластеров (Topical Authority): Проектируйте структуру сайта так, чтобы разделы формировали когезивные Document Sets. Согласно патенту, высокая когезия (низкий Variance Score) внутри набора увеличивает уверенность системы. Это напрямую поддерживает стратегию построения Topical Authority через однородные кластеры.
  • Обеспечение тематической чистоты кластеров: Избегайте публикации контента, который слабо связан с основной темой раздела. "Размывание" тематики кластера снизит Mean Score и увеличит Variance Score, что может негативно сказаться на оценке авторитетности всего кластера.
  • Использование инструментов семантического анализа: Применяйте инструменты, основанные на векторном анализе и Cosine Similarity, для оценки того, насколько ваш контент тематически близок к контенту авторитетных конкурентов или насколько хорошо он соответствует целевому интенту.

Worst practices (это делать не надо)

  • Мышление только ключевыми словами: Оптимизация под конкретные фразы без учета общей тематики и семантики контента неэффективна, так как система анализирует абстрактные Topic Vectors.
  • Бессистемная публикация контента (Silo-Jumping): Публикация статей на разные темы в одном разделе сайта без четкой структуры. Это создает тематически неоднородный Document Set с высокой дисперсией (Variance Score), что затрудняет для системы определение основной специализации ресурса.
  • Создание размытого контента (Content Blurring): Создание страниц, охватывающих слишком много тем поверхностно. Это приводит к формированию слабой Document Signature с низкими весами тем.

Стратегическое значение

Патент имеет важное стратегическое значение, так как раскрывает фундаментальные принципы Information Retrieval, используемые Google. Он демонстрирует математический аппарат (векторное представление, косинусное сходство, анализ дисперсии) для понимания и категоризации контента. Для Senior SEO-специалистов это подтверждает необходимость перехода к стратегиям, основанным на семантике, данных и построении Тематического Авторитета. Понимание того, как измеряется подобие и когезия контента на уровне кластеров, позволяет более эффективно проектировать и оптимизировать сайты.

Практические примеры

Сценарий: Оценка когезии тематического кластера для Topical Authority

Цель: Оценить и оптимизировать раздел сайта о "Веганском питании".

  1. Анализ Кластера (Document Set): Идентифицировать все страницы в разделе "Веганское питание".
  2. Анализ Контента (Document Signatures): С помощью инструментов векторного анализа (например, используя Python и NLP библиотеки) сгенерировать тематические векторы для каждой страницы.
  3. Расчет Когезии (Аналог Confidence Score):
    • Хороший результат: Страницы о "Белках в веганстве", "Витамине B12", "Веганских рецептах" имеют высокую среднюю схожесть (Mean Score) между собой и низкий разброс (Variance Score). Кластер когезивен.
    • Плохой результат: В разделе также присутствуют статьи про "Кето-диету" и "Средиземноморскую диету". Тематическая схожесть снижается, дисперсия увеличивается.
  4. Действие: Удалить или переместить статьи, не относящиеся к веганству, чтобы повысить когезию кластера. Это усилит сигнал Тематического Авторитета по теме "Веганское питание".

Вопросы и ответы

Описывает ли этот патент алгоритм ранжирования в поиске Google?

Нет. Патент сфокусирован на системе автоматической организации и хранения документов (например, предложение папок в Google Drive). Он не описывает, как веб-страницы ранжируются в результатах поиска. Однако он раскрывает базовые технологии Information Retrieval, которые используются Google и в Поиске для понимания контента и оценки релевантности.

Что такое Document Signature или Тематический Вектор в контексте этого патента?

Это математическое представление содержания документа. Оно состоит из списка тем (абстрактных концепций, извлеченных из текста с помощью NLP) и весов, которые показывают, насколько сильно каждая тема выражена в документе. Это позволяет системе сравнивать документы не по ключевым словам, а по их семантическому содержанию.

Что такое «Topic» в контексте патента? Это ключевое слово?

Нет, Topic (Тема) — это не просто ключевое слово. Это абстрактная идея или концепция, представляющая содержание. Тема может не присутствовать в тексте буквально, а выводиться алгоритмами NLP на основе анализа терминов и контекста. Например, документ о яблоках, бананах и апельсинах может получить тему «Фрукты».

Как рассчитывается подобие между двумя документами (Similarity Score)?

Патент предлагает использовать сравнение тематических векторов. Упоминаются два метода: сумма произведений весов тем и Cosine Similarity (Косинусное сходство). Cosine Similarity вычисляет косинус угла между векторами. Если векторы направлены почти одинаково, подобие высокое (близко к 1), что означает, что документы посвящены одним и тем же темам в схожих пропорциях.

Что такое Confidence Score и почему он важен?

Confidence Score показывает, насколько хорошо документ подходит к целому набору документов (кластеру). Он состоит из двух частей: Mean Score (среднее подобие) и Variance Score (разброс подобия). Высокий Confidence Score достигается при высоком среднем подобии и низком разбросе, что означает, что документ похож на большинство документов в наборе и набор однороден.

Как этот патент связан с концепцией Topical Authority (Тематический Авторитет)?

Связь очень сильная. Сайт или раздел сайта можно рассматривать как Document Set. Чтобы система признала этот набор авторитетным, он должен быть тематически когезивным (однородным). Механизм Confidence Score показывает, как это оценивается: контент внутри набора должен иметь высокое среднее подобие и низкую дисперсию. Это подтверждает важность создания плотных, тематически сфокусированных кластеров контента.

Что произойдет, если я буду публиковать контент на разные темы в одном разделе сайта?

С точки зрения этого патента, вы создадите Document Set с низкой тематической когезией. Среднее подобие (Mean Score) между документами будет низким, а разброс (Variance Score) — высоким. Системе будет сложно определить основную тематику этого раздела, что может негативно повлиять на оценку его авторитетности по любой из тем.

Упоминает ли патент нейронные сети или эмбеддинги (например, BERT)?

Нет. Патент подан в 2012 году и описывает более классические методы NLP для генерации тематических векторов и стандартные методы вроде Cosine Similarity. Хотя современные системы Google используют более продвинутые нейросетевые эмбеддинги, базовый принцип (представление документа как вектора и измерение подобия между векторами) остается тем же.

Что означает использование K-means кластеризации в этом патенте?

K-means упоминается как метод автоматической группировки для определения динамических пороговых значений (Threshold Confidence Score) при категоризации. Это показывает, что система не полагается на жестко заданные правила, а может адаптироваться к данным, автоматически определяя границы между классами документов.

Могу ли я использовать Cosine Similarity для анализа своего сайта?

Да, Senior SEO-специалисты могут и должны использовать Cosine Similarity как инструмент для анализа контента. С его помощью можно сравнивать тематическое подобие между страницами вашего сайта для улучшения кластеризации, сравнивать ваш контент с контентом конкурентов или оценивать релевантность новой статьи существующему тематическому хабу. Это позволяет эмулировать базовые механизмы Information Retrieval.

Похожие патенты

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства
Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.
  • US8886648B1
  • 2014-11-11
  • Семантика и интент

  • Индексация

Как Google строит и динамически обновляет индекс на основе тем и векторных представлений для семантического поиска
Google индексирует документы, присваивая им семантическую "сигнатуру" — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), определяющих их значимость. Патент описывает инфраструктуру для эффективного обновления этого тематического индекса при изменении контента или обновлении моделей NLP Google. Система использует эти векторы для быстрого определения схожести контента через Cosine Similarity.
  • US8756236B1
  • 2014-06-17
  • Индексация

  • Семантика и интент

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов
Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.
  • US7814085B1
  • 2010-10-12
  • Семантика и интент

  • SERP

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
  • US9110975B1
  • 2015-08-18
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
  • US9235653B2
  • 2016-01-12
  • Knowledge Graph

  • Свежесть контента

  • Семантика и интент

seohardcore