SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google создает иерархические таксономии из неструктурированных документов с помощью итеративной кластеризации

METHODS AND SYSTEMS FOR CONSTRUCTING A TAXONOMY BASED ON HIERARCHICAL CLUSTERING (Методы и системы для построения таксономии на основе иерархической кластеризации)
  • US9110984B1
  • Google LLC
  • 2012-06-22
  • 2015-08-18
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует метод для организации больших объемов неструктурированных данных (например, отзывов клиентов или сообщений на форумах) в иерархическую таксономию. Система итеративно применяет стандартные алгоритмы кластеризации: сначала группирует документы, затем группирует полученные кластеры и так далее. Это позволяет выявить структуру и взаимосвязи в данных для внутреннего анализа.

Описание

Какую проблему решает

Патент решает задачу организации очень больших объемов неструктурированных документов (например, электронных писем, сообщений на форумах, отзывов о продуктах), где традиционная "плоская" (flat) кластеризация не позволяет эффективно выявить внутреннюю структуру и взаимосвязи данных. Цель — построить иерархическую таксономию для лучшего понимания и управления этим массивом информации, например, для анализа проблем клиентов (customer product issues).

Что запатентовано

Запатентована система для генерации иерархической таксономии путем итеративного применения стандартных алгоритмов кластеризации. Вместо разработки специализированного алгоритма иерархической кластеризации, система использует существующие "плоские" алгоритмы последовательно: сначала кластеризует документы, затем агрегирует полученные кластеры (создавая "супердокументы" или агрегированные статистики) и кластеризует их снова, формируя следующий уровень иерархии.

Как это работает

Система работает итеративно:

  • Подготовка: Для исходных документов вычисляются и сохраняются статистики (statistics), основанные на выбранных признаках (например, частота слов).
  • Уровень 1: Алгоритм кластеризации группирует документы на основе их статистик.
  • Агрегация: Содержимое или статистики документов внутри каждого кластера агрегируются, формируя aggregate data file (агрегированный файл данных) для каждого кластера.
  • Уровень 2+: Агрегированные файлы обрабатываются как новые входные данные. Алгоритм кластеризации группирует их, создавая следующий уровень иерархии (кластеры кластеров).
  • Повторение: Процесс агрегации и кластеризации повторяется до достижения заданной глубины иерархии.
  • Маркировка и Таксономия: Кластеры маркируются (Label Manager). В патенте явно упоминается использование процесса ручной проверки (manual review process) для определения тем и присвоения меток. Иерархия маркированных кластеров формирует итоговую таксономию.

Актуальность для SEO

Средняя. Методология иерархической кластеризации является стандартной в Data Science и анализе текстов. Хотя конкретная реализация может устареть, сама концепция организации неструктурированных данных остается критически важной для Google, например, для анализа контента форумов, отзывов или уточнения тем в Knowledge Graph. Описанный метод итеративного применения плоских алгоритмов остается валидным подходом.

Важность для SEO

Влияние на SEO низкое (15/100). Патент является инфраструктурным и методологическим. Он описывает, как Google может организовать специфический корпус данных (например, заявки в службу поддержки или сообщения на форуме) для внутреннего анализа, а не то, как Google ранжирует веб-страницы. Он не дает прямого понимания алгоритмов ранжирования или практических рекомендаций для SEO-специалистов, работающих над продвижением сайтов.

Детальный разбор

Термины и определения

Aggregate data file (Агрегированный файл данных)
Файл или набор данных, созданный путем объединения содержимого или статистик всех документов внутри одного кластера. Используется как входные данные для следующего этапа кластеризации. Также упоминается как "super document".
Aggregator (Агрегатор)
Компонент системы, отвечающий за создание Aggregate data files. Может работать через конкатенацию контента или компиляцию статистик.
Cluster Algorithm Module (Модуль алгоритма кластеризации)
Реализация стандартного ("плоского") алгоритма кластеризации. В качестве примеров упоминаются exchange clustering algorithm и distributed exchange clustering algorithm. Используется итеративно для построения иерархии.
Content files (Файлы контента)
Исходные неструктурированные документы (текст, email, сообщения форумов, изображения, аудио, видео и т.д.), которые необходимо организовать.
Hierarchy of Clusters (Иерархия кластеров)
Многоуровневая структура, где на первом уровне находятся кластеры документов, а на последующих уровнях — кластеры кластеров предыдущего уровня.
Label Manager (Менеджер меток)
Компонент для присвоения меток (тем) кластерам. В патенте указано, что он использует random sampling and manual review process (процесс случайной выборки и ручной проверки).
Statistic Calculator (Калькулятор статистик)
Компонент, который анализирует Content files и вычисляет статистические показатели (признаки), используемые для кластеризации (например, частоту слов или фраз).
Statistics Compiler (Компилятор статистики)
Компонент, который может агрегировать статистику документов внутри кластера (например, суммировать частоты слов) вместо агрегации самого контента. Это оптимизация процесса агрегации.
Statistics Repository (Репозиторий статистик)
Хранилище вычисленных статистик для документов и агрегированных кластеров.
Taxonomy (Таксономия)
Итоговый результат работы системы; иерархическая структура маркированных тем, основанная на Hierarchy of Clusters.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы Google по организации данных без прямых рекомендаций для SEO.

Claim 1 (Независимый пункт): Описывает компьютерную систему для построения таксономии.

  1. Statistic calculator определяет статистические показатели (statistical measure) контента и сохраняет их в Statistics repository.
  2. Cluster controller генерирует иерархию кластеров на основе сохраненных статистик. Иерархия имеет минимум два уровня: Уровень 1 (кластеры файлов) и Уровень 2 (кластеры кластеров Уровня 1).
  3. Aggregator агрегирует файлы контента каждого кластера и передает агрегированный файл в Cluster controller для формирования Уровня 3.
  4. Label manager определяет метку (label) для каждого кластера на основе статистик. Метка идентифицирует тему информации в кластере. Важно: В Claim 1 тема специфично определена как связанная с проблемой пользователя или запросом на помощь (related to at least one of a problem experienced by a user and a request for assistance in solving the problem).
  5. Taxonomy manager выводит таксономию на основе иерархии и меток.

Claim 8 (Независимый пункт): Описывает метод (компьютерные инструкции), реализующий логику, аналогичную Claim 1.

  1. Получение файлов и расчет/сохранение статистик.
  2. Определение количества кластеров на Уровне 1 и распределение файлов по ним.
  3. Генерация aggregate data file для каждого кластера Уровня 1.
  4. Кластеризация агрегированных файлов для генерации Уровня 2.
  5. Агрегация файлов контента и формирование Уровня 3.
  6. Определение меток для кластеров (также с фокусом на проблемы пользователя или запросы на помощь).
  7. Вывод таксономии.

Claims 5, 10 (Зависимые): Уточняют метод агрегации. Генерация aggregate data file может включать конкатенацию (concatenating) содержимого файлов контента внутри каждого кластера.

Claims 11, 12 (Зависимые): Уточняют альтернативный метод агрегации. Генерация aggregate data file может включать компиляцию/объединение статистической информации (statistical information), связанной с файлами в кластере, вместо объединения самого контента.

Где и как применяется

Этот патент не вписывается в стандартный конвейер поиска (от сканирования до ранжирования), предназначенный для обработки веб-страниц и ответов на запросы пользователей в реальном времени. Это методология анализа и организации данных, которая применяется офлайн для обработки специфических корпусов данных.

Анализ Данных и Построение Структур (Офлайн-процессы)

  1. Сбор данных: Система принимает на вход корпус неструктурированных документов (Content files). Это могут быть данные, собранные внутренними системами (например, отзывы клиентов) или внешними (например, сообщения форумов, собранные краулером).
  2. Извлечение признаков: Statistic Calculator выполняет глубокую обработку корпуса, аналогичную этапу INDEXING, но специфичную для задачи кластеризации. Вычисляются статистики (признаки).
  3. Кластеризация и Построение Таксономии: Cluster Controller и Hierarchy Manager итеративно применяют алгоритмы кластеризации для построения иерархии.

Взаимодействие с поиском:

Результат работы системы — Таксономия — может использоваться для улучшения других компонентов поиска, например, для обогащения Knowledge Graph новыми темами или для лучшего понимания интентов на этапе QUNDERSTANDING, связанных с проблемами пользователей. Однако сам процесс кластеризации не является частью live-ранжирования.

Входные данные:

  • Корпус неструктурированных документов (Content files).
  • Параметры иерархии (количество уровней, количество кластеров на уровне).
  • Выбор алгоритмов кластеризации и параметров извлечения признаков (feature selection).

Выходные данные:

  • Иерархическая таксономия (Taxonomy) — древовидная структура маркированных кластеров.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на организацию и анализ массивов пользовательского контента (UGC): электронные письма, сообщения на форумах поддержки, отзывы о продуктах и услугах, блоги, новостные статьи. Патент также упоминает изображения, аудио и видео, но примеры фокусируются на тексте.
  • Конкретные ниши или тематики: Применяется там, где необходимо выявить структуру в большом объеме отзывов или проблем. Claims патента явно фокусируются на темах, связанных с проблемами пользователей или запросами на помощь.

Когда применяется

  • Условия работы: Алгоритм применяется офлайн, когда организации необходимо структурировать большой, ранее неструктурированный корпус документов для понимания содержащихся в нем тем и взаимосвязей.
  • Триггеры активации: Необходимость создания или обновления таксономии для определенного набора данных (например, анализ отзывов о новом продукте).
  • Ограничения: Использование ручной проверки (manual review) для маркировки кластеров ограничивает масштабируемость системы и делает её непригодной для анализа всего интернета в реальном времени.

Пошаговый алгоритм

Процесс построения иерархической таксономии.

1. Инициализация

  • Определение требуемого количества уровней иерархии.
  • Определение набора файлов контента (корпуса) для анализа.
  • Выбор модуля алгоритма кластеризации и параметров извлечения признаков для первого уровня.

2. Начальная кластеризация (Уровень 1)

  • Вычисление статистик (признаков) для каждого файла контента.
  • Сохранение статистик в репозитории.
  • Вычисление кластеров на текущем (первом) уровне иерархии с использованием выбранного алгоритма и статистик.

3. Итеративное построение иерархии

Цикл повторяется до тех пор, пока текущий уровень не достигнет заданного количества уровней.

  • Проверка условия завершения: Если достигнут максимум уровней, процесс завершается. Если нет, переход к следующему шагу.
  • Выбор алгоритма: Выбор модуля алгоритма кластеризации для следующего уровня (может отличаться от предыдущего).
  • Определение стратегии агрегации: Система определяет, можно ли использовать ранее вычисленные статистики для агрегации.
    • Вариант А (Компиляция статистик): Если предыдущие статистики применимы, система получает доступ к ним в репозитории и компилирует (агрегирует) статистики для каждого кластера с помощью Statistics Compiler.
    • Вариант Б (Агрегация контента): Если предыдущие статистики неприменимы, система агрегирует (например, конкатенирует) содержимое файлов в каждом кластере с помощью Aggregator. Затем вычисляются новые статистики для агрегированного контента, которые сохраняются в репозитории.
  • Вычисление следующего уровня: Вычисление кластеров на новом текущем уровне иерархии, используя агрегированные данные (скомпилированные статистики или агрегированный контент) в качестве входных данных для алгоритма кластеризации.

4. Финализация и Вывод

  • Маркировка кластеров: Определение метки (темы) для каждого кластера в иерархии. Label Manager использует случайную выборку и ручную проверку (random sampling and manual review process). Также может происходить слияние слишком похожих кластеров.
  • Вывод таксономии: Генерация и вывод итоговой таксономии на основе иерархии кластеров и определенных меток.

Какие данные и как использует

Данные на входе

Система использует следующие данные для построения таксономии:

  • Контентные факторы: Основные данные — это содержимое Content files. Система анализирует текст, слова, фразы и семантически схожие элементы для вычисления статистик.
  • Мультимедиа факторы: Патент упоминает возможность обработки изображений, аудио и видео файлов, хотя детализация этих процессов отсутствует.
  • Метаданные (Технические/Пользовательские факторы): Патент указывает, что статистики могут вычисляться на основе метаданных, а не только контента. Примеры включают: место хранения файла, идентичность автора (identity of an author), количество обращений к файлу (number of times that the content files are retrieved).

Какие метрики используются и как они считаются

Патент не определяет конкретные метрики ранжирования или оценки качества, так как это не система ранжирования. Он фокусируется на методологии кластеризации.

  • Статистические показатели (Признаки): Система вычисляет статистики на основе признаков (features), выбранных оператором. Конкретные формулы не приводятся, но упоминаются:
    • Количество или частота появления определенных слов или фраз.
    • Количество или частота слов/фраз с похожим семантическим значением.
    • Статистики на основе метаданных.
  • Алгоритмы кластеризации: Метод не зависит от конкретного алгоритма, но упоминаются exchange clustering algorithm и distributed exchange clustering algorithm. Кластеризация выполняется на основе близости статистических показателей (признаков) документов или агрегированных кластеров.
  • Методы агрегации:
    • Конкатенация контента: Прямое объединение содержимого (например, текста).
    • Компиляция статистик: Агрегация статистических показателей. Например, если Документ А содержит слово X 100 раз, а Документ Б содержит слово X 50 раз, то кластер {А, Б} содержит слово X 150 раз.

Выводы

  1. Патент описывает инфраструктуру и методологию, а не алгоритм ранжирования. Он посвящен способу организации большого массива неструктурированных данных в иерархическую таксономию, а не оценке качества или релевантности веб-страниц для поиска.
  2. Итеративное применение "плоской" кластеризации. Ключевая идея — возможность использовать любой стандартный алгоритм кластеризации итеративно (кластеризация документов, затем кластеризация кластеров) для построения иерархии.
  3. Фокус на внутреннем анализе данных (особенно проблем пользователей). Примеры использования и формулировки Claims (особенно Claim 1 и 8) фокусируются на анализе отзывов клиентов и проблем с продуктами. Это инструмент для внутреннего использования или для анализа специфических корпусов (например, форумов поддержки).
  4. Два метода агрегации. Система может агрегировать кластеры путем конкатенации контента или путем компиляции статистик. Второй вариант представлен как оптимизация для ускорения процесса.
  5. Зависимость от ручной маркировки. Патент явно указывает на использование ручной проверки (manual review process) для присвоения меток (тем) кластерам. Это ограничивает масштабируемость и делает систему непригодной для использования в основном веб-поиске в реальном времени.
  6. Отсутствие практических выводов для SEO. Патент скорее инфраструктурный и не дает практических выводов для SEO-специалистов, работающих над ранжированием сайтов.

Практика

Best practices (это мы делаем)

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Практических выводов для работы по продвижению сайтов нет.

Единственный косвенный вывод заключается в подтверждении того, что Google обладает сложными инструментами для анализа и структурирования неструктурированного текстового контента, такого как форумы, отзывы и блоги. Если SEO-стратегия включает работу с такими площадками (например, крауд-маркетинг, управление репутацией), важно поддерживать высокое качество и тематическую последовательность сообщений, так как Google может анализировать этот контент на уровне корпуса.

Worst practices (это делать не надо)

Не применимо. Патент не направлен против каких-либо SEO-манипуляций и не описывает факторов ранжирования.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает технические возможности Google по преобразованию массивных неструктурированных наборов данных в структурированные таксономии. Эта возможность может косвенно влиять на поиск, например, использоваться для анализа пользовательского контента (UGC) для выявления трендов или для уточнения тематического понимания при построении Knowledge Graph. Однако это не система ранжирования.

Практические примеры

Практических примеров для применения в SEO нет. Приведем пример того, как Google может использовать эту технологию для внутреннего анализа, что соответствует фокусу патента на проблемах пользователей.

Сценарий: Анализ сообщений на форуме поддержки Google

  1. Сбор данных: Google собирает 100 000 сообщений с форума поддержки продукта (например, Chrome).
  2. Уровень 1 (Кластеризация сообщений): Система вычисляет статистики (частоту ключевых слов) и кластеризует 100 000 сообщений в 1000 кластеров. Примеры кластеров: "Проблемы с установкой на Windows 10", "Синхронизация закладок не работает", "Высокое потребление памяти".
  3. Агрегация: Система агрегирует статистики для каждого из 1000 кластеров (Statistics Compilation).
  4. Уровень 2 (Кластеризация тем): Система кластеризует 1000 агрегированных кластеров в 100 более общих тем. Примеры: "Проблемы совместимости с ОС", "Проблемы с аккаунтом и синхронизацией", "Проблемы производительности".
  5. Агрегация и Уровень 3: Система агрегирует 100 тем и кластеризует их в 10 категорий. Примеры: "Технические сбои", "Вопросы по функционалу", "Запросы на улучшение".
  6. Маркировка и Таксономия: Аналитики Google (manual review) вручную проверяют и корректируют метки кластеров. Результат — детальная таксономия проблем пользователей Chrome, используемая для улучшения продукта и системы поддержки.

Вопросы и ответы

Описывает ли этот патент алгоритм ранжирования Google?

Нет. Патент описывает методологию для построения иерархической таксономии из набора неструктурированных документов. Это система организации данных, а не система оценки их релевантности или качества для ответа на поисковый запрос пользователя.

Какова основная цель изобретения?

Основная цель — организовать большой объем данных (например, отзывы клиентов или сообщения на форумах) в структурированную иерархию тем (таксономию). Это позволяет лучше понять структуру данных, выявить основные проблемы или темы обсуждений для внутреннего анализа.

Как система определяет темы (метки) для кластеров?

Патент явно указывает, что для идентификации тем кластеров и определения подходящих меток используется процесс случайной выборки и ручной проверки (manual review process). Это означает, что аналитики вручную просматривают содержимое кластеров для их маркировки.

Что такое "итеративная плоская кластеризация", описанная в патенте?

Это основной механизм патента. Вместо использования сложного алгоритма иерархической кластеризации, система многократно применяет стандартный ("плоский") алгоритм. Сначала она кластеризует документы. Затем она рассматривает каждый полученный кластер как единый "супердокумент" и кластеризует эти супердокументы. Этот процесс повторяется для создания многоуровневой иерархии.

В чем разница между "конкатенацией контента" и "компиляцией статистик" при агрегации?

Это два способа создания "супердокумента" из кластера. Конкатенация контента объединяет фактическое содержимое (например, текст) всех документов в кластере. Компиляция статистик объединяет только статистические показатели (например, суммирует частоту слов) без объединения самого контента, что является более эффективным с точки зрения вычислений.

Могу ли я использовать принципы этого патента для улучшения E-E-A-T моего сайта?

Нет прямой связи. Патент не обсуждает сигналы авторитетности, экспертности или доверия. Он фокусируется исключительно на группировке документов на основе сходства их содержимого или статистических признаков для построения таксономии.

Использует ли Google этот метод для организации всего интернета?

Крайне маловероятно. Описанный процесс требует значительных вычислительных ресурсов для многократной кластеризации и, что более важно, полагается на ручную проверку для маркировки кластеров. Это не масштабируется для размера всего интернета и не подходит для систем ранжирования в реальном времени.

Помогает ли этот патент понять, как Google анализирует контент форумов или отзывов?

Да, в этом отношении патент полезен. Он демонстрирует сложную методологию, которую Google может использовать для анализа больших объемов пользовательского контента (UGC). Это показывает, что Google может автоматически выявлять основные темы, проблемы и тренды в обсуждениях на форумах или в отзывах.

Влияет ли этот патент на локальное SEO или Google Бизнес Профиль?

Косвенно. Google может использовать эту технологию для анализа корпуса отзывов о компаниях в Google Maps. Это может помочь им лучше классифицировать типы отзывов или выявлять общие проблемы, связанные с определенными категориями бизнеса, но это не влияет напрямую на ранжирование конкретной компании.

Какие алгоритмы кластеризации использует Google согласно патенту?

Патент разработан так, чтобы быть независимым от конкретного алгоритма. Он предлагает фреймворк, в который можно подключить любой стандартный алгоритм кластеризации. В качестве примеров в тексте упоминаются exchange clustering algorithm и distributed exchange clustering algorithm.

Похожие патенты

Как Google использует гибридную итеративную кластеризацию для организации документов в системах E-Discovery
Патент Google описывает метод оптимизации для анализа больших наборов документов в системах E-Discovery (юридический анализ). Документы сначала быстро кластеризуются по одному типу данных (например, метаданным), а затем итеративно уточняются с использованием других типов данных (например, основного текста). Это балансирует скорость и точность тематической группировки и не связано с веб-поиском.
  • US9268844B1
  • 2016-02-23
Как Google агрегирует новости, блоги и форумы в «Кластеры историй» и ранжирует комментарии на основе аккредитации и экспертности авторов
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
  • US9760629B1
  • 2017-09-12
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные
Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.
  • US8185544B2
  • 2012-05-22
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google кластеризует результаты поиска по картинкам и выбирает репрезентативное (каноническое) изображение для показа
Google организует результаты поиска изображений в иерархические кластеры на основе визуального сходства. Для каждого кластера выбирается «каноническое изображение» — часто это изображение с самым высоким исходным рейтингом или наиболее визуально авторитетное (с использованием метрик типа VisualRank). Эта структура определяет, как изображения группируются и какое изображение получает максимальную видимость в интерфейсе Google Images.
  • US8352465B1
  • 2013-01-08
  • Мультимедиа

  • SERP

Популярные патенты

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности
Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.
  • US7657520B2
  • 2010-02-02
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче
Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.
  • US8645362B1
  • 2014-02-04
  • Техническое SEO

  • Поведенческие сигналы

  • SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы
Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.
  • US20140188927A1
  • 2014-07-03
  • Персонализация

  • SERP

  • Ссылки

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

seohardcore