SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматически определяет ключевые темы в медиапотоках (ТВ, аудио, текст) и использует механизм "Boosting" для поиска релевантного контента

FINDING WEB PAGES RELEVANT TO MULTIMEDIA STREAMS (Поиск веб-страниц, релевантных мультимедийным потокам)
  • US8868543B1
  • Google LLC
  • 2003-04-08
  • 2014-10-21
  • Мультимедиа
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система анализирует мультимедийные потоки (например, ТВ-трансляции) в реальном времени, преобразует их в текст и автоматически генерирует поисковые запросы. Используются классические методы IR (TF-IDF, стемминг, анализ контекста). Ключевой особенностью является механизм пост-обработки "Boosting", который переранжирует результаты поиска на основе дополнительного контекста, не вошедшего в исходный запрос.

Описание

Какую проблему решает

Патент решает задачу автоматического дополнения информационного потока (например, телевизионной или радио трансляции, видео или создаваемого текстового документа) релевантными внешними документами (веб-страницами) в реальном времени. Цель — предоставить пользователю контекстуально релевантную информацию без ручного формирования запросов и без необходимости для создателя исходного контента встраивать ссылки вручную.

Что запатентовано

Запатентована система и метод для автоматического поиска документов, релевантных мультимедийному потоку. Система преобразует поток в текст и периодически генерирует поисковые запросы на основе извлеченных ключевых тем. Ключевым элементом изобретения, согласно Claims, является этап пост-обработки (Post Processing), который переранжирует результаты с помощью механизма Boosting — повышения рейтинга документов на основе дополнительных релевантных терминов из текста, не включенных в исходный запрос.

Как это работает

Система работает следующим образом:

  • Конвертация и Сегментация: Мультимедийный поток преобразуется в текст и делится на временные сегменты (Text Segment T) (например, каждые 15 секунд).
  • Генерация запросов: Компонент генерации запросов анализирует сегмент T. Используются различные техники (вариации TF-IDF, стемминг, учет истории контекста) для выбора наиболее весомых терминов.
  • Поиск: Сформированный запрос отправляется в поисковую систему.
  • Пост-обработка: Компонент пост-обработки переоценивает результаты. Применяется Boosting (использование дополнительных весомых терминов для перевзвешивания), переранжирование по сходству с сегментом T и фильтрация (удаление нерелевантных/дублирующихся документов).
  • Отображение: Наиболее релевантные документы отображаются одновременно с мультимедийным потоком.

Актуальность для SEO

Средняя. Патент подан в 2003 году. Описанные алгоритмы (TF-IDF, простые векторные модели, базовый стемминг) архаичны по сравнению с современными NLP-технологиями (нейронные сети, эмбеддинги). Однако фундаментальные задачи — извлечение ключевых тем из потока, автоматическая генерация запросов, учет контекста и оценка релевантности — остаются актуальными. Описанные принципы (например, придание большего веса редким терминам) по-прежнему лежат в основе современных систем.

Важность для SEO

Патент имеет умеренное значение для SEO (6/10). Он не описывает алгоритмы ранжирования основного веб-поиска. Однако он дает ценное представление о фундаментальных принципах того, как Google может анализировать контент (особенно мультимедийный) для извлечения ключевых тем и оценки релевантности с использованием классических IR-техник. Понимание этих механизмов (важность IDF, составных терминов, заголовков и контекста) полезно для Мультимедийного SEO (Video/Audio SEO) и общей контент-стратегии.

Детальный разбор

Термины и определения

Boosting (Бустинг, Повышение)
Техника пост-обработки, при которой результаты поиска переранжируются на основе дополнительных терминов (Boost Terms) из исходного текста, которые не были включены в поисковый запрос.
Boost Terms (Термины для повышения)
Дополнительные весомые термины из текстового сегмента, используемые для перевзвешивания результатов на этапе Boosting.
Compound (Составной термин)
Двухсловный термин (например, "veterans administration"), который обрабатывается как единое целое. Им может присваиваться повышенный вес.
History Technique (Техника использования истории)
Метод генерации запросов, который учитывает предыдущие сегменты для определения контекста и обнаружения смены темы (Topic Shift Detection).
IDF (Inverse Document Frequency, Обратная частота документа)
Мера редкости термина в коллекции документов. Более редкие термины имеют более высокий IDF.
Similarity Score (Оценка сходства)
Числовая мера сходства между двумя наборами текста (например, сегментами, сегментом и документом, или двумя документами). Вычисляется как скалярное произведение (dot-product) векторов терминов.
Stem (Основа слова)
Базовая форма слова (например, первые пять букв). Используется для группировки словоформ.
Stem Vector (Вектор основ)
Структура данных, представляющая текстовый сегмент. Содержит основы слов, их веса, а также конкретные термины и их веса.
StemVectorOld
Агрегированный вектор основ, представляющий историю предыдущих текстовых сегментов (например, сумма векторов трех предыдущих сегментов).
Text Segment T (Текстовый сегмент T)
Фрагмент текста, сгенерированный за определенный период времени (например, 15 секунд).
TF (Term Frequency, Частота термина)
Частота появления термина в текстовом сегменте T или документе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Определяет ядро изобретения, фокусируясь на механизме переранжирования (Boosting).

  1. Система автоматически преобразует часть мультимедийного потока в текст.
  2. Генерируются поисковые запросы из терминов этого текста.
  3. Принимаются ранжированные документы на основе этих запросов.
  4. Вычисляются веса для этих документов на основе дополнительных терминов (Boost Terms), извлеченных из текста, которые не использовались в исходном поисковом запросе (механизм Boosting).
  5. Вычисление веса включает математический расчет, основанный на двух функциях:
    • Первая функция основана на частоте (TF) дополнительных терминов в документе и их IDF.
    • Вторая функция основана только на частоте (TF) дополнительных терминов в документе.
  6. Документы переранжируются (re-ranking) на основе этих вычисленных весов.
  7. Переранжированные документы предоставляются пользователю вместе с потоком.

Ключевой аспект — использование части контекста (основные термины) для первоначального поиска и другой части контекста (дополнительные термины) для уточнения и переранжирования результатов.

Claim 8 и 9 (Зависимые): Детализируют методы генерации запросов.

Описывается использование классических методов взвешивания терминов: tf⋅idftf \cdot idftf⋅idf (Claim 8) или tf⋅idf2tf \cdot idf^2tf⋅idf2 (Claim 9). Запрос формируется из терминов с наивысшими значениями произведения. Использование idf2idf^2idf2 подчеркивает важность редких слов (например, именованных сущностей).

Claim 10, 11, 12 (Зависимые): Детализируют использование стемминга и истории.

Термины назначаются группам (Claim 10) на основе их основ (stems) (Claim 11). При генерации запросов могут использоваться предыдущие сегменты текста (History Technique) (Claim 12).

Где и как применяется

Это изобретение описывает отдельную систему, которая взаимодействует с основной поисковой системой.

QUNDERSTANDING – Понимание Запросов (Интерпретация потока)
Query Generation Component выполняет функцию понимания контекста мультимедийного потока и преобразует его в структурированные поисковые запросы. Это включает анализ истории, определение ключевых терминов (TF-IDF, стемминг) и обнаружение смены темы.

RANKING – Ранжирование (Взаимодействие)
Сгенерированные запросы отправляются во внешнюю поисковую систему (Search Engine), которая выполняет стандартное ранжирование.

RERANKING – Переранжирование
Основная часть изобретения. Post Processing Component выполняет переранжирование полученных результатов с использованием техник Boosting (описано в Claim 1), Similarity Re-Ranking и фильтрации для адаптации их к контексту потока.

Входные данные:

  • Мультимедийный поток (ТВ, аудио, видео) или текстовый документ.
  • Данные IDF из индекса поисковой системы.
  • Дополнительные термины (Boost Terms) из текстового сегмента.

Выходные данные:

  • Переранжированный и отфильтрованный набор релевантных веб-документов.

На что влияет

  • Конкретные типы контента: В первую очередь влияет на мультимедийный контент (видео, аудио, прямые трансляции). Также может применяться к текстовым документам (например, при работе в редакторе).
  • Специфические запросы: Система генерирует запросы автоматически, состоящие из 2-4 наиболее весомых терминов (часто существительных или составных терминов), характеризующих текущую тему.
  • Ниши или тематики: Наиболее применимо к информационным потокам: новости, образовательные передачи, документальные фильмы.

Когда применяется

  • Частота применения: Поисковые запросы генерируются периодически (например, каждые 15 секунд) на основе нового текстового сегмента.
  • Адаптация к смене темы (Topic Shift): В технике A5-HIST, если текущий сегмент сильно отличается от предыдущих (сходство s ниже порога a2), история игнорируется. Если сходство высокое (выше a1) или среднее, история учитывается с понижающим коэффициентом (Aging).
  • Условия для Query Shortening (A6-THREE): Если сгенерированный запрос (3+ термина) не возвращает результатов, он сокращается (удаляются термины с меньшим весом) и отправляется повторно.

Пошаговый алгоритм

Ниже приведен алгоритм, основанный на наиболее продвинутой технике с историей (A5-HIST) и постобработке.

Этап 1: Генерация запроса с учетом истории (A5-HIST)

  1. Получение сегмента и Построение вектора: Извлечение текущего текстового сегмента T. Создание Stem Vector для T:
    1. Вычисление веса для каждого термина (например, по формуле c⋅tf⋅idfc \cdot tf \cdot idfc⋅tf⋅idf или tf⋅idf2tf \cdot idf^2tf⋅idf2). Коэффициент 'c' повышается для существительных и Compounds.
    2. Группировка терминов по основам (stems).
    3. Вычисление веса для каждой основы как суммы весов ее терминов.
  2. Агрегация истории: Суммирование векторов основ предыдущих сегментов (например, трех последних) для создания StemVectorOld.
  3. Оценка сходства (Topic Shift Detection): Вычисление показателя сходства (s) между StemVectorOld и текущим вектором (скалярное произведение).
  4. Адаптация контекста (Aging):
    1. Если похож (s > a1): StemVectorOld "состаривается" (умножается на константу, например, 0.9).
    2. Если несколько похож (a2 < s < a1): StemVectorOld состаривается сильнее (умножается на меньший фактор).
    3. Если непохож (s < a2): StemVectorOld обнуляется (история игнорируется).
  5. Создание нового вектора: Сложение текущего вектора и адаптированного StemVectorOld.
  6. Формирование запроса: Выбор X (например, 2) основ с наибольшим весом в новом векторе. Из них выбираются термины с наибольшим весом для формирования запроса. Также определяются Boost Terms (например, следующие 3 термина).

Этап 2: Поиск и Постобработка

  1. Выполнение поиска и Получение документов: Отправка запроса и получение топ-N результатов.
  2. Boosting (Переранжирование): Пересчет весов полученных документов на основе присутствия Boost Terms в тексте и заголовке. Документы сортируются по новым весам.
  3. Filtering (Фильтрация):
    1. Для каждого документа (d) вычислить сходство S1(d) с текущим текстовым сегментом T.
    2. Если S1(d) < порога b (например, 0.1), удалить документ.
    3. Если осталось 2+ документа, вычислить сходство S2 между двумя лучшими документами (d1, d2).
    4. Если S2 < порога p (например, 0.35) (документы сильно отличаются), проверить индивидуальную релевантность: если S1(d1) или S1(d2) ниже порога g (например, 0.3), соответствующий документ удаляется.
  4. Отображение: Показ оставшихся лучших документов.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы: Аудиодорожка (для распознавания речи) или данные субтитров мультимедийного потока являются основным источником данных.
  • Контентные факторы: Текст, извлеченный из потока. На этапе пост-обработки анализируется текст и заголовки (Titles) полученных веб-документов.
  • Временные факторы: История предыдущих сегментов используется для контекстуализации текущего запроса (A5-HIST).
  • Структурные факторы: Система может анализировать части речи, предпочитая существительные (коэффициент 'c'), и распознавать составные термины (Compounds).

Какие метрики используются и как они считаются

Система использует классические метрики Information Retrieval:

  • IDF (Inverse Document Frequency): Рассчитывается как log(N

    Выводы

    1. Фундаментальные методы IR: Патент демонстрирует применение классических методов информационного поиска (TF-IDF, Vector Space Model, Стемминг) для анализа контента и определения релевантности. Хотя конкретные реализации устарели, они лежат в основе понимания работы поисковых систем.
    2. Приоритет редких терминов и сущностей: Методы генерации запросов (например, использование idf2idf^2idf2 и повышенные веса для существительных/составных фраз) показывают, что система предпочитает редкие слова (именованные сущности), а не общие термины для формирования точных запросов.
    3. Важность контекста и обнаружение смены темы: Техника A5-HIST демонстрирует необходимость анализа истории потока для понимания текущего контекста и механизм сброса контекста при резкой смене темы (Topic Shift Detection).
    4. Многоэтапное уточнение релевантности (Boosting): Ключевой механизм (Claim 1) заключается в разделении поиска и уточнения. Система генерирует базовый запрос, а затем использует дополнительный контекст (Boost Terms) для переранжирования результатов.
    5. Критическая роль заголовков (Titles): На этапе Boosting присутствие терминов в заголовке документа дает значительно большее увеличение веса (множитель 8), чем в тексте (множитель 4).

    Практика

    Практическое применение в SEO

    Патент описывает алгоритмы 2003 года для конкретного приложения. Прямое влияние на стандартное веб-SEO минимально. Однако он имеет значение для Мультимедийного SEO (Video/Audio SEO) и понимания базовых принципов IR.

    Best practices (это мы делаем)

    • Четкое упоминание сущностей в мультимедиа (Video/Audio SEO): При создании видео или аудио убедитесь, что ключевые сущности (имена, бренды, специфические термины) четко произносятся и присутствуют в транскрипте/субтитрах. Системы, анализирующие поток, полагаются на эти специфические термины (аналог высокого IDF) для генерации точных запросов.
    • Структурирование мультимедийного контента: Структурируйте контент логически. Резкие переходы между несвязанными темами могут привести к сбросу контекста (как в A5-HIST) и затруднить системе понимание материала. Плавное развитие темы помогает накапливать релевантный контекст.
    • Оптимизация заголовков веб-страниц (Title): Патент подтверждает критическую важность заголовков. Механизм Boosting придает значительно больший вес терминам в заголовке (8x против 4x). Заголовки должны точно отражать ключевые сущности контента.
    • Использование составных фраз (Compounds): Система уделяет особое внимание двухсловным фразам и придает им повышенный вес. Используйте устоявшиеся словосочетания в вашей нише как в мультимедийном, так и в текстовом контенте.
    • Расширение семантического контекста (Boosting): Создавайте контент, который охватывает все релевантные подтемы. Boosting показывает, что система использует широкий набор терминов для оценки релевантности документа, а не только те слова, которые попали в сгенерированный запрос.

    Worst practices (это делать не надо)

    • Использование общего языка без специфики: Контент (текстовый или мультимедийный), обсуждающий темы в общих чертах без упоминания конкретных сущностей (низкий IDF). Это приведет к генерации слишком широких запросов или невозможности определить тему.
    • "Винегрет" из тем в видео/аудио: Быстрое переключение между множеством разных тем. Это затрудняет накопление контекста и приводит к постоянному сбросу понимания темы системой (Topic Shift Detection).
    • Игнорирование качества транскрипции (Video SEO): Полагаться на автоматическое распознавание речи низкого качества. Ошибки в транскрипции приведут к ошибкам в анализе контента. Необходимо проверять и исправлять автоматические субтитры.

    Стратегическое значение

    Стратегическое значение патента заключается в демонстрации ранних усилий Google по интерпретации мультимедийного контента и интеграции его с веб-поиском. Он подтверждает фундаментальную важность тематической релевантности и контекстного анализа в IR. Хотя TF-IDF заменен нейросетями, базовые задачи — идентификация ключевых сущностей, понимание контекста и измерение сходства — остаются краеугольными камнями поиска. Понимание этих классических методов дает SEO-специалистам основу для интерпретации работы современных систем.

    Практические примеры

    Сценарий: Оптимизация веб-страницы для показа рядом с YouTube-видео (Предполагая, что используется современный аналог системы)

    Задача: Показать статью "Рецепт пасты Карбонара" рядом с кулинарным видео.

    1. Анализ видео (Системой): Система анализирует транскрипт видео. Идентифицируется основная тема "Паста Карбонара" (Compound). В процессе упоминаются ингредиенты: "гуанчале", "пекорино романо", "яичные желтки", "черный перец".
    2. Генерация запросов: Система генерирует запросы, комбинируя тему и ингредиенты. Например: "Карбонара гуанчале пекорино".
    3. Постобработка (Boosting): Система ищет по запросу "Карбонара гуанчале". Затем она использует другие термины из контекста видео ("пекорино романо", "желтки") как Boost Terms. Рецепт, который содержит все эти ингредиенты в тексте или заголовке, будет повышен в ранжировании.
    4. Действия SEO: Убедиться, что в целевой статье (рецепте) используются точные названия ингредиентов (гуанчале, а не бекон; пекорино, а не пармезан). Заголовок статьи должен быть четким: "Классический рецепт пасты Карбонара с Гуанчале и Пекорино Романо", чтобы максимизировать эффект Boosting (который дает больший вес терминам в заголовке).

    Вопросы и ответы

    Что такое механизм "Boosting", описанный в Claim 1, и почему он важен?

    Boosting — это процесс переранжирования результатов поиска. Система генерирует базовый запрос из самых важных слов, получает результаты, а затем использует дополнительные слова из исходного контекста (Boost Terms), чтобы повысить рейтинг документов, содержащих эти дополнительные слова. Это важно, так как показывает механизм, при котором Google может использовать широкий контекст для уточнения выдачи, даже если сам запрос был простым.

    Насколько сильно повышается вес терминов в заголовке по сравнению с текстом при Boosting?

    Согласно описанию патента, терминам в заголовке придается значительно больший вес. Приведены конкретные формулы, где множитель для терминов в заголовке составляет 8f8f8f (где f - частота), а для терминов в тексте документа — 4f4f4f. Это подтверждает критическую важность оптимизации тега Title.

    Патент активно использует TF-IDF и стемминг. Актуальны ли эти методы сейчас?

    Конкретные реализации, описанные в патенте 2003 года (например, стемминг по первым 5 буквам или классический TF-IDF), устарели. Современный Google использует нейросетевые модели (BERT, MUM) и векторные эмбеддинги. Однако базовые принципы — определение важности термина (аналог IDF) и группировка связанных понятий (аналог стемминга) — остаются фундаментальными в информационном поиске.

    Как работает техника истории (History Technique) и обнаружение смены темы?

    Система хранит векторы терминов (Stem Vectors) предыдущих сегментов. Она сравнивает сходство текущего вектора с историческим (StemVectorOld). Если сходство высокое, история учитывается для формирования запроса (с понижающим коэффициентом "старения"). Если сходство низкое, система фиксирует смену темы и сбрасывает историю, чтобы старый контекст не влиял на новые запросы.

    Патент предлагает возводить IDF в квадрат (idf²). Что это значит для SEO?

    Использование idf2idf^2idf2 означает крайне агрессивное повышение веса редких слов для выделения именованных сущностей и специфических тем. Для SEO это подчеркивает необходимость использования точной, экспертной терминологии и четкой идентификации ключевых сущностей в контенте, вместо общих фраз.

    Что такое "Compounds" и как они обрабатываются?

    Compounds — это составные термины из двух слов (например, "поисковая система"), которые обрабатываются как единое целое. В патенте указано, что им присваивается повышенный коэффициент веса (например, c=1.2) по сравнению с обычными существительными (c=1.0). Это подчеркивает важность использования устоявшихся фраз в контенте.

    Как SEO-специалист может применить эти знания для оптимизации видеоконтента (Video SEO)?

    Для Video SEO важно обеспечить четкое произношение ключевых сущностей и терминов в видео, поддерживать логическую структуру повествования (чтобы система не теряла контекст из-за частой смены тем) и предоставлять качественные транскрипции. Это помогает системам, анализирующим аудио/видео, правильно определить тематику и сгенерировать релевантные связанные запросы.

    Как система обеспечивает релевантность и разнообразие результатов?

    На этапе фильтрации система сначала удаляет документы, которые недостаточно похожи на текущий контекст потока (Similarity S1). Затем она сравнивает топовые результаты между собой (Similarity S2). Если они сильно отличаются (S2 низкое), но при этом не обладают очень высокой индивидуальной релевантностью (S1 низкое), они могут быть отброшены, чтобы избежать показа нерелевантного контента.

    Используется ли этот патент в стандартном веб-поиске Google?

    Нет, этот патент описывает специализированную систему для сопровождения мультимедийных потоков. Однако методы информационного поиска (IR), описанные в нем (TF-IDF, Boosting, Vector Space Model, учет контекста), являются фундаментальными и использовались или послужили основой для алгоритмов стандартного веб-поиска.

    Применяется ли этот патент только к ТВ и радио?

    Нет. Хотя ТВ-передачи используются как основной пример, в патенте указано, что система может применяться к любым аудио/видео потокам, а также к локальным документам, например, для предоставления дополнительной информации пользователю, работающему в текстовом редакторе (контекстный поиск).

    Похожие патенты

    Как Google синхронизирует онлайн-новости с телевизионным эфиром, используя кластеризацию статей, TF-IDF и анализ субтитров
    Патент описывает технологию Google для "второго экрана", которая идентифицирует просматриваемую телепередачу и в реальном времени находит соответствующие ей онлайн-новости. Система агрегирует новостные статьи, кластеризует их по темам, извлекает ключевые слова (используя TF-IDF) и сопоставляет их с потоком субтитров телеканала. Это демонстрирует механизмы Google по обработке, кластеризации и ранжированию новостного контента по свежести и популярности.
    • US9544650B1
    • 2017-01-10
    • Свежесть контента

    • Мультимедиа

    • Семантика и интент

    Как Google ранжирует результаты для контекстного (неявного) поиска на основе форматирования контента и поведения пользователя
    Патент описывает технологию "неявного поиска" (Implicit Search), которая анализирует текущий контекст пользователя (например, редактируемый документ или просматриваемую страницу) для автоматической генерации запросов. Ранжирование этих контекстных результатов учитывает характеристики исходного контента (форматирование, капитализация, TF-IDF) и предпочтения пользователя (клики, типы файлов).
    • US7693825B2
    • 2010-04-06
    • Семантика и интент

    • Поведенческие сигналы

    • SERP

    Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
    Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
    • US9244977B2
    • 2016-01-26
    • Персонализация

    • Семантика и интент

    • Поведенческие сигналы

    Как Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента с недостатком текста
    Google применяет вероятностную модель для улучшения поиска медиаконтента, такого как видео, где текстовых данных мало. Система определяет скрытые темы (Domain Topics) запроса P(T|Q) и находит контент, релевантный этим темам P(R|T). Это позволяет ранжировать видео, даже если оно не содержит ключевых слов из запроса, используя данные о кликах и базы знаний для установления связей.
    • US8620951B1
    • 2013-12-31
    • Семантика и интент

    • Мультимедиа

    • SERP

    Как Google итеративно генерирует запросы из метаданных контента для поиска "Похожих Видео" (на примере YouTube)
    Google (в частности, YouTube, упомянутый в патенте) использует итеративный процесс для генерации списков связанного контента. Система анализирует метаданные (заголовок, описание, теги) просматриваемого элемента и создает упорядоченный список ключевых слов. Затем она формирует внутренний поисковый запрос и автоматически уточняет его — сужая добавлением слов или расширяя удалением слов — пока не будет найдено оптимальное количество похожих результатов.
    • US8078632B1
    • 2011-12-13
    • Семантика и интент

    • Персонализация

    • Мультимедиа

    Популярные патенты

    Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
    Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
    • US7505964B2
    • 2009-03-17
    • Поведенческие сигналы

    • SERP

    Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
    Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
    • US8131754B1
    • 2012-03-06
    • Поведенческие сигналы

    • Персонализация

    • Семантика и интент

    Как Google использует CTR и E-E-A-T сигналы для определения контекста ссылок и оценки качества внешних упоминаний
    Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.
    • US8656266B2
    • 2014-02-18
    • Ссылки

    • EEAT и качество

    • Свежесть контента

    Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)
    Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
    • US8650196B1
    • 2014-02-11
    • Поведенческие сигналы

    • SERP

    • Семантика и интент

    Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
    Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
    • US8819004B1
    • 2014-08-26
    • Поведенческие сигналы

    • Мультимедиа

    • SERP

    Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования
    Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.
    • US10878048B2
    • 2020-12-29
    • EEAT и качество

    • SERP

    • Knowledge Graph

    Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
    Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
    • US8145636B1
    • 2012-03-27
    • Семантика и интент

    • Поведенческие сигналы

    Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий
    Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.
    • US11157488B2
    • 2021-10-26
    • Индексация

    • Поведенческие сигналы

    • Семантика и интент

    Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
    Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
    • US7346839B2
    • 2008-03-18
    • Свежесть контента

    • Антиспам

    • Ссылки

    Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
    Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
    • US8832083B1
    • 2014-09-09
    • Поведенческие сигналы

    • SERP

    seohardcore