SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google синхронизирует онлайн-новости с телевизионным эфиром, используя кластеризацию статей, TF-IDF и анализ субтитров

METHODS, SYSTEMS, AND MEDIA FOR PRESENTING NEWS ITEMS CORRESPONDING TO MEDIA CONTENT (Методы, системы и носители для представления новостных элементов, соответствующих медиаконтенту)
  • US9544650B1
  • Google LLC
  • 2013-12-11
  • 2017-01-10
  • Свежесть контента
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает технологию Google для "второго экрана", которая идентифицирует просматриваемую телепередачу и в реальном времени находит соответствующие ей онлайн-новости. Система агрегирует новостные статьи, кластеризует их по темам, извлекает ключевые слова (используя TF-IDF) и сопоставляет их с потоком субтитров телеканала. Это демонстрирует механизмы Google по обработке, кластеризации и ранжированию новостного контента по свежести и популярности.

Описание

Какую проблему решает

Патент решает проблему медленного и неудобного ручного поиска дополнительной информации о темах, обсуждаемых в телевизионном эфире. Пользователям сложно быстро найти релевантные статьи в интернете, не отвлекаясь от просмотра. Система направлена на улучшение пользовательского опыта "второго экрана" путем автоматической синхронизации ТВ-эфира и онлайн-контента.

Что запатентовано

Запатентована система синхронизации медиаконтента (ТВ-эфира) с текстовым контентом (онлайн-новостями). Система идентифицирует просматриваемый телеканал (например, через Audio Fingerprint), параллельно агрегирует и кластеризует новостные статьи по темам. Из кластеров извлекаются ключевые слова на основе частотности (frequency), которые затем сопоставляются с потоком субтитров (captioning content) телеканала в реальном времени для идентификации обсуждаемой темы.

Как это работает

Система работает в нескольких параллельных потоках:

  • Обработка новостей: Непрерывная агрегация новостных статей, их кластеризация по темам, ранжирование внутри кластера (по популярности и новизне) и извлечение наиболее значимых ключевых слов (с использованием TF-IDF).
  • Мониторинг эфира: Система отслеживает поток субтитров для множества каналов, поддерживая скользящее временное окно (например, последние 30 секунд текста).
  • Синхронизация: Ключевые слова из новостных кластеров постоянно сравниваются с текстом в скользящем окне субтитров. При достижении порога совпадения система фиксирует связь между новостью, каналом и меткой времени (timestamp) в Timeline.
  • Взаимодействие с пользователем: Пользователь через приложение на мобильном устройстве идентифицирует канал. Система использует эту информацию для извлечения синхронизированных новостей из Timeline, соответствующих текущему моменту эфира.

Актуальность для SEO

Средняя. Хотя конкретные приложения для "второго экрана", синхронизированные с линейным ТВ, не стали доминирующей технологией, базовые механизмы, описанные в патенте, крайне актуальны. Возможности Google по агрегации новостей в реальном времени, автоматической кластеризации историй, оценке популярности и использованию классических IR-методов (TF-IDF) лежат в основе работы Google News и, вероятно, влияют на отбор контента для Discover.

Важность для SEO

Патент не описывает алгоритмы ранжирования основного веб-поиска. Однако он имеет существенное значение (65/100) для издателей новостей (Publishers) и News SEO. Он раскрывает конкретные механизмы, которые Google использует для обработки новостного потока: как статьи группируются по темам, как определяется лучшая статья в группе (popularity и recency), и как извлекаются ключевые термины (TF-IDF). Понимание этих процессов критически важно для стратегий оптимизации под Google News.

Детальный разбор

Термины и определения

Audio Fingerprint (Аудио-отпечаток)
Цифровое представление аудиосигнала, используемое для идентификации телеканала или программы путем сравнения с базой данных известных отпечатков.
Captioning Content (Контент субтитров)
Текстовый поток, сопровождающий телевизионный эфир (например, закрытые субтитры). Используется как источник данных в реальном времени для определения тем, обсуждаемых в эфире.
Clustering/Aggregation (Кластеризация/Агрегация)
Процесс группировки новостных статей от разных источников, относящихся к одной и той же теме или событию (topic information).
Frequency (Частотность)
Метрика для определения важности ключевых слов в новостном документе. Включает Term Frequency (TF) и Inverse Document Frequency (IDF).
News Aggregation Module (Модуль агрегации новостей)
Компонент системы, отвечающий за сбор, кластеризацию, ранжирование новостных статей и извлечение ключевых слов.
Popularity (Популярность)
Метрика для ранжирования новостных статей внутри кластера. В описании патента упоминается возможность использования click-through-rate (CTR).
Recency (Новизна/Свежесть)
Метрика, учитывающая время публикации статьи, используемая для ранжирования статей внутри кластера.
Sliding Window (Скользящее окно)
Механизм обработки потока субтитров, при котором анализируется только текст за последний короткий период времени (например, 30 секунд).
Timeline (Временная шкала)
Структура данных, в которой логируются совпадения между новостными элементами и эфиром канала с указанием временных меток (timestamp).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления информации, связанной с медиаконтентом. Это сложный пункт, описывающий всю систему от обработки новостей до доставки пользователю.

  1. Система получает аудиоданные с мобильного устройства.
  2. Определяется канал, транслирующий телепрограмму.
  3. Определяется, существует ли соответствующий новостной контент. Этот шаг включает непрерывный процесс синхронизации:
    • Сбор новостных документов из разных источников.
    • Сортировка документов на подмножества (кластеры) по теме (topic information).
    • Выбор репрезентативного документа из каждого кластера на основе популярности (popularity information) и новизны (recency).
    • Определение ключевых слов для каждого кластера на основе частотности (frequency) слов в документах кластера.
    • Получение контента субтитров для временного окна определенного канала.
    • Сравнение ключевых слов с субтитрами и выбор кластера новостей при совпадении.
    • Получение новостных элементов (ссылок, сниппетов) для выбранного документа.
    • Сохранение метки времени (timestamp), связывающей временное окно, канал и новостные элементы (создание Timeline).
  4. Определяется время, связанное с полученными аудиоданными пользователя (время запроса).
  5. Система проверяет, была ли сохранена метка времени (из шага 3) в пределах заданного времени от времени аудиоданных (проверка Timeline на недавние события).
  6. Если да, система отображает новостные элементы на мобильном устройстве.

Claims 5, 15, 25 (Зависимые): Уточняют, что метрика частотности (frequency) для определения ключевых слов включает как минимум Term Frequency (TF) и/или Inverse Document Frequency (IDF).

Это прямо подтверждает использование классических алгоритмов TF-IDF для определения семантической значимости терминов в новостных статьях и кластерах.

Claims 7, 17, 27 (Зависимые): Описывают процесс поиска совпадений. Ключевые слова ранжируются на основе их частотности (TF-IDF). Система ищет эти ранжированные ключевые слова в обновленном контенте субтитров. Если найдена хотя бы часть (at least a portion) этих ключевых слов (достигнут порог), документ считается соответствующим.

Где и как применяется

Изобретение описывает специализированную систему, которая функционирует параллельно основному веб-поиску, фокусируясь на обработке новостей и медиа-сигналов в реальном времени.

CRAWLING – Сканирование и Сбор данных
News Aggregation Module непрерывно сканирует источники новостей для сбора свежих статей. Одновременно система собирает данные из медиа-источников (ТВ-эфир), включая аудиопотоки и потоки субтитров (Captioning Content).

INDEXING – Индексирование и извлечение признаков
Основной этап обработки новостей. News Aggregation Module выполняет:

  1. Кластеризация: Статьи группируются по темам (topic information).
  2. Извлечение признаков (NLP): Извлекаются ключевые слова. Для определения значимости слов используется частотный анализ (TF-IDF).
  3. Оценка качества/Ранжирование: Внутри кластера статьи ранжируются для выбора наилучшего представителя. Факторы: Popularity (например, CTR) и Recency.

Эти данные сохраняются в специализированном индексе новостей.

QUNDERSTANDING – Понимание Запросов
В данном патенте "запрос" не является текстовым вводом. "Запросом" выступает контекст просмотра ТВ. Он интерпретируется через идентификацию канала (например, с помощью Audio Fingerprint) и анализ потока субтитров в реальном времени.

RANKING / RERANKING
Система выполняет поиск в Timeline (логе синхронизированных новостей), чтобы найти элементы, соответствующие каналу и времени запроса пользователя. Финальное ранжирование основано на времени синхронизации и предварительно рассчитанных оценках популярности/новизны.

Входные данные:

  • Новостные документы из множества источников.
  • Потоки субтитров (Captioning Content) и аудио от медиа-провайдеров.
  • Аудиоданные с устройства пользователя.

Выходные данные:

  • Список релевантных новостных элементов (сниппеты, ссылки, изображения), синхронизированных с просматриваемым медиаконтентом.

На что влияет

  • Конкретные типы контента: В первую очередь влияет на новостные статьи (news documents).
  • Конкретные ниши или тематики: Наибольшее влияние оказывается на событийный и новостной контент, который освещается как в онлайн-изданиях, так и на телевидении.

Когда применяется

  • Триггеры активации (Фоновый процесс): Появление новой новостной статьи или получение новой строки субтитров для канала.
  • Триггеры активации (Пользовательский процесс): Запуск пользователем клиентского приложения и успешная идентификация просматриваемого телеканала.
  • Пороговые значения: Система использует порог для определения совпадения между новостью и субтитрами. В описании патента приводится пример: совпадение засчитывается, если как минимум 4 из 10 ключевых слов новости найдены в окне субтитров.

Пошаговый алгоритм

Процесс разделен на непрерывную обработку данных и обработку запроса пользователя.

Процесс А: Непрерывная обработка новостей (News Aggregation Module)

  1. Сбор данных: Сканирование и получение новостных статей из разных источников (например, каждые 30 минут для новостей за последние 24 часа).
  2. Кластеризация: Группировка статей, относящихся к одной теме.
  3. Ранжирование в кластере: Оценка каждой статьи в кластере на основе Popularity (например, CTR) и Recency.
  4. Выбор представителя: Выбор лучшей статьи из кластера по результатам ранжирования.
  5. Извлечение ключевых слов: Анализ документов в кластере для определения ключевых слов. Расчет оценок значимости для каждого слова с использованием Term Frequency (TF) и Inverse Document Frequency (IDF).
  6. Индексирование: Сохранение лучших ключевых слов (например, Топ-10) для каждого кластера/статьи.

Процесс Б: Непрерывный мониторинг медиа и синхронизация (Capture/News Matching Module)

  1. Получение данных эфира: Непрерывное получение потока субтитров и аудио для множества телеканалов.
  2. Обновление скользящего окна: Поддержание буфера последних субтитров (например, 30 секунд). Старые данные удаляются, новые добавляются.
  3. Поиск совпадений: Сравнение ключевых слов (из Процесса А) с текстом в скользящем окне.
  4. Проверка порога: Определение, достигнуто ли пороговое количество совпадений (например, 4 из 10 ключевых слов).
  5. Генерация Timeline: Если порог достигнут, система сохраняет связь между новостным элементом, каналом и текущей меткой времени (timestamp) в базе данных Timeline.

Процесс В: Обработка запроса пользователя (Client/Server)

  1. Получение данных: Приложение пользователя записывает аудио-образец и отправляет его на сервер.
  2. Идентификация канала: Сервер использует Audio Fingerprint для определения канала и времени эфира.
  3. Поиск синхронизированных новостей: Сервер обращается к базе данных Timeline (из Процесса Б) для поиска новостей, синхронизированных с этим каналом в пределах заданного недавнего времени от текущего момента.
  4. Возврат результатов: Сервер отправляет найденные новостные элементы (ссылки, сниппеты) приложению пользователя.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст новостных статей. Используется для кластеризации и извлечения ключевых слов.
  • Временные факторы: Время публикации статьи (Recency). Метки времени эфира и субтитров (для синхронизации и Timeline).
  • Поведенческие факторы: Популярность новостных статей (Popularity). В описании патента явно упоминается возможность использования click-through-rate (CTR) для оценки популярности.
  • Мультимедиа факторы: Аудиоданные с устройства пользователя и аудиопотоки эфира (для идентификации канала).
  • Технические факторы: Поток субтитров (Captioning Content) от телевизионных провайдеров.

Какие метрики используются и как они считаются

  • Term Frequency (TF): Частота термина в документе. Используется для определения важности слова внутри конкретной статьи или кластера.
  • Inverse Document Frequency (IDF): Обратная частота документа. Используется для снижения веса общеупотребительных слов и повышения веса уникальных терминов.
  • TF-IDF (Косвенно): Комбинация TF и IDF используется для расчета итогового веса (score) ключевых слов и их ранжирования. Подтверждено в Claims 5, 15, 25.
  • Popularity Score: Оценка популярности статьи, вероятно, основанная на агрегированных данных о взаимодействии пользователей (например, CTR).
  • Recency Score: Оценка свежести статьи.
  • Keyword Matching Threshold: Пороговое значение количества совпадений ключевых слов между новостным кластером и скользящим окном субтитров (например, 4 из 10).

Выводы

  1. Кластеризация новостей — ключевой процесс: Google активно агрегирует и автоматически кластеризует новостные статьи по темам (topic information). Система не рассматривает статьи изолированно, а стремится понять событие целиком.
  2. Выбор канонической новости в кластере: Внутри кластера Google выбирает лучшую (репрезентативную) статью. Патент явно указывает (Claim 1), что выбор основан на двух ключевых факторах: Popularity (популярность, например, CTR) и Recency (новизна). Это критически важно для News SEO.
  3. Подтверждение использования TF-IDF для новостей: Патент прямо подтверждает (Claims 5, 15, 25) использование классических IR-метрик — Term Frequency и Inverse Document Frequency — для определения наиболее значимых (salient) ключевых слов статьи или темы. Это означает, что семантическая уникальность и четкий фокус статьи важны.
  4. Способность к real-time синхронизации контента: Система демонстрирует способность Google сопоставлять тематику текстового контента с внешними потоками данных (субтитрами) в реальном времени, используя скользящее окно и пороговые значения совпадений.
  5. Техническая инфраструктура для обработки новостей: Патент раскрывает сложную инфраструктуру, работающую непрерывно для анализа и индексации новостного потока, что подчеркивает особый подход Google к новостному контенту по сравнению с evergreen-контентом.

Практика

Best practices (это мы делаем)

Рекомендации в первую очередь касаются издателей новостей (Publishers) и оптимизации под Google News и Discover.

  • Оптимизация под TF-IDF и семантическую значимость: Убедитесь, что ключевые термины и сущности, уникальные для освещаемого события, имеют достаточную естественную частоту в тексте. Текст должен быть сфокусирован на теме. Это поможет системе правильно определить вес ключевых слов и тематику статьи.
  • Фокус на скорости публикации (Recency): Для новостного контента скорость критична. Система использует Recency как один из двух основных факторов для выбора лучшей статьи в кластере. Необходимо оптимизировать редакционные и технические процессы для максимально быстрой публикации.
  • Стимулирование вовлеченности (Popularity/CTR): Popularity (явно упоминается возможность использования CTR) — второй ключевой фактор выбора статьи в кластере. Работайте над привлекательностью заголовков и сниппетов/изображений в новостной выдаче и лентах рекомендаций, чтобы повысить CTR и шансы статьи стать "канонической" для данной темы.
  • Четкое разделение тем для кластеризации: Пишите статьи с четким фокусом на одном событии. Это облегчает системе процесс кластеризации и повышает вероятность того, что статья будет правильно сгруппирована с другими релевантными материалами.

Worst practices (это делать не надо)

  • Размытие темы и "водянистый" текст: Создание контента, который затрагивает множество тем поверхностно, усложнит кластеризацию и снизит оценки TF-IDF для целевых терминов, так как их относительная частота будет низкой.
  • Игнорирование скорости публикации: Медленная публикация новостей гарантирует, что система выберет статьи конкурентов как более свежие (Recency), даже если ваш материал качественнее.
  • Манипуляции с частотностью (Keyword Stuffing): Искусственное завышение частоты ключевых слов нарушит естественный баланс TF-IDF. Это является общей худшей практикой для систем, использующих TF-IDF, и может негативно сказаться на ранжировании.

Стратегическое значение

Патент подтверждает, что для Google новостной контент — это отдельная вертикаль, требующая специализированной обработки в реальном времени. Стратегия для издателей должна быть направлена на то, чтобы стать лучшим представителем внутри новостного кластера. Эта конкуренция основывается не только на качестве контента, но и в равной степени на скорости (Recency) и вовлеченности пользователей (Popularity). Также подтверждается важность классических методов информационного поиска (TF-IDF) для определения тематики и значимости терминов.

Практические примеры

Сценарий: Оптимизация статьи о внезапном изменении процентной ставки ЦБ

  1. Действие (Скорость): Опубликовать новость как можно быстрее после объявления ЦБ, чтобы максимизировать фактор Recency.
  2. Действие (TF-IDF и Сущности): Убедиться, что в тексте четко и естественно используются ключевые термины и сущности: "Центральный Банк", "ключевая ставка", "[Новое значение] процента", "инфляция", "[Дата решения]". Эти термины должны иметь высокую семантическую значимость (TF-IDF score) по сравнению с общими словами.
  3. Действие (Популярность/CTR): Создать информативный и привлекательный заголовок для повышения CTR в Google News. Например: "ЦБ экстренно повысил ключевую ставку до [Значение]%: что это значит для вкладов и кредитов".
  4. Ожидаемый результат: Система быстро проиндексирует статью, правильно кластеризует ее с другими новостями об этом событии. Благодаря высокой скорости и хорошему CTR, статья имеет высокие шансы быть выбранной как репрезентативная (лучшая) в этом кластере и получить максимальный охват.

Вопросы и ответы

Подтверждает ли этот патент использование TF-IDF в алгоритмах Google?

Да, патент прямо указывает (в частности, в Claims 5, 15, 25), что для определения значимости ключевых слов в новостных документах используется частотность (frequency), которая включает Term Frequency (TF) и Inverse Document Frequency (IDF). Это подтверждает, что классические методы IR используются Google для анализа новостного контента, помогая определить наиболее релевантные и уникальные термины для конкретной темы.

Что важнее для ранжирования новостей согласно патенту: популярность или свежесть?

Патент не указывает весовые коэффициенты, но упоминает оба фактора — Popularity (популярность) и Recency (новизна) — как критерии для выбора лучшей статьи внутри тематического кластера (Claim 1). Для издателей это означает, что необходимо поддерживать баланс: публиковать новости быстро (максимизируя свежесть) и делать их привлекательными для пользователей (максимизируя популярность).

Как Google группирует новости по темам (кластеризация)?

Патент указывает, что документы сортируются на подмножества на основе topic information. Вероятно, это достигается путем анализа близости документов, где близость определяется на основе извлеченных терминов и их весов (TF-IDF). Статьи с похожим набором значимых ключевых слов группируются вместе.

Упоминается ли в патенте использование CTR?

Да. Хотя в Claims упоминается только Popularity, в основном тексте патента (Detailed Description) прямо говорится, что популярность может быть основана на click-through-rate (CTR). Это важный инсайт, подтверждающий, что поведенческие факторы используются для оценки качества и релевантности новостных статей в контексте выбора лучшего документа в кластере.

Касается ли этот патент ранжирования в основном веб-поиске?

Нет, этот патент описывает специализированную систему для синхронизации телевизионного контента с онлайн-новостями. Он не описывает алгоритмы ранжирования основного веб-поиска. Однако он раскрывает базовые технологии обработки новостного контента, которые, вероятно, используются в других продуктах Google, таких как Google News.

Что такое "скользящее окно" (Sliding Window) и зачем оно нужно?

Скользящее окно — это метод обработки потоковых данных, в данном случае субтитров телеканала. Система анализирует только текст за короткий последний период (например, 30 секунд), постоянно обновляя его. Это позволяет системе в реальном времени определять, какая тема обсуждается в эфире прямо сейчас, игнорируя уже неактуальный текст.

Как система определяет, что новость соответствует эфиру?

Система извлекает Топ-N значимых ключевых слов (по TF-IDF) из новостного кластера и ищет их в скользящем окне субтитров. Если определенное пороговое количество слов совпадает (например, 4 из 10, как указано в описании патента), система считает, что новость соответствует теме, обсуждаемой в эфире, и логирует это совпадение в Timeline.

Как SEO-специалисту использовать знание о TF-IDF на практике?

Это знание подчеркивает важность создания сфокусированного контента, где ключевые термины и сущности, уникальные для темы, естественно выделяются на фоне общеупотребительных слов. Нужно избегать "водянистого" текста и переспама, обеспечивая достаточную плотность релевантных терминов, чтобы система могла корректно определить их семантическую значимость.

Влияют ли механизмы из этого патента на появление контента в Google Discover?

Хотя патент сфокусирован на синхронизации с ТВ, базовые технологии обработки контента — кластеризация тем, оценка популярности и новизны, извлечение ключевых интересов (через TF-IDF) — являются фундаментальными для рекомендательных систем Google. Понимание этих принципов помогает оптимизировать контент и для Discover.

Использует ли эта система современные NLP-модели, такие как BERT?

Патент был подан в 2013 году, до эры BERT. Он явно опирается на классические методы Information Retrieval, такие как TF-IDF. Хотя современные системы Google используют более продвинутые NLP-модели, фундаментальные принципы кластеризации тем и оценки важности контента по свежести и популярности, описанные здесь, остаются актуальными.

Похожие патенты

Как Google автоматически определяет ключевые темы в медиапотоках (ТВ, аудио, текст) и использует механизм "Boosting" для поиска релевантного контента
Система анализирует мультимедийные потоки (например, ТВ-трансляции) в реальном времени, преобразует их в текст и автоматически генерирует поисковые запросы. Используются классические методы IR (TF-IDF, стемминг, анализ контекста). Ключевой особенностью является механизм пост-обработки "Boosting", который переранжирует результаты поиска на основе дополнительного контекста, не вошедшего в исходный запрос.
  • US8868543B1
  • 2014-10-21
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google связывает всплески поисковых запросов с ТВ-трансляциями для показа контекстной информации в реальном времени
Google отслеживает внезапные всплески частоты поисковых запросов и сопоставляет их с субтитрами (или аудиодорожкой) транслируемых в этот момент телепрограмм. Это позволяет системе понять, какой именно момент в эфире вызвал интерес пользователей, и проактивно предоставить связанную информацию зрителям через «вторые экраны» (например, смартфоны).
  • US9578358B1
  • 2017-02-21
  • Свежесть контента

  • Семантика и интент

  • Персонализация

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует контекст просмотра ТВ для модификации поисковых запросов в реальном времени
Google анализирует время, местоположение и содержание поискового запроса пользователя, сопоставляя их с данными о телепрограммах, транслируемых в данный момент. Если система предполагает, что запрос связан с просматриваемой передачей, она автоматически дополняет исходный запрос терминами из этой передачи для предоставления более релевантных результатов.
  • US8839303B2
  • 2014-09-16
  • Семантика и интент

  • Персонализация

  • SERP

Популярные патенты

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)
Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.
  • US10073911B2
  • 2018-09-11
  • Индексация

  • Краулинг

  • Ссылки

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
  • US9317605B1
  • 2016-04-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
  • US9235653B2
  • 2016-01-12
  • Knowledge Graph

  • Свежесть контента

  • Семантика и интент

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

seohardcore