Как Google управляет инфраструктурой Content ID и приоритизирует сопоставление контента на основе недавних событий

DISTRIBUTED BATCH MATCHING OF VIDEOS BASED ON RECENCY OF OCCURRENCE OF EVENTS ASSOCIATED WITH THE VIDEOS (Распределенное пакетное сопоставление видео на основе актуальности наступления событий, связанных с видео)

US9690629B1
Google LLC
2015-11-02
2017-06-27

Этот патент описывает инфраструктуру, которую Google использует для крупномасштабных систем сопоставления медиа (таких как Content ID). В нем подробно рассказывается, как Google распределяет масштабную задачу сравнения пользовательских видео с защищенными авторским правом эталонными файлами между различными центрами обработки данных. Ключевой особенностью является возможность приоритизации задач сопоставления на основе актуальности живых событий (например, спортивных матчей, концертов) для быстрого выявления несанкционированных загрузок ценного, чувствительного ко времени контента.

Какую проблему решает

Патент решает проблему управления огромной вычислительной нагрузкой, необходимой для сравнения сотен миллионов пользовательских видео (UGC или Comparison Objects) с десятками миллионов эталонных файлов (Reference Objects). Основная задача — эффективно масштабировать этот процесс в распределенной, гетерогенной вычислительной среде (разные дата-центры, разные мощности) и гарантировать своевременное сопоставление для контента с высоким приоритетом, особенно когда UGC загружается раньше эталонного файла или когда требуется быстрая реакция на прямые трансляции.

Что запатентовано

Запатентована система для распределенного пакетного сопоставления медиаконтента. Она включает разделение огромного "пространства сопоставления" (Match Space) на более мелкие задачи, распределение их в пул (Task Pool) и обработку распределенными "компонентами сопоставления" (Matching Components). Ключевым аспектом является приоритизация задач (Prioritized Scheduling Score), основанная на актуальности (recency) событий, связанных с эталонными объектами (например, недавние прямые трансляции).

Как это работает

Система работает по принципу «мастер-рабочий»:

Разделение (Partitioning): Общий объем работы (N×M) делится на подмножества (пакеты) на основе параметров (например, длина видео, популярность).
Распределение и Приоритизация: «Мастер» (Distribution Component) присваивает задачам приоритет, основываясь на актуальности связанных прямых трансляций, и помещает их в Task Pool.
Обработка: Распределенные «рабочие» (Matching Components) выбирают задачи из пула, отдавая предпочтение высокоприоритетным.
Оптимизация Кэширования: Система использует механизм снимков (Snapshot) и функцию подобия (Similarity Function) для эффективного локального кэширования данных, минимизируя передачу данных между дата-центрами.

Актуальность для SEO

Высокая (для YouTube и медиаплатформ). Задача управления системами типа Content ID продолжает усложняться с ростом объемов UGC и прямых трансляций. Необходимость быстрого выявления несанкционированных загрузок ценного контента остается критически важной для соблюдения авторских прав и монетизации.

Важность для SEO

Патент имеет минимальное прямое влияние (1/10) на SEO-стратегии для веб-поиска. Он описывает внутреннюю инфраструктуру для сопоставления контента (Content ID), а не алгоритмы ранжирования. Однако он имеет значение (5/10) для Video SEO и управления контентом на YouTube, так как объясняет, как Google приоритизирует соблюдение авторских прав, особенно для чувствительного ко времени и популярного контента, что влияет на скорость идентификации, монетизации или блокировки видео.

Термины и определения

Comparison Objects (Объекты сравнения): Единицы медиаконтента (например, пользовательский контент - UGC), которые необходимо сравнить с известным контентом.
Distribution Component / Infrastructure (Компонент / Инфраструктура распределения): "Мастер" компонент. Отвечает за подготовку работы, разделение пространства сопоставления, назначение приоритетов и распределение задач в пул задач.
Match Space (Пространство сопоставления): Общий объем требуемых сравнений, определяемый как N объектов сравнения, умноженное на M эталонных объектов.
Matching Components (Компоненты сопоставления): "Рабочие" компоненты (воркеры), которые выбирают задачи из пула задач и выполняют фактические сравнения (сопоставление/снятие отпечатков).
Partitioning Component (Компонент разделения): Компонент, который делит Match Space на управляемые подмножества (пакеты или срезы) на основе заданных параметров.
Prioritized Scheduling Score (Приоритетная оценка планирования): Метрика, присваиваемая задаче для определения очередности ее выполнения. Основана на актуальности (recency) связанных событий и других факторах (например, популярности).
Reference Objects (Эталонные объекты): Известные единицы медиаконтента (например, эталонные файлы, защищенные авторским правом), используемые в качестве основы для сравнения. Часто связаны с copyrighted live events.
Similarity Component / Function (Компонент / Функция подобия): Используется для оптимизации кэширования. Определяет, насколько требования к данным новой задачи похожи на данные, уже кэшированные локально воркером, минимизируя передачу данных.
Snapshot Component (Компонент моментальных снимков): Управляет статическими наборами данных (либо UGC, либо эталонными файлами) для пакетного запуска, облегчая эффективное кэширование.
Task Pool (Пул задач): Хранилище или очередь, содержащая задачи обработки и их описания (Task Descriptions).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему распределенного сопоставления с приоритизацией на основе актуальности событий.

Генерация различных задач обработки (сравнение Comparison Objects с Reference Objects, где эталоны связаны с copyrighted live events).
Распределение задач в Task Pool.
Присвоение Prioritized Scheduling Score каждой задаче. Ключевой момент: Оценка основана на актуальности наступления (recency of occurrence) защищенных авторским правом прямых трансляций, записанных в эталонных объектах.
Несколько Matching Components планируют выполнение задач из пула, основываясь на описаниях задач И Prioritized Scheduling Score.
Matching Components выполняют сравнение.

Claim 4 и 5 (Зависимые): Детализируют процесс разделения и параметры.

Match Space делится на подмножества (Claim 4) на основе параметров (Claim 5), которые включают: время загрузки, длину объектов, географию, категорию, меру популярности и другие.

Claim 6 (Зависимый): Описывает механизм Snapshot для эффективности данных.

Snapshot Component поддерживает одну сторону сравнения статической (например, набор эталонов), изменяя другую (например, разные наборы UGC), для оптимизации кэширования.

Claim 8 (Зависимый): Описывает оптимизацию кэширования с использованием функции подобия.

Similarity Component определяет подобие между кэшированной информацией и новой задачей. Система использует это для выбора оптимального кэша и уменьшения избыточного копирования данных.

Claim 10 (Зависимый): Объясняет эффект оценки приоритета.

Задача, связанная с недавней прямой трансляцией, планируется раньше, чем задача, связанная с менее недавней трансляцией.

Где и как применяется

Этот патент описывает инфраструктуру, которая управляет вычислительными ресурсами для систем сопоставления контента, таких как Content ID на YouTube. Это не часть стандартного конвейера веб-поиска.

CRAWLING – Сканирование и Сбор данных
Система принимает медиаконтент (UGC) и эталонные файлы от правообладателей.

INDEXING – Индексирование и извлечение признаков (Конвейер сопоставления)
Основное применение патента. Это не индексирование для поиска, а процесс генерации отпечатков (fingerprinting) и их масштабного сопоставления (matching). Патент описывает, как оркестрировать этот процесс.

Оркестрация: Distribution Infrastructure управляет тем, когда и где происходит сопоставление.
Выполнение: Фактическое сопоставление (например, с использованием LSH, как упомянуто в описании) происходит внутри Matching Components.

Входные данные:

Медиаконтент (UGC и Эталоны) или их отпечатки.
Метаданные: даты событий (для актуальности), длина, популярность (просмотры, время просмотра), география, авторские права, категория.

Выходные данные:

Результаты сравнения (совпадения, найденные между UGC и эталонами).

На что влияет

Конкретные типы контента: Видео и аудио контент на хостинговых платформах (например, YouTube).
Конкретные ниши или тематики: Сильное влияние на чувствительный ко времени контент: copyrighted live events (спорт, концерты, новости). Также влияет на популярный контент (high view count popular videos that are trending), который приоритизируется для бизнес-ценности.

Когда применяется

Триггеры активации:
1. Когда требуются крупномасштабные сканирования (например, добавлен новый большой объем эталонного материала).
2. Когда происходит громкое событие в прямом эфире, что запускает приоритизацию на основе актуальности.
3. Когда UGC загружается до соответствующего эталонного файла (система динамически генерирует задачи для повторного сканирования недавнего UGC).
Условия работы: Система работает непрерывно в распределенной среде, динамически управляя приоритетами и ресурсами.

Пошаговый алгоритм

Процесс А: Подготовка и Распределение (Master - Distribution Infrastructure)

Определение Match Space: Идентификация общего объема требуемых сравнений (N×M).
Разделение (Partitioning): Partitioning Component делит Match Space на подмножества (пакеты) на основе параметров (например, группировка по длине видео, категории или дате загрузки).
Приоритизация: Distribution Component присваивает задачам Prioritized Scheduling Score. Ключевым фактором является актуальность (recency) связанных прямых трансляций. Популярность также может повышать приоритет.
Генерация Задач и Снимков: Подготовка задач и определение статических наборов данных (Snapshots) для оптимизации кэша.
Публикация: Задачи и их описания (Task Descriptions) помещаются в Task Pool.

Процесс Б: Выполнение (Worker - Matching Components)

Выбор Задачи: Воркеры опрашивают Task Pool и выбирают задачи, основываясь на Prioritized Scheduling Score (сначала недавние события).
Оптимизация Кэша: Воркер использует Similarity Function для сравнения требуемых данных с локальным кэшем (Snapshots). Выбирается снимок с наивысшей оценкой подобия.
Подготовка Данных: Если данные не кэшированы, они копируются локально.
Сопоставление: Воркер выполняет сравнение отпечатков.
Отправка Результатов: Результаты направляются в систему постобработки (Results Components).
Мониторинг: Distribution Component отслеживает ход выполнения и может перераспределить зависшие задачи.

Какие данные и как использует

Данные на входе

Система использует метаданные для разделения и приоритизации вычислительных задач.

Временные факторы: Активно используются.
- Актуальность (recency) наступления прямых трансляций (Критично для приоритизации).
- Дата/время загрузки UGC (Для разделения).
- Длина объекта медиаконтента (Для разделения и оптимизации группировки).
Поведенческие факторы (Популярность):
- Количество просмотров (view count) / Время просмотра за период (Для разделения и приоритизации).
Метаданные / Контентные факторы:
- Категория темы (Для разделения).
- Идентифицированные авторские права / Права собственности (Для разделения).
- Отпечатки (fingerprints) контента (Для сопоставления).
Географические факторы:
- Географическое положение загрузки (Для разделения).

Какие метрики используются и как они считаются

Prioritized Scheduling Score (Приоритетная оценка планирования): Оценка для управления порядком обработки. В Claims прямо указано, что она основана на "актуальности наступления (recency)" прямых трансляций. Также может включать популярность.
Similarity Score (Оценка подобия для кэширования): Рассчитывается с помощью Similarity Function. Оценивает, насколько кэшированные данные соответствуют требованиям новой задачи. В описании приведен пример: оценка базируется на количестве классов (например, 'эталоны' и 'UGC'), в которых файлы совпадают с кэшем. Также может учитываться размер файлов, которые не нужно копировать.
Параметры разделения (Partitioning Parameters): Пороговые значения метаданных (например, длина < 60 мин), используемые для деления Match Space.

Это инфраструктурный патент, который не содержит прямых рекомендаций для SEO в веб-поиске, но критически важен для понимания работы систем управления контентом, таких как Content ID.

Инфраструктура для масштабирования: Патент детализирует сложную распределенную систему, необходимую для обработки огромного масштаба сопоставления контента за счет разделения задач и распределенной обработки.
Явная приоритизация актуальности (Recency): Основным защищенным элементом (Claim 1) является расчет Prioritized Scheduling Score на основе актуальности copyrighted live events. Google активно приоритизирует выявление несанкционированных загрузок недавнего, чувствительного ко времени контента.
Популярность как приоритет: Видео с большим количеством просмотров и трендовые видео также приоритизируются (Description, Claim 5), так как они имеют большую бизнес-ценность и риски для правообладателей.
Умное кэширование и эффективность: Система использует Snapshot и Similarity Function для агрессивной оптимизации использования пропускной способности сети, предпочитая задачи, для которых данные уже кэшированы локально.
Гибкое управление рабочей нагрузкой: Рабочая нагрузка разделяется на основе различных параметров (длина, категория, география), что позволяет применять разные стратегии приоритизации для разных типов контента.

Патент предлагает ограниченные практические советы для типичной работы по SEO, но предоставляет критически важный контекст для управления контентом на платформах (например, YouTube).

Best practices (это мы делаем)

(Для владельцев контента/вещателей) Быстрая доставка эталонных файлов: Для защиты прямых трансляций (спорт, концерты) крайне важно доставлять эталонные файлы (Reference Objects) в Google/YouTube как можно быстрее. Система приоритизирует сопоставление на основе актуальности (recency), поэтому быстрая доставка максимизирует эффективность защиты.
(Для владельцев контента) Точные метаданные для прямых трансляций: Убедитесь, что эталонные файлы имеют точное время и дату события. Эти данные используются для определения Prioritized Scheduling Score.
(Для менеджеров контента) Понимание приоритетов обработки: Признайте, что популярные видео (высокий view count) и контент, связанный с недавними событиями, обрабатываются системой Content ID в первую очередь. Ожидайте более быстрого сопоставления и применения политик для этого контента.

Worst practices (это делать не надо)

Загрузка несанкционированных записей прямых трансляций: Попытка использовать задержку в работе системы неэффективна. Патент описывает механизм (Prioritized Scheduling Score), который минимизирует эту задержку путем агрессивной приоритизации сопоставления недавних событий.
Предположение о равном времени обработки: Ошибочно полагать, что весь контент обрабатывается с одинаковой скоростью. Более старый контент или видео с низким количеством просмотров могут обрабатываться с задержкой по сравнению с трендовым или актуальным контентом.

Стратегическое значение

Патент подчеркивает приверженность Google защите ценного, чувствительного ко времени контента, что необходимо для поддержания отношений с крупными медиа-партнерами. Он подтверждает, что система Content ID — это не простая очередь, а высокоприоритетный конвейер. Для SEO-стратегии это подчеркивает важность соблюдения правил платформы и управления авторскими правами, особенно в контексте видео и прямых трансляций.

Практические примеры

Сценарий: Управление Content ID для спортивной лиги

Событие: Завершается крупный футбольный матч (copyrighted live event).
Действие правообладателя: Лига немедленно загружает официальную запись как эталонный файл в Content ID с точными метаданными времени события.
Системный процесс (Приоритизация): Distribution Component присваивает высокий Prioritized Scheduling Score, так как событие было очень недавним.
Системный процесс (Обработка): Генерируются задачи для сравнения недавнего UGC (например, "лучшие моменты матча") с этим эталоном. Matching Components выбирают эти высокоприоритетные задачи в первую очередь.
Результат: Несанкционированные загрузки идентифицируются и заявляются (монетизируются или блокируются) очень быстро, часто в течение нескольких минут, быстрее, чем обрабатывался бы более старый контент.

Влияет ли этот патент на ранжирование моего сайта в поиске Google или видео на YouTube?

Нет, этот патент не имеет прямого отношения к алгоритмам ранжирования. Он описывает внутреннюю инфраструктуру для крупномасштабного сопоставления медиаконтента (Content ID). Он касается управления авторскими правами и распределения вычислительных ресурсов, а не релевантности поиска.

Что такое "актуальность наступления" (recency of occurrence), упомянутая в патенте?

Это относится к тому, насколько недавно произошло событие, записанное в эталонном файле (например, спортивный матч или концерт). Патент защищает метод приоритизации задач сопоставления на основе этой актуальности. Чем новее событие, тем выше приоритет его сопоставления с пользовательским контентом (UGC).

Насколько быстро эта система работает для прямых трансляций?

Система разработана для максимальной скорости обработки недавних событий. Присваивая наивысший Prioritized Scheduling Score таким событиям, система гарантирует, что Matching Components обработают их раньше другого контента. Это значительно сокращает время между прямой трансляцией и выявлением несанкционированных загрузок.

Влияет ли популярность видео на скорость его сопоставления?

Да. Хотя в Claims (Формуле изобретения) основное внимание уделяется актуальности (recency), в описании патента и Claim 5 четко указано, что мера популярности (например, количество просмотров) используется для разделения и приоритизации задач. Популярные и трендовые видео обрабатываются быстрее.

Что такое "Match Space" и почему он разделяется?

Match Space — это общее количество необходимых сравнений (все пользовательские видео × все эталонные файлы). Это астрономически большое число. Система разделяет его на более мелкие подмножества (пакеты), чтобы распределить рабочую нагрузку между тысячами компьютеров (Matching Components) и применять разные приоритеты к разным сегментам.

Как система справляется с огромным объемом передачи данных?

Система использует сложную стратегию кэширования. Компонент Snapshot сохраняет наборы данных статическими. Similarity Function проверяет, есть ли у воркера уже локально кэшированные данные, необходимые для задачи. Это значительно сокращает необходимость повторной передачи больших файлов по сети между дата-центрами.

Что мне делать, если я произвожу контент в прямом эфире и хочу его защитить?

Ключевой вывод — необходимость как можно быстрее предоставлять эталонные файлы системе Content ID. Поскольку система приоритизирует актуальность, чем быстрее вы предоставите эталонный файл с точными метаданными о времени события, тем быстрее система начнет защищать ваш контент от несанкционированных загрузок.

Что произойдет, если пользователь загрузит видео до того, как владелец авторских прав загрузит эталонный файл?

Изначально совпадение не будет найдено. Однако патент описывает, как система справляется с этим. Как только эталонный файл загружен, система может динамически генерировать и приоритизировать задачи для повторного сканирования недавно загруженного UGC (например, за последние 3 дня) на предмет соответствия новому эталону.

Описывает ли патент, как именно происходит сравнение видео (алгоритм fingerprinting)?

Нет. Патент фокусируется на инфраструктуре, распределении задач, приоритизации и оптимизации вычислений. Конкретные методы генерации отпечатков и алгоритмы их сопоставления (хотя упоминается LSH) остаются за рамками этого документа.

Какова основная ценность этого патента для SEO-специалиста?

Основная ценность заключается в понимании инфраструктуры и приоритетов Google при управлении контентными платформами (Video SEO). Это позволяет стратегически планировать публикацию видеоконтента, особенно связанного с трендами и событиями, и понимать скорость реакции платформы на появление нового контента, его монетизацию и применение авторских прав.

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

US8184953B1
2012-05-22

Индексация
Мультимедиа

Как Google фильтрует статичные кадры и тишину из живых трансляций перед индексацией контента

Патент описывает инфраструктурный механизм для повышения эффективности систем сопоставления контента (таких как Content ID). Система в реальном времени анализирует входящие живые аудио- и видеопотоки, вычисляет цифровые отпечатки и сравнивает их внутри скользящего временного окна. Если отпечатки слишком похожи (например, статичное изображение или тишина), система помечает этот сегмент как неактивный и предотвращает его добавление в индекс, экономя ресурсы и снижая количество ложных срабатываний.

US8938089B1
2015-01-20

Индексация
Мультимедиа

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google агрегирует и фильтрует медиаконтент на основе подписок пользователя на платформах типа Google TV

Google использует систему для унифицированного поиска медиаконтента (фильмы, сериалы) из различных источников (стриминговые сервисы, ТВ, локальные хранилища). Система локально определяет, к каким сервисам у пользователя есть доступ (подписки), и фильтрует результаты, показывая только тот контент, который пользователь реально может посмотреть. Это механизм обеспечения видимости контента в агрегированных медиа-платформах.

US9317571B2
2016-04-19

Персонализация
Мультимедиа

Как Google идентифицирует конкретные видео (фильмы, клипы, эпизоды) на веб-страницах, анализируя окружающий текст

Google использует библиографические данные (название, актеры, длина) для поиска и идентификации конкретных видео на веб-страницах. Система анализирует текст, расположенный рядом с видеоплеером («associated text»), и вычисляет «оценку совпадения» (Occurrence Score), чтобы точно понять, какой именно фильм, клип или эпизод представлен на странице.

US8983945B1
2015-03-17

Мультимедиа
Семантика и интент

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию

Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.

US8321463B2
2012-11-27

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента

Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).

US8095876B1
2012-01-10

EEAT и качество
Техническое SEO
Ссылки

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP