Как Google использует агрегированные поведенческие данные и абстракцию признаков для ранжирования документов без истории кликов

Google использует механизм для ранжирования документов, по которым нет истории взаимодействий (например, личные email или новые веб-страницы). Вместо анализа кликов по конкретному документу, система анализирует, как пользователи взаимодействовали с другими документами, имеющими схожие признаки (например, шаблоны, категории, структуру). Это позволяет обобщать поведенческие данные и повышать релевантность в условиях дефицита информации.

Описание

Какую задачу решает

Патент решает проблему нехватки данных (data sparsity) при ранжировании документов, для которых отсутствуют или недостаточны прямые поведенческие сигналы (например, CTR для пары запрос-документ). Это критически важно для документов с ограниченным доступом (access restricted documents), таких как электронные письма или личные файлы, которые уникальны для пользователя. Также методология применима для решения проблемы «холодного старта» новых или редко посещаемых публичных документов.

Что запатентовано

Запатентована система ранжирования, которая обобщает данные о взаимодействии пользователей, переходя с уровня конкретных пар «Запрос-Документ» на уровень абстрактных пар «Признак Запроса-Признак Документа». Система оценивает релевантность, основываясь на агрегированных исторических данных о том, как множество пользователей взаимодействовало с другими документами, обладающими схожими признаками (Document Features), в ответ на запросы со схожими признаками (Query Features).

Как это работает

Система функционирует в двух режимах:

Офлайн (Построение моделей): Анализируются логи взаимодействий множества пользователей для построения Query Feature — Document Feature Model. Эта модель хранит оценки силы взаимодействия (Past Interaction Measures) между различными признаками запросов и документов.
Онлайн (Ранжирование): При получении запроса система извлекает признаки запроса и признаки релевантных документов. Используя офлайн-модель, она рассчитывает две ключевые метрики:
- Query Dependent Measure (насколько популярны эти признаки документа при этих признаках запроса).
- Query Independent Measure (насколько популярны эти признаки документа в целом, независимо от текущего запроса).
Итог: Эти метрики используются как сигналы для определения финального порядка ранжирования (presentation order).

Актуальность для SEO

Высокая. Ранжирование в персонализированном поиске (Gmail, Google Drive) критически важно и напрямую зависит от этих механизмов. Кроме того, методы обобщения поведенческих сигналов и ранжирования на основе признаков (feature-based ranking) являются фундаментальными для современных систем Information Retrieval, включая веб-поиск, особенно для обработки новых документов и длиннохвостых запросов.

Важность для SEO

Влияние на SEO от умеренного до высокого (6.5/10). Хотя патент в первую очередь описывает ранжирование контента с ограниченным доступом, базовая технология — обобщение поведенческих сигналов до уровня признаков, а не URL-адресов — очень актуальна для публичного SEO. Она объясняет, как Google может оценивать новые страницы или страницы с разреженными данными, анализируя эффективность схожих структур, шаблонов или комбинаций сущностей в других местах в Интернете. Также имеет прямое значение для оптимизации Email-маркетинга.

Детальный разбор

Термины и определения

Access Restricted Document (Документ с ограниченным доступом)

Электронный документ, доступный только ограниченной группе пользователей (например, личное электронное письмо, файл). Контрастирует с публично доступными веб-документами.

Document Features (Признаки документа)

Характеристики документа, используемые для обобщения. Включают:

Category features: Категория документа (финансы, путешествия и т.д.).
Structural features: Содержимое определенных полей (например, домен отправителя, Subject content в email), тип файла, шаблоны (templates).
N-gram features: N-граммы из текста.

Query Features (Признаки запроса)

Характеристики запроса. Включают n-граммы, упомянутые сущности (entities), категории сущностей, грамматические признаки.

Query Dependent Measure (QD) (Зависимая от запроса мера)

Оценка документа, основанная на прошлых взаимодействиях между его Document Features и Query Features текущего запроса. Отражает контекстуальную релевантность признаков.

Query Independent Measure (QI) (Независимая от запроса мера)

Оценка документа, основанная на прошлых взаимодействиях между его Document Features и запросами, которые не обладают признаками текущего запроса. Отражает общую популярность или важность признаков.

Past Interaction Measure (Мера прошлых взаимодействий)

Количественная оценка взаимодействий (клики, просмотры) между определенным Query Feature и Document Feature, агрегированная по множеству пользователей и документов.

Query Feature — Document Feature Model

Ключевая модель (например, двудольный граф), которая хранит Past Interaction Measures между узлами признаков запроса и узлами признаков документа. Генерируется путем трансформации взаимодействий из пространства запрос-документ в пространство признаков.

Template (Шаблон)

Структурный признак документа, состоящий из терминов и плейсхолдеров (placeholders). Например, «Подтверждение заказа [#]» в теме письма.

Ключевые утверждения (Анализ Claims)

Анализ основан на формуле изобретения патента US10970293B2 (Claims 1-7), которая фокусируется на ранжировании Access Restricted Documents.

Claim 1 (Независимый пункт): Описывает метод ранжирования документов с ограниченным доступом с использованием Query Independent Measure.

Система получает запрос от пользователя.
Идентифицируются релевантные документы, доступ к которым ограничен этим пользователем.
Идентифицируются признаки запроса (Query Features).
Для каждого релевантного документа генерируется Query Independent Measure.
Ключевые аспекты генерации этой меры:
- Она основана на прошлых взаимодействиях других пользователей с другими документами (также с ограниченным доступом и недоступными текущему пользователю), которые обладают теми же Document Features.
- Эти прошлые взаимодействия произошли в ответ на запросы, которые НЕ содержат ни одного из Query Features текущего запроса.
- Мера генерируется без ссылки на какие-либо прошлые взаимодействия, специфичные для данного конкретного документа.
Система определяет порядок представления (presentation order) на основе рассчитанных Query Independent Measures.

Claim 3 (Зависимый от 1): Уточняет, что признак документа может быть шаблоном (template), включающим термины и плейсхолдеры.

Claim 6 (Зависимый от 5, который зависит от 1): Дополняет процесс, вводя Query Dependent Measure.

Для каждого документа также генерируется Query Dependent Measure.
Эта мера основана на прошлых взаимодействиях с документами, имеющими те же Document Features, но в ответ на запросы, которые содержат один или более Query Features текущего запроса.
Итоговый порядок представления определяется с использованием как Query Independent, так и Query Dependent Measures.

Где и как применяется

Изобретение требует значительной предварительной офлайн-обработки данных и влияет на этапы индексирования и ранжирования.

Офлайн-обработка (Предварительные вычисления)
Критически важный этап. Включает анализ огромных объемов логов взаимодействий для построения моделей:

Query-Document Model: Агрегация прямых взаимодействий (клики) между конкретными запросами и документами.
Document-Feature и Query-Feature Models: Извлечение признаков и создание связей. Применяются пороги (thresholds) для включения только частых признаков (для анонимности и значимости).
Query Feature — Document Feature Model: Трансформация взаимодействий в пространство признаков. Вычисление Past Interaction Measures для пар признаков.

INDEXING – Индексирование и извлечение признаков
При индексации контента (персонального или публичного) система извлекает и сохраняет Document Features (категории, структурные признаки, шаблоны).

QUNDERSTANDING – Понимание Запросов
В реальном времени система извлекает Query Features из запроса.

RANKING – Ранжирование
Основное применение патента. После отбора кандидатов:

Система использует извлеченные Query Features и Document Features.
Обращается к офлайн-модели для получения Past Interaction Measures.
Вычисляет Query Dependent Measure и Query Independent Measure путем агрегации (например, суммирования) мер взаимодействий.
Эти меры используются как сигналы ранжирования, часто комбинируясь с базовой оценкой релевантности.

Входные данные:

Входящий запрос и его Query Features.
Релевантные документы и их Document Features.
Предварительно рассчитанная Query Feature-Document Feature Model.

Выходные данные:

Query Independent Measure и/или Query Dependent Measure для каждого документа.
Финальный отсортированный список результатов поиска.

На что влияет

Конкретные типы контента: В первую очередь влияет на access restricted documents: электронные письма (emails), личные файлы, записи календаря. Потенциально влияет на новые или редко посещаемые публичные веб-документы (решение проблемы «холодного старта»).
Структура контента: Повышает важность контента, имеющего четкую структуру или соответствующие шаблоны (templates), которые могут быть распознаны как надежные Document Features.

Когда применяется

Условия работы алгоритма: Применяется при ранжировании в условиях разреженных данных, когда прямых взаимодействий (Query->Document) недостаточно.
Ограничения и пороги: Признаки включаются в офлайн-модель, только если они встречаются у порогового количества пользователей (threshold quantity of users) или пороговое количество раз. Это необходимо для обеспечения конфиденциальности и статистической значимости.

Пошаговый алгоритм

Процесс А: Офлайн-генерация моделей взаимодействий

Сбор данных: Агрегация логов поисковых сессий множества пользователей (запросы, документы, клики/показы). Построение Query-Document Model.
Извлечение и фильтрация признаков: Обработка всех запросов и документов для идентификации Query Features и Document Features. Фильтрация признаков по частоте и количеству пользователей (порог). Построение Query-Feature Model и Document-Feature Model.
Генерация Query Feature-Document Feature Model: Трансформация взаимодействий из пространства «запрос-документ» в пространство признаков.
Вычисление мер взаимодействий: Для каждой пары (Query Feature, Document Feature) вычисляется Past Interaction Measure путем суммирования всех взаимодействий, где запрос и документ обладали соответствующими признаками.
Сохранение модели: Сохранение Query Feature-Document Feature Model с рассчитанными мерами.

Процесс Б: Обработка запроса в реальном времени

Получение запроса и отбор кандидатов: Идентификация релевантных документов (responsive documents).
Извлечение признаков: Идентификация Query Features (QF) запроса и Document Features (DF) документа-кандидата.
Расчет Query Dependent Measure (QD): Для каждой пары (QF из запроса, DF из документа) получается Past Interaction Measure из офлайн-модели. Меры агрегируются (например, суммируются) для получения итоговой QD.
Расчет Query Independent Measure (QI): Для каждого DF из документа получается мера его взаимодействия с запросами, не имеющими QF текущего запроса. Меры агрегируются для получения итоговой QI.
Вычисление итоговой оценки: Комбинирование QD, QI и других сигналов ранжирования (например, базовой релевантности) для получения финального скора. Патент предлагает, что функция ранжирования может быть обученной моделью (machine learned ranking function) или адаптивной корректировкой базовой оценки.
Ранжирование и выдача: Сортировка документов по финальному скору.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Агрегированные): Критически важные данные. Исторические данные о взаимодействиях (past interactions) множества пользователей. Учитываются клики (selections), отношение кликов к показам (clicked to observed fraction), просмотры, количество доступов к документу (document access counts), движения курсора (cursor tracking), touch-жесты.
Структурные факторы (Structural Features): Активно используются для извлечения признаков.
- Для Email: Поля From (From content, например, домен отправителя), Subject (Subject content).
- Шаблоны (Templates) с плейсхолдерами (например, «Order Confirmation [#]»).
- Совместная встречаемость (co-occurrence) признаков (например, Отправитель + Шаблон).
- Тип файла (file type/extension).
Контентные факторы (N-gram Features): N-граммы используются как признаки запросов и документов.
Классификационные данные (Category Features): Категории документа (Покупки, Финансы, Путешествия), определяемые с помощью моделей машинного обучения (machine learning model) или классификаторов.

Какие метрики используются и как они считаются

Past Interaction Measure: Основная метрика, рассчитываемая офлайн для каждой пары (Признак Запроса, Признак Документа). Рассчитывается как сумма взаимодействий (кликов/показов) по всем запросам и документам, которые ассоциированы с соответствующими признаками.
Query Dependent Measure (QD): Рассчитывается онлайн путем агрегации (сумма, среднее или другая статистическая комбинация) релевантных Past Interaction Measures для текущей пары запрос-документ.
Query Independent Measure (QI): Рассчитывается онлайн путем агрегации Past Interaction Measures между признаками документа и признаками запросов, не связанных с текущим запросом.
Пороги (Thresholds): Используются при построении моделей для фильтрации признаков по количеству пользователей и частоте встречаемости для обеспечения конфиденциальности и значимости.

Выводы

Переход от прямых взаимодействий к взаимодействиям признаков: Ключевой вывод — смещение фокуса с анализа на уровне (Запрос, Документ) к анализу на уровне (Признак Запроса, Признак Документа). Это позволяет обобщать поведенческие данные и применять их к новым или уникальным документам.
Решение проблемы «холодного старта»: Патент предоставляет механизм для ранжирования документов без истории взаимодействий (access restricted documents или новые веб-страницы), позволяя оценить их релевантность на основе поведения пользователей на похожем контенте (схожем по признакам).
Важность структуры и шаблонов (Feature Extraction): Эффективность системы зависит от качества извлечения признаков. Структурные признаки (templates) и категории играют решающую роль, позволяя группировать похожие документы (например, все подтверждения заказов).
Использование агрегированных данных (Crowd Wisdom): Система использует данные множества пользователей для улучшения поиска у одного пользователя, но делает это безопасно, агрегируя данные на уровне общих признаков и применяя пороги конфиденциальности.
Два аспекта качества: Релевантность и Важность: Использование Query Dependent Measure (контекстуальная релевантность признаков) и Query Independent Measure (общая важность/популярность признаков) позволяет системе балансировать оценку.

Практика

Best practices (это мы делаем)

Патент имеет значение как для стратегии публичного SEO (экстраполяция принципов), так и для оптимизации контента, попадающего в персональные корпусы (Email-маркетинг).

Стратегия публичного SEO (Экстраполяция):

Использование проверенных структур и форматов контента: Структурируйте контент в соответствии с устоявшимися в нише шаблонами, которые ассоциируются с высоким вовлечением. Если Google применяет аналогичные механизмы в веб-поиске, то контент с распознаваемыми положительными Document Features может получить преимущество при «холодном старте».
Четкая категоризация и разметка: Помогайте системе корректно извлекать признаки. Используйте логичную архитектуру, семантическую верстку и микроразметку (Schema.org). Это увеличивает вероятность корректной ассоциации контента с высокоэффективными признаками (Category features, Structural features).
Оптимизация шаблонов страниц: Убедитесь, что шаблоны ключевых страниц (карточки товаров, статьи) оптимизированы для вовлечения. Если определенный шаблон (как Document Feature) ассоциируется с положительным пользовательским опытом в масштабах веба, новые страницы с этим шаблоном могут наследовать положительные сигналы.

Оптимизация Email (Прямое применение):

Консистентность Отправителя и Темы: Используйте четкие и постоянные поля «От кого» (From) и «Тема» (Subject) для транзакционных писем. Это помогает Google извлекать надежные Structural features.
Использование стандартизированных шаблонов (Templates): Применяйте консистентные шаблоны для однотипных писем (например, «Подтверждение заказа №[#]»). Письма с высокой вовлеченностью повысят Past Interaction Measures для этого шаблона у всех пользователей, улучшая их видимость при поиске в почте.

Worst practices (это делать не надо)

Использование нестандартных или запутанных структур (Web и Email): Нелогичные макеты страниц или запутанные темы писем могут помешать системе идентифицировать Document Features, или эти признаки будут ассоциироваться с низким вовлечением.
Частая смена формата транзакционных писем или ключевых шаблонов страниц: Затрудняет идентификацию консистентных признаков и мешает агрегации сигналов взаимодействия.
Игнорирование структуры контента: Создание контента без четкой структуры затрудняет извлечение признаков и снижает вероятность наследования положительных сигналов от похожих документов.

Стратегическое значение

Патент подтверждает движение Google в сторону сложных моделей машинного обучения, которые оперируют признаками (features) для интерпретации и обобщения поведенческих сигналов. Это снижает зависимость от прямых сигналов (как ссылки или точные вхождения ключей). Стратегически важно понимать, что структура контента и его соответствие успешным паттернам поведения пользователей могут быть факторами ранжирования сами по себе, даже до того, как конкретная страница наберет собственный трафик или ссылки.

Практические примеры

Сценарий 1: Ранжирование подтверждения заказа в Gmail (Прямое применение)

Запрос: Пользователь ищет «номер заказа книги».
Документ: Письмо с темой «Purchase Confirmation — A15FFX» от store@example.com. В теме нет слов из запроса.
Применение патента:
- Система извлекает Query Features (QF): «номер заказа», «книги».
- Система извлекает Document Features (DF): Отправитель=»store@example.com», Шаблон Темы=»Purchase Confirmation — [#]».
- Система проверяет модель и видит высокую Past Interaction Measure между QF=»номер заказа» и DF=Шаблон Темы=»Purchase Confirmation — [#]» (другие пользователи часто кликают на такие письма при таком поиске).
Результат: Письмо получает высокую Query Dependent Measure и повышается в выдаче, опережая письма с более точным вхождением ключевых слов, но с менее релевантными признаками.

Сценарий 2: Ранжирование новой страницы товара (Гипотеза для Web SEO)

Ситуация: Магазин публикует страницу нового товара. Истории посещений и ссылок нет.
Применение механизма: Google идентифицирует Document Features: Категория=»Смартфоны», Структурный шаблон=»Карточка товара Тип А» (на основе структуры HTML, наличия таблицы характеристик, микроразметки Product).
Анализ: Офлайн-модель показывает, что пользователи, ищущие смартфоны (Query Feature), активно взаимодействуют с документами, имеющими Структурный шаблон=»Карточка товара Тип А».
Результат: Новая страница получает высокий Query Dependent Measure, основанный на успехе этого шаблона на других страницах/сайтах, и получает буст в ранжировании при «холодном старте».

Вопросы и ответы

Применяется ли этот патент для ранжирования обычных веб-страниц в поиске Google?

Патент в первую очередь описывает механизм для ранжирования документов с ограниченным доступом (access restricted documents), таких как email. Однако, технические методы обобщения поведенческих сигналов на основе признаков являются фундаментальными и могут применяться Google и в публичном веб-поиске для ранжирования новых страниц или контента для низкочастотных запросов (long-tail), где прямых данных недостаточно.

Что такое «Признаки документа» (Document Features) в контексте этого патента?

Это характеристики, позволяющие группировать похожие документы. В патенте выделяются структурные признаки (например, домен отправителя письма, шаблон темы письма, тип файла), категориальные признаки (Покупки, Финансы) и n-граммы. Для веб-страниц это могут быть шаблоны верстки, наличие определенных блоков (например, таблица характеристик), использование микроразметки.

В чем разница между Query Dependent Measure (QD) и Query Independent Measure (QI)?

QD оценивает релевантность признаков документа в контексте признаков текущего запроса (контекстуальная популярность). QI оценивает общую популярность признаков документа независимо от текущего запроса (общая важность или авторитетность признаков). Оба сигнала используются при ранжировании для балансировки оценки.

Как система обеспечивает конфиденциальность, если она использует данные о моих личных документах?

Система агрегирует данные от множества пользователей на уровне общих признаков, а не конкретного контента. В модель включаются только те признаки (например, шаблоны), которые встречаются у достаточного количества пользователей (threshold quantity). Это гарантирует, что в модели не сохраняется уникальная персональная информация, а только общие паттерны взаимодействий.

Может ли этот механизм ранжировать документ, который никогда ранее не участвовал в поиске?

Да, это основная цель изобретения – решение проблемы «холодного старта». Ранжирование происходит на основе признаков документа и агрегированных данных о взаимодействии с этими признаками в прошлом. Патент подчеркивает (Claim 1), что оценка генерируется без ссылки на какие-либо прошлые взаимодействия, специфичные для данного конкретного документа.

Как этот патент влияет на Email-маркетинг?

Он имеет значительное влияние. Чтобы ваши письма хорошо ранжировались при поиске внутри почтового ящика пользователя (например, в Gmail), они должны иметь четкие и консистентные признаки (Отправитель, Шаблон Темы). Высокая вовлеченность пользователей с вашими письмами улучшает Past Interaction Measures для этих признаков, повышая их видимость при поиске у всех получателей.

Что такое «шаблон» (template) как признак документа?

Это структурный признак, который обобщает содержимое поля. Шаблон включает постоянные термины и плейсхолдеры. Например, письма с темами «Order Confirmation 123» и «Order Confirmation XYZ» будут соответствовать шаблону «Order Confirmation [#]». Это позволяет агрегировать данные по схожим документам, игнорируя уникальные идентификаторы.

Как этот патент влияет на SEO-стратегию для новых сайтов?

Он помогает решить проблему «холодного старта». Если новый сайт использует структуру и типы контента (Document Features), которые доказали свою эффективность (высокое взаимодействие) на других сайтах, он может наследовать положительные агрегированные поведенческие сигналы, связанные с этими признаками, и получить преимущество в ранжировании на старте.

Может ли использование непопулярного шаблона дизайна сайта негативно сказаться на ранжировании?

Да, это возможно, если Google применяет эту технологию в веб-поиске. Если система идентифицирует ваш шаблон как Document Feature, и этот признак ассоциируется с низким уровнем взаимодействия пользователей (например, высокий показатель отказов в масштабах веба), то Past Interaction Measure для этого признака будет низким, что может негативно повлиять на ранжирование.

Какие типы взаимодействий учитываются?

Патент упоминает различные типы взаимодействий (past interactions), включая выбор результатов поиска (клики, selections), соотношение кликов к показам (clicked to observed fraction), количество доступов к документу (document access counts), отслеживание курсора (cursor tracking) и touch-жесты.