Google анализирует, в каких корпусах (Веб, Картинки, Новости и т.д.) пользователи чаще ищут и кликают результаты по конкретному запросу. Система рассчитывает показатель относительной релевантности между корпусами и использует его для повышения или понижения результатов из этих корпусов при формировании смешанной (Universal Search) выдачи, чтобы лучше соответствовать намерениям пользователей.
Описание
Какую задачу решает
Патент решает задачу определения того, какой тип контента или корпус (например, Веб, Изображения, Новости, Видео) является наиболее релевантным для конкретного поискового запроса. Это критически важно для формирования Универсальной выдачи (Universal Search), где необходимо сравнивать релевантность результатов из разных вертикальных индексов и определять, какие из них следует показать и насколько высоко (Blending).
Что запатентовано
Запатентована система, которая использует исторические данные о поведении пользователей для определения относительной релевантности различных корпусов (вертикалей поиска) для данного запроса. Система анализирует два ключевых сигнала: статистику поиска (в каком корпусе пользователи предпочитают вводить запрос) и статистику кликов (на результаты из какого корпуса пользователи кликают). На основе этих данных вычисляется Мера относительной релевантности (Measure of Relative Relevance), используемая для модификации ранжирования.
Как это работает
Система работает путем анализа исторических данных (логов поиска):
- Нормализация популярности: Система определяет, какую долю от всех поисков в конкретном корпусе составляет данный запрос (Corpus Search Fraction, R(Q,CP)). Это позволяет сравнивать популярность запроса в больших (Web) и малых (News) корпусах.
- Сравнение корпусов: Вычисляется Relative Search Fraction (RSF). Если запрос пропорционально более популярен в Корпусе 2, чем в Корпусе 1, RSF будет больше 1.
- Интеграция кликов: RSF комбинируется с данными о кликах (Relative Click Fraction или CTR), которые показывают удовлетворенность пользователей результатами из корпуса.
- Модификация ранжирования: На этапе смешивания (Blending) результаты из более релевантного корпуса получают повышение (boost) на основе вычисленной Меры относительной релевантности.
- Адаптация: Система учитывает контекст (язык, страна) и свежесть данных (используя Exponential Moving Average).
Актуальность для SEO
Высокая. Механизмы Универсального Поиска (Universal Search) и смешивания результатов из разных вертикалей являются фундаментом современной поисковой выдачи Google. Этот патент описывает конкретную методологию, основанную на данных о поведении пользователей, для определения того, какие вертикали должны доминировать в SERP для конкретного запроса, с учетом контекста и трендов.
Важность для SEO
Патент имеет высокое стратегическое значение (85/100) для SEO. Он описывает механизм, определяющий структуру SERP и то, будут ли результаты из определенной вертикали (например, Картинки, Видео, Новости) доминировать в выдаче по запросу. Это напрямую влияет на видимость контента и требует от SEO-специалистов оптимизации контента под те корпуса, которые система считает наиболее релевантными для целевых запросов.
Детальный разбор
Термины и определения
- Corpus (Корпус)
- Коллекция или репозиторий контента. В контексте патента – это вертикальные индексы поиска (например, Веб, Картинки, Новости, Карты, Видео).
- Corpus Search Fraction (R(Q,CP))
- Доля поисков запроса Q в корпусе CP относительно общего числа поисков всех запросов в этом корпусе CP. Показатель популярности запроса внутри конкретного корпуса.
- Relative Search Fraction (RSF(Q,CP2,CP1))
- Относительная доля поиска. Отношение R(Q,CP2) к R(Q,CP1). Показывает, насколько запрос популярнее в Корпусе 2 по сравнению с Корпусом 1.
- Click Measure (Метрика кликов)
- Показатель, основанный на количестве кликов по результатам из определенного корпуса. Может включать CTR или Relative Click Fraction (RCF).
- Measure of relative relevance (Мера относительной релевантности)
- Итоговый показатель, определяющий релевантность одного корпуса по сравнению с другим для данного запроса. Является взвешенной комбинацией RSF и Click Measure.
- Base Corpus (Базовый корпус, CP1)
- Корпус, относительно которого рассчитываются относительные показатели, или корпус, в котором был инициирован поиск.
- Under-represented Corpus (Недопредставленный корпус, CP2)
- Корпус, результаты из которого подмешиваются в выдачу базового корпуса (например, блок Картинок в Веб-поиске).
- OCTR
- CTR результатов из недопредставленного корпуса, когда они показаны в выдаче базового корпуса.
- Granularity (Гранулярность)
- Уровень детализации статистики (например, глобальная, языковая (L), страновая (C)).
- Smoothing (Сглаживание)
- Метод комбинирования статистических данных разной степени гранулярности для получения более надежной оценки при недостатке данных.
- Exponential Moving Average (Экспоненциальное скользящее среднее)
- Метод расчета статистики, придающий больший вес более свежим данным для учета трендов и изменений в поведении пользователей (временное затухание).
- Squashing Function (Сжимающая функция)
- Функция, преобразующая меру относительной релевантности в коэффициент ранжирования (boosting factor), часто с целью ограничения максимального значения бустинга.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения относительной релевантности корпусов для запроса.
- Определение первой меры для первого корпуса (CP1) по запросу (Q). Эта мера рассчитывается как количество раз, когда Q был отправлен для поиска в CP1, по отношению к количеству раз, когда другие запросы были отправлены для поиска в CP1 (т.е. Corpus Search Fraction).
- Определение второй меры для второго корпуса (CP2) по запросу Q аналогичным образом.
- Определение меры кликов (click measure), основанной на количестве выборов (кликов) результатов из CP1 по запросу Q относительно количества выборов результатов из CP2 по запросу Q.
- Определение меры относительной релевантности CP1 и CP2 для запроса Q на основе первой меры, второй меры И меры кликов.
- Предоставление этой меры относительной релевантности системе ранжирования.
Ядро изобретения заключается в комбинировании статистики популярности запросов внутри разных корпусов (где пользователи ищут) со статистикой кликов по результатам из этих корпусов (что пользователи выбирают) для определения относительной важности корпусов.
Claim 5 (Зависимый от 1): Уточняет расчет меры относительной релевантности.
Определение меры относительной релевантности включает вычисление взвешенной комбинации (weighted combination) относительной доли поиска (relative search fraction, основанной на первой и второй мерах) и меры кликов (click measure).
Claim 2 (Зависимый от 1): Уточняет учет времени.
Определение первой меры включает комбинирование множества определений релевантности, где каждое определение относится к разному периоду времени. Это соответствует использованию механизмов учета свежести, таких как Exponential Moving Average.
Claim 6 (Зависимый от 1): Вводит учет контекста (Язык/Страна).
Подсчеты для корпусов основаны на данных, специфичных для языка или страны. Метод включает выбор того, какие данные использовать, основываясь на том, обеспечат ли выбранные данные надежную статистику. Это описывает механизм гранулярности и сглаживания.
Где и как применяется
Изобретение применяется на нескольких этапах поиска, связывая офлайн-анализ поведения пользователей с онлайн-ранжированием.
INDEXING – Индексирование и извлечение признаков
Контент классифицируется и распределяется по соответствующим корпусам (Веб, Картинки, Новости и т.д.).
QUNDERSTANDING / RANKING (Офлайн-анализ)
Основная часть вычислений происходит офлайн. Система анализирует Session Logs и Search Logs для сбора статистики по парам запрос-корпус. Происходит расчет R(Q,CP), RSF, CTR и итоговой меры относительной релевантности. Эти данные сохраняются в базе данных.
METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
Это этап основного применения патента в реальном времени. При получении нового запроса система извлекает предварительно рассчитанную меру относительной релевантности.
- Получение коэффициентов: Система получает коэффициенты (boosting factors), основанные на мере относительной релевантности для данного запроса и контекста (L/C).
- Корректировка ранжирования: Эти коэффициенты используются для модификации базовых IR scores результатов, полученных из разных корпусов. Например, если корпус Картинок имеет высокий коэффициент относительно корпуса Веб, IR scores картинок будут повышены.
- Смешивание (Blending): Скорректированные оценки используются для формирования финальной смешанной выдачи (Universal Search).
Входные данные (Офлайн):
- Логи поиска и сессий (Запрос Q, Корпус CP, Время T, Язык L, Страна C, Клики, Показы).
Входные данные (Онлайн):
- Новый поисковый запрос и его контекст (L, C).
- Наборы результатов из разных корпусов с их базовыми IR scores.
- Предварительно рассчитанные меры относительной релевантности из базы данных.
Выходные данные:
- Смешанный набор результатов поиска (SERP) с модифицированными оценками ранжирования.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы с неоднозначным интентом или запросы, где интент сильно смещен в сторону определенного типа контента (визуальный, новостной, транзакционный).
- Конкретные типы контента: Влияет на видимость и позиционирование блоков изображений, видео, новостей, товаров, карт в основной поисковой выдаче.
- Языковые и географические ограничения: Система учитывает региональные и языковые особенности поведения. Релевантность корпусов может отличаться для одного и того же запроса в разных странах.
Когда применяется
- Условия применения: Алгоритм применяется для запросов, по которым собрана достаточная статистика поиска и кликов в двух или более корпусах. Система фокусируется на популярных запросах.
- Триггеры активации: Наличие в базе данных рассчитанной меры относительной релевантности для данного запроса (и контекста), превышающей пороговые значения для статистической значимости (threshold T).
- Временные рамки: Вычисления обновляются периодически (например, ежедневно). Благодаря использованию Exponential Moving Average, система адаптируется к изменениям в трендах и свежим данным.
Пошаговый алгоритм
Процесс А: Офлайн-обработка и обновление статистики (Периодически, например, ежедневно)
- Сбор данных: Обработка логов сессий за период. Агрегация статистики (количество поисков S, кликов, показов OI) по ключам k (Q, L, C) и корпусам CP.
- Фильтрация: Удаление статистики по парам запрос-корпус, которые не достигают порогового значения T (низкий объем данных).
- Расчет базовых показателей: Расчет Corpus Search Fraction (R(Q,CP)) и показателей кликов (например, CTR).
- Применение временного затухания: Обновление R(Q,CP) с использованием Exponential Moving Average, чтобы придать больший вес свежим данным.
- Применение сглаживания (Smoothing): Комбинирование статистики разной гранулярности (Глобальной, Языковой, Страновой) для получения надежной сглаженной оценки (R_smooth), особенно для редких комбинаций Q/L/C.
- Расчет относительной релевантности: Вычисление Relative Search Fraction (RSF) и относительных показателей кликов (RCF или отношение CTR) между разными корпусами.
- Вычисление итоговой меры: Комбинирование RSF и показателей кликов (взвешенное среднее) для получения меры относительной релевантности.
- Преобразование в коэффициент: Применение сжимающей функции (Squashing Function) для преобразования меры релевантности в финальный коэффициент ранжирования (boosting factor).
- Обновление Базы данных: Слияние новых данных с агрегированными данными за предыдущие дни в «Мастер» базе данных.
Процесс Б: Обработка запроса в реальном времени
- Получение запроса: Система получает запрос Q и контекст (L, C).
- Поиск в базе данных: Система ищет предварительно рассчитанные коэффициенты ранжирования для данного ключа k=(Q, L, C) и различных корпусов.
- Выбор гранулярности: Система выбирает наиболее подходящий уровень гранулярности, обеспечивающий надежную статистику.
- Получение результатов: Параллельно система получает результаты поиска из различных корпусов с их базовыми IR scores.
- Модификация оценок: Применение полученных коэффициентов к IR scores результатов в зависимости от их корпуса.
- Смешивание и ранжирование: Формирование финальной смешанной выдачи (Blending) на основе модифицированных оценок.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на анализе поведения пользователей и статистики запросов.
- Поведенческие факторы: Критически важные данные. Используются логи поиска и сессий, включающие:
- Количество поисков (Search statistics) в каждом корпусе (S(Q,CP)).
- Общее количество поисков в корпусе (S(CP)).
- Количество кликов (Click data) на результаты из каждого корпуса (SC, OC, BaseC).
- Количество показов (Impressions) результатов (OI).
- Пользовательские факторы / Географические факторы: Используется язык (L) и страна (C) пользователя для сегментации статистики (Гранулярность).
- Временные факторы: Данные агрегируются по временным периодам для учета свежести и трендов (Exponential Moving Average).
Какие метрики используются и как они считаются
- R(Q,CP) (Corpus Search Fraction): S(Q,CP) / S(CP).
- RSF(Q,CP2,CP1) (Relative Search Fraction): R(Q,CP2) / R(Q,CP1).
- Метрики кликов (RCF/CTR): Например, Relative Click Fraction (отношение кликов SC(Q,CP2) / SC(Q,CP1)) или отношение CTR (OCTR / BaseCTR).
- Measure of Relative Relevance: Взвешенная комбинация RSF и Метрик кликов.
- R_smooth (Сглаженная оценка): Рассчитывается путем взвешивания статистик разной гранулярности (Q vs Q,L vs Q,L,C) с использованием констант (например, K_Q, K_QL), которые определяют вес в зависимости от объема данных.
- R_[d] (Оценка с временным затуханием): Рассчитывается с помощью Exponential Moving Average, чтобы динамически регулировать вес старых и новых данных.
- Boosting Factor (Коэффициент повышения): Рассчитывается путем преобразования меры относительной релевантности с помощью Squashing Function. Пример формулы из описания патента: RSF * J / (RSF + J — 1), где J – константа (например, 40), ограничивающая максимальный буст.
Выводы
- Релевантность корпуса определяется поведением пользователей: Система определяет, какой тип контента (корпус) наиболее важен для запроса, основываясь на двух ключевых сигналах: где пользователи явно ищут (статистика поиска, RSF) и что они выбирают (статистика кликов, RCF/CTR).
- Нормализация по популярности корпуса критична: Используется Corpus Search Fraction (R(Q,CP)), а не абсолютное количество запросов. Это позволяет справедливо сравнивать популярность запроса в больших корпусах (Веб) и маленьких (Новости), определяя относительный интерес.
- Комбинирование сигналов поиска и кликов: Мера относительной релевантности объединяет оба типа данных. Данные о кликах могут считаться более сильным сигналом качества и удовлетворенности, чем данные о поиске, которые отражают лишь ожидания пользователей.
- Важность кросс-корпусных кликов: Система отслеживает клики на результаты из недопредставленных корпусов (например, клик на картинку в веб-выдаче). Высокий OCTR таких результатов является сильным сигналом для повышения этого корпуса в ранжировании.
- Адаптивность к контексту и времени: Система учитывает гранулярность (Язык, Страна) и использует сглаживание для надежности данных. Также применяется временное затухание (Exponential Moving Average) для быстрого реагирования на тренды и свежие события.
- Влияние на ранжирование через коэффициенты: Итоговая мера преобразуется (Squashing function) в коэффициент, который напрямую модифицирует IR scores результатов, определяя структуру смешанной выдачи (Universal Search).
Практика
Best practices (это мы делаем)
- Определяйте доминирующий корпус для целевых запросов: Анализируйте структуру SERP и поведение пользователей, чтобы понять, какой корпус (Web, Images, Video, Shopping, News) является основным для ваших ключевых слов. Если данные показывают высокую относительную релевантность определенного корпуса, стратегия должна фокусироваться на нем.
- Оптимизация под релевантные вертикали: Применяйте специфические стратегии оптимизации для доминирующего корпуса (например, Image SEO, если высок RSF для Картинок; оптимизация фидов для Shopping; техническая оптимизация для News).
- Повышение CTR в смешанной выдаче: Поскольку CTR (особенно OCTR) является важной частью расчета, критически важно работать над привлекательностью сниппетов вертикального контента (например, оптимизация миниатюр видео и изображений). Высокий CTR подтверждает релевантность корпуса.
- Учет региональных и языковых особенностей: Помните о гранулярности данных. Интент и предпочтительный формат могут отличаться для одного и того же запроса в разных странах. Анализируйте выдачу в целевых регионах.
- Реагирование на тренды: Используйте механизм учета свежести (Exponential Moving Average) в свою пользу. Оперативно создавайте контент в соответствующем формате (например, Новости) для трендовых запросов, чтобы перехватить трафик, когда система повысит релевантность этого корпуса.
Worst practices (это делать не надо)
- Игнорирование вертикального поиска: Фокусироваться только на стандартном веб-поиске, когда поведение пользователей указывает на релевантность других корпусов. Система понизит веб-результаты, если другие корпуса более релевантны (RSF < 1.0).
- Создание непривлекательного медиаконтента: Размещение видео или изображений низкого качества с неоптимизированными превью. Низкий CTR такого контента в смешанной выдаче приведет к понижению релевантности всего корпуса для данного запроса.
- Предположение о статичности интента: Предполагать, что предпочтения пользователей неизменны. Интент может меняться со временем или в зависимости от контекста (региона), и система адаптируется к этим изменениям.
Стратегическое значение
Патент подтверждает, что Google использует подход, основанный на данных о поведении пользователей, для оркестровки смешанной выдачи (Universal Search). Стратегическое значение для SEO заключается в переходе от оптимизации веб-страниц к оптимизации присутствия во всей экосистеме. Необходимо понимать интент пользователя не только на уровне ключевых слов, но и на уровне предпочтительного формата контента (корпуса) и соответствующим образом выстраивать комплексную контент-стратегию.
Практические примеры
Сценарий: Оптимизация для запроса с визуальным интентом
- Анализ запроса: SEO-специалист анализирует запрос «идеи дизайна кухни». В выдаче наблюдается большой блок Картинок на первой позиции.
- Интерпретация (на основе патента): Это означает, что Google определил высокую меру относительной релевантности для корпуса Картинок. Вероятно, пользователи часто искали этот запрос в Google Images (высокий RSF) и/или часто кликали на изображения в основной выдаче (высокий OCTR).
- Действия SEO: Фокус смещается на создание высококачественной галереи изображений. Изображения оптимизируются (Alt-текст, заголовки, качество превью) для повышения их CTR и ранжирования в корпусе Картинок.
- Ожидаемый результат: Контент попадает в корпус Картинок. Благодаря высокому бустингу этого корпуса по данному запросу, контент появляется на топовых позициях в блоке Картинок основной выдачи.
Сценарий: Реакция на трендовое событие
- Запрос: «Запуск новой модели iPhone» (до события).
- Анализ поведения: Доминирует Web корпус (статьи, слухи).
- Событие: Прошла презентация iPhone.
- Изменение поведения: Резкий рост поисков этого запроса в Google News и Google Video.
- Реакция системы: Благодаря Exponential Moving Average, система быстро фиксирует рост R(Q, News) и R(Q, Video). RSF для этих корпусов увеличивается.
- Результат в SERP: Блоки «Главные новости» и Видео вытесняют статические веб-результаты наверх выдачи.
Вопросы и ответы
Как система определяет, какой корпус важнее для запроса?
Система использует комбинацию двух основных факторов. Первый — это статистика поиска (Relative Search Fraction): насколько часто этот запрос ищут непосредственно в конкретном корпусе по сравнению с другими. Второй — это статистика кликов (CTR или Relative Click Fraction): как часто пользователи выбирают результаты из этого корпуса в смешанной выдаче. Оба фактора объединяются для вычисления итоговой меры относительной релевантности.
Что такое Corpus Search Fraction (R(Q,CP)) и почему не используется просто абсолютное число запросов?
Corpus Search Fraction — это доля, которую запрос занимает среди всех поисков в данном корпусе. Использование абсолютного числа запросов было бы некорректным из-за разницы в размерах корпусов (например, Веб огромен по сравнению с Новостями). Нормализация позволяет понять популярность запроса именно в контексте конкретного корпуса, что дает более точное представление об относительном интересе пользователей.
Что важнее: чтобы пользователи искали в корпусе (RSF) или чтобы они кликали на результаты из него (CTR/RCF)?
Патент предполагает использование обоих показателей во взвешенной комбинации (Claim 5). RSF показывает ожидания пользователей (где они думают найти ответ), а RCF/CTR показывает фактическую удовлетворенность. Часто статистика кликов может иметь больший вес, так как она является более прямым подтверждением релевантности контента.
Как влияют клики на блоки Universal Search (например, блок Картинок) в основной выдаче?
Эти клики критически важны. Патент описывает метрику OCTR (CTR недопредставленного корпуса). Если пользователи часто кликают на результаты в блоке Картинок (когда искали в Вебе), это сильный сигнал, что корпус Картинок очень релевантен запросу. Система может использовать отношение OCTR к CTR основных результатов для агрессивного повышения картинок в выдаче.
Учитывает ли система региональные различия в поведении пользователей?
Да, патент явно описывает агрегацию статистики с разной гранулярностью: глобально, по языку (L) и по стране (C). Система предпочитает использовать наиболее детальную статистику (Q, L, C), если данных достаточно. Это означает, что релевантность корпусов для одного и того же запроса может отличаться в разных странах и языковых сегментах.
Как система обрабатывает трендовые запросы или свежие события?
Для учета изменений система применяет Exponential Moving Average (экспоненциальное скользящее среднее) при расчете статистики. Это придает значительно больший вес недавним данным по сравнению с историческими. Это позволяет системе быстро адаптироваться, например, повышая релевантность корпуса Новостей или Видео во время актуальных событий.
Применяется ли этот механизм ко всем запросам?
Нет. В патенте указано, что система фокусируется на запросах, по которым накоплена достаточная статистика. Статистика по редким запросам или парам запрос-корпус с низким объемом данных отфильтровывается (threshold T) и не используется в этом механизме, чтобы сосредоточиться на популярных запросах и обеспечить статистическую значимость.
Что такое сглаживание (Smoothing) и зачем оно нужно?
Сглаживание используется, когда данных для конкретной комбинации (например, Запрос + Язык + Страна) недостаточно для надежной статистики. В этом случае система комбинирует эти данные с данными более низкого уровня гранулярности (например, глобальной статистикой для этого Запроса). Это позволяет получить более стабильную оценку релевантности, избегая ошибок из-за недостатка данных.
Что такое «Squashing Function» и как она влияет на ранжирование?
Это функция, которая преобразует показатель относительной релевантности в финальный бустинг-фактор. Она «сжимает» очень высокие значения релевантности, чтобы ограничить максимальный буст, который может получить результат из определенного корпуса. Это предотвращает ситуации, когда один фактор полностью подавляет все остальные сигналы ранжирования.
Какая практическая польза от этого патента для SEO-специалиста?
Главная польза — понимание механизма формирования смешанной выдачи. SEO-специалист должен анализировать, какой корпус (Вертикаль) является приоритетным для целевых запросов на основе интента пользователей, и фокусировать усилия на создании и оптимизации контента именно для этого корпуса. Также критически важно работать над повышением CTR своего контента в блоках Universal Search.