Как Google использует машинное обучение для определения типа контента (Вертикали), который ищет пользователь (Universal Search)

Google использует модель машинного обучения для определения того, какой тип контента (Новости, Картинки, Товары, Веб-страницы) пользователь хочет видеть в ответ на запрос. Модель анализирует запрос, контекст пользователя и исторические данные о кликах, чтобы рассчитать «оценку желания» для каждого репозитория. На основе этих оценок система решает, какие вертикали искать, какие результаты показывать и насколько заметно их размещать на странице выдачи.

Описание

Какую задачу решает

Патент решает проблему выбора релевантного типа контента при наличии у поисковой системы нескольких специализированных репозиториев (вертикалей), таких как Веб, Картинки, Новости, Товары. Он устраняет необходимость пользователя вручную переключаться между интерфейсами поиска по разным вертикалям, автоматически определяя наиболее вероятный интент пользователя относительно типа желаемого контента.

Что запатентовано

Запатентована система, использующая модель машинного обучения для прогнозирования вероятности того, что пользователь желает получить информацию из определенного репозитория (вертикали) в ответ на конкретный запрос. Эта модель использует запрос, информацию о пользователе и исторические данные для расчета «оценки желания» (score) для каждого репозитория.

Как это работает

Система работает в несколько этапов:

Получение данных: Система получает запрос (q) и контекст пользователя (u).
Применение модели: Модель машинного обучения применяется к каждому доступному репозиторию (r).
Расчет оценки: Рассчитывается оценка (score), отражающая вероятность того, что пользователь желает контент именно из этого репозитория P(desire|u, q, show_r).
Принятие решения: На основе оценок система решает, какие репозитории искать (Search) и/или какие результаты из них отображать (Blending/Presentation).
Формирование выдачи: Генерируется смешанная выдача (Universal Search), где формат отображения (например, блок результатов или ссылка на вертикаль) и позиция зависят от рассчитанных оценок.

Актуальность для SEO

Критическая. Патент описывает фундаментальные механизмы, лежащие в основе Универсального Поиска (Universal Search) и смешивания результатов (Blended Search). Эти механизмы являются центральными для современной поисковой выдачи Google, где определение интента и предоставление наиболее подходящего формата контента имеют первостепенное значение. Хотя конкретные модели ML эволюционировали с момента подачи оригинальной заявки (2005 г.), запатентованный процесс остается ядром системы.

Важность для SEO

Критическое влияние (95/100). Этот патент объясняет механизм, который определяет, будет ли ваш контент конкурировать в основной веб-выдаче или в специализированной вертикали (Картинки, Новости, Видео и т.д.). Понимание факторов, влияющих на модель (особенно исторических данных о кликах и контекста пользователя), критически важно для оптимизации под конкретные типы интента и обеспечения видимости в соответствующих блоках SERP.

Детальный разбор

Термины и определения

Repository (Репозиторий): Специализированная база данных или индекс, содержащий определенный тип данных (например, Web Page Repository, Image Repository, News Repository, Product Repository). Синоним «Вертикали» в SEO-терминологии.
Model (Модель): Модель машинного обучения (например, логистическая регрессия, boosted decision trees), обученная на исторических данных для прогнозирования поведения пользователя.
Instance (Экземпляр): Единица данных для обучения модели, представленная в виде тройки (u, q, r).
(u, q, r) Triple: Структура данных, где ‘u’ – информация о пользователе, ‘q’ – информация о запросе, ‘r’ – информация о репозитории.
Label (Метка): Целевая переменная для обучения модели. Указывает, желал ли пользователь ‘u’ информацию из репозитория ‘r’ при запросе ‘q’ (например, был ли совершен клик по результату из этого репозитория).
Features (Признаки): Входные переменные для модели, извлеченные из (u, q, r). Включают данные о пользователе, запросе, репозитории и их взаимодействии.
Score (Оценка): Выходное значение модели. Представляет собой вероятность или показатель уверенности в том, что пользователь желает информацию из данного репозитория. P(desire|u, q, show_r).
Exploration Policy (Политика исследования): Механизм намеренного показа результатов из субоптимальных репозиториев для сбора дополнительных данных для обучения модели.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения и представления результатов из разных репозиториев.

Система получает поисковый запрос и дополнительную информацию (контекст пользователя).
Идентифицируются несколько репозиториев, каждый из которых содержит разные типы данных.
К каждому репозиторию применяется модель, основанная на запросе и контексте пользователя.
Для каждого репозитория получается оценка (score).
На основе этих оценок и запроса выполняется поиск по крайней мере в одном из репозиториев.
Предоставляется информация из более чем одного репозитория в следующем формате:
- Первая информация из первого репозитория (связанная с результатами поиска первого типа).
- Вторая информация из второго репозитория (связанная со ссылкой на результаты поиска второго типа).

Это описание процесса смешивания результатов (Blending) в Universal Search. Система использует модель ML для оценки релевантности каждой вертикали (репозитория) для данного запроса и пользователя. Ключевым моментом является то, что формат представления зависит от оценок: одни вертикали могут отображаться непосредственно в виде результатов (например, блок картинок), в то время как другие могут быть представлены только в виде ссылки (например, «Смотреть новости по запросу…»).

Claim 4 и 7 (Зависимые): Детализируют механизм представления результатов.

Информация размещается в документе результатов поиска (SERP) на основе соответствующих оценок (scores) для каждого репозитория. (Claim 4)
Первая информация позиционируется выше второй информации на основе сравнения оценки первого и второго репозиториев. (Claim 7)

Оценки (scores), полученные от модели, напрямую определяют ранжирование и видимость блоков различных вертикалей в SERP. Чем выше оценка желания для репозитория, тем выше будет расположен его блок.

Claim 5 (Зависимый): Описывает генерацию модели.

Модель генерируется на основе информации, связанной с лог-данными, сформированными в виде троек (u, q, r).

Подтверждает, что модель обучается на исторических данных о взаимодействии пользователей, запросов и репозиториев.

Где и как применяется

Применение изобретения охватывает несколько этапов поиска и является ключевым для формирования финальной выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе собираются и индексируются данные для специализированных репозиториев (Картинки, Новости, Товары и т.д.).

QUNDERSTANDING – Понимание Запросов
Понимание запроса (q) и контекста пользователя (u) критически важно как входные данные для модели. Предварительная классификация интента может использоваться как признак (Feature) в модели.

RANKING – Ранжирование
Система может использовать модель для принятия решения о том, какие репозитории вообще следует запрашивать (Retrieval). В одном из вариантов реализации используется «приблизительная» модель с «дешевыми» признаками (не требующими поиска по документам), чтобы определить, стоит ли тратить ресурсы на поиск в конкретной вертикали.

METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
Это основное место применения патента. После того как результаты из разных репозиториев получены, система применяет полную модель для расчета финальных оценок (scores) P(desire|u, q, show_r). На основе этих оценок происходит агрегация и смешивание (Blending). Система определяет, какие результаты включить в SERP, в каком формате (блок результатов vs ссылка) и на какой позиции.

Входные данные:

Запрос пользователя (q).
Контекст пользователя (u) (IP, cookie, язык, география, время суток).
Признаки (Features), извлеченные из u, q, r.
(Опционально) Результаты поиска из репозиториев (если модель использует признаки, основанные на контенте документов).

Выходные данные:

Оценки (Scores) для каждого репозитория.
Решение о том, какие репозитории использовать.
Финальная структура SERP с определенным позиционированием и форматом представления результатов.

На что влияет

Типы контента и форматы: Влияет на все типы контента, которые хранятся в отдельных репозиториях (статьи, товары, изображения, видео, книги, карты). Определяет их видимость и формат отображения в SERP.
Специфические запросы: Наиболее заметное влияние на запросы с неоднозначным интентом или запросы, где интент смещен в сторону определенного типа медиа (например, «закат» часто подразумевает картинки).
Языковые и географические ограничения: Модель явно учитывает географию и язык пользователя как признаки (Features), что означает, что поведение системы может различаться в разных регионах в зависимости от исторических паттернов поведения пользователей.

Когда применяется

Условия работы: Алгоритм применяется при каждом запросе к поисковой системе, которая поддерживает несколько репозиториев.
Триггеры активации: Активация показа конкретного репозитория происходит, когда его оценка (score) превышает определенный порог или оказывается выше, чем у других репозиториев, согласно правилам смешивания (Blending Rules).

Пошаговый алгоритм

Процесс А: Офлайн-генерация модели

Сбор данных: Сбор лог-данных о поисковых сессиях.
Представление данных: Формирование набора экземпляров в виде троек (u, q, r).
Определение меток (Labels): Для каждого экземпляра определение, желал ли пользователь контент из репозитория ‘r’ (например, был ли клик).
Определение признаков (Features): Извлечение признаков из данных пользователя, запроса, репозитория и их взаимодействий.
Генерация модели: Обучение модели машинного обучения для прогнозирования P(desire|u, q, show_r).

Процесс Б: Обработка запроса в реальном времени (Пример варианта реализации)

Получение запроса (q) и контекста (u).
Предварительный расчет оценок: Применение модели (возможно, ее аппроксимации с «дешевыми» признаками, не требующими доступа к документам) для расчета предварительных оценок для репозиториев.
Выбор репозиториев для поиска: Определение, какие репозитории будут искаться, на основе предварительных оценок (например, Топ-N или выше порога).
Выполнение поиска: Поиск только в выбранных репозиториях.
Финальный расчет оценок: Применение полной модели (включая признаки, основанные на содержании полученных документов) для уточнения оценок.
Определение формата и позиции: Определение способа представления (блок результатов или ссылка) и позиции в SERP на основе величины финальных оценок.
Формирование SERP: Генерация смешанной страницы результатов поиска.

Какие данные и как использует

Данные на входе

Патент детально описывает признаки (Features), используемые моделью.

Пользовательские факторы (u):

IP-адрес, Cookie ID.
Язык пользователя и язык страны.
Географическая информация (страна).
История пользователя (предшествующие запросы).

Временные факторы:

Время суток и день недели, когда был предоставлен запрос.

Контентные факторы (q и r):

Термины в запросе (q) и язык запроса (q).
(Опционально, для полной модели) Термины в документах и заголовках (titles) документов, полученных из репозитория (r).

Поведенческие факторы (Взаимодействие u, q, r):

Это ключевые данные для обучения и работы модели.
Доля запросов, направленных на интерфейс репозитория ‘r’.
Общий CTR (click rate) для запросов к интерфейсу репозитория ‘r’.
CTR для репозитория ‘r’ конкретно для пользователя ‘u’ или для пользователей из той же страны.
CTR для запроса ‘q’, направленного на интерфейс репозитория ‘r’.
CTR для запроса ‘q’ к репозиторию ‘r’ конкретно для пользователя ‘u’ (может быть спрогнозирован отдельной моделью).

Какие метрики используются и как они считаются

P(desire|u, q, show_r): Основная метрика, рассчитываемая моделью. Вероятность того, что пользователь ‘u’ желает информацию из репозитория ‘r’ при запросе ‘q’.
Score: Обобщенное название выходного значения модели (вероятность или показатель уверенности).
Алгоритмы машинного обучения: Патент упоминает стандартные техники: логистическая регрессия (logic regression), boosted decision trees, random forests, support vector machines (SVM), perceptrons.
Lookup Table: В одном из вариантов реализации модель может быть реализована как таблица поиска (lookup table), ключом которой являются признаки (например, термины запроса), а значением — оценочный CTR для каждого репозитория.

Выводы

Фундамент Universal Search: Патент описывает базовый механизм, позволяющий Google реализовать смешанную выдачу (Universal/Blended Search). Система не просто ищет по всем вертикалям, а использует машинное обучение для прогнозирования, какая вертикаль наиболее релевантна для пользователя.
Интент определяется типом контента: Ключевая идея — интент пользователя часто выражается в желании получить определенный тип контента (новости, картинки, товары), а не только текстовую информацию.
Критичность поведенческих данных (CTR): Модель обучается на логах кликов (Labels) и активно использует исторические данные о CTR (Features) для разных комбинаций пользователей, запросов и репозиториев. Это подтверждает, что паттерны поведения пользователей напрямую влияют на то, как Google классифицирует интент запроса.
Персонализация и Контекст: Модель явно учитывает контекст пользователя (u) — локацию, язык, время, историю поиска. Это означает, что одна и та же выдача может содержать разные блоки вертикалей для разных пользователей.
Динамическое формирование SERP: Оценки (Scores) определяют не только факт показа вертикали, но и ее позицию и формат отображения (блок результатов vs ссылка). Это позволяет динамически адаптировать вид SERP под предполагаемый интент.
Оптимизация ресурсов: Система может использовать «дешевые» модели для принятия решения о том, стоит ли вообще искать в определенной вертикали, экономя вычислительные ресурсы.

Практика

Best practices (это мы делаем)

Оптимизация под Вертикали (Vertical Optimization): Необходимо создавать и оптимизировать контент для соответствующих специализированных репозиториев. Если модель определяет, что по запросу пользователи предпочитают картинки (высокий Score для Image Repository), необходимо иметь качественные, оптимизированные изображения для ранжирования в этом блоке.
Улучшение поведенческих сигналов (CTR) для типа контента: Поскольку модель сильно зависит от исторических данных о кликах, необходимо максимизировать CTR контента в его вертикали. Например, для новостей — это кликабельные заголовки и релевантность свежим событиям; для товаров — привлекательные изображения и цены; для картинок — высокое качество и релевантность.
Анализ интента на уровне типа контента: При исследовании ключевых слов необходимо определять, какой тип контента предпочитают пользователи (анализируя текущий состав SERP). Если Google стабильно показывает определенную вертикаль высоко (что указывает на высокий Score), фокусироваться нужно на оптимизации под эту вертикаль.
Использование структурированных данных: Для обеспечения попадания контента в соответствующие репозитории (Products, News, Video) и его корректного отображения в смешанной выдаче критически важно использовать релевантную микроразметку (Schema.org).

Worst practices (это делать не надо)

Игнорирование специализированных вертикалей: Фокусироваться только на оптимизации для стандартной веб-выдачи (Web Page Repository) неэффективно, если модель определяет, что пользователи предпочитают другой тип контента по целевым запросам.
Создание контента неподходящего типа: Попытки ранжировать текстовую статью по запросу, где доминирует видео-интент (высокий Score для Video Repository), скорее всего, будут безуспешны.
Манипуляции с CTR на короткой дистанции: Хотя CTR является важным признаком, попытки искусственной накрутки вряд ли изменят глобальные паттерны, на которых обучается модель, и могут быть отфильтрованы системами борьбы со спамом.

Стратегическое значение

Патент подтверждает стратегию Google на диверсификацию поисковой выдачи и уход от «10 синих ссылок». Стратегическое SEO должно охватывать все релевантные типы контента и вертикали. Понимание того, как Google использует ML для классификации интента по типу контента, позволяет более точно прогнозировать изменения в SERP и адаптировать контент-стратегию под реальные предпочтения пользователей, которые Google измеряет через поведенческие данные.

Практические примеры

Сценарий: Оптимизация информационного запроса с медиа-интентом.

Анализ запроса: Запрос «как завязать галстук». Анализ SERP показывает, что на первых позициях находятся блоки Видео и Картинок.
Интерпретация (на основе патента): Модель ML определила, что P(desire|Video Repository) и P(desire|Image Repository) значительно выше, чем P(desire|Web Page Repository), основываясь на исторических данных о кликах (пользователи предпочитают смотреть, а не читать).
Действия SEO: Вместо создания длинной текстовой инструкции, основной фокус должен быть на создании качественного видео-туториала, оптимизированного для попадания в Video Repository, и пошаговой схемы-изображения (для Image Repository). Текстовый контент должен дополнять медиа и содержать соответствующую разметку.
Ожидаемый результат: Повышение вероятности ранжирования в доминирующих блоках вертикалей, что приведет к большему трафику, чем попытки конкурировать в стандартной веб-выдаче.

Вопросы и ответы

Что такое «Репозиторий» в контексте этого патента?

Репозиторий — это специализированный индекс или база данных Google, содержащая определенный тип контента. В терминах SEO это соответствует «Вертикалям» поиска, таким как Картинки, Новости, Видео, Товары или стандартный Веб-индекс.

Как система определяет, какой репозиторий показать пользователю?

Система использует модель машинного обучения, которая анализирует запрос (q), контекст пользователя (u) и исторические данные. Модель рассчитывает оценку (Score) для каждого репозитория (r), которая отражает вероятность того, что пользователь желает получить контент именно из него (P(desire|u, q, r)).

Какие факторы влияют на решение модели?

Ключевые факторы включают термины запроса, локацию и язык пользователя, время суток, историю поиска, а также исторические данные о поведении (CTR) для похожих запросов и пользователей. Например, если пользователи часто кликают на картинки по определенному запросу, модель научится чаще показывать Image Repository по этому запросу.

Влияет ли эта система на ранжирование внутри SERP?

Да, напрямую. Оценка (Score), полученная для репозитория, определяет не только факт его показа, но и его позицию на странице выдачи. Репозиторий с более высокой оценкой будет показан более заметно (выше).

Означает ли это, что Google всегда ищет во всех вертикалях?

Не обязательно. Патент описывает два варианта. В одном варианте поиск выполняется по всем репозиториям, а затем модель решает, что показать. В другом, более эффективном варианте, модель сначала определяет, в каких репозиториях стоит искать, и поиск выполняется только в них.

Как этот патент связан с Universal Search?

Этот патент описывает технологию, которая лежит в основе Universal Search (Универсального Поиска) или Blended Search (Смешанного Поиска). Это механизм, который позволяет Google смешивать результаты из разных вертикалей на одной странице выдачи.

Как SEO-специалист может повлиять на эту модель?

Напрямую повлиять на модель сложно, так как она основана на машинном обучении и глобальных данных. Однако можно повлиять косвенно, создавая качественный контент, оптимизированный под правильную вертикаль, и улучшая его поведенческие факторы (CTR). Если ваш контент лучше удовлетворяет интент пользователя в рамках своей вертикали, это улучшает данные, на которых обучается модель.

Учитывает ли модель качество контента в репозитории?

Патент упоминает, что в полной версии модели могут использоваться признаки, основанные на содержании найденных документов (термины в тексте и заголовках). Хотя качество напрямую не обсуждается, эти признаки позволяют модели оценить релевантность результатов внутри репозитория перед принятием решения о показе.

Что такое «Политика исследования» (Exploration Policy)?

Это механизм, при котором Google может намеренно показывать результаты из менее оптимального репозитория небольшому проценту пользователей. Это делается для сбора свежих данных о поведении пользователей и дообучения модели, чтобы она могла адаптироваться к изменениям в интенте.

Что важнее: оптимизация под веб-поиск или под вертикали?

Это полностью зависит от интента запроса. Если модель Google определяет, что пользователи предпочитают определенную вертикаль (например, Видео) по вашему запросу, оптимизация под эту вертикаль становится приоритетной. Игнорирование доминирующей вертикали означает потерю видимости.