Как Яндекс выявляет трендовые запросы и интегрирует их в поисковые подсказки в реальном времени

Яндекс патентует метод улучшения поисковых подсказок (саджестов) за счет добавления свежих, трендовых запросов. Система анализирует недавнюю поисковую активность и свежие документы из надежных источников. Она рассчитывает частоту новых запросов, оценивает намерение пользователя получить свежий контент и измеряет взаимодействие (CTR). Ключевой механизм – масштабирование краткосрочной частоты свежих запросов для их корректного сравнения с долгосрочными историческими данными, что позволяет актуальным трендам появляться в подсказках.

Описание

Какую задачу решает

Патент решает проблему несвоевременности традиционных систем поисковых подсказок (саджестов). Обычные системы полагаются на долгосрочные исторические данные о популярности и кликабельности (CTR), из-за чего часто не успевают рекомендовать запросы, которые стали популярными недавно («свежие запросы»). Это приводит к тому, что система предлагает исторически популярные, но менее актуальные в данный момент варианты, игнорируя текущие тренды или новости. Изобретение улучшает релевантность подсказок в реальном времени.

Что запатентовано

Запатентована система интеграции «свежих» (fresh) поисковых подсказок с «классическими» (старыми). Суть изобретения заключается в механизме, который позволяет корректно сравнивать популярность запросов, измеренную за разные периоды времени. Система идентифицирует свежие запросы-кандидаты (из недавних логов и анализа свежих документов), фильтрует их по метрикам интента и взаимодействия, а затем масштабирует их краткосрочную частоту (Вторая шкала) до уровня долгосрочной частоты классических подсказок (Первая шкала).

Как это работает

Система работает путем параллельного сбора двух типов данных. Классические подсказки выбираются на основе долгосрочной частоты (например, за месяц – Первая шкала). Одновременно система ищет свежих кандидатов: это могут быть запросы, популярные за последние часы (Вторая шкала), или запросы, производные от анализа заголовков свежих документов из авторитетных источников. Свежие кандидаты проходят фильтрацию: они должны превышать пороги по частоте, Параметру пользовательского намерения (вероятность интереса к свежему контенту) и Параметру пользовательского взаимодействия (например, CTR по свежим результатам). Затем система масштабирует их краткосрочную частоту до Первой шкалы, используя статистику поисковой системы. Наконец, оба набора объединяются и ранжируются на основе нормализованной частоты.

Актуальность для SEO

Высокая. Обеспечение актуальности поисковых подсказок в реальном времени критически важно для современных поисковых систем, особенно в контексте новостного поиска, социальных трендов и событий (QDF — Query Deserves Freshness). Описанные механизмы оценки интента на свежесть и нормализации частот остаются актуальными задачами.

Важность для SEO

Влияние на SEO значительно (7/10), особенно для time-sensitive контента и новостных ресурсов. Патент раскрывает конкретные механизмы, которые Яндекс использует для оценки и валидации свежести: намерение пользователя и взаимодействие со свежим контентом (CTR). Это напрямую влияет на стратегии News SEO и ситуативного маркетинга, подчеркивая важность скорости реакции на тренды и качества предоставляемого контента для быстрого получения видимости в поиске.

Детальный разбор

Термины и определения

База данных поискового журнала (Search Log Database): Хранилище, содержащее индекс документов (Индекс 244), журнал поисковых запросов (Журнал 246) и журнал пользовательских взаимодействий (Журнал 248).
Вторая шкала (Second Scale): Краткосрочный временной интервал (например, последние 4 часа), используемый для измерения частоты использования недавних (свежих) запросов.
Параметр пользовательского взаимодействия (User Interaction Parameter): Метрика, указывающая на взаимодействие пользователей с недавними/свежими результатами поиска, полученными в ответ на недавний запрос. В патенте в качестве основного примера приводится Кликабельность (CTR).
Параметр пользовательского намерения (User Intent Parameter): Вероятностная оценка того, что пользователь, вводящий запрос, заинтересован в изучении недавних (свежих) документов или контента из определенной вертикали. Может вычисляться с помощью модели кликов.
Первая шкала (First Scale): Долгосрочный временной интервал (например, месяц), используемый для измерения частоты использования классических (старых) саджестов.
Саджест (Suggest / Поисковая подсказка): Рекомендация по завершению поискового запроса, предлагаемая пользователю во время ввода текста.
Свежий документ (Fresh Document): Документ, который удовлетворяет двум условиям: (i) имеет временную отметку в пределах недавнего заранее определенного интервала времени, и (ii) опубликован ресурсом из списка заранее определенных (надежных/популярных) ресурсов.
Свежий саджест (Fresh Suggest): Недавний поисковый запрос, который стал популярным в короткий период времени и прошел фильтрацию по частоте, интенту и взаимодействию.

Ключевые утверждения (Анализ Claims)

Патент описывает систему, которая комбинирует исторические данные с данными реального времени для формирования списка подсказок, используя нормализацию частот.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Получение частичного ввода поискового запроса от пользователя.
Выбор набора классических саджестов на основе этого ввода. Их частота измерена на Первой шкале (например, за месяц).
Получение набора свежих кандидатов-саджестов (недавних запросов). Их частота измерена на Второй шкале (например, за часы).
Критический этап: Масштабирование частоты свежих кандидатов со Второй шкалы на Первую шкалу. Это позволяет сравнивать их популярность с классическими саджестами.
Выбор набора свежих саджестов из кандидатов.
Объединение классических и свежих саджестов.
Создание ранжированного подмножества для отображения пользователю.

Claim 2 (Зависимый от 1): Уточняет, что перед созданием подмножества происходит ранжирование объединенного набора на основе их частот на Первой шкале.

Claims 3, 4, 5 (Зависимые): Описывают многоступенчатую фильтрацию свежих кандидатов (этапы, предшествующие получению набора в Claim 1).

Claim 3: Кандидат должен иметь частоту на Второй шкале выше заранее определенного порога частоты (фильтр популярности/тренда).
Claim 4: Кандидат должен иметь Параметр пользовательского взаимодействия (например, CTR по свежим результатам) выше порога (фильтр качества/вовлеченности).
Claim 5: Кандидат должен иметь Параметр пользовательского намерения (вероятность интереса к свежести/вертикали) выше порога (фильтр интента).

Claim 6 (Зависимый от 5): Указывает на данные, используемые для масштабирования (Claim 1, этап 4): средняя частота запросов в день, средняя частота запросов за период, количество дней.

Claim 13 (Зависимый от 1): Описывает альтернативный или дополнительный способ генерации свежих кандидатов (до этапа масштабирования).

Идентификация Свежего документа (на основе времени и авторитетности ресурса).
Парсинг заголовка документа.
Поиск результатов по этому заголовку.
Идентификация запросов, по которым пользователи приходили на эти результаты (обратный поиск).
Определение оценки релевантности между этими запросами и исходным Свежим документом.
Добавление релевантных запросов в набор свежих кандидатов.

Где и как применяется

Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до основного ранжирования.

QUERY PROCESSING – Понимание Запросов
Это основной слой применения. Система в реальном времени обрабатывает ввод пользователя и генерирует список подсказок. Она взаимодействует с Сервером саджестов (260), который выполняет логику агрегации, фильтрации, масштабирования и ранжирования подсказок.

CRAWLING & INDEXING (Косвенно)
Система полагается на данные краулинга и индексации для идентификации Свежих документов (Fresh Documents) и ведения списка заранее определенных авторитетных ресурсов.

Взаимодействие с компонентами:

База данных поискового журнала (240): Источник данных о частоте запросов (Журнал 246) и поведении пользователей (Журнал 248).
Аналитический сервер (250): Отслеживает и вычисляет параметры взаимодействия (CTR) и, вероятно, участвует в расчете параметров намерения.

Данные на входе: Частичный поисковый запрос; Исторические логи запросов (Первая шкала); Недавние логи запросов (Вторая шкала); Метрики взаимодействия (CTR); Модели интента; Индекс свежих документов.

Данные на выходе: Ранжированный список саджестов (комбинация свежих и старых).

На что влияет

Специфические запросы и Ниши: Наибольшее влияние оказывается на запросы типа QDF (Query Deserves Freshness) – новости, спортивные события, запуски продуктов, вирусные тренды. Минимальное влияние на «вечнозеленые» (evergreen) запросы.
Типы контента: Влияет на видимость новостных статей и контента, быстро реагирующего на тренды. Система явно проверяет взаимодействие именно со свежими результатами.

Когда применяется

Алгоритм применяется в реальном времени при каждом вводе символа в поисковую строку.

Триггеры активации свежего саджеста: Свежий саджест появится в выдаче только при выполнении совокупности условий:
1. Запрос недавно стал популярным (превышен порог частоты на Второй шкале).
2. Пользователи заинтересованы именно в свежей информации по этому запросу (превышен порог Параметра намерения).
3. Свежие результаты по этому запросу качественные и кликабельные (превышен порог Параметра взаимодействия/CTR).
4. После масштабирования со Второй шкалы на Первую, его нормализованная частота достаточно высока, чтобы попасть в топ подсказок.

Пошаговый алгоритм

Патент описывает два взаимодополняющих метода генерации свежих кандидатов (Способ 600 и Способ 700), которые интегрируются в общий процесс.

Основной Процесс (Интеграция и Ранжирование)

Получение ввода: Система получает часть поискового запроса от пользователя.
Сбор классических саджестов: Извлечение исторических подсказок, чья частота измерена на Первой шкале (например, месяц).
Сбор свежих кандидатов: Параллельное выполнение Метода 1 и Метода 2 (описаны ниже).
Масштабирование: Нормализация частоты свежих кандидатов (Вторая шкала) к Первой шкале с использованием статистики поисковой системы (например, Формула 1).
Объединение: Создание единого набора из классических и масштабированных свежих саджестов.
Ранжирование: Сортировка объединенного набора на основе их частоты на Первой шкале.
Вывод: Отображение топ-N ранжированных саджестов пользователю.

Метод 1: Генерация из логов (Способ 600)

Извлечение недавних запросов: Получение запросов из логов за короткий период (Вторая шкала, например, 4 часа).
Вычисление параметров: Для каждого недавнего запроса рассчитываются: Частота (Вторая шкала), Параметр намерения, Параметр взаимодействия (CTR).
Многоступенчатая фильтрация: Отбор кандидатов, превышающих пороги по всем трем параметрам (Частота > Порог 1 И Интент > Порог 2 И Взаимодействие > Порог 3).
Вывод: Набор отфильтрованных свежих кандидатов.

Метод 2: Генерация из свежих документов (Способ 700)

Идентификация Свежего Документа: Поиск документа, опубликованного недавно И на авторитетном ресурсе.
Парсинг заголовка: Извлечение заголовка документа.
Поиск связанных документов: Выполнение поиска по заголовку и получение Топ-N результатов.
Обратный поиск запросов: Для каждого из Топ-N результатов извлечение запросов, по которым на них переходили пользователи.
Оценка релевантности: Расчет релевантности между извлеченными запросами и исходным Свежим документом.
Вывод: Запросы с высокой релевантностью добавляются в набор свежих кандидатов.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны. Используются данные из Журнала пользовательских взаимодействий (248). Ключевые метрики: Клики, Кликабельность (CTR), особенно CTR по свежим результатам. Эти данные используются для расчета Параметра взаимодействия и для обучения моделей кликов, рассчитывающих Параметр намерения.
Временные факторы: Временные отметки запросов (для определения недавних запросов и Второй шкалы). Временные отметки документов (для идентификации Свежих документов).
Контентные факторы: Тексты поисковых запросов. Заголовки свежих документов (используются в Методе 2 для поиска связанных запросов).
Системные/Географические факторы: Доменное имя поисковой системы (например, .ru, .com.tr) и язык запроса используются для фильтрации недавних запросов. Списки авторитетных ресурсов (для идентификации Свежих документов). Списки неуместных/запрещенных слов.

Какие метрики используются и как они считаются

Частота предыдущего использования (Frequency): Количество вводов запроса за определенный период. Рассчитывается отдельно для Первой и Второй шкал.
Параметр пользовательского намерения (User Intent Parameter): Вероятностная оценка интереса к свежему контенту. Вычисляется с помощью модели кликов, обученной с помощью MLA на исторических данных о поведении пользователей с результатами из свежей вертикали-[00139].
Параметр пользовательского взаимодействия (User Interaction Parameter): В патенте используется CTR, рассчитанный как отношение кликов по недавним (свежим) документам к общему числу показов этих документов на SERP.
Масштабирование частот: Ключевой расчет для нормализации частот со Второй шкалы на Первую. В патенте приводится Формула 1:

$$ F(query) \cdot \frac{F(\frac{Queries}{day})}{F(period)} \cdot nb\_of\_days $$

Где:

$F(query)$ – частота недавнего запроса (на Второй шкале).
$F(\frac{Queries}{day})$ – среднее число запросов в день в поисковой системе.
$F(period)$ – оценка популярности (частоты), связанная с периодом времени (Второй шкалой).
$nb\_of\_days$ – количество дней в целевой шкале (Первой шкале, например, 30 дней).

Оценка релевантности (Relevance Score): Используется в Методе 2 для определения связи между запросами, найденными через обратный поиск, и исходным Свежим документом. Вычисляется стандартным алгоритмом ранжирования.

Выводы

Нормализация частот – ядро системы: Ключевое изобретение – это не просто добавление свежих подсказок, а механизм их масштабирования (Формула 1). Это позволяет корректно сравнивать краткосрочную популярность (тренды) с долгосрочной исторической популярностью, решая проблему «зашумления» выдачи или игнорирования трендов.
Свежесть требует валидации качеством и интентом: Яндекс не полагается только на всплеск частоты запросов. Чтобы недавний запрос стал свежим саджестом, он должен пройти три фильтра: Частота (популярность), Параметр Намерения (пользователи ищут именно свежую информацию) и Параметр Взаимодействия (CTR по свежим результатам высокий). Это защита от спама и некачественных трендов.
Два источника свежести: Система использует два подхода для поиска кандидатов: (1) Анализ поведения пользователей (логи запросов) и (2) Анализ нового контента (Свежие документы). Второй метод позволяет системе предлагать подсказки еще до того, как они стали массово использоваться пользователями, если они релевантны новому авторитетному контенту.
Авторитетность источников для Свежих Документов: Для Метода 2 критически важно, чтобы документ был опубликован на ресурсе из списка «заранее определенных» (надежных/популярных) источников. Это подчеркивает важность E-E-A-T для новостного поиска.
CTR по свежим результатам как сигнал качества: Система явно измеряет CTR именно на свежих результатах для валидации саджеста. Если трендовый запрос ведет на некачественную выдачу, он не станет подсказкой.

Практика

Best practices (это мы делаем)

Скорость реакции на тренды (News SEO): Для сайтов, работающих с новостным или трендовым контентом, критически важна скорость публикации и индексации. Чем быстрее ваш контент появляется в ответ на зарождающийся тренд, тем выше шанс собрать первичный CTR, необходимый для валидации свежего саджеста (Параметр взаимодействия).
Оптимизация под намерение свежести: Создавайте контент, который явно отвечает на потребность в новой информации. Используйте маркеры свежести в заголовках и тексте. Это повышает вероятность того, что система классифицирует интент как свежий (Параметр намерения) и повышает CTR по вашим свежим результатам.
Построение авторитетности ресурса (E-E-A-T): Для активации Метода 2 (генерация из Свежих документов) ваш сайт должен быть в списке «заранее определенных ресурсов» (надежных/популярных). Работайте над повышением общего траста и авторитетности сайта в своей нише.
Четкие и релевантные заголовки (Titles): В Методе 2 система использует заголовок свежего документа для поиска связанных запросов. Заголовки должны быть информативными и содержать ключевые термины, по которым пользователи могут искать эту информацию.
Техническая оптимизация для быстрой индексации: Используйте инструменты (например, API индексирования, XML Sitemaps для новостей, Турбо-страницы) для максимально быстрого попадания нового контента в индекс Яндекса.

Worst practices (это делать не надо)

Использование кликбейта для трендового трафика: Попытка привлечь трафик по трендовым запросам с помощью кликбейтных заголовков при низком качестве контента будет неэффективна. Система фильтрует саджесты по Параметру взаимодействия (CTR и последующее поведение). Низкое вовлечение приведет к исключению саджеста.
Манипуляции с частотой запросов: Попытки искусственно увеличить частоту запроса (накрутка подсказок) скорее всего будут отфильтрованы, так как помимо частоты проверяются Параметры намерения и взаимодействия, основанные на реальном поведении пользователей и качестве выдачи.
Медленная реакция на события: Публикация контента о событии с задержкой на несколько часов или дней может привести к тому, что тренд уже пройдет пик или система выберет другие формулировки запросов в качестве свежих саджестов.

Стратегическое значение

Патент подтверждает, что Яндекс рассматривает свежесть (QDF) как сложный многофакторный процесс, а не просто реакцию на частоту. Стратегическое значение для SEO заключается в понимании того, что вход в трендовый поиск требует не только скорости, но и подтвержденного качества (через CTR) и авторитетности источника. Система Яндекса способна проактивно формировать подсказки на основе нового контента (Метод 2), что делает авторитетные новостные ресурсы важными инфлюенсерами поискового спроса.

Практические примеры

Сценарий 1: Внезапное событие (Метод 1 — Логи)

Событие: Неожиданное извержение вулкана в Исландии.
Действие пользователей: Пользователи начинают массово вводить запрос «извержение вулкана Исландия сейчас».
Действие системы:
1. Фильтр 1 (Частота): Система фиксирует резкий рост частоты на Второй шкале (последние часы). Порог превышен.
2. Фильтр 2 (Намерение): Система определяет высокий интерес к свежей информации (новости, фото). Порог превышен.
3. Фильтр 3 (Взаимодействие): Новостные сайты быстро публикуют контент. Пользователи активно кликают на эти свежие результаты. CTR высокий. Порог превышен.
Масштабирование и Ранжирование: Частота запроса масштабируется до Первой шкалы (месяц). Нормализованная частота оказывается выше, чем у исторического запроса «вулканы Исландии».
Результат: При вводе «вулкан Ис…» пользователь видит подсказку «извержение вулкана Исландия сейчас» на первом месте.

Сценарий 2: Анонс продукта (Метод 2 — Свежие документы)

Событие: Авторитетное СМИ (например, РБК) публикует статью с заголовком «Яндекс представил новую умную колонку Станция Макс 2».
Действие системы:
1. Идентификация: Система определяет статью РБК как Свежий документ (недавно опубликована + авторитетный источник).
2. Парсинг и Поиск: Система анализирует заголовок и ищет связанные документы.
3. Обратный поиск: Система находит запросы, связанные с этими документами (например, «новая колонка яндекс», «станция макс характеристики»).
4. Оценка релевантности: Система определяет, что запрос «Станция Макс 2» высоко релевантен исходной статье.
Результат: Запрос «Станция Макс 2» добавляется в пул свежих кандидатов и может появиться в подсказках еще до того, как пользователи начнут массово его использовать, проактивно направляя интерес.

Вопросы и ответы

Что такое «Первая шкала» и «Вторая шкала» и почему это важно?

Первая шкала (First Scale) – это долгосрочный период (например, месяц), используемый для измерения частоты классических (исторических) подсказок. Вторая шкала (Second Scale) – это краткосрочный период (например, несколько часов) для измерения частоты трендовых запросов. Разделение необходимо, так как трендовый запрос может иметь огромную частоту за час, но маленькую за месяц. Ключевая часть патента – механизм масштабирования Второй шкалы к Первой для корректного сравнения и ранжирования.

Какие три фильтра должен пройти недавний запрос, чтобы стать свежей подсказкой (Метод 1)?

Недавний запрос должен пройти три уровня фильтрации, превысив установленные пороги. Первый – Фильтр Частоты: запрос должен быть достаточно популярным в краткосрочном периоде (Вторая шкала). Второй – Фильтр Намерения (User Intent Parameter): система должна определить, что пользователи ищут именно свежую информацию. Третий – Фильтр Взаимодействия (User Interaction Parameter): CTR по свежим результатам должен быть высоким, подтверждая качество выдачи.

Достаточно ли просто всплеска частоты запроса, чтобы он появился в свежих подсказках?

Нет, недостаточно. Всплеск частоты (популярность) – это только первый фильтр. Если система определит, что интент пользователей не связан со свежестью (низкий Параметр намерения) или если результаты поиска по этому запросу некачественные и не получают кликов (низкий Параметр взаимодействия/CTR), запрос не станет свежей подсказкой, независимо от его частоты.

Что такое «Параметр пользовательского намерения» и как он рассчитывается?

Это вероятность того, что пользователь, вводящий запрос, заинтересован в получении свежего контента или контента из определенной вертикали (например, Новости). В патенте указано, что он может рассчитываться с помощью модели кликов, обученной алгоритмом машинного обучения (MLA). Модель анализирует историческое поведение пользователей и предсказывает вероятность взаимодействия со свежим вертикальным доменом.

Насколько важен CTR для попадания в свежие подсказки?

CTR критически важен. Он используется как основной пример Параметра пользовательского взаимодействия. Важно отметить, что патент подчеркивает измерение CTR именно по свежим результатам в выдаче. Если трендовый запрос ведет на выдачу, где свежие документы не получают кликов, подсказка не будет сформирована или быстро исчезнет.

Что такое Метод 2 (генерация из Свежих документов) и как он работает?

Это проактивный метод, позволяющий генерировать подсказки на основе нового контента, а не только реакции пользователей. Система находит Свежий документ (недавний + авторитетный источник), анализирует его заголовок, находит связанные с ним запросы через обратный поиск и добавляет их в кандидаты. Это позволяет подсказкам появляться быстрее, ориентируясь на контент авторитетных СМИ.

Как SEO-специалист может повысить шансы попадания контента в категорию «Свежий документ»?

Для этого необходимо соответствовать двум критериям, указанным в патенте. Первый – временная отметка публикации должна быть недавней (в пределах заданного интервала). Второй – ресурс должен быть включен в список «заранее определенных ресурсов», то есть считаться надежным и/или популярным. Необходимо работать над общей авторитетностью сайта (E-E-A-T) и скоростью индексации.

Влияет ли этот патент на SEO для сайтов с «вечнозеленым» (evergreen) контентом?

Прямое влияние минимально, так как патент сфокусирован на QDF (Query Deserves Freshness) и трендах. Однако он дает понимание того, как Яндекс анализирует интент и качество взаимодействия. Для evergreen контента важно поддерживать высокую историческую частоту и CTR, чтобы не уступать позиции в подсказках внезапным трендам, чья частота была агрессивно масштабирована.

Как работает формула масштабирования частот?

Формула нормализует краткосрочную частоту запроса, используя общую статистику поисковой системы. Она умножает частоту запроса на коэффициент, учитывающий среднее число запросов в день и популярность текущего периода, а затем экстраполирует это значение на количество дней в долгосрочном периоде (например, 30). Это позволяет оценить, насколько значим текущий тренд в масштабах месяца.

Может ли система отфильтровать подсказки по географии или языку?

Да, в патенте упоминается, что получение недавних запросов может основываться на языке части запроса и доменном имени поисковой системы (например, .ru, .kz, .com.tr). Это позволяет системе показывать локализованные тренды, релевантные для конкретного региона или языковой аудитории.