Как Яндекс интегрирует трендовые запросы и свежие новости в поисковые подсказки в реальном времени

Яндекс патентует систему для быстрого вывода трендовых запросов в поисковые подсказки (саджест). Система решает проблему, когда новые популярные запросы проигрывают исторически частотным. Для этого Яндекс идентифицирует свежие запросы двумя способами: анализируя всплеск частотности недавних запросов и находя запросы, связанные с новыми документами из авторитетных источников. Частотность свежих запросов масштабируется для сравнения с историческими данными, позволяя трендам попадать в топ подсказок.

Описание

Какую задачу решает

Патент решает проблему недостаточной реактивности традиционных систем поисковых подсказок (саджеста) на резкий рост популярности новых запросов, связанных с трендами или новостями. Традиционные алгоритмы полагаются на долгосрочную историческую статистику популярности. Свежие запросы (fresh queries) не имеют такой накопленной истории и поэтому часто не попадают в топ подсказок, даже если они крайне актуальны в данный момент. Это не позволяет системе своевременно помогать пользователю формулировать запрос о трендовом событии.

Что запатентовано

Запатентована система интеграции свежих поисковых подсказок в общий список рекомендаций. Суть изобретения заключается в (1) идентификации кандидатов в свежие подсказки двумя методами (анализ трендовых запросов и анализ свежих документов); (2) механизме масштабирования (Scaling) их краткосрочной частотности (например, за часы) к долгосрочной шкале исторических подсказок (например, за месяц); (3) объединении и переранжировании обоих типов подсказок на основе сопоставимых метрик частотности.

Как это работает

Система непрерывно анализирует поток недавних запросов (Recent Queries) и свежих документов (Fresh Documents).

Подход 1: Анализируются недавние запросы. Система оценивает их частотность на коротком интервале (Вторая шкала) и применяет фильтры: проверяет, ищут ли пользователи именно свежую информацию (User-Intent Parameter), и анализирует кликабельность свежих результатов (User-Interaction Parameter, например, CTR).

Подход 2: Система ищет новые документы из списка доверенных источников, определяет запросы, релевантные этим документам, и добавляет их в кандидаты.

Затем ключевой компонент — Scaler — приводит частотность свежих кандидатов к Первой шкале (исторической). После этого свежие и старые подсказки объединяются и ранжируются по итоговой частотности.

Актуальность для SEO

Высокая. Поисковые системы активно развивают механизмы Real-Time Search (RTS) и стремятся максимально быстро реагировать на тренды и новостную повестку. Способность быстро выводить актуальную информацию в подсказках является критически важной функцией в современном поиске.

Важность для SEO

Влияние на SEO значительно (8/10), особенно в нишах, связанных с новостями, событиями и трендами (Real-Time SEO). Хотя патент описывает механизм подсказок, а не основного ранжирования, подсказки формируют значительную часть трафика. Патент раскрывает конкретные механизмы валидации трендов (через CTR и интент) и важность авторитетности источников для генерации свежих подсказок. Попадание в подсказки по трендовому событию дает огромное преимущество.

Детальный разбор

Термины и определения

Aggregator (Агрегатор): Компонент системы, отвечающий за сбор кандидатов для поисковых подсказок. Включает в себя Old Query Aggregator и Fresh Query Candidate Aggregators (400 и 500).
First Scale (Первая шкала): Временной интервал, используемый для расчета частотности исторических (старых) подсказок. Например, один месяц.
Fresh Document (Свежий документ): Документ, который удовлетворяет двум условиям: (i) опубликован недавно (в пределах заданного временного интервала) и (ii) опубликован ресурсом из списка предопределенных авторитетных источников (list of predetermined resources).
Fresh Query Suggestion (Свежая поисковая подсказка): Недавний запрос, который демонстрирует рост популярности и прошел специальные фильтры или был сгенерирован на основе Fresh Document.
Old Query Suggestion (Старая/Историческая поисковая подсказка): Стандартная подсказка, выбранная на основе долгосрочной исторической статистики (Первая шкала).
Recent Query (Недавний запрос): Запрос, отправленный поисковой системе в течение определенного недавнего периода времени (Вторая шкала).
Scaler (Скейлер/Масштабатор): Компонент, который приводит частотность свежих подсказок (Вторая шкала) к частотности исторических подсказок (Первая шкала) для их корректного сравнения.
Second Scale (Вторая шкала): Краткосрочный временной интервал, используемый для расчета частотности недавних запросов. Например, 4 часа. Всегда короче Первой шкалы.
User-Intent Parameter (IP) (Параметр интента пользователя): Метрика, оценивающая вероятность того, что пользователь, вводящий данный запрос, заинтересован именно в получении свежей информации (например, из fresh vertical domain).
User-Interaction Parameter (Параметр взаимодействия пользователя): Метрика, отражающая взаимодействие пользователей с результатами поиска по недавнему запросу. В патенте в качестве основного примера используется Click-Through Rate (CTR), в частности, рассчитываемый только по свежим результатам.

Ключевые утверждения (Анализ Claims)

Патент защищает систему, которая комбинирует исторические и свежие данные для генерации подсказок, используя механизм масштабирования частотностей и два метода генерации свежих кандидатов.

Claim 1 (Независимый пункт): Описывает базовый метод работы системы.

Получение части поискового запроса от пользователя.
Выбор набора исторических подсказок (old query suggestions). Каждая связана с частотностью Первой шкалы (First Scale).
Получение набора кандидатов в свежие подсказки. Это недавние запросы, которые НЕ включены в набор исторических подсказок. Каждый связан с частотностью Второй шкалы (Second Scale).
Масштабирование (Scaling) каждой частотности Второй шкалы для получения соответствующей частотности Первой шкалы.
Выбор свежих подсказок из кандидатов на основе введенной части запроса.
Объединение (Merging) исторических и свежих подсказок в сводный набор.
Генерация ранжированного подмножества подсказок для отображения пользователю.

Claims 3, 4, 5 (Зависимые): Описывают критерии отбора кандидатов в свежие подсказки из потока недавних запросов (Подход 1 / Aggregator 400).

Кандидат должен пройти три фильтра:

Claim 3 (Фильтр популярности): Частотность (Второй шкалы) выше определенного порога.
Claim 4 (Фильтр взаимодействия): User Interaction Parameter (например, CTR по свежим результатам) выше определенного порога.
Claim 5 (Фильтр интента): User-Intent Parameter (вероятность интереса к свежему контенту) выше определенного порога.

Claim 13 (Зависимый): Описывает альтернативный метод получения кандидатов в свежие подсказки на основе анализа документов (Подход 2 / Aggregator 500).

Получение индикации Fresh Document (отбор основан на ресурсе и временной метке).
Парсинг документа для получения его заголовка.
Получение набора результатов поиска, связанных с этим заголовком.
Извлечение запросов, по которым пользователи переходили на эти результаты поиска.
Определение оценки релевантности (Relevance Score) между извлеченными запросами и исходным Fresh Document.
Добавление запросов в набор кандидатов в свежие подсказки на основе этой оценки релевантности.

Где и как применяется

Изобретение применяется в компоненте, отвечающем за генерацию поисковых подсказок (Suggest). В контексте архитектуры Яндекса это затрагивает следующие слои:

CRAWLING & ACQUISITION / INDEXING (Сбор данных и Индексация)
Для реализации Подхода 2 (Aggregator 500) система должна иметь доступ к быстрому индексу (Fresh Index), который содержит самые свежие документы. Критически важна быстрая идентификация Fresh Documents на основе временных меток и авторитетности источника (наличия в list of predetermined resources). Это, вероятно, обеспечивается Быстророботом (Orange).

QUERY PROCESSING (Понимание Запросов)
Процесс генерации подсказок активируется на этапе ввода запроса пользователем. Система должна в реальном времени обрабатывать вводимые символы и запрашивать рекомендации у сервера подсказок (Suggestion Server).

Офлайн-процессы и обработка данных
Большая часть работы по идентификации свежих кандидатов происходит в фоновом режиме или близко к реальному времени:

Непрерывный анализ логов запросов (Search Query Log) и взаимодействий (User Interaction Log) для расчета частотности, User-Intent Parameter и CTR для недавних запросов (Подход 1).
Мониторинг свежего индекса для выявления Fresh Documents и генерации связанных запросов (Подход 2).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, связанные с трендами, новостями, внезапными событиями (breaking news).
Конкретные ниши: Критически важно для СМИ, развлекательных ресурсов, спортивных сайтов и любых тематик, где актуальность информации имеет первостепенное значение.
Авторитетность источников: Система явно использует список предопределенных ресурсов (predetermined resources) для генерации подсказок на основе контента (Подход 2), что дает преимущество сайтам из этого списка.

Когда применяется

Алгоритм применяется при каждом вводе символов в поисковую строку для генерации списка подсказок. Однако активация механизмов генерации свежих подсказок происходит при выполнении специфических условий:

Триггеры Подхода 1: Всплеск частотности недавнего запроса выше порога, в сочетании с высокими значениями User-Intent (поиск свежести) и CTR по свежим результатам.
Триггеры Подхода 2: Появление нового документа (Fresh Document) из авторитетного источника, к которому система смогла подобрать релевантные запросы.

Пошаговый алгоритм

Патент описывает два основных подхода к генерации свежих подсказок, которые затем объединяются.

Процесс А: Обработка запроса в реальном времени (Финальная сборка)

Получение ввода: Пользователь вводит часть запроса.
Получение исторических подсказок: Система извлекает стандартные подсказки с частотностью Первой шкалы.
Получение свежих кандидатов: Система извлекает предварительно рассчитанные свежие кандидаты (полученные из Процессов Б и В) с частотностью Второй шкалы.
Масштабирование (Scaling): Частотность Второй шкалы свежих кандидатов приводится к Первой шкале с использованием статистических данных о средней активности в поиске.
Объединение (Merging): Исторические и масштабированные свежие подсказки объединяются.
Ранжирование (Ranking): Сводный список ранжируется на основе итоговой частотности Первой шкалы.
Выдача: Топ-N подсказок отображается пользователю.

Процесс Б: Генерация свежих кандидатов на основе запросов (Подход 1 / Aggregator 400)

Сбор недавних запросов: Из логов извлекаются запросы за короткий период.
Расчет параметров: Для каждого недавнего запроса вычисляются:
- Частотность (Вторая шкала).
- User-Intent Parameter (вероятность поиска свежести).
- User-Interaction Parameter (CTR по свежим результатам).
Фильтрация: Отбираются запросы, у которых все три параметра превышают заданные пороги. Они становятся свежими кандидатами.

Процесс В: Генерация свежих кандидатов на основе документов (Подход 2 / Aggregator 500)

Идентификация свежих документов: Поиск документов, опубликованных недавно И provenant из списка предопределенных авторитетных ресурсов.
Извлечение заголовка: Парсинг документа для получения заголовка.
Поиск по заголовку: Выполнение поиска по заголовку для получения связанных результатов.
Обратный поиск запросов: Идентификация запросов, по которым пользователи переходили на эти связанные результаты.
Оценка релевантности: Расчет Relevance Score между идентифицированными запросами и исходным свежим документом.
Отбор: Запросы с высокой релевантностью становятся свежими кандидатами.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для Подхода 1. Используются логи запросов и взаимодействий для расчета частотности, интента и CTR (клики, показы).
Контентные факторы: Используются в Подходе 2. Анализируются заголовки (Title) свежих документов для определения релевантности запросам.
Временные факторы: Временные метки (timestamps) запросов и документов используются для определения их «свежести» и выбора соответствующей шкалы (Первой или Второй).
Технические/Системные факторы: Список предопределенных авторитетных ресурсов (list of predetermined resources). Общая статистика поисковой системы (среднее количество запросов в день/период) для масштабирования.

Какие метрики используются и как они считаются

Frequency of Past Use (Частотность использования): Количество отправок запроса за определенный период (Первая или Вторая шкала).
User-Intent Parameter (IP): Вероятность интереса к свежему контенту. Рассчитывается с помощью модели кликов (click model), обученной на логах взаимодействий, которая предсказывает вероятность взаимодействия с документами из свежего вертикального домена.
User-Interaction Parameter (CTR): Кликабельность. Рассчитывается как отношение кликов к показам. В патенте подчеркивается возможность расчета CTR только по свежим результатам (fresh results only).
Relevance Score (Оценка релевантности): Метрика релевантности между документом и запросом (используется в Подходе 2). Может рассчитываться стандартным алгоритмом ранжирования поиска.
Scaled Frequency (Масштабированная частотность): Результат приведения частотности Второй шкалы к Первой. В патенте приводится формула масштабирования (Formula 1):
$$ F(query) \cdot \frac{F(queries)_{day}}{F(period)} \cdot nb\_of\_days $$
Где $F(query)$ – частотность запроса (Вторая шкала), $F(queries)_{day}$ – среднее количество запросов в день в поиске, $F(period)$ – оценка популярности (активности) в текущий период времени, $nb\_of\_days$ – количество дней в интервале Первой шкалы.

Выводы

Два пути для трендовых подсказок: Яндекс использует два независимых механизма для выявления свежих трендов: (1) Реактивный — анализ всплеска популярности самого запроса и (2) Проактивный — анализ появления нового авторитетного контента и связанных с ним запросов.
Фильтрация по интенту и качеству взаимодействия: Недостаточно простого роста частотности запроса. Система проверяет, действительно ли пользователи ищут свежую информацию (User-Intent Parameter) и удовлетворены ли они свежими результатами (CTR on fresh results). Это защищает подсказки от накруток и некачественных трендов.
Важность авторитетных источников: Патент явно подтверждает существование списка приоритетных ресурсов (predetermined resources). Публикация на таком ресурсе может инициировать появление связанных запросов в подсказках (Подход 2), даже если сами запросы еще не набрали значительной частотности.
Масштабирование частотности: Ключевым элементом системы является механизм приведения краткосрочной популярности к долгосрочной шкале (Scaling). Это позволяет трендам, возникшим часы назад, конкурировать с исторически популярными запросами на равных условиях в ранжировании подсказок.
Фокус на Real-Time SEO: Патент подтверждает важность скорости реакции на события, качества сниппетов и авторитетности сайта для получения дополнительного трафика из подсказок.

Практика

Best practices (это мы делаем)

Мониторинг трендов и быстрая реакция (Real-Time SEO): Необходимо максимально быстро создавать и публиковать качественный контент по возникающим трендам и новостям. Скорость индексации критична. Это увеличивает шансы на то, что связанный запрос станет «свежей подсказкой» через Подход 1.
Повышение авторитетности ресурса: Стремиться к тому, чтобы сайт рассматривался как авторитетный источник новостей в своей нише (потенциальное попадание в list of predetermined resources). Это позволит генерировать подсказки напрямую из вашего контента через Подход 2.
Оптимизация под «свежий» интент: При освещении событий делайте акцент на актуальности. Это может положительно влиять на User-Intent Parameter, так как пользователи будут искать именно ваш свежий контент.
Максимизация CTR свежего контента: Обеспечьте максимальную привлекательность сниппетов для трендового контента. Высокий CTR по свежим результатам является обязательным условием для того, чтобы запрос попал в свежие подсказки по Подходу 1.
Оптимизация заголовков под запросы: В Подходе 2 система использует заголовок свежего документа для поиска связанных запросов. Заголовки должны быть четкими, релевантными и отражать суть события, чтобы система могла корректно связать их с потенциальными запросами пользователей.

Worst practices (это делать не надо)

Искусственная накрутка частотности запросов: Попытки симулировать рост популярности запроса без реального интереса пользователей будут неэффективны. Система использует фильтры User-Intent и CTR. Всплеск частотности без подтвержденного взаимодействия с контентом будет отсеян.
Кликбейт на трендовом контенте: Использование завлекающих, но нерелевантных заголовков приведет к низкому CTR или плохим поведенческим факторам на сайте, что не позволит запросам закрепиться в свежих подсказках.
Медленная публикация и индексация: Задержка в освещении трендов лишает контент статуса «свежего», исключая его из анализа данными алгоритмами.

Стратегическое значение

Патент демонстрирует, что Яндекс активно инвестирует в технологии Real-Time Search и стремится интегрировать тренды во все элементы поиска, включая подсказки. Для SEO-стратегии это означает, что работа с трендовым трафиком требует не только качественного контента, но и высокой скорости работы и сильной авторитетности ресурса. Система отдает предпочтение источникам, которые быстро предоставляют качественную информацию, удовлетворяющую «свежий» интент пользователя.

Практические примеры

Сценарий 1: Всплеск запросов (Подход 1)

Событие: Неожиданно анонсирован новый смартфон «YandexPhone X1».
Действие пользователей: Тысячи пользователей начинают искать «YandexPhone X1 характеристики».
Анализ системы:
- Частотность запроса резко возрастает (выше порога).
- Пользователи ищут новости (User-Intent высокий).
- Пользователи активно кликают на первые появившиеся обзоры и новости (CTR по свежим результатам высокий).
Результат: Система масштабирует частотность и добавляет «YandexPhone X1 характеристики» в подсказки к запросу «YandexPhone», даже если исторически более популярным был другой запрос.

Сценарий 2: Новый авторитетный контент (Подход 2)

Событие: Крупное авторитетное СМИ (входящее в list of predetermined resources) публикует статью с заголовком «Джон Доу выиграл миллиард в лотерею».
Действие системы: Быстроробот Яндекса индексирует статью (Fresh Document).
Анализ: Система анализирует заголовок и определяет, что пользователи, которые ранее интересовались похожими темами, использовали запросы типа «кто выиграл миллиард» и «джон доу лотерея». Система определяет высокую релевантность этих запросов новой статье.
Результат: Еще до того, как эти запросы наберут массовую частотность (Подход 1 еще не сработал), система проактивно добавляет «джон доу лотерея» и «джон доу миллиард» в подсказки к запросу «джон доу».

Вопросы и ответы

В чем основное отличие «свежих» подсказок от обычных исторических?

Основное отличие заключается во временной шкале, используемой для расчета их популярности. Исторические подсказки (Old Query Suggestions) основаны на данных за длительный период (например, месяц — Первая шкала). Свежие подсказки (Fresh Query Suggestions) основаны на данных за короткий период (например, несколько часов — Вторая шкала). Патент описывает механизм масштабирования, который позволяет сравнивать эти разные шкалы.

Патент описывает два подхода к генерации свежих подсказок. В чем их суть?

Подход 1 (Aggregator 400) основан на анализе потока запросов. Он ищет запросы, частотность которых резко возросла за последнее время, и применяет к ним фильтры качества (интент и CTR). Подход 2 (Aggregator 500) основан на анализе контента. Он ищет новые документы на авторитетных сайтах и определяет, какие запросы релевантны этим документам, добавляя их в подсказки. Эти подходы дополняют друг друга.

Достаточно ли простого роста частотности запроса, чтобы он попал в свежие подсказки?

Нет, недостаточно. Согласно патенту (Claims 3-5), для Подхода 1 запрос должен преодолеть три порога: по частотности, по User-Intent Parameter (интерес к свежести) и по User-Interaction Parameter (например, CTR по свежим результатам). Это обеспечивает качество подсказок и защищает от накруток.

Что такое «User-Intent Parameter» и почему он важен для свежих подсказок?

User-Intent Parameter оценивает вероятность того, что пользователь ищет именно свежую информацию. Он рассчитывается, вероятно, с помощью кликовой модели. Это критически важно, так как позволяет отсеять запросы, которые случайно стали популярными, но не связаны с текущими трендами. Система хочет продвигать только те подсказки, которые ведут к актуальному контенту.

Что такое «list of predetermined resources» и как он влияет на SEO?

Это список авторитетных или доверенных ресурсов (например, крупные СМИ), используемый в Подходе 2. Если на сайте из этого списка появляется новый документ, система может сгенерировать свежие подсказки на основе его содержания. Для SEO это означает, что попадание в этот список (повышение авторитетности сайта) дает значительное преимущество в скорости появления связанных с вашим контентом запросов в саджесте.

Как работает механизм масштабирования (Scaling) частотности?

Механизм масштабирования приводит краткосрочную популярность (например, 1000 запросов за час) к долгосрочной шкале (например, эквивалент месячной популярности). Он использует данные об общей поисковой активности (среднее количество запросов в день, текущая активность), как описано в Формуле 1. Это позволяет объективно сравнить новый тренд с исторически стабильными запросами при ранжировании.

Как повлиять на попадание запросов моего сайта в свежие подсказки?

Для Подхода 1: максимально быстро публикуйте контент по тренду и оптимизируйте сниппеты для высокого CTR. Высокая вовлеченность пользователей по свежему контенту — ключевой фактор. Для Подхода 2: повышайте общую авторитетность ресурса и создавайте четкие, релевантные заголовки для новостного контента, чтобы система могла связать ваш документ с запросами пользователей.

Используется ли CTR при анализе свежих подсказок?

Да, CTR (User-Interaction Parameter) является одним из ключевых фильтров в Подходе 1. Причем в патенте особо отмечается возможность использования CTR, рассчитанного только по свежим результатам (fresh results only). Если пользователи плохо кликают на свежие документы по данному запросу, он не станет трендовой подсказкой.

Применим ли этот патент только к новостным сайтам?

Хотя новостные сайты являются основными бенефициарами, патент применим к любой тематике, где возникают резкие всплески интереса: спорт, развлечения, запуск новых продуктов (например, в e-commerce), сезонные тренды и так далее. Везде, где есть «свежий» интент, этот механизм может быть активирован.

Что важнее для этого алгоритма: скорость публикации или авторитетность сайта?

Оба фактора критичны, но играют роль в разных подходах. Скорость публикации важна для обоих подходов, так как анализируются только недавние запросы и документы. Авторитетность сайта (попадание в predetermined resources) является ключевым требованием для активации Подхода 2 (генерация из документов). Для Подхода 1 (генерация из запросов) важнее скорость и высокий CTR по результатам.