Яндекс патентует метод генерации визуальных поисковых подсказок (Image-based search suggestions) с использованием двух независимых моделей ранжирования. Первая фокусируется на частотности (Frequency Parameter). Вторая — на «скрытом интересе» (Hidden Interest Parameter), выявляя неочевидные, но высокорелевантные связи. Финальный список формируется путем смешивания результатов этих двух моделей, при этом система может дополнительно отфильтровывать слишком очевидные подсказки.
Описание
Какую задачу решает
Патент решает проблему ограниченности традиционных поисковых подсказок, которые часто основаны исключительно на популярности (частотности) запросов. Это приводит к показу только самых очевидных уточнений и ограничивает возможность пользователя открыть новую информацию (serendipity). Изобретение направлено на улучшение качества и разнообразия визуальных подсказок (Image-based search suggestions) путем внедрения концепции «скрытого интереса» (Hidden Interest) для выявления высокорелевантных, но нечастых или неочевидных связанных запросов.
Что запатентовано
Запатентована система и метод генерации и ранжирования Image-based search suggestions. Суть изобретения заключается в использовании двойного подхода к ранжированию. Кандидаты оцениваются параллельно двумя наборами параметров: один основан на Frequency Parameter (частотность/популярность), а другой — на Hidden Interest Parameter (высокая релевантность независимо от частотности). Финальная выдача подсказок формируется путем смешивания (blending) результатов этих двух ранжирований.
Как это работает
Система получает запрос и генерирует кандидатов для визуальных подсказок на основе прошлых связанных запросов. Далее эти кандидаты ранжируются параллельно:
- Ранжирование по частотности: Используются параметры, основанные на историческом поведении пользователей (популярность, клики).
- Ранжирование по скрытому интересу: Используются параметры, обученные (часто с помощью асессоров или ML-моделей) идентифицировать высокорелевантные, но неочевидные связи.
Система использует Assessment Parameter для определения пропорции смешивания и генерирует финальный список. В одном из ключевых вариантов реализации система может дополнительно отфильтровать из списка частотных подсказок те, которые слишком очевидно связаны с исходным запросом (Directly-linked), оставляя только косвенно связанные (Indirectly-linked).
Актуальность для SEO
Средне-высокая. Визуальные подсказки и связанные запросы являются стандартом в современных поисковых системах. Концепция балансировки популярности и «неожиданных открытий» (serendipity) остается крайне актуальной. Методология использования ML, обученного на асессорских оценках (включая упомянутый в патенте алгоритм «three thumbs up»), для выявления неочевидной релевантности также является актуальной практикой.
Важность для SEO
Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы основного ранжирования. Однако он критически важен для понимания того, как Яндекс моделирует тематические пространства и управляет путешествием пользователя (User Journey). Патент подчеркивает стратегическую ценность контента, который покрывает не только очевидные, но и косвенно связанные темы и сущности, обладающие высоким «скрытым интересом».
Детальный разбор
Термины и определения
- Assessment Parameter (Параметр оценки)
- Метрика или набор правил, определяющий пропорцию смешивания (the proportion) результатов из Первого и Второго ранжированных списков при генерации финального списка подсказок.
- Assessor (Асессор)
- Человек (или группа людей), который размечает обучающие данные. Асессоры используются для определения Hidden Interest Parameter, оценки привлекательности подсказок и определения степени связанности запросов.
- Directly-linked Image-based search suggestions (Прямо связанные подсказки)
- Подсказки, которые очевидно или тривиально связаны с исходным запросом. Примеры: семантически близкие запросы, добавление очевидных слов, популярные связанные темы. Система может стремиться их отфильтровать.
- Frequency Parameter (Параметр частотности)
- Метрика, указывающая, насколько часто данная подсказка ассоциировалась с прошлым поисковым поведением пользователей по исходному запросу (популярность, клики, частота совместного поиска).
- Hidden Interest Parameter (Параметр скрытого интереса)
- Метрика, указывающая на высокую релевантность подсказки для пользователя, независимо от ее Параметра Частотности. Отражает неочевидный, но важный интерес.
- Image-based search suggestions (Визуальные поисковые подсказки)
- Связанные поисковые запросы или уточнения, представленные пользователю в визуальном формате (например, в виде коллажа из изображений).
- Indirectly-linked Image-based search suggestions (Косвенно связанные подсказки)
- Подсказки, которые имплицитно или отдаленно связаны с исходным запросом. Они могут быть неочевидными, но интересными для большинства пользователей.
- Three thumbs up algorithm (Алгоритм «Три пальца вверх»)
- Упомянутая в патенте методология асессорской разметки для обучения модели Скрытого Интереса:
- 1 палец: релевантно, но очевидно (низкая ценность как подсказки).
- 2 пальца: релевантно, менее очевидно (средняя ценность).
- 3 пальца: релевантно, но не очевидно (высокая ценность, скрытый интерес).
Ключевые утверждения (Анализ Claims)
Ядром изобретения является дуальная система ранжирования подсказок и механизм их смешивания с возможной фильтрацией.
Claim 1 (Независимый пункт): Описывает базовый метод двойного ранжирования и смешивания.
- Получение первого поискового запроса.
- Генерация множества визуальных подсказок на основе прошлых связанных запросов.
- Ранжирование с использованием Первого набора параметров для создания Первого списка. Этот набор обучен на Frequency Parameter (популярность/поведение).
- Ранжирование с использованием Второго набора параметров для создания Второго списка. Этот набор обучен на Hidden Interest Parameter (релевантность независимо от частоты). Списки ранжируются по-разному.
- Использование Assessment Parameter для определения пропорции смешивания.
- Генерация финального списка путем выбора топ-результатов (Первая и Вторая порции) из обоих списков согласно этой пропорции.
Claim 2 (Зависимый от 1): Вводит критически важный механизм фильтрации очевидности.
- Перед этапом смешивания, из Первого списка (популярные подсказки) выбирается подмножество (First subset).
- Это подмножество включает ТОЛЬКО Indirectly-linked (косвенно связанные) подсказки. Directly-linked (очевидные) подсказки исключаются.
- Финальный список генерируется путем смешивания этого отфильтрованного подмножества и Второго списка (скрытый интерес).
Это означает, что система может агрессивно предпочитать неочевидные связи, исключая банальные уточнения.
Claim 3 (Зависимый от 2): Уточняет, как происходит фильтрация.
Фильтрация очевидных подсказок выполняется с использованием первой модели машинного обучения (First machine-learned model), обученной на основе суждений асессоров.
Claim 4 (Зависимый от 2): Детализирует, что считается Directly-linked (и, следовательно, исключается при фильтрации): запросы, добавляющие слова; запросы, связанные с многозначностью слов; запросы к популярным связанным темам или продуктам; очевидные продолжения темы; семантически связанные запросы.
Claims 8, 9, 10, 20, 22: Уточняют, как определяются ключевые параметры.
Hidden Interest Parameter и Assessment Parameter (пропорция смешивания) могут определяться либо асессорами (Claims 8, 20), либо отдельными моделями машинного обучения (Claims 10, 22). Асессоры при этом могут учитывать привлекательность (attractiveness) результатов и SERP (Claim 9).
Где и как применяется
Изобретение применяется в компонентах, отвечающих за генерацию автодополнений (Autocomplete) и связанных запросов (Related Searches), особенно в контексте поиска по изображениям или там, где используются визуальные подсказки.
QUERY PROCESSING – Понимание Запросов
На этом этапе система получает исходный запрос и инициирует процесс генерации кандидатов для подсказок (в патенте упоминается Suggest Module). Кандидаты генерируются на основе анализа прошлых связанных поисковых запросов.
RANKING – Ранжирование (Подсказок)
Здесь происходит ранжирование самих подсказок, а не результатов поиска. Происходит параллельное ранжирование кандидатов двумя разными моделями (Frequency и Hidden Interest). Также здесь может применяться ML-модель для фильтрации Directly-linked подсказок.
BLENDER – Метапоиск и Смешивание
На этом этапе происходит смешивание двух ранжированных списков. Компонент, выполняющий роль блендера, использует Assessment Parameter для определения финальной пропорции и порядка подсказок.
Генерация SERP
Финальный список визуальных подсказок отображается пользователю. Патент (Claim 5) описывает отображение как до выполнения поиска (при вводе), так и после, вверху страницы результатов поиска (SERP).
На что влияет
- Пользовательский путь (User Journey): Алгоритм напрямую влияет на то, как пользователи исследуют тему, предлагая им не только очевидные уточнения, но и неожиданные направления (Hidden Interest).
- Конкретные ниши и тематики: Наибольшее влияние в тематиках с высоким визуальным интентом, где существует множество косвенных связей: мода, дизайн, рецепты, знаменитости, товары, хобби.
- Специфические запросы: Влияет на все типы запросов, по которым могут быть сгенерированы визуальные подсказки, особенно на информационные и исследовательские (exploratory) запросы.
Когда применяется
- Условия применения: Наличие достаточного количества данных о прошлых связанных запросах и пользовательском поведении для генерации и ранжирования кандидатов по обоим параметрам (Frequency и Hidden Interest).
- Триггеры активации: Ввод запроса пользователем (для автодополнения) или загрузка страницы результатов поиска (для связанных запросов).
- Фильтрация (Claim 2): Активация фильтрации Directly-linked подсказок может зависеть от типа запроса или настроек системы, если цель — максимизировать разнообразие и неочевидность предложений.
Пошаговый алгоритм
- Получение запроса: Сервер получает первый поисковый запрос от пользователя.
- Генерация кандидатов: Модуль подсказок генерирует множество визуальных подсказок на основе прошлых связанных поисковых запросов.
- Параллельное ранжирование:
- Ранжирование 1 (Frequency): Кандидаты ранжируются моделью, обученной максимизировать Frequency Parameter (популярность, частота кликов). Создается Первый ранжированный список.
- Ранжирование 2 (Hidden Interest): Кандидаты ранжируются моделью, обученной максимизировать Hidden Interest Parameter (релевантность независимо от частоты). Создается Второй ранжированный список.
- (Опционально) Фильтрация очевидных связей: Из Первого ранжированного списка удаляются Directly-linked подсказки, чтобы оставить только Indirectly-linked. Это делается с помощью ML-модели, обученной на асессорских данных (например, «Three thumbs up»).
- Определение пропорции смешивания: Система определяет Assessment Parameter, который задает, сколько результатов будет взято из Первого и Второго списков.
- Смешивание (Blending): Система выбирает Первую порцию из топа Первого списка (или его отфильтрованного подмножества) и Вторую порцию из топа Второго списка согласно Assessment Parameter.
- Генерация и Отображение: Формируется объединенный ранжированный список визуальных подсказок, который отображается пользователю.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важны для расчета Frequency Parameter. В патенте упоминаются: история кликов (частота, длительность), популярность прошлых запросов, данные о прошлых сессиях (количество, размер сессий), среднее время между запросами, среднее расстояние между позициями запросов.
- Асессорские данные (Офлайн): Используются для обучения моделей распознавания Hidden Interest, определения типа связи (Direct/Indirect) и настройки Assessment Parameter. Включают оценки релевантности, привлекательности (attractiveness) и разметку по методу Three thumbs up algorithm.
- Контентные факторы (Текстовые): Тексты прошлых связанных запросов используются для определения семантической связи с исходным запросом.
- Мультимедиа факторы (Визуальные): Изображения, связанные с подсказками. Их визуальная привлекательность (Attractiveness) может учитываться асессорами при определении Hidden Interest.
Какие метрики используются и как они считаются
- Frequency Parameter: Агрегированная метрика, рассчитываемая на основе исторических поведенческих данных.
- Hidden Interest Parameter: Метрика, предсказываемая моделью машинного обучения. Модель обучается на асессорских оценках, где целевой переменной является высокая релевантность при низкой очевидности связи (например, оценка «3 пальца вверх»).
- Классификатор Direct/Indirect Link: ML-модель, которая классифицирует связь между исходным запросом и подсказкой как очевидную (Directly-linked) или неочевидную (Indirectly-linked). Обучается на асессорских данных.
- Assessment Parameter: Определяет пропорцию смешивания. Может быть фиксированным значением или динамически определяться ML-моделью/асессорами в зависимости от запроса и качества кандидатов.
Выводы
- Баланс популярности и «скрытого интереса»: Яндекс активно стремится разнообразить поисковые подсказки, не полагаясь только на частотность. Система специально разработана для выявления и повышения позиций менее очевидных, но высокорелевантных связанных запросов (Hidden Interest).
- Фильтрация очевидных связей (Anti-Triviality): Ключевой механизм (Claim 2) — это возможность удаления банальных или слишком очевидных уточнений (Directly-linked) даже из списка популярных подсказок. Яндекс предпочитает предлагать пользователю неочевидные пути исследования темы.
- Критическая роль асессоров в определении интереса: Патент явно указывает на использование человеческих оценок (включая метод «Three thumbs up») для обучения ML-моделей тому, что такое «скрытый интерес», «привлекательность» и «неочевидная связь». Это подчеркивает субъективный элемент в генерации подсказок.
- Гибкое смешивание: Пропорция между популярными подсказками и подсказками со скрытым интересом регулируется параметром Assessment Parameter, что позволяет тонко настраивать баланс.
- Важность визуальной составляющей: Поскольку речь идет об Image-based suggestions, патент упоминает «привлекательность» (attractiveness) как один из критериев оценки асессорами, влияющий на Hidden Interest.
Практика
Best practices (это мы делаем)
- Широкий охват темы с включением косвенных связей: Создавайте контент, который покрывает не только основные аспекты темы, но и связанные сущности и темы, которые имеют косвенную связь (Indirectly-linked). Это увеличивает вероятность того, что ваш контент будет ассоциирован с запросами, имеющими высокий Hidden Interest.
- Мыслить как асессор (Метод «Three thumbs up»): При разработке контент-плана ищите темы уровня «3 пальца» (релевантные, но неочевидные). Анализируйте семантику за пределами частотности, ищите низкочастотные, но тесно связанные по смыслу запросы.
- Оптимизация визуальной привлекательности (Image SEO): Критически важно использовать высококачественные, привлекательные и релевантные изображения. Поскольку патент фокусируется на визуальных подсказках и упоминает «привлекательность» как фактор оценки, это может повысить скор Hidden Interest.
- Анализ блоков «Похожие запросы»: Тщательно изучайте визуальные подсказки в выдаче. Согласно патенту, они прошли сложный отбор (фильтрацию очевидности и оценку скрытого интереса). Это прямой сигнал о том, какие направления Яндекс считает перспективными для развития темы.
Worst practices (это делать не надо)
- Фокус только на очевидных и высокочастотных запросах: Оптимизация только под популярные запросы (Directly-linked) может привести к упущению трафика с подсказок, продвигаемых через механизм Hidden Interest, так как очевидные связи могут быть отфильтрованы.
- Использование некачественных или кликбейтных изображений: Попытка манипулировать визуальной привлекательностью с помощью нерелевантных изображений, скорее всего, приведет к негативным оценкам асессоров и низкому скору Hidden Interest.
- Создание поверхностного контента: Контент, который не раскрывает глубинные связи темы, не сможет удовлетворить пользователей, перешедших по подсказкам со «скрытым интересом».
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на улучшение пользовательского опыта через глубокое понимание интента и стимулирование исследования темы (Exploratory Search). Он показывает, что Яндекс готов жертвовать показом самых популярных связанных запросов в пользу менее очевидных, но более интересных. Для SEO это означает, что стратегия построения Topical Authority должна включать не только ядро темы, но и ее периферию – косвенные связи, смежные темы и связанные сущности.
Практические примеры
Сценарий 1: Обработка запроса и Смешивание (Базовый вариант, Claim 1)
- Запрос: «Macaulay Culkin».
- Кандидаты: (A) «Macaulay Culkin movies», (B) «Macaulay Culkin 2025», (C) «Rachel Miner» (экс-жена), (D) «Macaulay Culkin band».
- Список 1 (Frequency): (A), (B), (C), (D). (Фильмы ищут чаще всего).
- Список 2 (Hidden Interest): (D), (C), (B), (A). (Асессоры оценили, что информация о группе (D) и экс-жене (C) менее очевидна, но интересна — «3 thumbs up»).
- Смешивание (Assessment Parameter = 50/50): Берем Топ-2 из Списка 1 и Топ-2 из Списка 2.
- Финальный список: (A) Фильмы, (B) 2025, (D) Группа, (C) Рэйчел Майнер.
Сценарий 2: Применение фильтрации (Вариант с Claim 2)
- Список 1 (Frequency): (A) Фильмы, (B) 2025, (C) Рэйчел Майнер, (D) Группа.
- Фильтрация: Система классифицирует (A) и (B) как Directly-linked (очевидные). Они удаляются.
- Отфильтрованный Список 1: (C) Рэйчел Майнер, (D) Группа.
- Список 2 (Hidden Interest): (D) Группа, (C) Рэйчел Майнер, (B) 2025, (A) Фильмы.
- Смешивание (50/50): Берем Топ-2 из Отфильтрованного Списка 1 и Топ-2 из Списка 2.
- Финальный список: (C), (D). (Система полностью убрала самые популярные, но очевидные подсказки, сфокусировавшись на неочевидных связях).
Вопросы и ответы
В чем разница между Frequency Parameter и Hidden Interest Parameter?
Frequency Parameter (Параметр Частотности) отражает популярность подсказки — как часто пользователи искали ее в прошлом или кликали на нее. Это количественная метрика. Hidden Interest Parameter (Параметр Скрытого Интереса) отражает высокую релевантность и интересность подсказки независимо от ее популярности. Это качественная метрика, часто определяемая асессорами или ML-моделями для выявления редких, неочевидных, но ценных запросов.
Что такое «прямо связанные» (Directly-linked) подсказки и почему Яндекс их фильтрует?
Directly-linked подсказки — это очевидные, тривиальные уточнения исходного запроса (например, добавление слов «купить», «фото» или очевидных характеристик). Яндекс может фильтровать их (согласно Claim 2), чтобы повысить ценность блока подсказок. Цель — предложить пользователю неочевидные (Indirectly-linked) и интересные (Hidden Interest) направления для дальнейшего исследования темы, а не показывать банальные варианты.
Как работает алгоритм «Three thumbs up», упомянутый в патенте?
Это методология асессорской разметки для обучения ML-моделей. Асессор оценивает связанный запрос: «1 палец» означает, что запрос релевантен, но слишком очевиден (низкая ценность как подсказки). «2 пальца» — релевантен и менее очевиден. «3 пальца» — релевантен, но совершенно не очевиден (высокая ценность, скрытый интерес). Модели учатся предсказывать эти оценки, чтобы автоматически находить запросы уровня «3 пальца».
Влияет ли этот патент на основное ранжирование (Core Ranking)?
Напрямую нет. Патент описывает систему ранжирования и отбора поисковых подсказок (Related Searches/Suggestions), а не ранжирование документов в основной выдаче. Однако он влияет на то, как пользователи уточняют свои запросы и перемещаются между темами (User Journey). Понимание этого механизма важно для контент-стратегии и построения Topical Authority.
Что такое Assessment Parameter и как он используется?
Assessment Parameter определяет пропорцию смешивания (Blending Ratio). Поскольку система генерирует два списка подсказок (один по популярности, другой по скрытому интересу), этот параметр определяет, сколько результатов взять из каждого списка для финальной выдачи. Например, он может определить, что нужно взять 2 популярные (но неочевидные) подсказки и 4 подсказки со скрытым интересом.
Как SEO-специалисту определить запросы со «скрытым интересом» для своей ниши?
Необходимо анализировать блоки «Похожие запросы» и визуальные подсказки в выдаче Яндекса — они уже прошли фильтрацию, описанную в патенте. Также стоит проводить глубокий анализ тематики, выходя за рамки стандартной кластеризации, и искать неочевидные пересечения тем, редкие сценарии использования или информационные потребности, которые не покрыты конкурентами (запросы уровня «3 пальца»).
Патент называется «…in Image Searches». Означает ли это, что он работает только в Яндекс.Картинках?
Не обязательно. Хотя название упоминает поиск по изображениям, в описании и Claims речь идет об «Image-based search suggestions» — это поисковые подсказки, которые визуализированы с помощью изображений. В патенте показано, что они могут отображаться на стандартной странице результатов поиска (SERP), часто вверху. Система использует изображения для иллюстрации подсказок, но применяться может шире, чем только в вертикали Картинок.
Упоминается ли в патенте «привлекательность» (Attractiveness) как фактор ранжирования?
Да. В патенте (например, Claim 9) указано, что при определении Hidden Interest Parameter асессоры могут учитывать «привлекательность результатов поиска» и «привлекательность SERP». Поскольку речь идет о визуальных подсказках, это подразумевает, что эстетическое качество и релевантность используемых изображений могут влиять на ранжирование подсказки.
Как используется машинное обучение в этом патенте?
Машинное обучение используется на нескольких этапах. Во-первых, для ранжирования по частотности и по скрытому интересу (две основные модели). Во-вторых, для фильтрации очевидных подсказок (ML-модель, обученная на разметке «Three thumbs up»). В-третьих, для определения пропорции смешивания (Assessment Parameter). Все эти модели обучаются на основе поведенческих данных и асессорских оценок.
Могут ли редкие НЧ запросы получить преимущество благодаря этой системе?
Да, это одна из основных целей патента. Редкие НЧ запросы по определению имеют низкий параметр частоты. Однако, если они обладают высоким параметром скрытого интереса (Hidden Interest Parameter), система активно повысит их в ранжировании подсказок и покажет пользователю, даже если они редко встречаются в логах поиска.