Яндекс патентует метод ранжирования свежего контента (например, картинок или видео) в 2D-сетке, по которому еще нет статистики. Система рассчитывает «Оценку Полезности» нового элемента, анализируя клики по нему (позитивный сигнал, Win) и клики по элементам, расположенным справа и снизу от него (негативный сигнал, Loss). Это позволяет обучить модель предсказывать оптимальную позицию для нового контента.
Описание
Какую задачу решает
Патент решает проблему «холодного старта» (cold start problem) для свежего контента. Стандартные алгоритмы ранжирования полагаются на исторические данные о взаимодействиях пользователей. Свежий контент (называемый в патенте Non-Native Items или Fresh Items) не имеет такой истории, поэтому стандартные алгоритмы не могут его ранжировать. Изобретение предлагает механизм для интеграции и оценки качества этого свежего контента, специфичный для поисковой выдачи с двухмерной (2D) раскладкой (например, сетка изображений или видео).
Что запатентовано
Запатентован метод обучения системы ранжирования для определения оптимальной позиции Non-Native Items среди Native Items (контент с историей) в 2D-выдаче. Суть изобретения заключается в расчете Usefulness Score (Оценки Полезности) для свежего контента. Эта оценка базируется на анализе контекстного поведения: взаимодействия с самим элементом считаются позитивными сигналами (Win), а взаимодействия с элементами, расположенными горизонтально и вертикально *после* него, считаются негативными сигналами (Loss).
Как это работает
Система работает в две фазы:
- Фаза Обучения (Training Phase): Свежие элементы искусственно вставляются (artificially inserted) на разные позиции в ранжированный список старых элементов. Эта смешанная выдача показывается пользователям в 2D-формате. Система собирает данные о взаимодействиях (например, кликах).
- Расчет Usefulness Score: Для каждого свежего элемента рассчитывается оценка полезности с использованием функции Surplus Function (Функция Профицита). Клики по элементу учитываются как «Win». Клики по элементам справа и снизу учитываются как «Loss».
- Обучение Модели: Система ранжирования обучается предсказывать эту оценку полезности, используя характеристики выдачи (SERP Features) как признаки.
- Фаза Применения (In-Use Phase): При получении нового запроса обученная модель используется для определения оптимальной позиции (Optimal Rank Position) для релевантного свежего контента.
Актуальность для SEO
Высокая. Решение проблемы холодного старта критически важно для вертикалей поиска изображений и видео, особенно при обработке трендовых запросов. Принципы использования контекста окружения и метрик типа Win/Loss (аналогичных метрике Профицит в Яндексе) являются фундаментальными для оценки качества поиска.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично для вертикалей. Этот патент имеет высокое значение для специалистов, фокусирующихся на оптимизации мультимедиа (Яндекс.Картинки, Яндекс.Видео), так как описывает конкретный механизм, как свежие изображения/видео получают начальное ранжирование и как поведение пользователей в 2D-сетке определяет их позицию. Патент имеет минимальное прямое влияние на традиционное SEO в основном веб-поиске (1D список).
Детальный разбор
Термины и определения
- Native Items (Нативные элементы / Used Items)
- Элементы (например, изображения или видео), которые уже часто показывались пользователям и имеют достаточный объем исторических данных о взаимодействиях. Они могут быть ранжированы стандартным алгоритмом (native ranking algorithm).
- Non-Native Items (Не-нативные элементы / Fresh Items)
- Свежие элементы, недавно добавленные в индекс, которые имеют ограниченную историю взаимодействий и не могут быть ранжированы стандартным алгоритмом (non-rankable).
- Visual 2-D Arrangement (Визуальная 2D-раскладка)
- Представление результатов поиска в виде сетки, состоящей из строк и столбцов. Каждая строка содержит как минимум два горизонтально расположенных элемента.
- Usefulness Score (Оценка Полезности)
- Метрика, рассчитываемая для Non-Native Item на определенной позиции. Отражает баланс между позитивными и негативными взаимодействиями, связанными с этим элементом.
- Positive User Interactions (Win) (Позитивные взаимодействия)
- Взаимодействия пользователя непосредственно с анализируемым Non-Native Item (например, клик). Интерпретируются как сигнал полезности элемента.
- Negative User Interactions (Loss) (Негативные взаимодействия)
- Взаимодействия пользователя с элементами, расположенными горизонтально (справа) или вертикально (снизу) после анализируемого Non-Native Item. Интерпретируются как сигнал того, что элемент был пропущен или не удовлетворил пользователя.
- Surplus Function (Функция Профицита)
- Функция, используемая для расчета Usefulness Score. Представляет собой взвешенную сумму Win и Loss.
- SERP Features (Характеристики выдачи)
- Параметры контекста выдачи. Включают характеристики запроса (например, recent submission frequency), размер окна браузера (window size) и визуальный размер элементов (visual item size).
- Vertical Proximity Zone (Вертикальная зона близости)
- Область, определяемая непосредственно под свежим элементом (обычно в следующей строке). Взаимодействия с элементами в этой зоне считаются негативными сигналами (Loss) для элемента выше.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает полный цикл метода определения ранговых позиций для свежего контента (Non-Native Items) в системе, которая уже умеет ранжировать старый контент (Native Items).
Фаза Обучения (Training Phase):
- Сбор данных: Система собирает данные о взаимодействиях пользователей с тренировочной выдачей (Training SERP). Эта выдача формируется путем ранжирования Native Items и *искусственной вставки* Non-Native Items на выбранные позиции. Выдача отображается строго в 2D-формате (сетка).
- Генерация Оценки Полезности (Usefulness Score): Для каждого Non-Native Item рассчитывается оценка. Ключевой элемент изобретения — метод расчета. Он ОБЯЗАТЕЛЬНО включает анализ взаимодействий: (i) с самим элементом; (ii) с элементами, расположенными горизонтально ПОСЛЕ него; (iii) с элементами, расположенными вертикально ПОСЛЕ него.
- Обучение модели: Система ранжирования обучается предсказывать эту Оценку Полезности. Обучение основано на тренировочных данных, включая SERP Features.
Фаза Применения (In-Use Phase):
- Обработка запроса: Система получает запрос и ранжирует Native Items.
- Определение оптимальной позиции: Используя обученную модель, система определяет оптимальную позицию для Non-Native Item.
- Вставка: Новый элемент вставляется на эту позицию, формируя финальный список.
Claims 14-16 (Зависимые пункты): Уточняют, что взаимодействия (i) являются позитивными (Win), взаимодействия (ii) и (iii) являются негативными (Loss), и что Usefulness Score рассчитывается как их взвешенная сумма с применением Surplus Function.
Где и как применяется
Изобретение применяется в рамках вертикальных поисковых систем Яндекса, использующих двухмерную (2D) раскладку выдачи (Яндекс.Картинки, Яндекс.Видео).
CRAWLING & INDEXING
На этих этапах свежий контент идентифицируется и классифицируется как Non-Native Items из-за отсутствия истории взаимодействий.
RANKING – Ранжирование
Система использует два подхода. Стандартный алгоритм ранжирует Native Items. Описанный в патенте механизм используется для оценки и позиционирования Non-Native Items. Это включает офлайн-процесс (обучение модели на логах с Training SERP) и онлайн-процесс (применение модели).
BLENDER – Метапоиск и Смешивание / Генерация SERP
На этапе формирования финальной выдачи происходит вставка свежего контента на оптимальные позиции. Критически важно учитывать SERP Features (размер окна, размеры элементов), так как они определяют финальную 2D-сетку и, соответственно, контекст для расчета и предсказания Win/Loss.
На что влияет
- Конкретные типы контента: Патент явно указывает на image-type item (изображения) и video-type item (видео). Он не применим к стандартному веб-поиску (1D список).
- Специфические запросы: Метод особенно важен для запросов, требующих свежести (QDF). В патенте упоминается, что высокая частота подачи запроса (recent submission frequency) может указывать на интерес к свежим результатам (например, новостные события).
Когда применяется
Алгоритм применяется при наличии в индексе свежего контента (Non-Native Items), релевантного запросу, в вертикалях с 2D-выдачей.
- Фаза Обучения: Происходит постоянно. Система формирует Training SERP для части пользователей, искусственно вставляя свежий контент для сбора данных.
- Фаза Применения: Активируется при обработке запроса для определения оптимальной позиции свежего контента в реальной выдаче.
Пошаговый алгоритм
Процесс разделен на две основные фазы.
Фаза Обучения (Training Phase) — Преимущественно Офлайн
- Формирование тренировочной выдачи:
- Ранжирование Native Items.
- Искусственная вставка Non-Native Items на выбранные (случайные или по паттерну) позиции.
- Отображение смешанной выдачи в 2D-формате пользователю.
- Сбор данных: Запись всех взаимодействий пользователя (кликов) и SERP Features (размер окна, размеры элементов).
- Определение зон влияния: Для каждого Non-Native Item на основе SERP Features реконструируется 2D-макет и определяются зоны сигналов:
- Позитивная зона (Win): Сам элемент.
- Негативная горизонтальная зона (Loss): Элементы справа от него (например, непосредственно следующий).
- Негативная вертикальная зона (Loss): Область в следующей строке под элементом (Vertical Proximity Zone).
- Расчет Usefulness Score: Применение Surplus Function на основе взаимодействий в этих зонах:
$$Score = a \cdot Win + b \cdot Loss$$
- Обучение модели: Обучение ML-алгоритма предсказывать рассчитанный Usefulness Score.
Фаза Применения (In-Use Phase) — Онлайн
- Получение запроса и SERP Features.
- Ранжирование Native Items.
- Предсказание оптимальной позиции: Использование обученной модели для определения позиции, где Non-Native Item получит наивысший прогнозируемый Usefulness Score.
- Формирование финальной выдачи: Вставка Non-Native Items на оптимальные позиции и генерация 2D SERP.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (User Interactions): Основа изобретения. Используются: клики (selection), долгие клики (long selection), клики с последующим переходом на ресурс (web resource transition), наведение курсора (hovering action).
- Технические и Пользовательские факторы (SERP Features): Размер окна браузера (window size). Критически важно для определения 2D-раскладки и зон влияния (Loss).
- Мультимедиа факторы: Визуальный размер элемента (visual item size). Также упоминаются внутренние характеристики (цветовая схема, объекты компьютерного зрения), которые могут использоваться как признаки модели.
- Временные факторы: Параметр свежести (freshness parameter) для идентификации Non-Native Items.
- Факторы Запроса (Query Features): Частота подачи запроса в последнее время (recent submission frequency). Используется для определения актуальности тематики.
Какие метрики используются и как они считаются
- Usefulness Score (Оценка Полезности): Ключевая метрика, которую система вычисляет на фазе обучения и предсказывает на фазе применения.
- Surplus Function (Функция Профицита): Метод расчета Usefulness Score. В патенте приводится формула:
$$Surplus(win, loss) = a \cdot win + b \cdot loss$$
- Win (Positive User Interactions): Определяется взаимодействиями с самим элементом.
- Loss (Negative User Interactions): Определяется взаимодействиями с элементами в горизонтальной и вертикальной негативных зонах.
- Весовые коэффициенты (a, b): Используются для балансировки Win и Loss. В патенте отмечается, что ‘b’ может иметь противоположный знак к ‘a’. Приведен пример: a=1, b=-1.4 (то есть Loss штрафует сильнее, чем Win помогает).
Выводы
- Специфичность для 2D-выдачи: Описанные механизмы применимы исключительно к поисковым вертикалям с сеточной раскладкой (Яндекс.Картинки, Яндекс.Видео) и не влияют на основной веб-поиск.
- Решение «холодного старта» через контекстное поведение: Патент предлагает решение для ранжирования нового контента путем использования поведенческих сигналов из *контекста* размещения элемента (Win/Loss), вместо отсутствующей истории самого элемента.
- Формализация негативных сигналов в сетке: Ключевой инсайт — четкое определение того, что считать неудачей (Loss) в 2D-выдаче: пропуск элемента и клик по соседним элементам справа или снизу.
- Влияние раскладки на ранжирование: Характеристики выдачи (SERP Features), такие как размер окна и размер изображения/видео, напрямую влияют на расчет Usefulness Score, так как они определяют, какие элементы попадают в негативные зоны влияния.
- Активное продвижение свежести: Система разработана для быстрого тестирования и интеграции свежего контента, особенно для актуальных запросов (QDF).
Практика
Best practices (это мы делаем)
Эти рекомендации применимы строго к SEO для Яндекс.Картинок и Яндекс.Видео.
- Оптимизация под немедленное вовлечение (Высокий Win): Создавайте визуально привлекательные, четкие и релевантные изображения и превью видео. В 2D-сетке критически важно захватить внимание пользователя и мотивировать его кликнуть именно на ваш элемент, а не на соседний.
- Фокус на качестве взаимодействия: Убедитесь, что контент соответствует ожиданиям пользователя после клика. Патент упоминает long selection (долгий клик) и web resource transition (переход на сайт) как типы взаимодействий. Качественный контент увеличивает вероятность этих сильных позитивных сигналов.
- Скорость и свежесть для актуальных тем (QDF): Для новостных порталов и сайтов, освещающих текущие события, критически важна скорость публикации и индексации мультимедиа контента. Система активно тестирует свежие элементы по актуальным запросам (с высокой recent submission frequency).
- Учет адаптивности и размеров: Поскольку размер окна и размер элемента влияют на раскладку и расчет сигналов Loss, убедитесь, что ваши изображения хорошо смотрятся и остаются кликабельными в различных вариантах 2D-сетки (десктоп и мобильные устройства).
Worst practices (это делать не надо)
- Кликбейт в изображениях/видео: Использование вводящих в заблуждение превью может дать краткосрочный клик, но если он не приведет к качественному взаимодействию, его ценность будет ниже.
- Низкое визуальное качество (Высокий Loss): Размытые, нечеткие или визуально непривлекательные изображения будут проигрывать конкуренцию в сетке. Если пользователи пропускают ваш элемент и кликают на соседние (справа или снизу), ваш элемент накапливает негативные сигналы (Loss).
- Игнорирование свежести: Полагаться только на старый мультимедиа контент рискованно, так как система будет активно подмешивать и тестировать свежий контент конкурентов.
Стратегическое значение
Патент подтверждает, что для мультимедийного поиска в Яндексе поведенческие факторы являются определяющими даже для совершенно нового контента. Он демонстрирует сложный подход к интерпретации кликов в 2D-среде, где контекст размещения критически важен. Для долгосрочной стратегии в Яндекс.Картинках/Видео необходимо фокусироваться на визуальном качестве, максимальном CTR и скорости появления контента.
Практические примеры
Сценарий: Ранжирование свежих изображений по новостному запросу в Яндекс.Картинках
- Ситуация: Произошло важное событие. Несколько агентств опубликовали фотографии. Яндекс их проиндексировал (они стали Non-Native Items).
- Действие системы (In-Use Phase): По запросу пользователя система определяет оптимальные позиции для вставки свежих фотографий. Допустим, свежая фотография А вставлена на 5-ю позицию (первый ряд, пятый элемент).
- Анализ поведения (Сбор данных):
- Вариант 1 (Успех): Пользователи активно кликают на фотографию А. Система фиксирует высокий уровень Win. Usefulness Score высокий.
- Вариант 2 (Неудача): Пользователи игнорируют фотографию А (она нечеткая) и кликают на элемент 6 (справа от А) или на элемент, расположенный точно под А в следующем ряду (Vertical Proximity Zone). Система фиксирует Loss для фотографии А. Usefulness Score низкий.
- Результат: Фотография из Варианта 1 быстро накопит статистику, станет Native Item и закрепится в топе. Фотография из Варианта 2 будет пессимизирована.
Вопросы и ответы
Применим ли этот патент к основному веб-поиску Яндекса (10 синих ссылок)?
Нет. В патенте четко указано, что метод предназначен для визуальной 2D-раскладки (visual 2-D arrangement), где каждая строка содержит как минимум два горизонтально расположенных элемента. Это характерно для Яндекс.Картинок или Яндекс.Видео, но не для стандартного одномерного списка веб-результатов.
Что такое «Non-Native Item» и чем он отличается от «Native Item»?
«Non-Native Item» (или Fresh Item) — это свежий контент (например, недавно загруженное изображение), по которому поисковая система еще не накопила достаточной статистики взаимодействий. Из-за этого стандартный алгоритм не может его ранжировать. «Native Item» — это контент с богатой историей кликов, который система умеет ранжировать.
Как именно Яндекс определяет, хорошее мое изображение или плохое, согласно этому патенту?
Оценка базируется на балансе позитивных (Win) и негативных (Loss) сигналов. Win — это когда пользователи кликают на ваше изображение. Loss — это когда пользователи пропускают ваше изображение и кликают на элементы, расположенные справа от него в той же строке или снизу от него в следующей строке. Если Loss перевешивает Win (особенно учитывая веса, например, Loss=-1.4, Win=1), изображение считается плохим для данной позиции.
Что такое «Vertical Proximity Zone» (Вертикальная зона близости)?
Это область, расположенная в строке непосредственно под анализируемым изображением и ограниченная его горизонтальными границами. Если пользователь кликает на любой элемент, который хотя бы частично попадает в эту зону, это засчитывается как негативный сигнал (Loss) для изображения выше. Это означает, что пользователь пропустил верхнее изображение в пользу нижнего.
Имеет ли значение размер моего изображения или разрешение экрана пользователя?
Да, это критически важно. Размер изображения и размер окна браузера пользователя определены как SERP Features. Они влияют на то, как формируется 2D-сетка и какие именно элементы окажутся справа и снизу от вашего изображения (в зонах Loss). Эти факторы учитываются при обучении модели ранжирования.
Что такое Surplus Function и как она связана с метрикой Профицит?
Surplus Function (Функция Профицита) — это формула расчета итоговой оценки полезности: $a \cdot Win + b \cdot Loss$. Это прямая реализация метрики Профицит Яндекса, адаптированная для оценки качества отдельных элементов в 2D-сетке. Она суммирует позитивные и негативные сигналы с разными весами.
Как система решает, куда именно вставить свежее изображение в выдачу?
На этапе применения (In-Use Phase) система использует обученную модель машинного обучения. Эта модель предсказывает, какой Usefulness Score получит свежее изображение на разных позициях в текущей выдаче. Система выбирает ту позицию, где предсказанная оценка максимальна (Optimal Rank Position).
Влияет ли этот патент на ранжирование старых, уже популярных изображений?
Прямого влияния нет, так как старые изображения (Native Items) ранжируются стандартным алгоритмом. Однако косвенно влияет: если система найдет свежее изображение и предскажет для него очень высокую полезность на топовой позиции, оно может вытеснить старые изображения с этой позиции.
Какие типы взаимодействий учитывает система, кроме обычных кликов?
Патент перечисляет несколько типов взаимодействий: обычный клик (selection), долгий клик (long selection), клик, за которым следует переход на веб-ресурс (web resource transition), и наведение курсора (hovering action). Все они могут использоваться для расчета позитивных и негативных сигналов.
Что мне делать как SEO-специалисту, чтобы мои изображения лучше ранжировались по этому алгоритму?
Для успеха в Яндекс.Картинках/Видео необходимо сфокусироваться на максимальном CTR и визуальной привлекательности. Изображение должно быть достаточно качественным и информативным, чтобы пользователь предпочел его соседним элементам в сетке. Также важна скорость публикации актуального контента, чтобы попасть в пул Non-Native Items для тестирования.