Как Яндекс ранжирует свежий контент (изображения/видео) в 2D-выдаче без истории пользовательских взаимодействий

Яндекс патентует метод ранжирования «ненативных» элементов (свежий контент без статистики кликов) в 2D-выдаче (например, Яндекс Картинки). Система обучается предсказывать «Оценку Полезности» нового элемента на разных позициях, анализируя, как пользователи взаимодействуют с ним (Win) и его соседями справа и снизу (Loss). Новый контент вставляется на позицию с максимальной прогнозируемой полезностью.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» (cold start problem) для нового контента в поисковых системах, особенно в вертикалях с 2D-структурой выдачи (изображения, видео). Стандартные алгоритмы ранжирования полагаются на историю пользовательских взаимодействий. Новый, недавно просканированный контент (называемый Ненативные элементы) не имеет этой истории, поэтому стандартные алгоритмы не могут эффективно определить его релевантность и позицию в выдаче по сравнению со старым контентом (Нативные элементы). Патент предлагает механизм для оценки и ранжирования такого контента до накопления достаточной статистики.

Что запатентовано

Запатентована система и метод для определения оптимальных позиций Ненативных элементов в 2D-выдаче. Суть изобретения заключается в способе расчета Оценки полезности (Utility Score) нового элемента на конкретной позиции и обучении модели машинного обучения (Алгоритм прогнозирования оценки полезности) предсказывать эту оценку. Полезность рассчитывается на основе баланса между взаимодействиями с самим элементом (Win) и взаимодействиями с элементами, расположенными после него по горизонтали и вертикали (Loss).

Как это работает

Система работает в две фазы:

Фаза Обучения: Система искусственно внедряет ненативные элементы на разные позиции в стандартную выдачу и показывает пользователям. Затем она измеряет Оценку полезности, используя Функцию профицита (Surplus Function). Клик по новому элементу засчитывается как выигрыш (Win). Клик по элементам справа или снизу от него засчитывается как проигрыш (Loss), предполагая, что новый элемент был пропущен. На этих данных обучается Алгоритм прогнозирования оценки полезности (MLA).
Фаза Использования: Когда появляется новый ненативный элемент, обученный MLA прогнозирует его Оценку полезности на всех возможных позициях выдачи. Элемент вставляется на ту позицию, где прогнозируемая полезность максимальна.

Актуальность для SEO

Высокая. Проблема «холодного старта» критична для поисковых систем, особенно в вертикалях, где важна свежесть (новости, трендовые изображения). Описанный механизм использования поведенческих сигналов в реальном времени для оценки качества внедрения и последующего обучения предиктивной модели является стандартной практикой в современных рекомендательных и поисковых системах.

Важность для SEO

Влияние на SEO значительно (7/10), но специфично для вертикального поиска (Яндекс Картинки, Видео). Патент описывает конкретный механизм, позволяющий свежему контенту быстро занять высокие позиции, минуя необходимость длительного накопления статистики. Ключевым фактором успеха является немедленная вовлеченность (Win) и визуальное качество, которое не заставляет пользователя искать дальше (минимизация Loss). Для традиционного веб-поиска (текстовые документы в 1D-структуре) этот конкретный патент напрямую не применим, так как он жестко завязан на 2D-структуру выдачи и анализ горизонтальных/вертикальных соседей.

Детальный разбор

Термины и определения

Алгоритм прогнозирования оценки полезности (Utility Score Prediction Algorithm): Алгоритм машинного обучения (MLA 304), обученный предсказывать Оценку полезности для ненативного элемента на конкретной ранжированной позиции с учетом факторов SERP.
Алгоритм ранжирования на основе пользовательских взаимодействий (User Interaction-based Ranking Algorithm): Стандартный алгоритм ранжирования (MLA 302), который ранжирует Нативные элементы на основе накопленной истории взаимодействий.
Визуальная 2D структура (Visual 2D Structure): Структура выдачи, организованная в виде сетки с рядами и колонками (например, выдача Яндекс Картинок). Позиция элемента определяется его рангом, размером и размером окна браузера.
Зона вертикальной близости (Zone of Vertical Proximity): Область, используемая для определения вертикальных соседей. Для элемента это зона в следующем ряду, находящаяся строго под ним (между его горизонтальными границами). Элементы, перекрывающие эту зону, считаются вертикальными соседями.
Нативные элементы (Native Elements): Элементы, для которых накоплено достаточное количество пользовательских взаимодействий. Они могут быть эффективно ранжированы стандартным алгоритмом.
Ненативные элементы (Non-native Elements): Новые или редко показываемые элементы с ограниченной историей пользовательских взаимодействий. Стандартный алгоритм не может их эффективно ранжировать.
Оценка полезности (Utility Score): Метрика, рассчитываемая для ненативного элемента на конкретной позиции. Отражает баланс между положительными взаимодействиями с элементом и отрицательными взаимодействиями (кликами по соседям справа/снизу).
Функция профицита (Surplus Function): Формула для расчета Оценки полезности: взвешенная сумма выигрышей (Win) и проигрышей (Loss).

Ключевые утверждения (Анализ Claims)

Патент защищает метод интеграции нового контента в ранжирование путем прогнозирования его полезности на основе анализа взаимодействий с геометрическими соседями в 2D-выдаче.

Claim 1 (Независимый пункт): Описывает полный цикл работы системы (Фаза Обучения и Фаза Использования).

Фаза Обучения:

Система получает взаимодействия с SERP, где Ненативные элементы были искусственно внедрены в список Нативных элементов.
Важно: Элементы структурированы в Визуальную 2D структуру (сетку).
Для каждого ненативного элемента рассчитывается Оценка полезности. Расчет включает анализ взаимодействий с: (i) самим элементом; (ii) элементами, горизонтально структурированными *после* него; (iii) элементами, вертикально структурированными *после* него.
Система ранжирования (MLA) обучается прогнозировать эту Оценку полезности, используя ранжированный список и факторы SERP (размеры окна, размеры элементов) как признаки.

Фаза Использования:

В ответ на новый запрос генерируется список нативных элементов.
Обученная система определяет оптимальную позицию для ненативного элемента на основе прогнозов полезности.
Ненативный элемент внедряется на эту оптимальную позицию.

Claims 14-16 (Зависимые пункты): Определяют механику расчета Оценки полезности.

Взаимодействия с самим ненативным элементом считаются положительными (Win).
Взаимодействия с горизонтальными и вертикальными соседями *после* него считаются отрицательными (Loss).
Оценка полезности является взвешенной суммой (например, с использованием Функции профицита).

Claims 9, 11-12 (Зависимые пункты): Определяют, какие элементы считаются соседями.

Горизонтальный сосед: элемент, находящийся сразу после (например, справа).
Вертикальный сосед: определяется через Зону вертикальной близости — область в следующем ряду строго под элементом. Любой элемент, перекрывающий эту зону, является соседом.

Claims 10, 13 (Зависимые пункты): Описывают обработку Визуальных групп (когда несколько ненативных элементов расположены рядом).

Взаимодействия анализируются для всей группы.

Соседи определяются относительно всей группы (например, N элементов справа от группы, если в группе N элементов по горизонтали).

Где и как применяется

Изобретение применяется в системах поиска, где результаты представлены в виде Визуальной 2D структуры (сетки), таких как Яндекс Картинки или Яндекс Видео.

CRAWLING – Сканирование и Сбор данных
Система сбора данных (Scraper) постоянно находит новые элементы. Эти элементы помечаются как Ненативные из-за отсутствия истории взаимодействий,.

INDEXING – Индексирование и извлечение признаков
Извлекаются присущие элементу характеристики (размер, цветовая схема, компьютерное зрение, новизна), которые хранятся в базе данных и используются для первичного отбора кандидатов.

RANKING – Ранжирование
На этом этапе происходит основная работа патента.

Отбор кандидатов: Выбираются обще-релевантные нативные и ненативные элементы.
Ранжирование нативных элементов: Стандартный алгоритм (Алгоритм ранжирования на основе пользовательских взаимодействий, 302) ранжирует нативные элементы.
Определение позиции ненативных элементов (Фаза Использования): Алгоритм прогнозирования оценки полезности (304) используется для определения оптимальной позиции внедрения ненативных элементов. Он принимает на вход ранжированный список нативных элементов и факторы SERP (размер окна, размеры элементов) и предсказывает Оценку полезности для разных позиций.

BLENDER – Метапоиск и Смешивание (Генерация SERP)
Ненативный элемент внедряется на позицию с максимальной прогнозируемой полезностью. Система генерации SERP формирует финальную Визуальную 2D структуру, учитывая ранги, размеры элементов и размер окна браузера.

На что влияет

Конкретные типы контента: Патент явно указывает на применение к элементам-изображениям и элементам-видео. Он не применим к стандартной 1D веб-выдаче.
Свежесть контента: Алгоритм напрямую влияет на ранжирование свежего, недавно просканированного контента, решая проблему «холодного старта».
Специфические запросы: Механизм может быть особенно активен для трендовых или новостных запросов, где пользователи заинтересованы в самом новом контенте (например, запрос о недавнем событии).

Когда применяется

Алгоритм применяется при выполнении поискового запроса, если среди обще-релевантных результатов присутствуют Ненативные элементы.

Триггеры активации: Наличие релевантных ненативных элементов в индексе. Также может активироваться, если запрос идентифицирован как трендовый (часто вводился в последнее время), что повышает вероятность интереса пользователя к новым элементам.
Частота применения: Постоянно в фазе использования для ранжирования. Фаза обучения также происходит непрерывно, собирая данные из взаимодействий с искусственно внедренными элементами.

Пошаговый алгоритм

Система работает в двух параллельных процессах: Обучение модели и Использование модели.

Процесс А: Фаза Обучения (Сбор данных и расчет Оценки Полезности)

Ранжирование и Внедрение: В ответ на запрос система ранжирует нативные элементы и искусственно внедряет ненативные элементы на выбранные (например, случайные) позиции.
Генерация SERP: Формируется Визуальная 2D структура (сетка) на основе рангов и факторов SERP (размеры элементов/окна).
Сбор Взаимодействий: Система собирает данные о кликах пользователя на SERP.
Расчет Оценки Полезности: Для каждого ненативного элемента рассчитывается Оценка полезности:
1. Анализ взаимодействий с самим элементом (Win).
2. Анализ взаимодействий с горизонтальными соседями *после* него (Loss). Это обычно элемент сразу справа.
3. Анализ взаимодействий с вертикальными соседями *после* него (Loss). Определяется через Зону вертикальной близости (элементы в следующем ряду строго под ним).
4. Применение Функции профицита: $Surplus = a \cdot Win + b \cdot Loss$ .
Обучение Модели: Алгоритм прогнозирования оценки полезности (MLA 304) обучается предсказывать рассчитанную Оценку полезности, используя характеристики элемента, его позицию и факторы SERP как признаки.

Процесс Б: Фаза Использования (Ранжирование в реальном времени)

Получение Запроса: Система получает запрос и факторы SERP (например, размер окна).
Ранжирование Нативных Элементов: Стандартный алгоритм (302) создает ранжированный список нативных элементов.
Прогнозирование Полезности: Для релевантного ненативного элемента обученный MLA (304) прогнозирует Оценку полезности для *каждой* возможной позиции внедрения в список.
Определение Оптимальной Позиции: Выбирается позиция, обеспечивающая максимальную прогнозируемую Оценку полезности,.
Внедрение и Выдача: Ненативный элемент внедряется на оптимальную позицию, формируется финальная SERP.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для Фазы Обучения. Используются клики (выбор), долгие клики, наведение курсора. Эти данные определяют Win и Loss для расчета Оценки полезности.
Контентные (Присущие элементу характеристики): Используются для первичного отбора и как признаки для MLA 304. Включают: размер элемента, цветовую схему, наличие объектов (компьютерное зрение), тип элемента, ресурс (источник).
Временные факторы: Параметр новизны (время с момента сканирования). Используется для идентификации ненативных элементов.
Контекстные факторы (Факторы SERP): Используются для определения визуальной структуры и как признаки для MLA 304. Включают:
- Факторы запроса (например, частота вводов за последнее время/трендовость).
- Размер окна браузерного приложения.
- Размеры визуальных элементов.

Какие метрики используются и как они считаются

Оценка полезности (Utility Score): Основная метрика патента. Рассчитывается для ненативных элементов во время Фазы Обучения.
Функция профицита (Surplus Function): Метод расчета Оценки полезности:
$Surplus(win, loss) = a \cdot win + b \cdot loss$
Где $a$ и $b$ — весовые коэффициенты (причем $b$ обычно имеет обратный знак по сравнению с $a$ . Например, $a=1, b=-1.4$ ).
Win (Выигрыш): Определяется положительными взаимодействиями. В основном, это клики по самому ненативному элементу.
Loss (Проигрыш): Определяется отрицательными взаимодействиями. Это клики по элементам, расположенным горизонтально или вертикально *после* ненативного элемента. Это сигнализирует о том, что пользователь пропустил ненативный элемент.
Алгоритмы машинного обучения: Используются два MLA. Стандартный (302) для ранжирования нативных элементов и Предиктивный (304), который обучается прогнозировать Оценку полезности.

Выводы

Решение проблемы «холодного старта» для 2D-выдачи: Патент предлагает конкретный механизм для ранжирования нового контента (изображений/видео) без истории кликов, позволяя ему быстро конкурировать с устоявшимся контентом.
Полезность определяется через Win/Loss (Профицит): Ключевая инновация — это расчет Оценки полезности. Она зависит не только от кликов по элементу (Win), но и от того, не приводит ли его показ к кликам по соседям справа и снизу (Loss). Это оценка качества внедрения элемента на конкретную позицию.
Геометрия выдачи имеет значение: Ранжирование в 2D-сетке сильно зависит от визуального контекста (размера элемента, размера окна, расположения соседей). Система явно моделирует это через Зону вертикальной близости и анализ горизонтальных соседей.
Двухфазный подход (Обучение/Использование): Яндекс использует реальные пользовательские данные, полученные через искусственное внедрение, для обучения предиктивной модели (MLA 304). В продакшене используется эта модель для определения оптимальной позиции без необходимости случайных внедрений для каждого нового элемента.
Специфичность для вертикалей: Метод жестко привязан к 2D-структуре и не применим напрямую к стандартному веб-поиску (1D-список).

Практика

Best practices (это мы делаем)

Эти рекомендации применимы строго к SEO для вертикалей с 2D-выдачей (Яндекс Картинки, Видео).

Максимизация немедленной вовлеченности (Win): Создавайте визуально привлекательный, понятный и релевантный контент. Превью (thumbnail) должно максимально точно отражать содержание и мотивировать пользователя кликнуть на него, а не на соседние элементы. Это напрямую увеличивает Оценку полезности.
Оптимизация под свежесть и тренды: Поскольку система предназначена для быстрого ранжирования нового контента, оперативно публикуйте высококачественные визуальные материалы по актуальным событиям. Система может отдавать предпочтение новому контенту по трендовым запросам.
Обеспечение технического качества и доступности: Убедитесь, что изображения и видео быстро загружаются и корректно индексируются. Их характеристики (например, размер) используются как признаки для MLA.
Оптимизация метаданных для первичной релевантности: Хотя патент фокусируется на ранжировании без поведенческой истории, контент должен сначала пройти порог общей релевантности, чтобы попасть в кандидаты. Используйте релевантные заголовки, описания, alt-тексты и имена файлов.

Worst practices (это делать не надо)

Низкое визуальное качество и нерелевантные превью: Изображения или превью видео, которые непонятны, имеют низкое качество или не соответствуют запросу, будут проигнорированы пользователями. Это приведет к кликам по соседним элементам, максимизируя Loss и снижая Оценку полезности.
Игнорирование вертикального поиска: Пренебрежение оптимизацией изображений и видео лишает сайт трафика из вертикалей, где свежий контент может ранжироваться быстрее, чем в веб-поиске.

Стратегическое значение

Патент подчеркивает, что для вертикального поиска в Яндексе немедленное поведение пользователя на выдаче является ключевым сигналом для оценки качества нового контента. Это демонстрирует сложный подход к ранжированию, который учитывает не только сам элемент, но и его визуальный контекст и влияние на взаимодействие с другими элементами на SERP. Стратегически это означает, что в Image/Video SEO визуальное качество и привлекательность контента имеют первостепенное значение для быстрого набора видимости.

Практические примеры

Сценарий: Ранжирование нового изображения для трендового события

Событие: Происходит важное спортивное событие.
Действие SEO/Контент-менеджера: Вы оперативно публикуете высококачественную, эмоциональную фотографию ключевого момента матча с оптимизированными метаданными.
Действие Яндекса (Фаза Использования): Яндекс индексирует изображение и определяет его как Ненативный элемент. Запрос трендовый. Алгоритм прогнозирования оценки полезности (304) предсказывает высокую Оценку полезности для позиции в первом ряду, так как характеристики изображения (новизна, качество, релевантность) соответствуют паттернам, которые исторически генерировали много Win и мало Loss.
Результат: Изображение внедряется на высокую позицию в Яндекс Картинках.
Дальнейшее поведение: Если пользователи активно кликают на ваше изображение (Win), а не на соседей (Loss), его Оценка полезности подтверждается, и оно быстрее становится Нативным элементом с высоким рангом. Если его игнорируют (много Loss), его позиции упадут.

Вопросы и ответы

Применяется ли этот патент к обычному веб-поиску Яндекса?

Нет, напрямую не применяется. Патент специфически описывает ранжирование в Визуальной 2D структуре, то есть в сетке с рядами и колонками, что характерно для Яндекс Картинок или Видео. Механизм расчета полезности основан на анализе горизонтальных и вертикальных соседей, что не применимо к стандартному 1D-списку текстовых результатов.

Что такое «Ненативный элемент»?

Это контент (изображение или видео), который был недавно просканирован или редко показывался пользователям, поэтому по нему нет достаточной истории пользовательских взаимодействий (кликов). Стандартный алгоритм ранжирования, который полагается на эту историю, не может эффективно определить его релевантность.

Что такое «Оценка полезности» (Utility Score) и почему она важна?

Оценка полезности (Utility Score) — это метрика, которую система рассчитывает для нового элемента на конкретной позиции. Она показывает, насколько удачно элемент вписался в выдачу. Высокая оценка означает, что пользователи взаимодействовали с элементом и не игнорировали его в пользу соседей. Эта оценка является целью обучения для модели, которая затем определяет лучшие позиции для нового контента.

Что такое Win (Выигрыш) и Loss (Проигрыш) в этом патенте?

Win — это положительное взаимодействие, обычно клик по самому ненативному элементу. Loss — это отрицательное взаимодействие, которое засчитывается, если пользователь кликнул не на ненативный элемент, а на его соседей, расположенных *после* него (справа в том же ряду или снизу в следующем ряду). Предполагается, что если пользователь кликнул дальше, значит, ненативный элемент был нерелевантен или непривлекателен.

Как рассчитывается итоговая Оценка полезности?

Она рассчитывается по Функции профицита (Surplus Function): $Surplus = a \cdot Win + b \cdot Loss$. Это взвешенная сумма выигрышей и проигрышей. Вес Loss обычно отрицательный (например, Win может стоить 1 балл, а Loss -1.4 балла). Цель — максимизировать этот показатель.

Как Яндекс определяет, что находится «снизу» от моего изображения?

Яндекс использует концепцию Зоны вертикальной близости. Это область в следующем ряду выдачи, расположенная строго между горизонтальными границами вашего изображения. Любое изображение, которое хотя бы частично перекрывает эту зону, считается соседом снизу. Если пользователь кликнет на него, вашему изображению засчитается Loss.

Влияет ли размер моего изображения на ранжирование по этому патенту?

Да, косвенно. Размер изображения является одним из факторов SERP и используется как признак при обучении модели. Кроме того, размер влияет на то, как формируется 2D-сетка и какие именно элементы окажутся соседями справа и снизу (в Зоне вертикальной близости). Например, очень широкое изображение может иметь больше соседей снизу.

Что мне делать как SEO-специалисту, чтобы мой новый контент ранжировался лучше по этому алгоритму?

Ваша главная задача — максимизировать Win и минимизировать Loss. Это достигается публикацией визуально привлекательного, высококачественного и максимально релевантного запросу контента (изображений/видео). Превью должно быть таким, чтобы пользователь захотел кликнуть на него сразу, не переходя к изучению соседних результатов.

Как система решает, куда поставить новый элемент? Она перебирает все варианты?

Да, в Фазе Использования обученная модель (Алгоритм прогнозирования оценки полезности) прогнозирует Оценку полезности для нового элемента на всех возможных позициях внедрения в текущую выдачу. Система выбирает позицию, где прогнозируемая оценка максимальна, и вставляет элемент туда.

Откуда система берет данные для обучения этой модели?

В Фазе Обучения система периодически искусственно внедряет ненативные элементы на разные (например, случайные) позиции в выдаче реальных пользователей. Затем она собирает данные об их взаимодействиях (Win/Loss) и использует их как Ground Truth для обучения модели прогнозирования.