Яндекс патентует метод обучения моделей ранжирования и смешивания (блендинга). Для определения истинной полезности результата (веб-страницы или вертикального блока) система намеренно рандомизирует его позицию в выдаче для тестовой группы пользователей. Анализируя взаимодействие пользователей с результатом на случайных позициях, Яндекс вычисляет «Параметр Полезности», который затем используется для определения оптимального расположения этого результата в реальной выдаче.
Описание
Какую задачу решает
Патент решает задачу определения оптимального расположения смешанных результатов поиска (генеральных/веб и вертикальных/специализированных) на странице выдачи (SERP). Ключевая проблема, которую решает изобретение, — это преодоление позиционного смещения (position bias) при обучении моделей ранжирования. Система позволяет определить, кликают ли на результат потому, что он действительно полезен, или просто потому, что он находится на высокой позиции. Это позволяет точнее настроить алгоритмы смешивания (блендинга).
Что запатентовано
Запатентована система и метод для генерации «Параметра Полезности» (Usefulness Parameter). Суть изобретения заключается в намеренном изменении ранга конкретного результата поиска случайным образом (randomly) во время фазы обучения на тестовой группе пользователей (Test User Group, TUG). Анализируя поведение пользователей (взаимодействия) с этим результатом на случайной позиции, система определяет его истинную полезность.
Как это работает
Система работает в два этапа. Этап Обучения: Поисковая система показывает результат (например, вертикальный блок) тестовой группе пользователей на случайной позиции, отличной от его исходного ранга. Затем система анализирует взаимодействия (CTR, время после клика). Если на результат активно кликают, даже когда он рандомизирован низко, это указывает на высокую полезность. Если результат игнорируют, даже когда он рандомизирован высоко, это указывает на низкую полезность. На основе этого анализа генерируется Usefulness Parameter. Этап Применения: В реальном поиске этот заранее определенный параметр используется для определения оптимальной позиции результата на SERP.
Актуальность для SEO
Высокая. Обучение моделей ранжирования с использованием рандомизированных данных для устранения смещений (debiasing) является стандартной и критически важной техникой в современном информационном поиске (Information Retrieval) и машинном обучении. Методы оптимизации смешивания вертикальных и генеральных результатов также крайне актуальны для всех крупных поисковых систем.
Важность для SEO
Влияние на SEO значительно, но косвенное (7/10). Этот патент описывает не фактор ранжирования, а методологию, которую Яндекс использует для обучения своих моделей ранжирования и блендинга. Он подчеркивает, что Яндекс активно измеряет и оптимизирует «полезность» (подтвержденную поведением пользователей). Контент должен быть настолько полезным и привлекательным, чтобы генерировать сильные поведенческие сигналы независимо от его исходной позиции.
Детальный разбор
Термины и определения
- General Search Result (Генеральный результат поиска)
- Результат поиска, полученный из основного веб-индекса (general domain). Обычно это ссылка на веб-сайт и сниппет.
- Vertical Search Result (Вертикальный результат поиска)
- Результат поиска из специализированного домена (vertical domain), например, изображения, новости, видео, карты. В контексте Яндекса это часто колдунщики или блоки специализированных сервисов.
- Mixed Ranking (Смешанное ранжирование)
- Процесс агрегации и ранжирования генеральных и вертикальных результатов относительно друг друга на одной странице выдачи (SERP).
- Usefulness Parameter (Параметр Полезности)
- Ключевая метрика патента. Это инструмент ранжирования, который указывает на оптимальную позицию конкретного результата поиска (вертикального или генерального) в выдаче. Он определяется на основе анализа поведения пользователей с этим результатом, когда его позиция была намеренно рандомизирована.
- Test User Group (TUG) (Тестовая группа пользователей)
- Группа пользователей, чье поведение анализируется во время фазы обучения для определения Usefulness Parameter. Этим пользователям показывается выдача с рандомизированными позициями.
- Original Rank (Исходный ранг)
- Ранг результата поиска, определенный стандартными методами ранжирования до применения рандомизации.
- Random Position (Случайная позиция)
- Позиция на SERP, на которую помещается результат во время фазы обучения, путем случайного изменения его исходного ранга.
- Intent Weight (Вес интента)
- Упоминается в патенте как механизм реализации. Рандомизация может быть выполнена путем присвоения случайного числа в качестве Intent Weight. Финальный Usefulness Parameter определяет оптимальный Intent Weight для использования в реальном ранжировании.
Ключевые утверждения (Анализ Claims)
Патент описывает методологию обучения ранжирования, направленную на определение оптимального расположения результатов путем тестирования их полезности на случайных позициях.
Claim 1 (Независимый пункт): Описывает основной метод генерации SERP с использованием заранее определенного Usefulness Parameter и метод его определения.
Часть A (Применение в реальном времени):
- Система получает запрос.
- Генерируется набор результатов (генеральные + вертикальные).
- Результаты ранжируются на основе (как минимум) Usefulness Parameter, который указывает оптимальную позицию результата.
- Генерируется SERP.
Часть B (Определение Usefulness Parameter – Фаза Обучения):
- Система получает тот же запрос от члена Тестовой Группы Пользователей (TUG).
- Генерируется предыдущая SERP со смешанным ранжированием.
- Критический шаг: Исходный ранг (Original Rank) целевого результата (например, вертикального) модифицируется для его случайного ранжирования (rank randomly), помещая его на случайную позицию (Random Position).
- Эта рандомизированная SERP показывается члену TUG.
- Система анализирует поведение члена TUG в отношении этого результата на случайной позиции.
- На основе этого поведения определяется Полезность и генерируется Usefulness Parameter.
Claims 3-6 (Зависимые пункты): Определяют логику интерпретации поведения пользователей во время обучения.
- Система может рандомизировать позицию как ниже, так и выше исходного ранга.
- Claim 5: Если результат рандомизирован НИЖЕ, и пользователь ВСЕ РАВНО кликает на него (или проводит время после клика), это указывает на ВЫСОКУЮ полезность.
- Claim 6: Если результат рандомизирован ВЫШЕ, и пользователь НЕ кликает на него, это указывает на НИЗКУЮ полезность (non-usefulness).
Claim 7 (Зависимый пункт): Важное расширение. Метод применяется не только к вертикальным результатам.
- Система может также генерировать Second Usefulness Parameter для ГЕНЕРАЛЬНЫХ результатов поиска, используя ту же самую методологию рандомизации и тестирования.
Где и как применяется
Это изобретение затрагивает инфраструктуру обучения и финальные этапы формирования выдачи.
QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)
Основное применение патента — это офлайн-процесс обучения и валидации моделей ранжирования. Описанный метод используется для генерации метрик полезности (Usefulness Parameter), которые служат целевыми функциями для ML-моделей. Это механизм для измерения качества, свободный от позиционного смещения.
BLENDER – Метапоиск и Смешивание (MetaSearch & Blending)
В реальном времени сгенерированные Usefulness Parameters используются на этапе смешивания. Компонент Blender использует эти параметры, чтобы решить, где именно разместить вертикальные результаты (колдунщики) среди генеральных результатов. Параметр помогает определить оптимальный Intent Weight.
RANKING – Ранжирование
Хотя основное влияние оказывается на блендинг, метод также может применяться (согласно Claim 7) для оптимизации ранжирования генеральных результатов, выступая как механизм обучения основной формулы ранжирования.
На что влияет
- Вертикальные результаты (Колдунщики): В первую очередь влияет на то, насколько агрессивно вертикальные блоки (погода, картинки, карты, товары) будут подмешаны в основную выдачу и на какой позиции они появятся.
- Генеральные результаты: Патент явно указывает (Claim 7), что тот же механизм может использоваться для определения полезности и оптимизации позиции обычных веб-результатов.
- Типы запросов: Наибольшее влияние оказывается на запросы со смешанным интентом, где неясно, ищет ли пользователь веб-страницу или специализированный ответ (например, — ищет рецензию, трейлер или расписание сеансов).
Когда применяется
Процесс имеет две фазы применения:
- Офлайн (Обучение): Процесс генерации Usefulness Parameter происходит непрерывно в рамках циклов обучения ML-моделей. Он активируется для тестовой группы пользователей (TUG).
- Онлайн (Применение): Заранее вычисленные Usefulness Parameters применяются в реальном времени на этапе ранжирования и блендинга для формирования финальной SERP для всех пользователей.
Пошаговый алгоритм
Алгоритм описывает процесс определения Usefulness Parameter (Фаза Обучения).
- Инициализация Теста: Определение целевого результата (вертикального или генерального) для анализа и выбор Тестовой Группы Пользователей (TUG).
- Получение Запроса от TUG: Система получает запрос от пользователя, входящего в TUG.
- Генерация Исходной Выдачи: Выполнение поиска и генерация стандартной SERP со смешанным ранжированием. Определение исходного ранга (Original Rank) целевого результата.
- Рандомизация Позиции: Модификация исходного ранга целевого результата случайным образом. Патент предлагает делать это путем генерации случайного числа в качестве его Intent Weight. Результат помещается на случайную позицию (Random Position) — выше или ниже исходной.
- Отображение и Сбор Данных: Рандомизированная SERP показывается пользователю из TUG. Система регистрирует поведение пользователя в отношении целевого результата (клик, отсутствие клика, время после клика).
- Анализ Поведения (Интерпретация):
- Если позиция была понижена, но взаимодействие высокое -> Высокая полезность.
- Если позиция была повышена, но взаимодействие низкое -> Низкая полезность.
- Генерация Параметра: На основе анализа поведения определяется Полезность и генерируется Usefulness Parameter. Это может выполняться с использованием алгоритма машинного обучения (Machine Learning Algorithm).
- Сохранение: Параметр сохраняется (например, в логе или базе данных) для использования в реальном ранжировании.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Являются основными данными для этого патента. Используются данные о взаимодействии Тестовой Группы Пользователей (TUG) с результатами на рандомизированных позициях. Конкретно упомянуты: click-through rate (CTR), time spent after click-through (время, проведенное после клика, Dwell Time) и другие данные, основанные на кликах (click-based data).
- Системные данные: Исходные ранги результатов (Original Rank), случайные позиции (Random Position), исходные и рандомизированные веса интента (Intent Weight).
Какие метрики используются и как они считаются
- Usefulness Parameter (Параметр Полезности): Основная вычисляемая метрика. Определяет оптимальную позицию результата.
- Intent Weight (Вес Интента): Используется как механизм реализации. В фазе обучения ему присваивается случайное значение для достижения рандомизации. В фазе применения Usefulness Parameter определяет оптимальный Intent Weight.
- Алгоритмы машинного обучения: Патент указывает, что Usefulness Parameter может быть сгенерирован с использованием Machine Learning Algorithm, обученного на собранных поведенческих данных из TUG.
Выводы
- Борьба с позиционным смещением: Яндекс активно использует методологию рандомизации для обучения своих моделей ранжирования и блендинга, чтобы преодолеть позиционное смещение (position bias) в данных.
- Полезность определяется поведением: Истинная полезность результата определяется тем, как пользователи взаимодействуют с ним, независимо от его позиции. Результат считается полезным, если его ищут и кликают, даже если он расположен низко.
- Оптимизация Блендинга: Основная цель патента — найти оптимальный баланс и расположение вертикальных (специализированных) и генеральных (веб) результатов на SERP.
- Универсальность метода: Хотя примеры фокусируются на вертикальных результатах, патент явно защищает применение этого метода и для оценки полезности генеральных веб-результатов (Claim 7).
- Обучение через ML: Генерация Usefulness Parameter происходит через анализ больших данных о поведении тестовых групп, вероятно, с использованием машинного обучения для определения оптимальных весов (Intent Weights).
Практика
Best practices (это мы делаем)
Хотя патент описывает внутреннюю методологию обучения Яндекса, он дает важные стратегические инсайты.
- Максимизация Полезности (Usefulness): Фокусируйтесь на создании контента, который настолько полно и качественно решает задачу пользователя, что он будет востребован независимо от позиции. Это гарантирует сильные поведенческие сигналы, которые будут зафиксированы системой даже во время тестов с рандомизацией.
- Оптимизация Сниппетов для Привлекательности: Сниппет должен быть максимально привлекательным и точно отражать полезность контента. Если ваш сайт попадет в тестовую выборку и будет рандомизирован ниже, только привлекательный сниппет заставит пользователя долистать до него и кликнуть, что подтвердит высокую полезность для модели Яндекса.
- Улучшение Dwell Time (Time Spent After Click-Through): Система явно учитывает время после клика. Необходимо удерживать пользователя на сайте, предоставляя релевантный и вовлекающий контент, чтобы подтвердить полезность клика.
Worst practices (это делать не надо)
- Кликбейт и Обман Ожиданий: Использование кликбейтных заголовков для получения клика с последующим быстрым отказом (низкий Dwell Time) будет интерпретировано как низкая полезность, особенно если сайт тестируется на рандомизированно высокой позиции.
- Игнорирование Качества Контента в пользу Технического SEO: Попытки занять высокие позиции только за счет технических оптимизаций или ссылок без реальной полезности контента неэффективны. Механизм рандомизации выявит низкую полезность: если пользователи игнорируют контент, даже когда он показан высоко, модель Яндекса научится его понижать.
- Создание «Пустого» Контента: Контент, который не генерирует позитивных поведенческих сигналов, будет иметь низкий Usefulness Parameter.
Стратегическое значение
Этот патент подтверждает критическую важность поведенческих факторов в обучении алгоритмов Яндекса. Он демонстрирует сложный механизм, используемый для валидации качества и полезности результатов, очищенный от влияния позиции. Для SEO это означает, что долгосрочная стратегия должна быть сосредоточена на реальной ценности для пользователя, привлекательности в выдаче и высоком качестве взаимодействия после клика, так как именно эти сигналы формируют «Полезность» в глазах поисковой системы.
Практические примеры
Сценарий 1: Оценка полезности веб-результата (Статья)
- Ситуация: Высококачественная, экспертная статья по запросу обычно ранжируется на 5 позиции.
- Действие системы (Тест А — Понижение): Яндекс рандомизирует позицию статьи до 9 для тестовой группы (TUG).
- Результат А: Пользователи TUG, заинтересованные в теме, пролистывают выдачу, видят авторитетный сниппет и кликают на 9 позицию. Система фиксирует высокий CTR на низкой позиции. Вывод: Высокая полезность.
- Действие системы (Тест Б — Повышение): Яндекс рандомизирует позицию до 1.
- Результат Б: Пользователи кликают и проводят много времени на сайте (High Dwell Time). Вывод: Полезность подтверждена. Модель ранжирования обучается ассоциировать признаки этой статьи с высокой полезностью.
Сценарий 2: Оценка полезности вертикального блока (Колдунщик Карт)
- Ситуация: По запросу Яндекс показывает блок Карт на 2 позиции.
- Действие системы (Тест): Яндекс рандомизирует позицию блока Карт до 1 (над всеми результатами).
- Результат: Пользователи массово игнорируют блок Карт и кликают на первый генеральный результат (официальный сайт ЦУМа), так как их интент был навигационным, а не географическим. Система фиксирует низкий CTR на высокой позиции.
- Вывод: Низкая полезность блока Карт на первой позиции для этого запроса. Usefulness Parameter (и Intent Weight) для блока Карт по этому запросу снижается, и в реальной выдаче он будет размещен менее агрессивно.
Вопросы и ответы
Что такое «Параметр Полезности» (Usefulness Parameter)?
Это внутренняя метрика Яндекса, которая указывает на оптимальную позицию конкретного результата поиска (веб-страницы или вертикального блока) в выдаче. Она рассчитывается на основе анализа поведения пользователей во время специальных тестов, где позиция этого результата намеренно изменяется случайным образом. Цель метрики — отразить истинную полезность результата, очищенную от влияния его позиции.
Как рандомизация позиций помогает Яндексу улучшить поиск?
Рандомизация помогает бороться с позиционным смещением (position bias). Пользователи склонны кликать на верхние результаты независимо от их качества. Перемещая результат на случайную позицию, Яндекс может понять его реальную ценность. Если пользователи ищут и кликают на результат, даже когда он расположен низко, это сильный сигнал его высокой полезности. Если игнорируют, даже когда он высоко, — это сигнал низкой полезности.
Применяется ли этот метод только к вертикальным блокам (колдунщикам)?
Нет. Хотя патент часто приводит примеры с вертикальными результатами (для оптимизации блендинга), в Claim 7 явно указано, что точно такой же механизм (Second Usefulness Parameter) может применяться и для оценки генеральных (обычных веб) результатов поиска. Это универсальная методология тестирования полезности.
Какие именно поведенческие факторы анализируются в этом патенте?
В патенте явно упомянуты три типа данных о поведении Тестовой Группы Пользователей (TUG): click-through rate (CTR), time spent after click-through (время, проведенное после клика, аналог Dwell Time) и другие данные, основанные на кликах (other click-based data).
Что такое «Intent Weight», упоминаемый в патенте?
Intent Weight упоминается как технический механизм реализации. Чтобы рандомизировать позицию результата во время теста, система может присвоить ему случайный Intent Weight. По итогам теста, вычисленный Usefulness Parameter используется для определения оптимального Intent Weight, который затем применяется в реальном ранжировании.
Является ли «Полезность» активным фактором ранжирования, который можно оптимизировать?
Это косвенный фактор. Патент описывает, как Яндекс измеряет полезность для обучения своих моделей. Вы не можете напрямую оптимизировать Usefulness Parameter, но вы должны оптимизировать те сигналы, на основе которых он рассчитывается: привлекательность сниппета (CTR) и качество контента (Dwell Time). Ваш контент должен быть настолько хорош, чтобы выдержать тест рандомизацией.
Как этот патент связан с A/B тестированием в поиске?
Это форма многовариантного тестирования или A/B тестирования, применяемая для оптимизации расположения элементов SERP. Вместо сравнения двух разных версий ранжирования, здесь сравнивается поведение пользователей при различном (случайном) расположении одного и того же результата для определения его оптимальной позиции.
Может ли мой сайт быть показан ниже в выдаче из-за этих тестов?
Да, если ваш сайт попал в выборку для Тестовой Группы Пользователей (TUG), его позиция может быть временно рандомизирована — как понижена, так и повышена. Однако цель этих тестов — собрать данные для обучения общей модели, а не пессимизировать конкретный сайт. Успешное прохождение такого теста (хорошие клики на низкой позиции) в итоге приведет к лучшему ранжированию.
Как этот патент влияет на оптимизацию сниппетов?
Он критически повышает важность сниппетов. Чтобы система зафиксировала высокую полезность во время теста с понижением позиции, сниппет должен быть достаточно привлекательным и информативным, чтобы мотивировать пользователя прокрутить страницу вниз и кликнуть именно на него, минуя конкурентов выше.
Означает ли этот патент, что Яндекс манипулирует выдачей?
Это не манипуляция выдачей для всех пользователей, а стандартная методология обучения моделей машинного обучения на ограниченной тестовой группе (TUG). Рандомизация необходима для получения несмещенных (unbiased) данных о качестве результатов, что в конечном итоге улучшает поиск для всех.