Автор: Виктор Репин

Яндекс патентует механизм, который определяет, когда результат вертикального поиска (Колдунщик или Виджет) настолько релевантен запросу, что стандартные органические результаты можно полностью исключить. Система рассчитывает степень уверенности на основе позиции виджета, интента запроса и исторических данных. Если уверенность высока, пользователь видит исключительно виджет, что приводит к «zero-click» поиску.

Яндекс патентует метод автоматического определения важности (веса) различных поведенческих сигналов (клики, dwell time, пропуски). Система создает и оптимизирует «Целевую функцию», которая оценивает релевантность на основе этих сигналов. Затем эта функция используется как эталон (Ground Truth) для обучения основной формулы ранжирования, заменяя ручные оценки асессоров.

Google анализирует набор документов, связанных с целевой страницей (например, другие страницы того же сайта или статьи того же автора). Система вычисляет агрегированную оценку для этого набора, отражающую общую тематическую релевантность или авторитетность источника. Эта оценка затем используется для модификации (повышения) ранжирования отдельной целевой страницы.

Яндекс патентует технологию автоматической идентификации ключевых подразделов сайта. Система определяет эти разделы независимо от владельца ресурса, используя критерии популярности и удобства использования. Затем она предоставляет пользователю прямые ссылки на эти подразделы (Быстрые ссылки) для ускорения навигации, отображая их одновременно с загрузкой основного ресурса.

Патент описывает, как поисковая система магазина приложений (например, Google Play) улучшает свои результаты, используя данные из интернета. Система модифицирует исходный запрос пользователя, отправляет его в веб-поиск, анализирует найденные веб-страницы на предмет упоминаний и ссылок на приложения, а затем использует эту информацию для изменения ранжирования в самом магазине приложений.

Яндекс патентует метод идентификации оригинального источника информации среди множества перепечаток. Система кластеризует похожие документы по теме, извлекает исходящие ссылки и использует машинное обучение для определения первоисточника. Ключевые факторы анализа включают репутацию источников, время публикации и частоту цитирования. Система может найти URL источника, даже если сам источник не был проиндексирован.

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

Яндекс патентует метод улучшения ранжирования для новых или редких запросов. Система использует модель (Second MLA), обученную предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса находятся похожие прошлые запросы. Затем система анализирует историческую эффективность (CTR, Dwell Time) документов по этим прошлым запросам и использует эти данные как фактор ранжирования (Second Similarity Parameter), комбинируя текстовую схожесть и силу поведенческого сигнала.

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки «популярного», отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

Патент Яндекса описывает многоэтапный процесс обучения моделей ранжирования (вероятно, трансформеров типа YATI). Система сначала обучается на огромном массиве данных о кликах пользователей, а затем дообучается на меньшем, но более качественном наборе оценок асессоров. Ключевая идея — использовать дообученную модель для генерации «синтезированных меток асессоров» для данных, где есть только клики, объединяя таким образом оба типа сигналов для финального обучения.

Патент Яндекса, лежащий в основе алгоритма CatBoost, описывает методы обработки категориальных признаков (таких как URL, домены, имена авторов) в машинном обучении. Система преобразует эти признаки в числа, используя упорядоченную статистику исторических взаимодействий (например, кликов), что предотвращает переобучение. Также описаны механизмы эффективного анализа комбинаций признаков «на лету» во время обучения ранжирующей модели.

Яндекс патентует метод улучшения ранжирования для новых или редких запросов (проблема «холодного старта»). Система обучается предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса система находит похожие прошлые запросы и повышает в ранге документы, которые исторически хорошо работали (имели высокие поведенческие метрики) по этим похожим запросам. Фактор ранжирования рассчитывается как произведение текстовой схожести и исторической поведенческой метрики.

Google разрабатывает систему сбора пользовательского контента (UGC) о веб-страницах, называемого «Link Notes». Система использует генеративный ИИ для создания персонализированных подсказок, мотивируя пользователей оставлять качественные отзывы на основе их экспертизы. Эти заметки отображаются в результатах поиска и, как указано в патенте, могут использоваться для корректировки ранжирования веб-ресурсов.

Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе текстовой близости (для новых запросов). Термины из этих похожих запросов используются как факторы ранжирования, повышая позиции документов, содержащих эти термины.

Google использует модель Марковских цепей (Transition Matrix) для количественной оценки силы взаимосвязей между поисковыми сущностями (запросы, документы, сессии, время) на основе истории поиска. Эта инфраструктура применяется для выявления и нейтрализации поведенческого спама (на чем сфокусированы Claims этого патента), а также для прогнозирования трендов (Temporal Boosting/QDF) и классификации доменов.

Google использует агрегированные данные о том, как пользователи взаимодействуют с контентом внутри документа. Система отслеживает время, проведенное на определенных разделах, и частоту добавления в закладки. Эта информация используется для определения наиболее ценных частей документа, что напрямую влияет на ранжирование в поиске и позволяет ссылаться на конкретные фрагменты.

Google анализирует запросы, введенные в адресную строку браузера. Если система с высокой степенью уверенности определяет один «очень релевантный» результат, основываясь на высоком историческом CTR и значительном отрыве его оценки релевантности от других результатов, пользователь направляется прямо на этот сайт, минуя страницу результатов поиска (SERP).

Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.

Яндекс патентует двухэтапный метод обучения трансформерных моделей (типа BERT/YATI) для предсказания вероятности клика конкретного пользователя на документ. Сначала модель предварительно обучается на широком наборе данных (все показанные результаты), а затем точно настраивается только на тех документах, с которыми пользователь реально взаимодействовал. Это повышает эффективность обучения и значительно улучшает качество персонализированного ранжирования.

Патент (Hewlett-Packard) описывает гибридный метод кластеризации документов. Система анализирует логи сессий, чтобы определить, какие документы просматриваются вместе (co-visitation). Эти документы объединяются в «Супердокументы». Затем система проводит контентный анализ, используя эти Супердокументы вместе с остальными документами. Это позволяет классифицировать весь корпус документов, учитывая не только их содержание, но и то, как пользователи воспринимают их взаимосвязь.