Автор: Виктор Репин

Яндекс решает проблему «холодного старта» для нишевого контента в рекомендательных системах (например, Дзен). Система определяет основных пользователей (подписчиков) источника контента и искусственно внедряет новый контент этого источника в их ленты. Если основные пользователи взаимодействуют позитивно, Яндекс повышает оценку релевантности контента, увеличивая вероятность его рекомендации широкой аудитории.

Яндекс патентует метод автоматизации и повышения качества разметки данных, используемых для обучения поисковых алгоритмов. Система анализирует историю работы асессоров (например, в Толоке), выявляет их экспертизу и предвзятость, и строит векторные модели задач и исполнителей. Затем обучается модель машинного обучения (MLA), которая имитирует, как высококвалифицированные асессоры разметили бы новые задачи. Это позволяет получать размеченные данные быстрее и качественнее.

Яндекс патентует метод автоматического создания размеченных наборов данных для обучения моделей машинного зрения, минуя ручной труд. Система анализирует логи вертикального поиска по картинкам, кластеризует запросы (на основе текста или визуальных признаков кликнутых изображений) и использует ID кластера как метку для связанных изображений. Поведенческие метрики (CTR) используются для фильтрации качества и определения визуального интента.

Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).

Google использует границы видимой области карты (viewport) как точное географическое ограничение для локального поиска. Система ищет релевантные объекты (бизнесы, адреса) в пределах всей отображаемой территории, а не только вокруг центральной точки, и автоматически обновляет выдачу при изменении масштаба или перемещении карты пользователем.

Яндекс патентует метод математической очистки данных, собранных через краудсорсинг (например, Толоку). Система использует алгоритм машинного обучения для выявления и нейтрализации систематических искажений в оценках асессоров (например, позиционной предвзятости или влияния размера шрифта). Это позволяет получать объективные данные о качестве (Ground Truth) для обучения ключевых ML-моделей ранжирования и метрик качества, таких как Proxima.

Яндекс патентует метод повышения точности разметки данных для обучения ИИ (например, ранжирующих моделей). Система обучает алгоритм машинного обучения предсказывать, какую метку поставит конкретный асессор, учитывая векторное представление самой задачи и векторный профиль асессора (включая его историю и скрытые смещения). Это позволяет симулировать оценки высококачественных асессоров и генерировать точные метки автоматически.

Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (например, Алиса). Система определяет текущий интент, комбинируя вероятность связи запроса с интентом и вероятность перехода от предыдущего интента к текущему. Это позволяет точно интерпретировать неоднозначные или контекстно-зависимые последующие запросы в рамках одной сессии.

Патент Google, описывающий систему ранжирования контента и авторов внутри социальной сети. Система вычисляет вероятность того, что получатель взаимодействует с постом (комментарий, шейр, одобрение), и использует эти данные для расчета оценок популярности автора (User Ranking Score) и актуальности поста (Item Ranking Score), учитывая затухание актуальности со временем.

Яндекс патентует метод повышения точности распознавания речи (ASR), например, для Алисы. Система не просто выбирает наиболее вероятную текстовую интерпретацию. Она дополнительно учитывает персональные интересы пользователя (из истории поиска и браузера), демографические данные, а также акустические характеристики голоса и окружающей среды, чтобы точнее понять смысл команды.

Яндекс патентует метод кластеризации документов для агрегаторов (например, Яндекс.Новости). Система использует комбинированную метрику, которая балансирует, насколько документы дополняют друг друга (Complementariness), и насколько они повторяют информацию или размывают тему (Dilution). Цель — создать информационно насыщенные кластеры с минимальным количеством документов.

Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.

Яндекс патентует метод генерации контекстных поисковых подсказок (саджеста) при уточнении запроса на странице результатов (SERP). Когда пользователь стирает старый запрос и начинает вводить новый на SERP, браузер автоматически извлекает старый запрос из URL текущей страницы и отправляет его Яндексу вместе с новыми символами. Это позволяет системе предлагать релевантные уточнения с учетом контекста, не обращаясь к истории сессии на сервере.

Яндекс патентует метод Kernel Gradient Boosting (KGB) для обучения моделей на основе деревьев решений (например, CatBoost). Он сочетает случайные деревья (для оценки неопределенности) и стандартный градиентный бустинг (для точности). Это позволяет моделям Яндекса быстрее обучаться и лучше определять, когда они не уверены в прогнозе, особенно для новых или нетипичных данных (Out-of-Domain).

Яндекс патентует метод улучшения поисковых подсказок (автодополнения). Вместо того чтобы просто предлагать слова, которые часто встречаются с введенным термином (парная сочетаемость), система использует машинное обучение для предсказания того, какие группы слов образуют законченный и полезный запрос (групповая сочетаемость). Это позволяет генерировать более точные подсказки, которые могут как дополнять, так и предшествовать введенному тексту.

Яндекс патентует метод для ускорения поиска в вертикальных сервисах. Система создает иерархическую структуру (дерево), где каждый уровень соответствует атрибуту (например, Марка -> Модель -> Год). В конечных узлах хранятся «статистические снимки»: общее количество подходящих объявлений, минимальная и максимальная цена. Это позволяет мгновенно отображать количество результатов и диапазон цен при выборе фильтров без обращения к основной базе данных.

Яндекс патентует метод для автоматического определения авторства цитат в новостных агрегаторах (например, Яндекс.Новости). Система анализирует множество статей на одну тему, извлекает похожие цитаты и определяет потенциальных авторов для каждой из них. Настоящим автором признается тот, кто чаще всего упоминается рядом с этой цитатой в разных источниках. Это позволяет показывать пользователям корректно атрибутированные цитаты, даже если в отдельных источниках есть ошибки.

Яндекс патентует систему для сервисов агрегации новостей (например, Яндекс.Новости), которая анализирует множество статей на одну тему для определения точного авторства цитат. Система извлекает цитаты и кандидатов в авторы, кластеризует похожие высказывания и определяет истинного автора на основе консенсуса (наиболее частого упоминания) среди разных источников.

Google использует систему для отображения «Карточки Профиля» (Profile Card) в поисковой выдаче, когда запрос касается конкретного человека. Система агрегирует контактные данные из личных контактов пользователя, социальных сетей и публичных источников. Это позволяет инициировать общение (email, звонок, чат) прямо из SERP через всплывающий интерфейс (Interaction Hovercard), не покидая страницу поиска.

Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.