Автор: Виктор Репин

2020 Патенты Яндекс Рекомендательные системы Холодный старт Яндекс Дзен

Как Яндекс использует подписчиков (основную аудиторию) для определения релевантности нового или нишевого контента для широкой аудитории

Яндекс решает проблему «холодного старта» для нишевого контента в рекомендательных системах (например, Дзен). Система определяет основных пользователей (подписчиков) источника контента и искусственно внедряет новый контент этого источника в их ленты. Если основные пользователи взаимодействуют позитивно, Яндекс повышает оценку релевантности контента, увеличивая вероятность его рекомендации широкой аудитории.

2024 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс автоматизирует разметку данных, обучая ИИ имитировать поведение лучших асессоров

Яндекс патентует метод автоматизации и повышения качества разметки данных, используемых для обучения поисковых алгоритмов. Система анализирует историю работы асессоров (например, в Толоке), выявляет их экспертизу и предвзятость, и строит векторные модели задач и исполнителей. Затем обучается модель машинного обучения (MLA), которая имитирует, как высококвалифицированные асессоры разметили бы новые задачи. Это позволяет получать размеченные данные быстрее и качественнее.

2020 Вертикальный поиск Обучение моделей Патенты Яндекс Поиск по картинкам

Как Яндекс автоматически создает датасеты для обучения компьютерного зрения, используя логи и поведение пользователей в Поиске по картинкам

Яндекс патентует метод автоматического создания размеченных наборов данных для обучения моделей машинного зрения, минуя ручной труд. Система анализирует логи вертикального поиска по картинкам, кластеризует запросы (на основе текста или визуальных признаков кликнутых изображений) и использует ID кластера как метку для связанных изображений. Поведенческие метрики (CTR) используются для фильтрации качества и определения визуального интента.

2007 Индексация Мультимедиа Патенты Google

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков

Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).

2005 Local SEO SERP Патенты Google Техническое SEO

Как Google использует видимую область карты (Viewport) для определения границ локального поиска и автоматически обновляет результаты

Google использует границы видимой области карты (viewport) как точное географическое ограничение для локального поиска. Система ищет релевантные объекты (бизнесы, адреса) в пределах всей отображаемой территории, а не только вокруг центральной точки, и автоматически обновляет выдачу при изменении масштаба или перемещении карты пользователем.

2021 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс выявляет и устраняет предвзятость (Bias) асессоров для повышения качества обучения алгоритмов поиска

Яндекс патентует метод математической очистки данных, собранных через краудсорсинг (например, Толоку). Система использует алгоритм машинного обучения для выявления и нейтрализации систематических искажений в оценках асессоров (например, позиционной предвзятости или влияния размера шрифта). Это позволяет получать объективные данные о качестве (Ground Truth) для обучения ключевых ML-моделей ранжирования и метрик качества, таких как Proxima.

2024 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс использует ИИ для симуляции оценок асессоров и повышения качества разметки данных

Яндекс патентует метод повышения точности разметки данных для обучения ИИ (например, ранжирующих моделей). Система обучает алгоритм машинного обучения предсказывать, какую метку поставит конкретный асессор, учитывая векторное представление самой задачи и векторный профиль асессора (включая его историю и скрытые смещения). Это позволяет симулировать оценки высококачественных асессоров и генерировать точные метки автоматически.

2020 Алиса Интент пользователя Обучение моделей Патенты Яндекс

Как Яндекс определяет интент пользователя в диалоговом поиске, учитывая контекст предыдущих запросов

Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (например, Алиса). Система определяет текущий интент, комбинируя вероятность связи запроса с интентом и вероятность перехода от предыдущего интента к текущему. Это позволяет точно интерпретировать неоднозначные или контекстно-зависимые последующие запросы в рамках одной сессии.

2012 Kumar Mayur Thakur Патенты Google Персонализация Поведенческие сигналы

Как Google ранжирует пользователей и посты в социальных сетях на основе вероятности взаимодействия

Патент Google, описывающий систему ранжирования контента и авторов внутри социальной сети. Система вычисляет вероятность того, что получатель взаимодействует с постом (комментарий, шейр, одобрение), и использует эти данные для расчета оценок популярности автора (User Ranking Score) и актуальности поста (Item Ranking Score), учитывая затухание актуальности со временем.

2020 Алиса Голосовой поиск Патенты Яндекс Персонализация

Как Яндекс использует персонализацию, историю пользователя и акустику для точного распознавания голосовых команд

Яндекс патентует метод повышения точности распознавания речи (ASR), например, для Алисы. Система не просто выбирает наиболее вероятную текстовую интерпретацию. Она дополнительно учитывает персональные интересы пользователя (из истории поиска и браузера), демографические данные, а также акустические характеристики голоса и окружающей среды, чтобы точнее понять смысл команды.

2020 Вертикальный поиск Качество контента Патенты Яндекс Яндекс Новости

Как Яндекс кластеризует новости, балансируя полноту информации и устраняя дублирование

Яндекс патентует метод кластеризации документов для агрегаторов (например, Яндекс.Новости). Система использует комбинированную метрику, которая балансирует, насколько документы дополняют друг друга (Complementariness), и насколько они повторяют информацию или размывают тему (Dilution). Цель — создать информационно насыщенные кластеры с минимальным количеством документов.

2007 Shumeet Baluja Мультимедиа Патенты Google

Как Google использует нейронные сети для создания «прощающих» хешей и эффективного поиска похожего мультимедийного контента

Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.

2017 SERP Интент пользователя Патенты Яндекс Поисковые подсказки

Как Яндекс использует предыдущий запрос из URL страницы выдачи для генерации контекстных поисковых подсказок

Яндекс патентует метод генерации контекстных поисковых подсказок (саджеста) при уточнении запроса на странице результатов (SERP). Когда пользователь стирает старый запрос и начинает вводить новый на SERP, браузер автоматически извлекает старый запрос из URL текущей страницы и отправляет его Яндексу вместе с новыми символами. Это позволяет системе предлагать релевантные уточнения с учетом контекста, не обращаясь к истории сессии на сервере.

2024 Метрики качества поиска Обучение моделей Патенты Яндекс Холодный старт

Как Яндекс улучшает обучение CatBoost с помощью Kernel Gradient Boosting (KGB) для точной оценки неопределенности в ранжировании

Яндекс патентует метод Kernel Gradient Boosting (KGB) для обучения моделей на основе деревьев решений (например, CatBoost). Он сочетает случайные деревья (для оценки неопределенности) и стандартный градиентный бустинг (для точности). Это позволяет моделям Яндекса быстрее обучаться и лучше определять, когда они не уверены в прогнозе, особенно для новых или нетипичных данных (Out-of-Domain).

2020 Интент пользователя Обучение моделей Патенты Яндекс Поисковые подсказки

Как Яндекс использует машинное обучение для предсказания групповой сочетаемости слов в поисковых подсказках

Яндекс патентует метод улучшения поисковых подсказок (автодополнения). Вместо того чтобы просто предлагать слова, которые часто встречаются с введенным термином (парная сочетаемость), система использует машинное обучение для предсказания того, какие группы слов образуют законченный и полезный запрос (групповая сочетаемость). Это позволяет генерировать более точные подсказки, которые могут как дополнять, так и предшествовать введенному тексту.

2017 Вертикальный поиск Индексация Патенты Яндекс Структурированные данные

Как Яндекс ускоряет поиск по структурированным данным и фильтрам в вертикальных сервисах (Авто.ру, Маркет, Недвижимость) с помощью иерархических индексов и статистических снимков

Яндекс патентует метод для ускорения поиска в вертикальных сервисах. Система создает иерархическую структуру (дерево), где каждый уровень соответствует атрибуту (например, Марка -> Модель -> Год). В конечных узлах хранятся «статистические снимки»: общее количество подходящих объявлений, минимальная и максимальная цена. Это позволяет мгновенно отображать количество результатов и диапазон цен при выборе фильтров без обращения к основной базе данных.

2020 Качество контента Краудсорсинг Патенты Яндекс Яндекс Новости

Как Яндекс определяет настоящего автора цитаты, анализируя и сравнивая множество новостных источников

Яндекс патентует метод для автоматического определения авторства цитат в новостных агрегаторах (например, Яндекс.Новости). Система анализирует множество статей на одну тему, извлекает похожие цитаты и определяет потенциальных авторов для каждой из них. Настоящим автором признается тот, кто чаще всего упоминается рядом с этой цитатой в разных источниках. Это позволяет показывать пользователям корректно атрибутированные цитаты, даже если в отдельных источниках есть ошибки.

2020 Качество контента Краудсорсинг Патенты Яндекс Яндекс Новости

Как Яндекс автоматически определяет и верифицирует авторство цитат для агрегатора новостей

Яндекс патентует систему для сервисов агрегации новостей (например, Яндекс.Новости), которая анализирует множество статей на одну тему для определения точного авторства цитат. Система извлекает цитаты и кандидатов в авторы, кластеризует похожие высказывания и определяет истинного автора на основе консенсуса (наиболее частого упоминания) среди разных источников.

2013 Knowledge Graph Local SEO Патенты Google Персонализация

Как Google интегрирует контактные данные и каналы связи (email, чат, звонок) прямо в поисковую выдачу

Google использует систему для отображения «Карточки Профиля» (Profile Card) в поисковой выдаче, когда запрос касается конкретного человека. Система агрегирует контактные данные из личных контактов пользователя, социальных сетей и публичных источников. Это позволяет инициировать общение (email, звонок, чат) прямо из SERP через всплывающий интерфейс (Interaction Hovercard), не покидая страницу поиска.

2008 Индексация Краулинг Патенты Google Свежесть контента

Как Google идентифицирует перемещенный контент при сравнении версий веб-страниц во время индексации

Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.