Автор: Виктор Репин

2004 Патенты Google Поведенческие сигналы Свежесть контента

Как Google управляет обновлением результатов в приложениях контекстного (имплицитного) поиска, чтобы не отвлекать пользователя

Патент Google, описывающий логику обновления интерфейса для отображения результатов имплицитного (контекстного) поиска. Система определяет, когда следует обновить отображаемый контент, сравнивая новые имплицитные запросы и результаты с предыдущими, а также учитывая активность пользователя (например, движение мыши), чтобы минимизировать отвлечение внимания.

2019 Обучение моделей Патенты Яндекс Рекомендательные системы Яндекс Дзен

Как Яндекс обучает модели машинного обучения для систем рекомендаций (например, Дзен), используя real-time данные и «Снапшоты»

Яндекс патентует метод обучения ML-моделей для рекомендательных систем, направленный на повышение эффективности и предотвращение переобучения. Система разделяет признаки на пользовательские (User-specific), вычисляемые в реальном времени, и общие (User-nonspecific), которые рассчитываются периодически и сохраняются в «Снапшотах» (Snapshot Archives). Это позволяет точно моделировать исторические данные при обучении и снижает вычислительную нагрузку.

2019 Алиса Интент пользователя Обучение моделей Патенты Яндекс

Как Яндекс использует контекст предыдущего запроса для определения текущего намерения пользователя в диалоговых системах (например, Алиса)

Яндекс патентует метод уточнения намерения пользователя в диалоговых системах (например, Алиса). Система учитывает не только текущий запрос, но и предыдущий, анализируя вероятность связи запроса с конкретным намерением и вероятность смены одного намерения на другое. Это позволяет точнее поддерживать контекст диалога и генерировать релевантные ответы или выполнять действия.

2024 Алиса Обучение моделей Патенты Яндекс Семантический поиск

Как Яндекс обучает чат-ботов (например, Алису) использовать внешние факты для генерации более естественных ответов (RAG)

Яндекс патентует метод обучения чат-ботов, основанный на подходе Retrieval-Augmented Generation (RAG). Система использует модель семантического подобия для поиска факта, релевантного диалогу. Затем генеративная модель (LLM) обучается формировать ответ на основе комбинации исходного запроса и найденного факта, что делает ответы более естественными и информативными.

2022 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс динамически контролирует качество асессоров для создания эталонных обучающих данных (Ground Truth)

Яндекс использует систему динамической оценки и фильтрации асессоров для повышения качества обучающих данных. Система не полагается на простое большинство голосов, а взвешивает ответы по текущему показателю качества (скиллу) асессора. Определив «надежный результат», система обновляет скиллы, отсеивая неточных исполнителей. Это обеспечивает высокую точность данных для обучения алгоритмов ранжирования и метрик качества (Proxima).

2023 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс автоматически подбирает эталонные примеры для обучения и калибровки асессоров (Толокеров)

Яндекс патентует метод повышения качества краудсорсинговой разметки данных (например, оценки релевантности SERP). Система автоматически выбирает минимальный набор прошлых задач, которые максимально покрывают весь спектр возможных оценок. Эти эталонные примеры показывают асессорам (Толокерам), чтобы стандартизировать их подход и повысить точность разметки, используемой для обучения ML-моделей поиска.

2018 Обучение моделей Патенты Яндекс Рекомендательные системы Яндекс Дзен

Как Яндекс ускоряет обучение рекомендательных систем (например, Дзен), используя контентные векторы для инициализации матричной факторизации

Яндекс патентует метод повышения эффективности обучения алгоритмов коллаборативной фильтрации (например, в Яндекс.Дзен). Вместо случайной инициализации матриц при факторизации (ALS), система использует предварительно рассчитанные векторы контента (эмбеддинги, такие как word2vec или LDA). Это позволяет алгоритму быстрее сходиться, экономя вычислительные ресурсы при обучении моделей рекомендаций на основе поведения пользователей и схожести контента.

2022 Асессоры Краудсорсинг Метрики качества поиска Патенты Яндекс

Как Яндекс оптимизирует краудсорсинг, используя гибридный подход (Человек + Машинное Обучение) для валидации данных

Яндекс патентует метод повышения эффективности краудсорсинговых задач (например, оценки качества поиска). Система одновременно отправляет задачу человеку-асессору и алгоритму машинного обучения (MLA). На основе их ответов и исторических оценок качества (Quality Scores) динамически рассчитывается уровень уверенности (Confidence Level). Если уверенность высока, задача завершается; если нет, привлекаются дополнительные асессоры до достижения нужного порога.

2021 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс использует машинное обучение для автоматического выбора эталонных примеров и калибровки оценок асессоров

Патент описывает систему Яндекса для повышения качества данных, собираемых через краудсорсинг (например, Толока). Система использует два ML-алгоритма: первый устраняет субъективные искажения в оценках асессоров, а второй автоматически выбирает оптимальный набор эталонных примеров (бенчмарков). Эти примеры показывают асессорам для калибровки их суждений, что повышает точность данных, используемых для обучения алгоритмов ранжирования.

2010 SERP Патенты Google

Как Google встраивает предложения альтернативных запросов прямо в сниппеты поисковой выдачи

Механизм Google для улучшения поискового опыта путем интеграции предложений альтернативных запросов непосредственно в текст сниппетов. Система выделяет определенные слова в сниппете и связывает их с уточняющими запросами. Взаимодействие с этими словами позволяет пользователю быстро выполнить связанный поиск, делая уточнение контекстным и интуитивно понятным.

2013 Патенты Google Персонализация

Как Google рассчитывает оптимальные места для встреч на основе времени в пути от нескольких локаций

Google использует механизм «multi-location search» для поиска оптимальных мест встречи на основе нескольких исходных географических точек. Система определяет промежуточные локации с примерно равным временем в пути для всех участников и ранжирует результаты, учитывая общее время в пути и разницу во времени (travel imbalance) для участников.

2020 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс объединяет машинное обучение и асессоров для эффективной оценки качества и сбора данных

Яндекс использует гибридную систему для выполнения задач оценки (например, классификации контента или оценки релевантности). Система одновременно запрашивает результат у человека-асессора и у алгоритма машинного обучения (MLA). На основе совпадения ответов и показателей надежности (Quality Score) обоих рассчитывается уровень уверенности (Confidence Level). Если уверенность высока, задача считается выполненной. Это позволяет Яндексу быстрее и дешевле генерировать надежные данные для обучения ранжирующих моделей.

2008 Индексация Краулинг Патенты Google

Как Google использует Топ-N терминов и URL-паттерны для быстрой кластеризации похожих страниц на сайте

Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.

2013 Индексация Патенты Google Семантика и интент

Как Google структурирует результаты поиска внутри книг и определяет их ключевые темы с помощью N-грамм

Патент описывает интерфейс и методы представления результатов в Google Books. Система организует результаты поиска в соответствии с внутренней структурой книги (главы/разделы) и извлекает ключевые темы (n-gram summary terms). Для определения важности темы вычисляются оценки на уровне раздела (Section Score) и на уровне всей книги (Book Score), используя методы, такие как TF-IDF.

2013 Патенты Google Персонализация Поведенческие сигналы

Как Google использует опросы и анализ поведения для калибровки демографических данных пользователей (возраст, пол)

Патент описывает метод, с помощью которого Google определяет демографические характеристики пользователей (возраст, пол), даже если они их не указали. Система анализирует поведение пользователя для вычисления вероятности принадлежности к демографической группе, а затем калибрует эту вероятность, используя эталонные данные о распределении демографии в интернете (например, опросы). Это обеспечивает точность данных для аналитики и таргетинга контента.

2013 Патенты Google Ссылки

Как Google использует невыбранные ссылки и токены для сохранения контекста при подборе рекламы на промежуточных страницах

Патент Google, описывающий методы борьбы с потерей контекста в рекламных системах (например, AdSense Link Units). Когда пользователь кликает на ключевое слово (Link Unit), Google передает контекст исходной страницы, используя либо соседние невыбранные ссылки с пониженным весом, либо уникальный токен, идентифицирующий исходную тематическую группу ключевых слов. Это повышает релевантность рекламы на промежуточной странице.

2008 Мультиязычность Патенты Google

Как Google Autocomplete объединяет языки и исправляет ошибки раскладки клавиатуры (IME)

Патент Google описывает механизм работы Автодополнения (Autocomplete/Suggest), который объединяет исторические запросы на разных языках (например, корейском и английском) в единую базу. Система конвертирует запросы в романизированное представление на основе физических нажатий клавиш. Это позволяет предлагать релевантные подсказки, даже если пользователь вводит текст с неправильной раскладкой клавиатуры или не завершил ввод сложного символа.

2020 Вертикальный поиск Патенты Яндекс Структурированные данные Яндекс Браузер

Как Яндекс Браузер использует URL и Title текущей страницы для показа контекстных сниппетов при навигации

Яндекс патентует функцию браузера, которая активируется, когда пользователь собирается покинуть страницу (например, кликает в адресную строку). Система анализирует только URL и заголовок (Title) текущей страницы, ищет совпадения в базах структурированных данных (например, Яндекс Маркет, Справочник) и мгновенно отображает релевантные сниппеты (цены, отзывы, адреса) на навигационной панели браузера.

2008 Мультиязычность Патенты Google Персонализация

Как Google предлагает прямые URL-адреса в адресной строке браузера на основе фонетического ввода (IME)

Google использует этот механизм для помощи пользователям, вводящим фонетический текст (например, Pinyin) в адресную строку браузера. Система преобразует ввод в иероглифы (например, Hanzi) и использует исторические данные из логов запросов и кликов, чтобы напрямую предложить наиболее популярные связанные URL-адреса, минуя страницу поиска.

2017 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс обучает алгоритмы ранжирования, учитывая субъективность и ошибки асессоров

Яндекс патентует метод создания обучающих данных (Ground Truth) для ML-алгоритмов ранжирования. Вместо поиска «единственно верной» оценки релевантности система вычисляет распределение вероятных оценок, учитывая уровень экспертизы асессоров, их личные тенденции (Bias) и сложность задачи. Это позволяет обучать модели на более реалистичных данных, признавая субъективность человеческих оценок.