Автор: Виктор Репин

Патент Google, описывающий логику обновления интерфейса для отображения результатов имплицитного (контекстного) поиска. Система определяет, когда следует обновить отображаемый контент, сравнивая новые имплицитные запросы и результаты с предыдущими, а также учитывая активность пользователя (например, движение мыши), чтобы минимизировать отвлечение внимания.

Яндекс патентует метод обучения ML-моделей для рекомендательных систем, направленный на повышение эффективности и предотвращение переобучения. Система разделяет признаки на пользовательские (User-specific), вычисляемые в реальном времени, и общие (User-nonspecific), которые рассчитываются периодически и сохраняются в «Снапшотах» (Snapshot Archives). Это позволяет точно моделировать исторические данные при обучении и снижает вычислительную нагрузку.

Яндекс патентует метод уточнения намерения пользователя в диалоговых системах (например, Алиса). Система учитывает не только текущий запрос, но и предыдущий, анализируя вероятность связи запроса с конкретным намерением и вероятность смены одного намерения на другое. Это позволяет точнее поддерживать контекст диалога и генерировать релевантные ответы или выполнять действия.

Яндекс патентует метод обучения чат-ботов, основанный на подходе Retrieval-Augmented Generation (RAG). Система использует модель семантического подобия для поиска факта, релевантного диалогу. Затем генеративная модель (LLM) обучается формировать ответ на основе комбинации исходного запроса и найденного факта, что делает ответы более естественными и информативными.

Яндекс использует систему динамической оценки и фильтрации асессоров для повышения качества обучающих данных. Система не полагается на простое большинство голосов, а взвешивает ответы по текущему показателю качества (скиллу) асессора. Определив «надежный результат», система обновляет скиллы, отсеивая неточных исполнителей. Это обеспечивает высокую точность данных для обучения алгоритмов ранжирования и метрик качества (Proxima).

Яндекс патентует метод повышения качества краудсорсинговой разметки данных (например, оценки релевантности SERP). Система автоматически выбирает минимальный набор прошлых задач, которые максимально покрывают весь спектр возможных оценок. Эти эталонные примеры показывают асессорам (Толокерам), чтобы стандартизировать их подход и повысить точность разметки, используемой для обучения ML-моделей поиска.

Яндекс патентует метод повышения эффективности обучения алгоритмов коллаборативной фильтрации (например, в Яндекс.Дзен). Вместо случайной инициализации матриц при факторизации (ALS), система использует предварительно рассчитанные векторы контента (эмбеддинги, такие как word2vec или LDA). Это позволяет алгоритму быстрее сходиться, экономя вычислительные ресурсы при обучении моделей рекомендаций на основе поведения пользователей и схожести контента.

Яндекс патентует метод повышения эффективности краудсорсинговых задач (например, оценки качества поиска). Система одновременно отправляет задачу человеку-асессору и алгоритму машинного обучения (MLA). На основе их ответов и исторических оценок качества (Quality Scores) динамически рассчитывается уровень уверенности (Confidence Level). Если уверенность высока, задача завершается; если нет, привлекаются дополнительные асессоры до достижения нужного порога.

Патент описывает систему Яндекса для повышения качества данных, собираемых через краудсорсинг (например, Толока). Система использует два ML-алгоритма: первый устраняет субъективные искажения в оценках асессоров, а второй автоматически выбирает оптимальный набор эталонных примеров (бенчмарков). Эти примеры показывают асессорам для калибровки их суждений, что повышает точность данных, используемых для обучения алгоритмов ранжирования.

Механизм Google для улучшения поискового опыта путем интеграции предложений альтернативных запросов непосредственно в текст сниппетов. Система выделяет определенные слова в сниппете и связывает их с уточняющими запросами. Взаимодействие с этими словами позволяет пользователю быстро выполнить связанный поиск, делая уточнение контекстным и интуитивно понятным.

Google использует механизм «multi-location search» для поиска оптимальных мест встречи на основе нескольких исходных географических точек. Система определяет промежуточные локации с примерно равным временем в пути для всех участников и ранжирует результаты, учитывая общее время в пути и разницу во времени (travel imbalance) для участников.

Яндекс использует гибридную систему для выполнения задач оценки (например, классификации контента или оценки релевантности). Система одновременно запрашивает результат у человека-асессора и у алгоритма машинного обучения (MLA). На основе совпадения ответов и показателей надежности (Quality Score) обоих рассчитывается уровень уверенности (Confidence Level). Если уверенность высока, задача считается выполненной. Это позволяет Яндексу быстрее и дешевле генерировать надежные данные для обучения ранжирующих моделей.

Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.

Патент описывает интерфейс и методы представления результатов в Google Books. Система организует результаты поиска в соответствии с внутренней структурой книги (главы/разделы) и извлекает ключевые темы (n-gram summary terms). Для определения важности темы вычисляются оценки на уровне раздела (Section Score) и на уровне всей книги (Book Score), используя методы, такие как TF-IDF.

Патент описывает метод, с помощью которого Google определяет демографические характеристики пользователей (возраст, пол), даже если они их не указали. Система анализирует поведение пользователя для вычисления вероятности принадлежности к демографической группе, а затем калибрует эту вероятность, используя эталонные данные о распределении демографии в интернете (например, опросы). Это обеспечивает точность данных для аналитики и таргетинга контента.

Патент Google, описывающий методы борьбы с потерей контекста в рекламных системах (например, AdSense Link Units). Когда пользователь кликает на ключевое слово (Link Unit), Google передает контекст исходной страницы, используя либо соседние невыбранные ссылки с пониженным весом, либо уникальный токен, идентифицирующий исходную тематическую группу ключевых слов. Это повышает релевантность рекламы на промежуточной странице.

Патент Google описывает механизм работы Автодополнения (Autocomplete/Suggest), который объединяет исторические запросы на разных языках (например, корейском и английском) в единую базу. Система конвертирует запросы в романизированное представление на основе физических нажатий клавиш. Это позволяет предлагать релевантные подсказки, даже если пользователь вводит текст с неправильной раскладкой клавиатуры или не завершил ввод сложного символа.

Яндекс патентует функцию браузера, которая активируется, когда пользователь собирается покинуть страницу (например, кликает в адресную строку). Система анализирует только URL и заголовок (Title) текущей страницы, ищет совпадения в базах структурированных данных (например, Яндекс Маркет, Справочник) и мгновенно отображает релевантные сниппеты (цены, отзывы, адреса) на навигационной панели браузера.

Google использует этот механизм для помощи пользователям, вводящим фонетический текст (например, Pinyin) в адресную строку браузера. Система преобразует ввод в иероглифы (например, Hanzi) и использует исторические данные из логов запросов и кликов, чтобы напрямую предложить наиболее популярные связанные URL-адреса, минуя страницу поиска.

Яндекс патентует метод создания обучающих данных (Ground Truth) для ML-алгоритмов ранжирования. Вместо поиска «единственно верной» оценки релевантности система вычисляет распределение вероятных оценок, учитывая уровень экспертизы асессоров, их личные тенденции (Bias) и сложность задачи. Это позволяет обучать модели на более реалистичных данных, признавая субъективность человеческих оценок.