Патент Google, описывающий инфраструктурный механизм обновления индекса (репозитория документов). Система позволяет добавлять новые версии документов и удалять старые, не блокируя доступ к данным для параллельно выполняющихся поисковых запросов. Это достигается за счет управления «доступным диапазоном» данных и отложенного удаления старых версий.
Автор: Виктор Репин
Яндекс патентует метод для умных помощников (типа Алисы), позволяющий точнее определять намерение пользователя (вопрос, утверждение) не только по тексту, но и по акустическим характеристикам речи (интонация, громкость, темп). Система комбинирует текстовые и акустические векторы и использует нейронную сеть (RNN) для классификации интента.
Яндекс патентует методы генерации синтетической обратной связи (например, лайков/дизлайков) для новых элементов (треков, товаров), у которых еще нет реальной истории взаимодействий. Это позволяет рекомендательным системам (таким как Яндекс Музыка или Маркет) сразу включать новинки в рекомендации, решая проблему «холодного старта». Синтетическая обратная связь генерируется на основе схожести поставщиков контента или внешних сигналов популярности.
Анализ патента Google, описывающего систему автоматизации платной рекламы (PPC), лежащую в основе Dynamic Search Ads (DSA). Система анализирует контент веб-сайтов рекламодателей для динамической генерации текста объявления (креатива), выбора целевой страницы и определения таргетинга. Патент не относится к органическому поиску (SEO).
Патент описывает инфраструктуру для создания специализированных приложений (виджетов). Он детализирует, как поисковая система Google отслеживает и записывает запросы пользователя и клики по результатам на стороне сервера. Затем эта история поиска преобразуется в контент-фид (например, RSS) и передается в клиентское приложение (виджет) для отображения пользователю.
Яндекс патентует метод обучения моделей для систем рекомендаций (например, Дзен), решающий проблемы переобучения и вычислительной эффективности. Признаки разделяются: специфичные для пользователя рассчитываются в реальном времени, а общие (глобальные) рассчитываются периодически офлайн и сохраняются в «Снимках данных» (Snapshot Archives). Это гарантирует, что при обучении используются только данные, доступные в момент исторического события, предотвращая «взгляд в будущее».
Яндекс патентует метод ранжирования задач для исполнителей (асессоров) на своей краудсорсинговой платформе (например, Яндекс.Задания). Система использует ML для балансировки между предпочтениями асессора (вероятность выбора задачи) и его навыками (вероятность точного выполнения). Цель — максимизировать качество собираемых данных для обучения поиска при сохранении вовлеченности асессоров.
Яндекс патентует метод обучения ML-модели для предсказания вероятности того, что пользователь увидит рекламное объявление (Visibility Score). Поскольку факт просмотра сложно зафиксировать, система использует данные о взаимодействиях (кликах или наведении курсора) как прокси-метрику видимости. Модель обучается путем показа одного и того же объявления одному пользователю в разных слотах, чтобы понять, как позиция влияет на взаимодействие.
Яндекс патентует метод для умных помощников и чат-ботов по выбору следующего ответа в диалоге. Система использует нейронную сеть для создания векторов контекста беседы и потенциальных ответов. Ответ выбирается на основе оценки ранжирования, которая суммирует два показателя: лингвистическое сходство (соответствие стилю) и логическое сходство (релевантность ответа). Это позволяет системе не только давать логичные ответы, но и подражать стилю речи пользователя.
Яндекс патентует метод для рекомендательных сервисов (например, Дзен), решающий проблему «холодного старта». Если у пользователя нет истории взаимодействий, система не может создать персонализированную ленту. Вместо этого она анализирует визуальные характеристики (размер, позиция, изображения) контента на главных страницах заранее определенных «надежных» ресурсов. Используя обученную модель, система предсказывает популярность контента на основе его визуальной заметности и формирует из него неперсонализированную ленту рекомендаций.
Яндекс патентует метод для улучшения работы интеллектуальных персональных ассистентов (IPA) или чат-ботов. Система использует нейронную сеть для оценки потенциальных ответов, учитывая два ключевых фактора: логическую связь с текущим диалогом и лингвистическое сходство (стиль речи) с предыдущим контекстом. Это позволяет чат-боту давать не только правильные по смыслу ответы, но и поддерживать естественный стиль общения (например, формальный или неформальный), соответствующий контексту разговора.
Яндекс использует инфраструктурный механизм для эффективной индексации партнерских данных (например, товаров или рекламы из XML-фидов). Вместо полной переиндексации базы система группирует объявления в логические «Разделы». При обновлении данных переиндексируется только та часть поискового индекса, которая соответствует измененному Разделу, что значительно ускоряет появление актуальной информации в сервисах Яндекса.
Яндекс патентует систему внутреннего контроля качества для автоматического выявления ошибок ранжирования. Система сравнивает входные данные (векторы признаков) и выходные результаты (оценки релевантности) для пар документов. Если документы похожи по признакам, но сильно различаются по рангу (или наоборот), система маркирует их как потенциальную ошибку. Это позволяет Яндексу фокусировать внимание асессоров на реальных проблемах и быстрее улучшать модели машинного обучения.
Яндекс патентует метод обучения ML-моделей для систем рекомендаций (например, Дзен, Музыка). Для повышения точности и эффективности признаки разделяются: связанные с пользователем вычисляются в реальном времени, а глобальные признаки контента — периодически офлайн и хранятся в «Архивах Снимков». При обучении используются только данные, доступные строго ДО момента исторического события, что предотвращает «заглядывание в будущее» и устраняет искажения модели.
Патент описывает инфраструктурный механизм для корпоративных поисковых систем (Search Appliances). Он позволяет мгновенно отражать изменения прав доступа к документам в поисковой выдаче, не дожидаясь полного переиндексирования. Система использует «отпечатки безопасности» для маркировки общедоступных документов и фильтрации результатов в реальном времени.
Патент Яндекса описывает метод эффективного обучения систем обработки естественного языка (NLP), таких как голосовые помощники или приложения для диктовки. Вместо анализа огромных текстовых корпусов система изучает конкретные примеры команд, извлекает лингвистические признаки и использует алгоритмы майнинга (например, Charm Bitset) для выявления устойчивых шаблонов. Это позволяет точно преобразовывать фразы пользователя в машинные инструкции.
Яндекс патентует технологию для браузера, позволяющую использовать адресную строку для отображения информации, не исходящей от владельца текущего сайта. Основной механизм — отображение истории навигации в виде «умных» хлебных крошек, включающих текст исходного поискового запроса как интерактивный элемент для быстрого возврата на страницу поиска (SERP).
Патент Google, описывающий интерфейс «Push-to-Talk» для голосового ввода. Пользователь удерживает кнопку во время произнесения запроса и отпускает для завершения ввода. Также описан механизм жестов для направления распознанного текста в конкретное приложение. Патент фокусируется на UI/UX и не содержит информации об алгоритмах ранжирования.
Патент Яндекса описывает технический метод обучения моделей машинного обучения (в частности, градиентного бустинга над деревьями решений, лежащего в основе CatBoost), направленный на уменьшение переобучения и смещения модели. Метод «Не заглядывать вперед» гарантирует, что при обучении модель использует только данные из «прошлого» (предыдущие объекты в упорядоченном списке), предотвращая утечку информации из «будущего».
Яндекс патентует метод многоэтапного лингвистического анализа рекламных объявлений для извлечения их основного смысла («Параметра Намерения»), отфильтровывая «бессмысленные фразы». Этот параметр используется для точного сопоставления рекламы с интентом пользователя и для прогнозирования CTR новых объявлений на основе исторических данных объявлений с аналогичным намерением.