Семантический поиск

Яндекс патентует метод обучения чат-ботов, основанный на подходе Retrieval-Augmented Generation (RAG). Система использует модель семантического подобия для поиска факта, релевантного диалогу. Затем генеративная модель (LLM) обучается формировать ответ на основе …
Яндекс патентует метод предобработки текста перед подачей в алгоритмы машинного обучения (например, YATI). Вместо стандартного разделения слов на фиксированные части (токены), система вносит элемент случайности, исключая некоторые возможные слияния токенов. …
Это инфраструктурный патент Яндекса, описывающий метод оптимизации вычислительных ресурсов (CPU/GPU) при обработке нейросетями (включая Трансформеры и BERT) пакетов данных разной длины. Система минимизирует «пустые» вычисления (padding), интеллектуально группируя запросы схожей …
Яндекс патентует инфраструктурный алгоритм для повышения эффективности работы нейросетей (например, BERT, YATI). При обработке данных разной длины (например, текстов) система группирует их в пакеты (батчи). Изобретение минимизирует количество «пустых» токенов …
Яндекс патентует алгоритм для повышения эффективности работы своих нейросетей (таких как BERT, Трансформеры и т.д.) на аппаратном уровне (CPU/GPU). Поскольку нейросети обрабатывают запросы разной длины, а аппаратное обеспечение требует группировки …
Яндекс патентует метод для автоматического сопоставления лексических единиц (слов и фраз) между оригинальным текстом и его переводом. Система анализирует статистику совместной встречаемости (контекстные параметры) в обоих языках и находит переводы …
Яндекс патентует метод для автоматического сопоставления слов и фраз (лексических элементов) между исходным текстом и его переводом (параллельные тексты). Система анализирует, как часто элементы совместно встречаются в предложениях (контекст) на …
Яндекс оптимизирует выполнение моделей глубокого обучения (используемых в поиске, переводе и т.д.) путем эффективного пакетирования входных данных (например, запросов или текстов документов). Поскольку входные данные имеют переменную длину и должны …
Яндекс патентует метод для определения языка текста. Система разбивает слова на чередующиеся сегменты гласных и согласных. Затем она анализирует частоту встречаемости этих сегментов в определенном контексте (соседние сегменты или границы …