Индексация

Это инфраструктурный патент Яндекса, описывающий метод оптимизации вычислительных ресурсов (CPU/GPU) при обработке нейросетями (включая Трансформеры и BERT) пакетов данных разной длины. Система минимизирует «пустые» вычисления (padding), интеллектуально группируя запросы схожей …
Яндекс патентует метод оптимизации инфраструктуры для ускорения сложных («тяжелых») запросов. Система оценивает сложность запроса и, если она высока, динамически делит инвертированный индекс на сегменты. Поиск выполняется несколькими потоками параллельно на …
Яндекс патентует инфраструктурный метод для повышения плотности сжатия и скорости распаковки инвертированного индекса. Вместо хранения параметров сжатия в каждом блоке данных система использует короткий указатель на предопределенный шаблон. Это экономит …
Яндекс патентует двухэтапный метод идентификации аудиоконтента. Система создает короткие и длинные цифровые отпечатки (аудиосигнатуры). Сначала быстро сравниваются короткие отпечатки (используя «хромаслова») для выбора кандидатов, а затем проводится детальное побитовое сравнение …
Яндекс патентует систему для эффективного поиска дубликатов аудиофайлов. Система использует двухэтапный подход: быстрая выборка кандидатов по коротким аудио-отпечаткам (Pruning) и детальная проверка по длинным отпечаткам (Validation). Также описана оптимизированная структура …
Яндекс запатентовал систему (приложение «Wonder»), которая агрегирует данные об активности друзей пользователя из нескольких социальных сетей (например, Facebook, Twitter, Foursquare) в единую базу. Система позволяет пользователю искать по этой агрегированной …
Яндекс патентует инфраструктурный механизм для эффективного обновления больших массивов данных (например, хеш-таблиц с факторами ранжирования или параметрами MLR-моделей). Система создает новую версию данных в фоновом режиме, пока поиск использует текущую …
Яндекс патентует инфраструктурный алгоритм для повышения эффективности работы нейросетей (например, BERT, YATI). При обработке данных разной длины (например, текстов) система группирует их в пакеты (батчи). Изобретение минимизирует количество «пустых» токенов …
Яндекс патентует алгоритм для повышения эффективности работы своих нейросетей (таких как BERT, Трансформеры и т.д.) на аппаратном уровне (CPU/GPU). Поскольку нейросети обрабатывают запросы разной длины, а аппаратное обеспечение требует группировки …
Яндекс оптимизирует выполнение моделей глубокого обучения (используемых в поиске, переводе и т.д.) путем эффективного пакетирования входных данных (например, запросов или текстов документов). Поскольку входные данные имеют переменную длину и должны …
Яндекс патентует метод для определения языка текста. Система разбивает слова на чередующиеся сегменты гласных и согласных. Затем она анализирует частоту встречаемости этих сегментов в определенном контексте (соседние сегменты или границы …
Яндекс патентует метод высокоэффективного сжатия и сверхбыстрой декомпрессии инвертированного индекса. Система использует предопределенные профили (паттерны) для кодирования списков документов. Вместо хранения параметров сжатия в индексе хранится только указатель на профиль. …
Яндекс патентует инфраструктурный метод для высокоэффективного сжатия инвертированного индекса. Система использует блочное кодирование с предопределенными шаблонами (Encoding Patterns). Это позволяет уменьшить размер индекса в оперативной памяти и значительно ускорить декодирование …
Яндекс патентует инфраструктурный метод сжатия инвертированного индекса для повышения скорости поиска и экономии памяти. Вместо хранения параметров сжатия в каждом блоке индекса, система использует короткий указатель на предопределенную таблицу шаблонов …
Яндекс использует технологию индексации аудио для быстрого распознавания музыки и другого аудио контента. Система создает цифровые отпечатки (хромапринты), разбивает их на «хрома слова» и хранит в специализированном инвертированном индексе. Это …