Индексация

Как Яндекс оптимизирует скорость и эффективность обработки данных нейросетями (BERT/YATI) путем умного пакетирования запросов

2023 • Индексация • Обучение моделей • Семантический поиск

RU2021130744A 2023-06-28 2021-10-21

Это инфраструктурный патент Яндекса, описывающий метод оптимизации вычислительных ресурсов (CPU/GPU) при обработке нейросетями (включая Трансформеры и BERT) пакетов данных разной длины. Система минимизирует «пустые» вычисления (padding), интеллектуально группируя запросы схожей …

Как Яндекс динамически ускоряет выполнение сложных запросов, распараллеливая поиск внутри одного шарда

2018 • Индексация • Метрики качества поиска • Ранжирование

US10078697B2 2018-09-18 2013-02-25

Яндекс патентует метод оптимизации инфраструктуры для ускорения сложных («тяжелых») запросов. Система оценивает сложность запроса и, если она высока, динамически делит инвертированный индекс на сегменты. Поиск выполняется несколькими потоками параллельно на …

Как Яндекс оптимизирует хранение и ускоряет чтение инвертированного индекса с помощью шаблонного сжатия

2017 • Вертикальный поиск • Индексация • Ранжирование

RU2633178C2 2017-10-11 2015-12-29

Яндекс патентует инфраструктурный метод для повышения плотности сжатия и скорости распаковки инвертированного индекса. Вместо хранения параметров сжатия в каждом блоке данных система использует короткий указатель на предопределенный шаблон. Это экономит …

Как Яндекс использует технологию аудио-отпечатков для быстрого распознавания музыки и аудиоконтента

2017 • Антиспам • Индексация • Яндекс Музыка

RU2606567C2 2017-01-10 2015-02-16

Яндекс патентует двухэтапный метод идентификации аудиоконтента. Система создает короткие и длинные цифровые отпечатки (аудиосигнатуры). Сначала быстро сравниваются короткие отпечатки (используя «хромаслова») для выбора кандидатов, а затем проводится детальное побитовое сравнение …

Как Яндекс использует двухэтапный поиск и оптимизированный индекс для быстрого обнаружения дубликатов аудиофайлов

2016 • Вертикальный поиск • Индексация • Яндекс Музыка

WO2016024171A1 2016-02-18 2015-03-03

Яндекс патентует систему для эффективного поиска дубликатов аудиофайлов. Система использует двухэтапный подход: быстрая выборка кандидатов по коротким аудио-отпечаткам (Pruning) и детальная проверка по длинным отпечаткам (Validation). Также описана оптимизированная структура …

Как Яндекс пытался создать персонализированный поиск по активности друзей в разных социальных сетях (Yandex Wonder)

2014 • Индексация • Персонализация • Рекомендательные системы

US20140207815A1 2014-07-24 2013-03-05

Яндекс запатентовал систему (приложение «Wonder»), которая агрегирует данные об активности друзей пользователя из нескольких социальных сетей (например, Facebook, Twitter, Foursquare) в единую базу. Система позволяет пользователю искать по этой агрегированной …

Как Яндекс обеспечивает мгновенное и согласованное обновление данных в поиске без блокировок (Lock-Free механизм)

2017 • Индексация • Обучение моделей • Ранжирование

WO2017001906A1 2017-01-05 2015-11-20

Яндекс патентует инфраструктурный механизм для эффективного обновления больших массивов данных (например, хеш-таблиц с факторами ранжирования или параметрами MLR-моделей). Система создает новую версию данных в фоновом режиме, пока поиск использует текущую …

Как Яндекс оптимизирует скорость работы нейросетей (DNN) с помощью умного пакетирования запросов переменной длины

2025 • Индексация • Обучение моделей • Семантический поиск

US12346721B2 2025-07-01 2022-05-03

Яндекс патентует инфраструктурный алгоритм для повышения эффективности работы нейросетей (например, BERT, YATI). При обработке данных разной длины (например, текстов) система группирует их в пакеты (батчи). Изобретение минимизирует количество «пустых» токенов …

Как Яндекс оптимизирует скорость обработки нейросетевых задач путем интеллектуального группирования запросов в пакеты

2023 • Индексация • Обучение моделей • Семантический поиск

US20230127306A1 2023-04-27 2022-05-03

Яндекс патентует алгоритм для повышения эффективности работы своих нейросетей (таких как BERT, Трансформеры и т.д.) на аппаратном уровне (CPU/GPU). Поскольку нейросети обрабатывают запросы разной длины, а аппаратное обеспечение требует группировки …

Как Яндекс оптимизирует скорость обработки нейросетевых моделей (BERT/YATI) путем интеллектуального пакетирования входных данных

2023 • Индексация • Обучение моделей • Семантический поиск

RU2810916C2 2023-12-29 2021-10-21

Яндекс оптимизирует выполнение моделей глубокого обучения (используемых в поиске, переводе и т.д.) путем эффективного пакетирования входных данных (например, запросов или текстов документов). Поскольку входные данные имеют переменную длину и должны …

Как Яндекс определяет язык слова на основе анализа гласных и согласных сегментов и их контекста

2017 • Индексация • Обучение моделей • Семантический поиск

RU2015141343A 2017-04-04 2015-09-29

Яндекс патентует метод для определения языка текста. Система разбивает слова на чередующиеся сегменты гласных и согласных. Затем она анализирует частоту встречаемости этих сегментов в определенном контексте (соседние сегменты или границы …

Как Яндекс оптимизирует скорость и размер поискового индекса с помощью предопределенных профилей сжатия

2016 • Вертикальный поиск • Индексация • Яндекс Маркет

US9471613B2 2016-10-18 2015-08-19

Яндекс патентует метод высокоэффективного сжатия и сверхбыстрой декомпрессии инвертированного индекса. Система использует предопределенные профили (паттерны) для кодирования списков документов. Вместо хранения параметров сжатия в индексе хранится только указатель на профиль. …

Как Яндекс оптимизирует хранение и скорость чтения обратного индекса с помощью таблиц шаблонов кодирования

2016 • Индексация • Ранжирование • Яндекс Новости

US20160070734A1 2016-03-10 2015-11-10

Яндекс патентует инфраструктурный метод для высокоэффективного сжатия инвертированного индекса. Система использует блочное кодирование с предопределенными шаблонами (Encoding Patterns). Это позволяет уменьшить размер индекса в оперативной памяти и значительно ускорить декодирование …

Как Яндекс оптимизирует хранение и ускоряет доступ к инвертированному индексу с помощью предопределенных шаблонов кодирования

2017 • SERP • Индексация • Ранжирование

US9824109B2 2017-11-21 2015-11-10

Яндекс патентует инфраструктурный метод сжатия инвертированного индекса для повышения скорости поиска и экономии памяти. Вместо хранения параметров сжатия в каждом блоке индекса, система использует короткий указатель на предопределенную таблицу шаблонов …

Как Яндекс индексирует и распознает аудио контент с помощью цифровых отпечатков (хромапринтов)

2016 • Вертикальный поиск • Индексация • Яндекс Музыка

RU2014133401A 2016-03-10 2014-08-14

Яндекс использует технологию индексации аудио для быстрого распознавания музыки и другого аудио контента. Система создает цифровые отпечатки (хромапринты), разбивает их на «хрома слова» и хранит в специализированном инвертированном индексе. Это …