Индексация

Яндекс патентует двухэтапный метод идентификации аудиодорожек. Система создает короткие и длинные аудио-отпечатки (Chromaprints). Сначала выполняется быстрый поиск кандидатов по коротким отпечаткам с использованием специального индекса (Pruning Index). Затем проводится детальная …
Яндекс патентует метод идентификации объектов на веб-странице (таких как реклама, логотипы, карты) путем анализа их характеристик после рендеринга (размер, положение, стиль) и особенностей исходного кода. Система использует машинное обучение для …
Яндекс патентует метод для ускорения поиска в вертикальных сервисах. Система создает иерархическую структуру (дерево), где каждый уровень соответствует атрибуту (например, Марка -> Модель -> Год). В конечных узлах хранятся «статистические …
Яндекс патентует метод эффективной обработки и индексации данных из партнерских фидов (например, объявлений или товаров). Система разделяет фиды на сегменты (партиции) по общим характеристикам и при обновлении фида перестраивает только …
Яндекс патентует инфраструктурный метод для эффективного индексирования и поиска дубликатов аудиоконтента (включая аудиодорожки видео). Система создает короткие и длинные акустические отпечатки (Chromaprints) и использует специализированный иерархический инвертированный индекс для быстрого …
Яндекс патентует двухэтапную систему для эффективного обнаружения дубликатов аудиофайлов (например, музыки или аудиодорожек видео). Система создает короткие и длинные аудиосигнатуры (отпечатки) на основе "хромаслов". Сначала она быстро находит кандидатов по …
Яндекс патентует метод для ускорения и повышения точности поиска по картинке (CBIR). Вместо индексации отдельных элементов изображения («визуальных слов»), система использует «Композитный параметр визуальных характеристик» (КПВХ или «визуальная фраза»). КПВХ …
Яндекс патентует метод эффективного обновления поискового индекса, разделенного на сегменты (чанки). Система определяет «активные» (полезные) и «неактивные» (бесполезные) документы на основе поведенческих данных и свежести. Для обновления выбираются чанки с …
Яндекс патентует метод организации структурированных данных (например, объявлений) в иерархическое дерево для оптимизации поиска. Каждый уровень дерева соответствует атрибуту (например, Марка, Модель, Год). Листья дерева хранят агрегированную статистику (минимальная/максимальная цена, …
Яндекс патентует инфраструктурный метод для эффективного управления большими объемами партнерских данных (товаров, объявлений). Система группирует похожие данные в разделы (партиции). При обновлении фида переиндексируются только те разделы, которых коснулись изменения, …
Яндекс патентует метод автоматической генерации метаданных для медиаконтента. Когда в изображение, видео или аудио добавляется текст (например, аннотации, субтитры или синтез речи), система использует исходный машиночитаемый текст для создания метаданных …
Яндекс патентует метод повышения эффективности поиска по картинке (Image-to-Image/CBIR). Вместо индексации отдельных «визуальных слов», система создает «Visual Features Composite Parameters» (VFCP) — комбинацию как минимум двух визуальных элементов и их …
Яндекс патентует метод для показа результатов поиска (SERP) офлайн. На устройство загружается база популярных запросов. Для экономии памяти элементы SERP (заголовки, URL, сниппеты) дедуплицируются и хранятся один раз, а выдача …
Яндекс использует систему для ускорения идентификации почти дубликатов (near-duplicates) видео во время индексации. Вместо медленного сравнения содержания каждого видеофайла система сначала проверяет схожесть их продолжительности. Допустимая разница (variance parameter) динамически …
Яндекс патентует метод оптимизации поиска почти дублирующихся видеофайлов. Чтобы избежать дорогостоящего сравнения всех видео, система сначала фильтрует кандидатов по длительности. Допустимое отклонение длительности рассчитывается динамически (например, как процент от оригинала) …
Яндекс патентует двухэтапный метод для эффективного поиска дубликатов аудиофайлов. Система сначала быстро отбирает кандидатов, сравнивая короткие аудио-отпечатки (например, первые 21 секунды) через специализированный индекс (Pruning Index). Затем она проводит детальную …
Яндекс использует инфраструктурный механизм для эффективной индексации партнерских данных (например, товаров или рекламы из XML-фидов). Вместо полной переиндексации базы система группирует объявления в логические «Разделы». При обновлении данных переиндексируется только …
Яндекс патентует метод автоматического сохранения машиночитаемого текста в метаданных медиафайла (изображения, видео, аудио) в момент, когда этот текст добавляется в сам контент в нетекстовом виде (например, в виде графики или …
Яндекс патентует систему для отображения результатов поиска при отсутствии или медленном интернет-соединении. На устройство заранее загружается база данных популярных запросов. Для экономии места элементы выдачи (заголовки, URL, сниппеты) дедуплицируются и …
Яндекс патентует метод оптимизации производительности поиска за счет использования многопоточности внутри одного сервера (шарда). Система оценивает сложность входящего запроса («вес») и, если она высока, делит инвертированный индекс на чередующиеся сегменты. …