Яндекс патентует метод улучшения ранжирования, который анализирует, насколько семантически похожи друг на друга документы, уже отобранные в качестве кандидатов. Система вычисляет «базисный вектор» (смысловой центр выдачи) и использует близость каждого …
Семантический поиск
Яндекс патентует метод обучения чат-ботов, использующий подход Retrieval-Augmented Generation (RAG). Система находит релевантный факт во внешней базе знаний с помощью модели семантической близости. Затем этот факт объединяется (конкатенируется) с запросом …
Яндекс патентует метод повышения эффективности и скорости поиска (семантическое шардирование). Система использует нейронную сеть (MLA/Dual-Encoder) для генерации семантических векторов документов и запросов, где близость векторов отражает релевантность. Документы кластеризуются на …
Яндекс автоматически создает тезаурус, анализируя контекст использования слов и фраз в большом корпусе текстов. Система определяет семантические связи (синонимы, антонимы, гиперонимы, ассоциации), сравнивая, насколько похожи контексты разных слов и как …
Яндекс патентует метод диверсификации обогащенных запросов (поисковых подсказок, связанных запросов). Чтобы не показывать пользователю схожие варианты, система определяет их семантическую близость на основе того, насколько пересекаются результаты поиска (SERP) по …
Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они …
Яндекс патентует метод анализа контента для автоматического предоставления контекстной информации. Система идентифицирует объекты (сущности) в тексте, определяет их наиболее вероятное значение (устраняет неоднозначность) и рассчитывает оценку значимости (Context Relevancy Score). …
Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими …
Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов. Система генерирует кандидатов и использует специальную модель (например, DSSM), чтобы предсказать, приведут ли два разных запроса к одинаковым результатам поиска …
Яндекс использует метод для разрешения лексической неоднозначности (Word Sense Disambiguation). Система анализирует грамматическую структуру вокруг многозначного слова (омонима) и ищет однозначное слово, используемое в аналогичной структуре. Затем грамматическая роль (например, …
Яндекс патентует метод разрешения лексической многозначности (Word Sense Disambiguation), не требующий размеченных вручную корпусов. Система находит многозначное слово (омоним) и анализирует его грамматический контекст. Затем она ищет однозначное слово в …
Яндекс патентует метод фильтрации и дедупликации поисковых подсказок и связанных запросов. Система определяет схожесть двух запросов-кандидатов на основе степени пересечения их результатов поиска (SERP Similarity). Если две подсказки ведут на …
Яндекс патентует метод эффективной обработки синонимов в запросах, избегая «комбинаторного взрыва». Система использует двухэтапный процесс: нормализация (приведение слов к базовой форме/лексеме) и обобщение (замена лексем на самый популярный «основной синоним»). …
Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для …
Яндекс использует алгоритм для группировки похожих документов (например, в Яндекс.Новостях), который оценивает качество кластера по двум метрикам: Когезия (насколько документы внутри похожи друг на друга) и Фокус (насколько тема сконцентрирована …
Яндекс патентует инфраструктурный метод оптимизации хранения и поиска документов. Система обучает нейросеть генерировать семантические векторы (эмбеддинги) так, чтобы их близость отражала релевантность. Документы с похожими векторами группируются в кластеры (шарды). …
Яндекс патентует метод предобработки текста BPE-Dropout для обучения NLP-моделей. Вместо стандартной детерминированной токенизации (BPE), система случайным образом пропускает некоторые шаги объединения символов в токены во время обучения. Это создает разные …
Яндекс патентует метод предобработки текста (BPE-Dropout), который вносит случайность в процесс разбиения слов на токены (subwords). Вместо одного фиксированного варианта система генерирует множество альтернатив во время обучения моделей. Это делает …
Яндекс патентует унифицированную систему для исправления ошибок ввода (опечаток и неправильной раскладки). Ключевая особенность — метод автоматического создания «реалистичных» ошибок на основе частотности слов и физического расположения клавиш. Эти данные …
Яндекс патентует метод точной транскрипции текста между алфавитами (например, из кириллицы в латиницу, из латиницы в кириллицу или в фонетическое представление). Система делит слова и фразы на блоки гласных и …