Яндекс патентует вероятностный метод для определения времени создания веб-страницы, когда явные данные отсутствуют или недостоверны. Система анализирует граф ссылок, исходя из предположения, что страницы склонны ссылаться на контент схожего возраста …
Индексация
Яндекс патентует эффективный метод расчета сложных текстовых факторов (близость слов запроса друг к другу, их совместное наличие в URL/заголовке) в момент выполнения поиска. Система использует предварительно сохраненные в индексе данные …
Яндекс патентует метод повышения качества ранжирования за счет расчета сложных текстовых факторов в реальном времени. Система использует предварительно сохраненные данные о позициях отдельных слов (query-independent) для динамического вычисления факторов совместной …
Яндекс использует систему для оптимизации графиков сканирования, прогнозируя как долгосрочную популярность нового URL, так и скорость угасания этой популярности (краткосрочный интерес). Рассчитывая «Параметр выгоды от сканирования» на основе этих прогнозов, …
Яндекс патентует метод оптимизации очереди сканирования. Система прогнозирует не только общую будущую популярность новой страницы, но и то, как быстро эта популярность будет снижаться. Используя машинное обучение, обученное на исторических …
Яндекс использует машинное обучение для оптимизации очереди сканирования. Система прогнозирует будущую долгосрочную популярность новой страницы и скорость угасания этой популярности, анализируя исторические данные похожих URL-структур (паттернов). На основе этого рассчитывается …
Яндекс патентует метод автоматического создания тезауруса путем анализа контекста, в котором встречаются слова и фразы в больших массивах текста. Система определяет семантические связи (синонимы, антонимы, гиперонимы) на основе схожести их …
Яндекс патентует метод обогащения поисковой выдачи путем анализа HTML-структуры веб-страниц. Система автоматически обнаруживает повторяющиеся шаблоны кода (например, карточки товаров или объявления) и извлекает из них конкретные данные (цены, изображения, заголовки). …
Яндекс патентует механизм для улучшения выдачи в Поиске по Картинкам путем группировки визуально похожих изображений, найденных на одной веб-странице, в «Серии». Эти серии отображаются в выдаче как единый, визуально отличимый …
Яндекс использует метод для точной идентификации специфических объектов на веб-странице (реклама, логотипы, карты, формы) после ее полной отрисовки браузером. Система анализирует как визуальные характеристики (размер, положение, стиль), так и характеристики …
Яндекс патентует метод повышения эффективности и скорости поиска (семантическое шардирование). Система использует нейронную сеть (MLA/Dual-Encoder) для генерации семантических векторов документов и запросов, где близость векторов отражает релевантность. Документы кластеризуются на …
Яндекс патентует метод улучшения выдачи Яндекс Картинок путем отображения «Серий» (Групп) изображений. Система заранее (офлайн) находит визуально похожие изображения, расположенные на одной и той же веб-странице, и объединяет их в …
Яндекс патентует метод анализа контента для автоматического предоставления контекстной информации. Система идентифицирует объекты (сущности) в тексте, определяет их наиболее вероятное значение (устраняет неоднозначность) и рассчитывает оценку значимости (Context Relevancy Score). …
Яндекс использует систему приоритизации (Triage Server) для управления индексацией. Сразу после сканирования страницы система предсказывает ее будущую полезность как «свежего» результата (Importance Score) на основе доступных разреженных данных. Если оценка …
Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими …
Яндекс патентует гибридный метод точной идентификации объектов на веб-странице (рекламы, логотипов, карт). Система анализирует не только исходный код (теги, скрипты), но и финальные визуальные характеристики объекта после рендеринга (размер, позицию, …
Яндекс патентует метод ускорения поиска по картинке (CBIR). Вместо индексации отдельных «визуальных слов» (Bag-of-Words), система использует «Составной параметр визуальных признаков» (VFCP). VFCP объединяет несколько визуальных слов и информацию об их …
Яндекс патентует метод эффективного обновления поискового индекса, разделенного на части (шарды). Система классифицирует документы как «активные» (используемые в поиске) и «неактивные» (невостребованные). При обновлении приоритетно выбираются и перестраиваются те части …
Яндекс патентует инфраструктурный метод оптимизации хранения и поиска документов. Система обучает нейросеть генерировать семантические векторы (эмбеддинги) так, чтобы их близость отражала релевантность. Документы с похожими векторами группируются в кластеры (шарды). …
Яндекс патентует метод встраивания текста в метаданные медиафайлов (изображений, видео, аудио) непосредственно в момент создания или редактирования контента. Если система «знает» текст (например, пользователь ввел аннотацию или система извлекла текст …