Яндекс патентует инфраструктурный метод для эффективного управления большими объемами партнерских данных (товаров, объявлений). Система группирует похожие данные в разделы (партиции). При обновлении фида переиндексируются только те разделы, которых коснулись изменения, а не весь индекс целиком. Это обеспечивает высокую скорость обновления информации и контроль качества данных.
Автор: Виктор Репин
Google патентует механизм, позволяющий пользователям мгновенно изменять настройки устройства (язык, яркость, размер шрифта) или параметры поискового запроса (например, переводить запрос и получать результаты на другом языке), просто изменив ориентацию смартфона. Система может выполнять параллельные поиски на разных языках заранее, чтобы обеспечить мгновенное переключение результатов.
Патент Google, описывающий инфраструктуру поиска по изображениям. Система разбивает изображения на «визуальные слова» (признаки) и использует инвертированный индекс (posting lists) для быстрого поиска совпадений. Ключевая особенность — хранение геометрических данных (положение признаков) прямо в индексе, что позволяет быстро рассчитывать визуальное сходство и проверять пространственное расположение элементов на лету.
Яндекс патентует метод для систем рекомендаций (например, Яндекс.Дзен), гарантирующий рекламодателям достижение целей продвижения (например, X действий за Y времени). Система рассчитывает вероятность взаимодействия каждого пользователя с контентом, используя векторные представления. Чтобы оптимизировать ресурсы и не показывать контент незаинтересованным пользователям, система определяет минимальный порог вероятности и таргетирует только аудиторию выше этого порога, достаточную для выполнения гарантий.
Этот патент описывает систему для эффективной организации больших объемов входящих сообщений (например, обращений в поддержку или отзывов). Система группирует похожие документы в кластеры и использует статистическую оценку схожести (Similarity Score), чтобы автоматически определить тематическую чистоту кластера (Topic Purity). Это значительно сокращает объем ручной проверки качества.
Анализ патента Google, описывающего систему поиска похожих людей. Система анализирует изображение человека, извлекает визуальные признаки и одновременно определяет биографические классификации (например, пол, возраст, этническую принадлежность) на основе связанного текста и метаданных. Эти биографические данные используются для фильтрации и уточнения результатов поиска по визуальному сходству, обеспечивая более релевантную выдачу изображений.
Патент Google, описывающий инфраструктурный механизм для сравнения медиаконтента (видео, изображений) в больших масштабах. Система преобразует сложные, многомерные векторы признаков в компактные разреженные бинарные векторы на основе относительного ранжирования признаков. Это позволяет быстро находить похожий или дублирующийся контент, сохраняя устойчивость к шуму и незначительным модификациям.
Яндекс патентует систему адаптивной фильтрации «таргетированного контента» (рекламы, рекомендаций). Система собирает данные, когда пользователи вручную блокируют нежелательный контент (негативные примеры), и сравнивает их с контентом, который не блокируется (позитивные примеры). На этих данных обучается алгоритм (MLA), который затем автоматически классифицирует и блокирует будущий нежелательный контент на основе его атрибутов.
Google использует механизм для глубокой персонализации контента, особенно рекламы, в ответ на голосовые запросы. Система анализирует индексированный социальный граф пользователя (включая профиль, связи и активность друзей), чтобы извлечь релевантную информацию. Эта информация затем динамически вставляется в шаблоны контента в реальном времени для создания высоко персонализированного сообщения.
Google патентует интерфейс для показа связанных сайтов во время просмотра пользователем веб-страницы. Система определяет похожие сайты на основе текстового и визуального сходства. Результаты отображаются в виде миниатюр (превью), которые при наведении увеличивают ключевые области (например, логотип или навигацию), чтобы помочь пользователю быстро оценить релевантность сайта.
Google использует этот механизм для оптимизации ресурсов при обработке новых (некэшированных) запросов. Система находит похожий популярный запрос в кэше и анализирует его специфичность, а также является ли новый запрос сущностью или фразой. На основе этих данных Google предсказывает, стоит ли тратить ресурсы на поиск в специализированных индексах (Вертикалях), снижая задержку ответа.
Яндекс патентует метод автоматической генерации метаданных для медиаконтента. Когда в изображение, видео или аудио добавляется текст (например, аннотации, субтитры или синтез речи), система использует исходный машиночитаемый текст для создания метаданных файла. Это позволяет избежать ошибок и затрат на последующее распознавание (OCR или Speech-to-Text), гарантируя точность индексируемой информации.
Google использует систему оптимизации выбора контента (например, рекламы или рекомендаций), которая анализирует исторические данные показов с помощью логистической регрессии. Цель — выявить комбинации признаков (например, категория контента + категория веб-страницы + страна + язык), которые предсказывают низкий интерес пользователя. Такие неэффективные комбинации проактивно отключаются для повышения общей производительности.
Яндекс использует метод для повышения точности A/B тестирования путем создания обобщенной метрики. Система объединяет одну метрику, показывающую направление изменений (хорошо или плохо), с другой метрикой, показывающей величину изменений (чувствительность). Это позволяет точнее оценивать влияние обновлений на поведение пользователей.
Яндекс патентует метод ускорения A/B тестов (контролируемых экспериментов). Вместо длительного сбора данных система анализирует поведение пользователей за короткий период и использует машинное обучение (например, GBDT) для прогнозирования их будущих взаимодействий (кликов, сессий, dwell time). Это позволяет быстрее определить статистическую значимость изменений и ускорить внедрение улучшений в поиск.
Система учится идентифицировать «сложные ложные срабатывания» — ситуации, когда локальные участки разных изображений (например, текстуры или узоры) очень похожи, но объекты в целом не совпадают. Google тренирует классификатор для фильтрации таких совпадений, повышая точность идентификации объектов в Google Images и Google Lens.
Яндекс патентует метод повышения эффективности поиска по картинке (Image-to-Image/CBIR). Вместо индексации отдельных «визуальных слов», система создает «Visual Features Composite Parameters» (VFCP) — комбинацию как минимум двух визуальных элементов и их взаимосвязи (геометрической или визуальной). Это позволяет быстрее находить похожие или дублирующиеся изображения в больших базах данных.
Яндекс использует предиктивные модели машинного обучения для ускорения A/B тестирования изменений в поисковых алгоритмах и интерфейсах. Анализируя начальное поведение пользователей, система прогнозирует долгосрочное влияние изменений на ключевые метрики (клики, сессии, время присутствия). Это позволяет быстрее принимать решения об обновлениях, не дожидаясь окончания полной длительности эксперимента.
Google использует алгоритм для максимизации общего дохода в онлайн-маркетплейсах (например, Google Play). Система сравнивает ожидаемую прибыль от показа органического приложения (на основе его исторической монетизации и CTR) с прибылью от рекламы в том же слоте. Если реклама выгоднее, она вытесняет органический результат, учитывая упущенную выгоду платформы.
Яндекс патентует метод для рекомендательных систем, который моделирует последовательность действий пользователя как траекторию в многомерном пространстве интересов. Система обучается предсказывать следующий шаг пользователя, анализируя направление и скорость этой траектории во времени. Контент, соответствующий прогнозируемому продолжению траектории, рекомендуется пользователю.