Автор: Виктор Репин

Анализ патента Google, описывающего инфраструктуру для клиентского поиска (например, Google Desktop). Система фиксирует действия пользователя (события) с контентом (статьями) и решает, индексировать ли их, используя критерии, основанные на частоте событий, доступных ресурсах и предполагаемых интересах пользователя (имплицитно выведенных из его поведения).

Яндекс патентует метод проверки фактической точности контента, созданного генеративными моделями (например, для объектных карточек). Система не сверяет факты с внешними источниками, а ищет внутренние противоречия в сгенерированном тексте. Специально обученная NLP-модель оценивает вероятность того, что один фрагмент текста подтверждает фактическую точность другого связанного фрагмента.

Google использует механизм безопасности для защиты пользователей от вредоносных или нежелательных сайтов. Система оценивает репутацию ссылки в момент взаимодействия с ней. Если ссылка ведет на опасный ресурс (включая редиректы и всплывающие окна), система блокирует переход и показывает предупреждение с описанием угрозы и миниатюрой (thumbnail) целевых страниц еще до того, как пользователь покинет текущий сайт.

Google использует данные с датчиков мобильного устройства (камера, микрофон, GPS) для понимания неоднозначных запросов пользователя, таких как «Что я вижу?» или «Что это за песня?». Система распознает объекты или звуки в окружении пользователя и использует эту информацию для преобразования контекстуального вопроса в конкретный поисковый запрос, обеспечивая релевантные результаты на основе реального мира.

Яндекс патентует метод повышения качества обучающих данных (Training Data) для алгоритмов машинного обучения (MLA), генерируемых через краудсорсинг. Система решает проблему «холодного старта», прогнозируя эффективность асессора для нового типа задач на основе его прошлой производительности в других категориях, взвешенной по сложности выполненных заданий. Это гарантирует, что новые типы контента оцениваются наиболее квалифицированными исполнителями.

Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов (Enriched Queries). Система определяет, являются ли два предложенных запроса слишком похожими, основываясь на том, насколько сильно пересекаются их результаты поиска (SERP Similarity). Если результаты почти одинаковые, один из запросов отфильтровывается. Это позволяет предложить пользователю более разнообразные направления поиска.

Google использует механизм для оптимизации отображения подсказок автозаполнения, получаемых из локального кэша и удаленного сервера. Чтобы избежать мерцания интерфейса из-за сетевых задержек, система намеренно задерживает показ локальных подсказок. Если серверные подсказки приходят быстро, отображается объединенный список. Если сервер отвечает медленно, локальные подсказки показываются по истечении тайм-аута, обеспечивая баланс между скоростью и качеством предложений.

Яндекс патентует метод глубокого анализа голосовых запросов для ассистентов (например, Алиса). Система учитывает не только распознанный текст (ЧТО сказано), но и акустические характеристики речи, такие как тон, темп и громкость (КАК сказано). Объединяя текстовые и акустические векторы для каждого слова и паузы, нейросеть (RNN) классифицирует тип интента (например, отличая вопрос от утверждения) и может определять контекстуальный акцент (Target Word).

Google может обрабатывать мультимодальные запросы, состоящие из изображения и аудио (речи). Система использует речь для понимания намерений пользователя: определения конкретного объекта интереса на картинке, его местоположения (локализации) или желаемых характеристик (например, цвет, цена). Это позволяет уточнить визуальный поиск и предоставить более релевантные результаты.

Яндекс патентует метод для точной настройки порогов срабатывания в системах бинарной классификации (например, Спам/Не спам, Качественный/Некачественный), которые используют «вложенные метрики». Вложенные метрики основаны на взаимосвязанных событиях, таких как «Клики» и их подмножество «Длинные клики». Метод итеративно подбирает оптимальное сочетание порогов для всех метрик одновременно, чтобы достичь требуемого баланса точности и полноты классификации.

Яндекс патентует метод создания системы рекомендаций (например, Дзен). Система анализирует миллионы прошлых поисковых запросов и определяет, какие материалы из пула контента наиболее релевантны наибольшему количеству этих запросов. Материалы, которые чаще попадают в топ по разным историческим запросам (высокая частота) и занимают там более высокие позиции (лучший средний ранг), формируют основу ленты рекомендаций.

Яндекс использует алгоритм для кластеризации документов (например, новостных статей), освещающих одну тему. Система рассчитывает «Обобщенную Метрику», основанную на том, насколько документы дополняют друг друга (Первая Метрика) и насколько они «разбавляют» тему избыточностью (Вторая Метрика). Кластеры строятся итеративно: добавляются только те документы, которые улучшают этот баланс, обеспечивая пользователям разнообразные точки зрения без чрезмерного дублирования.

Яндекс патентует метод обучения нейросетей (ANN) для генерации кратких сводных ответов, используемых голосовыми помощниками. Система объединяет несколько сниппетов из выдачи. Ключевая особенность — использование «маски ограничения внимания» (Attention-Limiting Mask), которая заставляет энкодер анализировать контекст каждого сниппета строго изолированно от других, предотвращая смешивание смыслов при генерации финального ответа.

Яндекс патентует метод обучения нейросетей (ANN) для генерации сводного ответа на основе нескольких сниппетов из поисковой выдачи. Ключевая особенность — применение «маски ограничения внимания», которая заставляет модель анализировать контекст каждого сниппета изолированно. Это предотвращает смешивание фактов из разных источников и повышает точность генерируемых ответов (например, для Быстрых ответов или Алисы).

Яндекс патентует метод автоматического выбора «срочных новостей» для отправки Push-уведомлений. Система рассчитывает «Оценку Значимости» новости, комбинируя два ключевых фактора: авторитетность источника (определяемую по объему его трафика, измеренного через сервисы Яндекса) и свежесть публикации (используя функцию затухания важности со временем). Новости кластеризуются, и если суммарная значимость кластера высока, система отправляет уведомление.

Яндекс патентует метод повышения качества данных, получаемых от краудсорсинговых платформ (например, Толока). Система анализирует историю поведения асессора (время выполнения, характер взаимодействий) и использует ML-модель для предсказания вероятности ошибки в конкретном задании. Если вероятность высока, результат отправляется на проверку. Это обеспечивает надежность данных, используемых для обучения поисковых алгоритмов Яндекса.

Яндекс патентует метод улучшения качества данных, используемых для обучения ключевых ML-алгоритмов (включая ранжирование и метрики качества). Система анализирует согласованность ответов асессоров и их индивидуальные оценки качества. На основе этого вычисляется «Метрика Согласованности» (Consistency Metric), которая максимизируется для отбора наиболее надежных асессоров и фильтрации зашумленных данных. Это позволяет повысить точность работы алгоритмов, основанных на машинном обучении.

Google анализирует, в каких корпусах (Веб, Картинки, Новости и т.д.) пользователи чаще ищут и кликают результаты по конкретному запросу. Система рассчитывает показатель относительной релевантности между корпусами и использует его для повышения или понижения результатов из этих корпусов при формировании смешанной (Universal Search) выдачи, чтобы лучше соответствовать намерениям пользователей.

Анализ патента IBM, описывающего механизм поиска веб-сайтов по частично указанным URL (с ошибками или подстановочными знаками). Система использует инвертированный индекс URL-адресов и ранжирует результаты, учитывая ключевые слова контента, историю посещений пользователя и его профиль интересов, чтобы предложить наиболее релевантные варианты.

Яндекс патентует механизм добавления интерактивных кнопок (например, «Купить билет») непосредственно в сниппет результата поиска. Система использует специальный реестр для связи веб-ресурса с конкретной транзакционной платформой. Это позволяет пользователю совершить покупку напрямую из SERP, часто во всплывающем фрейме, минуя промежуточные шаги выбора платформы и не покидая страницу выдачи.