Автор: Виктор Репин

Яндекс патентует метод генерации (импутации) значений факторов ранжирования для пары запрос-документ, когда данные отсутствуют (проблема «холодного старта»). Если для текущего запроса у документа нет значения признака (например, поведенческих данных), система находит похожие прошлые запросы, по которым этот документ уже показывался. Значения признака из этих прошлых запросов переносятся на текущий запрос пропорционально степени схожести запросов.

Google патентует механизм для устранения неоднозначности при поиске людей с одинаковыми именами. Система идентифицирует конкретных людей (сущностей) и предлагает их в Autocomplete, используя различающую информацию (фото, профессию, локацию) и сигналы персонализации (социальная близость, местоположение пользователя). Выбор подсказки запускает поиск по кластеру ресурсов, связанных именно с этим человеком.

Патент Google, описывающий алгоритм ранжирования контента нативных мобильных приложений (диплинков). Система использует адаптированную модель TF-IDF, включающую частоту термина на экране (Term Score), его редкость внутри приложения (Intra-inverse popularity) и редкость среди всех приложений (Inter-inverse popularity). Также учитывается стабильность контента (Steadiness Score) и популярность приложения.

Google использует сверточные нейронные сети (CNN) для анализа пикселей видео и автоматического создания аннотаций. Система применяет двухканальный подход, анализируя как общий контекст (в низком разрешении), так и центральную область фокуса (в высоком разрешении), а также учитывает движение между кадрами. Это позволяет индексировать и понимать видеоконтент независимо от текстовых метаданных.

Яндекс патентует метод доступа к контенту на сайтах с огромным количеством динамических страниц (например, билеты, товары, погода). Вместо индексации всех вариантов система определяет шаблон URL сайта и подставляет в него параметры из запроса пользователя. Это позволяет генерировать прямую ссылку (Deep Link) на релевантную страницу прямо в SERP, даже если эта страница никогда не была проиндексирована.

Google использует систему для автоматического определения релевантных бизнес-категорий (например, «Желтые страницы») для поискового запроса. Система основана на статистической модели (например, Naïve Bayes), которая обучается на различных источниках данных: каталогах, веб-сайтах компаний, логах запросов и рекламном трафике. Это позволяет сопоставлять запросы с категориями, даже если они не имеют общих слов.

Система отслеживает электронные разговоры (чаты, VoIP-звонки) на наличие триггерных слов. При активации она захватывает запрос, может использовать контекст разговора для его уточнения и внедряет краткий ответ обратно в поток беседы. Патент также описывает функцию автоматического звонка по найденному номеру (Search-to-Call).

Патент Google, описывающий систему валидации синонимов для многословных фраз. Система использует механизм «N-gram Agreement» для проверки пословного лексического или семантического соответствия, что позволяет учитывать грамматическое согласование и усиливать правила для отдельных слов. Также описан механизм «Pseudo-Drop Detection» для предотвращения потери ключевой информации при перезаписи запроса.

Google анализирует поисковые подсказки, чтобы определить, ссылаются ли они на конкретные сущности или являются неоднозначными. Для уточнения смысла система добавляет семантические описания (например, «britney spears — Singer»). Эти описания генерируются на основе данных из Knowledge Graph, анализа авторитетных документов (например, Wikipedia) или предопределенных шаблонов для типов сущностей (например, «Movie [year]»). Это помогает пользователю выбрать правильный интент и может приводить к скрытому переписыванию запроса системой.

Система генерации поисковых подсказок (Autocomplete) определяет общее и точное местоположение пользователя для смешивания популярных общих запросов с локальными. Для определения локальной релевантности Google анализирует географические кластеры популярности запросов (Spatial Distribution), не привязываясь к административным границам. Патент также описывает механизм группировки локальных уточнений рядом с соответствующими общими запросами в списке подсказок.

Google использует систему для автоматического построения истории развития новостного сюжета. Анализируя объем, качество и динамику публикаций во времени, система определяет отдельные «события» внутри большой темы. Для каждого события выбирается наиболее качественная и репрезентативная статья, формируя временную шкалу (Timeline).

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

Google использует метод для идентификации «родственных запросов» (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, «погода в Москве» и «погода в Париже»). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

Google использует метод обнаружения спама, основанный на анализе переходов между различными наборами символов (например, с латиницы на кириллицу и обратно). Этот метод выявляет попытки спамеров заменить буквы визуально похожими символами (гомоглифами) из других алфавитов, чтобы обойти текстовые фильтры. Высокая частота таких переходов сигнализирует о спаме, в то время как легитимный многоязычный контент игнорируется.

Google может локально анализировать окружающий звук через микрофон устройства, чтобы определить, какой медиаконтент (ТВ-шоу, фильм) воспроизводится поблизости. Для этого система заранее загружает персонализированный набор аудио-отпечатков. При совпадении этот контекст используется для адаптации поиска: предоставления релевантных подсказок (auto-complete) и персонализации результатов выдачи.

Google использует механизм для динамического улучшения рекламных объявлений (Content Items). Система анализирует органические результаты поиска и извлекает из них релевантную информацию (текст, ссылки, адреса), чтобы дополнить или заменить части связанного рекламного объявления перед показом пользователю.

Google может обрабатывать голосовые запросы и автоматически выполнять действия, минуя стандартную выдачу. Если запрос содержит командную фразу (например, «Позвонить») или результат поиска имеет высокую степень уверенности, система может автоматически набрать номер телефона или перенаправить пользователя на веб-сайт после короткого предупреждения.

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.