Автор: Виктор Репин

Яндекс патентует метод предобработки текста (BPE-Dropout), который вносит случайность в процесс разбиения слов на токены (subwords). Вместо одного фиксированного варианта система генерирует множество альтернатив во время обучения моделей. Это делает нейросети (например, YATI) более устойчивыми к ошибкам, опечаткам и улучшает их способность понимать морфологию и структуру редких или новых слов.

Патент описывает инфраструктурный механизм Google для повышения надежности и эффективности в распределенных базах данных. Система генерирует «токены перезапуска» (Restart Tokens) вместе с частичными результатами запроса. При сбое сети или сервера эти токены позволяют возобновить выполнение запроса точно с места остановки, не повторяя уже выполненную работу и не дублируя результаты.

Яндекс патентует метод улучшения качества поисковых подсказок (автодополнения). Система обучается на истории запросов, разбивая их на части (n-граммы). Вместо того чтобы просто смотреть, как часто одно слово следует за другим (попарное появление), модель машинного обучения учится предсказывать вероятность появления целой группы слов в финальном запросе (групповое появление). Это позволяет генерировать более точные и контекстно-зависимые подсказки.

Google использует механизм хранения синонимов (substitute terms) непосредственно в поисковом индексе. Система определяет подходящий синоним на основе контекста документа во время индексации и сохраняет точную информацию о порядке слов (order) и количестве заменяемых слов (span). Это позволяет находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету.

Патент описывает клиентский алгоритм Яндекс.Карт для отрисовки меток организаций (POI). Система определяет визуальный стиль метки (детальный или упрощенный) на основе ранга организации, масштаба карты и плотности окружающих объектов. Алгоритм предотвращает перекрытие меток, понижая их стиль при необходимости, и обеспечивает стабильность отображения при прокрутке карты, сохраняя вид уже показанных меток.

Яндекс патентует механизм для управления контекстом в последовательном голосовом поиске. Система определяет, является ли вторая голосовая команда уточнением первой или новым поиском. Для этого сравнивается качество («относительный вес») выдачи по комбинированному запросу (Q1+Q2) и по второму запросу отдельно (Q2). Если комбинированный запрос дает лучшие результаты, команда считается уточнением и может использоваться для взаимодействия с интерактивными сниппетами (виджетами) на выдаче.

Патент Google, описывающий механизм прямой навигации к релевантному фрагменту (сниппету) внутри целевой страницы после клика по результату поиска. Система добавляет к URL «искусственный анкорь», который инструктирует браузер пользователя прокрутить страницу до нужного места и выделить текст, даже если автор сайта не создавал там анкорь.

Google использует технологию для понимания запросов о медиаконтенте, который воспроизводится в данный момент (например, «Кто этот актер?»). Система идентифицирует программу и точный момент с помощью аудио/видео отпечатков, определяет, какие сущности (актеры, объекты) сейчас на экране, и использует эту информацию как контекст для точного ответа на запрос пользователя.

Google использует систему для повышения эффективности оценки результатов в поиске по товарам. Пользователям предоставляется возможность выбора формата отображения выдачи (например, сетка или список) и настройки типа информации (cues), отображаемой для каждого товара (например, изображение, цена, описание). Это позволяет адаптировать выдачу под конкретные задачи пользователя, например, для быстрого визуального сравнения товаров.

Яндекс патентует способ отображения графической информации в результатах поиска (SERP). Система заранее (офлайн) формирует группы изображений, основываясь на их визуальной схожести или нахождении на одной веб-странице. В выдаче эти группы отображаются как отдельные визуальные блоки (коллекции), отличные от индивидуальных изображений, и могут быть развернуты пользователем без ухода со страницы поиска.

Яндекс патентует метод для понимания контекста последовательных голосовых запросов. Система сравнивает качество результатов поиска по комбинированному запросу (предыдущий + текущий) и по текущему запросу отдельно. Если комбинированный поиск дает лучшие результаты (имеет больший «относительный вес»), новый запрос считается уточнением. Этот механизм используется для улучшения диалогового поиска и голосового взаимодействия с интерактивными сниппетами (виджетами) в выдаче.

Яндекс патентует функцию браузера, которая активируется, когда пользователь собирается покинуть текущую страницу (например, кликает в адресную строку). Система анализирует URL и заголовок (Title) этой страницы, находит связанную структурированную информацию (товары, компании, медиа) и отображает ее в виде сниппетов и рекомендуемых ссылок на динамической «Стартовой странице» браузера, предвосхищая следующий шаг пользователя.

Google использует метод самообучающейся оценки высоты тона (SPICE) для анализа аудиоконтента без необходимости в размеченных данных. Система обучается распознавать относительные изменения тона, что критически важно для точной транскрипции речи, разделения голосов и фильтрации шума в видео и подкастах, улучшая индексацию и понимание мультимедийного контента.

Яндекс патентует метод отображения результатов поиска изображений, при котором несколько картинок, найденных на одном ресурсе (например, одной веб-странице), объединяются в специальный визуальный блок. Этот блок визуально отличается от отдельных изображений, показывает наиболее релевантную картинку из группы и может быть развернут прямо на странице выдачи для обеспечения разнообразия.

Яндекс патентует унифицированную систему для исправления ошибок ввода (опечаток и неправильной раскладки). Ключевая особенность — метод автоматического создания «реалистичных» ошибок на основе частотности слов и физического расположения клавиш. Эти данные используются для обучения модели машинного обучения (MLA), которая затем оценивает варианты исправления, используя сигналы о частоте использования слов в интернете (URL, контент) и поведении пользователей в логах поиска.

Яндекс патентует систему для умного показа рекомендаций (например, Дзен) в браузере. Система анализирует действия пользователя (скроллинг, жесты) и с помощью MLA оценивает вероятность интереса к контенту (Confidence Level). Если контент признан ценным, он показывается более заметно; если менее ценным — менее навязчиво или не показывается вовсе. Это определяет, когда и в каком формате пользователь увидит рекомендательный блок.

Яндекс использует многоступенчатый лингвистический анализ для извлечения «Параметра Намерения» (Intent Parameter) — ключевой темы рекламного объявления. Система последовательно фильтрует «незначимые фразы» (шум, призывы к действию), сравнивает текст с ключевыми словами и базами известных интентов. Это используется для повышения релевантности таргетинга и прогнозирования CTR новых объявлений на основе исторических данных.

Яндекс патентует технологию обогащения поисковых подсказок (Rich Autocomplete). При вводе части запроса система не только предлагает варианты его завершения на основе данных из вертикальных поисков (Погода, Карты, Спорт), но и одновременно показывает наиболее подходящий ответ (например, текущую температуру или счет матча) прямо в строке подсказки.

Яндекс патентует метод эффективной обработки и индексации данных из партнерских фидов (например, объявлений или товаров). Система разделяет фиды на сегменты (партиции) по общим характеристикам и при обновлении фида перестраивает только затронутые сегменты индекса, а не весь индекс целиком. Это ускоряет попадание обновлений в поиск и снижает нагрузку на инфраструктуру. Патент также описывает этапы предварительной обработки фидов, включая нормализацию, валидацию, расчет статической релевантности и дедупликацию.

Яндекс патентует механизм синхронизации браузерных сессий между разными устройствами. Система сохраняет на сервере детальную историю действий пользователя («server-side history»), включая введенные запросы, клики по результатам поиска и переходы между страницами. Это позволяет пользователю продолжить работу с того же места на другом устройстве.