Автор: Виктор Репин

Яндекс патентует метод точной транскрипции текста между алфавитами (например, из кириллицы в латиницу, из латиницы в кириллицу или в фонетическое представление). Система делит слова и фразы на блоки гласных и согласных и использует машинное обучение для определения правильной транскрипции каждого блока с учетом его контекста и языковых правил. Это используется для понимания запросов, написанных транслитом, и для фонетического поиска.

Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.

Google использует систему для показа рекламы в выпадающем меню подсказок (Autocomplete) до того, как пользователь завершит ввод запроса. Система прогнозирует вероятные завершения запроса (Completions) на основе введенной части (Prefix). Затем проводится аукцион для выбора наиболее релевантной и качественной рекламы, связанной с этими вероятными завершениями. Реклама показывается только при высокой уверенности в намерении пользователя.

Google использует механизм, позволяющий вебмастерам указывать формат мобильного контента (например, WML, XHTML, iMode) через Sitemaps. Это позволяет Google выбрать соответствующую «персону» краулера (User-Agent) для доступа к контенту. Это гарантирует корректное сканирование и индексирование версий страниц, предназначенных для мобильных устройств.

Google использует историю действий пользователя (контекст) для генерации персонализированных поисковых запросов в реальном времени. Когда пользователь вводит текст в поле ввода (например, адресную строку браузера), система ищет релевантные результаты в локальном и глобальном индексах и отображает их во всплывающем меню (Autocomplete/Suggest), интегрируя поиск прямо в интерфейс.

Патент Яндекса, описывающий фундаментальную технику для обучения надежных моделей машинного обучения (в частности, CatBoost) путем предотвращения переобучения. Метод включает последовательную обработку обучающих данных и вычисление признаков (текстовых или векторных) с использованием только «прошлых» примеров в последовательности. Это гарантирует лучшую обобщающую способность моделей в реальных условиях.

Система Google позволяет пользователю спросить «Что он только что сказал?» во время просмотра видео на другом устройстве. Система захватывает образец аудио, идентифицирует точный медиафайл и временную метку с помощью фингерпринтинга, извлекает соответствующий текст (субтитры, текст песни или перевод) и мгновенно отображает его. Это демонстрирует гранулярное понимание Google аудио/видео контента.

Яндекс патентует метод для рекомендации интересных мест (POI) на основе анализа плотности геолокационных фотографий. Система автоматически определяет границы и популярность достопримечательностей или других геообъектов, основываясь на том, где люди чаще фотографируют. Алгоритм адаптирует масштаб рекомендаций под контекст пользователя (время, транспорт), используя сложные методы оценки плотности (KDE).

Патент Google, описывающий систему улучшения качества машинного перевода с помощью правок пользователей (краудсорсинг). Система предоставляет машинный перевод, принимает исправления, автоматически проверяет их приемлемость и обновляет версию для следующих пользователей. Улучшенные переводы могут индексироваться поисковыми системами и связываться с оригинальным ресурсом.

Google анализирует поисковые запросы, чтобы определить, спрашивает ли пользователь текущее время. Если такой интент обнаружен, система генерирует специализированный блок ответа (OneBox), показывающий время (используя IP-геолокацию, если местоположение не указано), и отображает его одновременно со стандартными результатами веб-поиска.

Патент описывает архитектуру Google для эффективного поиска на основе фраз. Он детализирует, как индекс организован в Уровни (Tiers, на основе стоимости обработки фраз) и Шарды (Shards, разделы документов) для минимизации связи между серверами. Описывается процесс «фразификации» запроса и то, как выполнение поиска планируется (Scheduling) и оптимизируется для максимальной скорости.

Яндекс патентует механизм улучшения поисковых подсказок для серийного контента (например, сериалов). Система использует алгоритм «Heart Beat», чтобы определить, действительно ли пользователь завершил просмотр предыдущего эпизода. Завершением считается просмотр до конца или достижение статистически рассчитанного порога потребления. Только если эпизод признан завершенным, следующий по порядку эпизод будет приоритетно предложен в подсказках.

Патент Google описывает метод оптимизации для анализа больших наборов документов в системах E-Discovery (юридический анализ). Документы сначала быстро кластеризуются по одному типу данных (например, метаданным), а затем итеративно уточняются с использованием других типов данных (например, основного текста). Это балансирует скорость и точность тематической группировки и не связано с веб-поиском.

Google анализирует данные пользователя (Gmail, Календарь) для идентификации предстоящих событий (путевых точек). При поиске места на карте (POI) система оценивает релевантность этих путевых точек, учитывая расстояние и типы локаций (например, отель рядом с рестораном), и автоматически показывает наиболее подходящие на персонализированной карте.

Патент Google описывает технологию для «второго экрана» (например, смартфона). Система распознает телепрограмму по звуку, предлагает пользователю скриншоты из нее, определяет сущности (например, актеров или локации) на выбранном скриншоте с учетом уточнений пользователя (Кто/Что/Где) и автоматически генерирует поисковый запрос для получения связанной информации.

Анализ фундаментального патента Google, описывающего механизм ранжирования рекламы (Google Ads). Система упорядочивает объявления, используя комбинацию ставки рекламодателя (Price Information, например, CPC) и эффективности объявления (Performance Information, например, CTR). Это позволяет максимизировать ожидаемый доход системы и повышать релевантность рекламы для пользователя.

Google использует систему для информирования пользователей о размере и предполагаемой стоимости загрузки веб-страницы до того, как пользователь нажмет на ссылку. Это предназначено для пользователей с лимитированными или дорогими тарифными планами (metered networks). В результатах поиска могут отображаться метки с указанием размера (КБ/МБ) или стоимости загрузки в местной валюте. Система также позволяет пользователям фильтровать результаты поиска, исключая слишком «тяжелые» или дорогие страницы.

Механизм для контент-платформ (например, YouTube), который корректирует результаты поиска, чтобы продвигать контент, загруженный непосредственно владельцем («Предпочтительный контент»), выше копий этого же контента, загруженных другими пользователями, но заявленных владельцем («Заявленный контент»). Система использует различные эвристики, включая смену позиций, бустинг или оптимизацию полезности для владельца, чтобы гарантировать приоритет официальных версий.

Патент Google описывает метод оптимизации работы поисковых подсказок (Autocomplete) и мгновенного поиска. Вместо отправки запроса после каждого символа система анализирует скорость печати пользователя. Если скорость замедляется или происходит пауза («логический перерыв»), система интерпретирует это как ожидание обратной связи и отправляет текущий частичный запрос на сервер для получения подсказок.

Патент Google описывает инфраструктуру для сбора и анализа истории действий пользователя (запросы, клики по органике и рекламе, просмотры страниц). Система использует эти данные, включая метрики вовлеченности вроде «stay-time», для определения «предпочитаемых местоположений» и персонализации выдачи. Также описан метод графической визуализации объема этой активности.