Автор: Виктор Репин

Google использует систему автоматического распознавания лиц для идентификации людей в видео. Система самостоятельно создает базу данных моделей лиц, анализируя изображения и тексты из интернета. Затем она отслеживает лица в видеопотоке, сравнивает их с базой данных и аннотирует видео именами распознанных людей, улучшая поиск по видеоконтенту.

Патент описывает, как Google анализирует контекст запроса в основном поиске для определения намерения найти авиабилеты. Система автоматически запускает специализированный интерфейс (Google Flights), извлекая параметры (направления, даты) из запроса и предоставляя динамически фильтруемые результаты с интерактивными инструментами.

Яндекс патентует метод предварительной оценки сайтов для использования в Системе Рекомендаций (например, Дзен). Система анализирует поведенческие метрики и источники трафика сайта (доля прямых заходов, из соцсетей, поиска и т.д.) с помощью машинного обучения, чтобы определить «Параметр пригодности источника». Это позволяет в оффлайн-режиме отсеять ресурсы, не подходящие для генерации рекомендаций.

Патент Google описывает систему поиска и ранжирования локального пользовательского контента (UGC), такого как отзывы. Система определяет местоположение пользователя (GPS), находит релевантный контент поблизости и ранжирует его, учитывая близость, популярность, количество оценок и уровень детализации, отображая сначала общую информацию (например, ресторан), а затем детальную (например, блюдо).

Яндекс патентует метод эффективного обновления поискового индекса, разделенного на части (шарды). Система классифицирует документы как «активные» (используемые в поиске) и «неактивные» (невостребованные). При обновлении приоритетно выбираются и перестраиваются те части индекса, где доля неактивных документов максимальна. Это позволяет экономить ресурсы и систематически очищать индекс от контента, который не показывается в выдаче или не получает кликов.

Google использует систему для автоматического обнаружения, отслеживания и распознавания лиц в видеоконтенте. Это позволяет индексировать видео не только по метаданным, но и по конкретным людям, присутствующим в кадре. Система может определять сегменты с участием конкретного человека, даже если он временно покидал кадр, а также строить графы взаимодействий, показывая, кто с кем появлялся в видео. Это критически важно для понимания содержания видео и Video SEO.

Google использует метод для объединения документов на разных языках в общие тематические кластеры. Все документы переводятся на единый базовый язык, затем анализируются ключевые слова, и на этой основе формируются кластеры. Это позволяет находить релевантные результаты независимо от языка запроса и определять, являются ли два документа переводом друг друга.

Патент Google, описывающий механизм повышения точности системы генерации синонимов. Система предотвращает ошибки, когда часть составного слова ошибочно принимается за аббревиатуру всего слова (например, «break» как аббревиатура для «breakfast»). Для этого система проверяет, является ли кандидат в аббревиатуры одним из составляющих терминов исходного слова, и если да, то отклоняет его.

Google использует систему для автоматического обнаружения взаимосвязи между десктопными (non-mobile) и мобильными (mobile) версиями страниц, когда используются разные URL. Система анализирует структуру URL, находит общие токены и проверяет схожесть контента. На основе найденных пар генерируются правила (Regular Expressions) для предсказания мобильного URL по десктопному, что улучшает индексацию мобильного контента и корректность выдачи.

Яндекс использует комбинированную систему фильтрации для контроля поисковых подсказок (Autocomplete). Система определяет, является ли вводимый термин «потенциально запрещенным». В зависимости от типа термина применяется либо логика «черного списка» (запрещать только определенные продолжения), либо логика «белого списка» (разрешать только определенные продолжения). Это позволяет блокировать нежелательные подсказки, сохраняя при этом полезные информационные варианты.

Google использует механизм для определения списка похожих локальных бизнесов. Система агрегирует несколько списков похожих мест, ранжированных по разным сигналам (например, по типу кухни, по отзывам). Затем вычисляется ‘эталонное расстояние’ на основе того, как далеко находятся наиболее похожие бизнесы. Это расстояние используется для корректировки финального списка: слишком далекие места понижаются, даже если они очень похожи по тематике.

Google динамически выбирает или генерирует формат (User Interface) для отображения результатов поиска и рекламы. Система использует модель машинного обучения, которая анализирует запрос, историю и демографию пользователя, чтобы определить его намерение и стадию исследования (например, обзор стилей или поиск цены). На основе этого выбирается наиболее эффективный формат показа для максимизации вовлеченности (CTR) и конверсий.

Яндекс патентует метод повышения точности данных, получаемых от асессоров (например, в Толоке). Система идентифицирует «скрытые смещающие признаки» в задачах (например, позиция документа на экране, шрифт, дизайн), которые влияют на выбор асессора независимо от реального качества объекта. Алгоритм машинного обучения отделяет это когнитивное искажение от истинной оценки, генерируя «несмещенный параметр предпочтения». Это позволяет Яндексу обучать свои алгоритмы ранжирования и метрики качества (например, Proxima) на более чистых и объективных данных.

Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего разнородные данные: тексты, изображения и историю активности пользователей. Это позволяет системе находить связи между разными типами контента на основе поведения (например, совместного просмотра в одной сессии) и рекомендовать пользователю релевантные элементы путем измерения расстояния в этом пространстве.

Патент Google описывает систему автоматического анализа мультимедийного контента (видео и аудио) для идентификации срочных новостей. Система использует распознавание образов, аудио и текста для извлечения сущностей и событий. Определив новостной характер контента, система сопоставляет его с профилем пользователя, вычисляет «Оценку интереса» и отправляет персонализированные уведомления о релевантных новостях.

Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после ‘#’), выполняет клиентский код для генерации финального состояния страницы (DOM) и преобразует его в статический HTML для индексации. Это основа работы современного сервиса рендеринга (WRS).

Google анализирует последовательности запросов для выявления паттернов, при которых пользователи излишне повторяют контекст. При обнаружении такого паттерна Google отображает «Teachable Moment Interface» с подсказками о том, как задавать более короткие контекстные последующие запросы (например, с использованием местоимений), повышая эффективность поиска.

Яндекс патентует метод ранжирования задач на краудсорсинговых платформах (например, Толока). Система использует ограниченную оптимизацию: она максимизирует вероятность корректного выполнения задачи (удовлетворенность заказчика), сохраняя при этом удовлетворенность асессора на приемлемом уровне. Это обеспечивает высокое качество данных для обучения ключевых алгоритмов поиска, таких как Proxima.

Google использует механизм для определения значимости изменений контента на веб-странице. Система анализирует визуальную структуру (рендеринг) старой версии страницы и присваивает «оценки важности» разным блокам. Затем эти оценки переносятся на новую версию с помощью структурного анализа (DOM Diff). Это позволяет системе понять, какие изменения важны (основной контент), а какие нет (реклама, навигация), не выполняя рендеринг страницы заново.

Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.