Автор: Виктор Репин

Google использует систему для автоматического определения событий в видео (например, «езда на велосипеде»). Она анализирует заголовки и описания с помощью NLP (POS-анализ), чтобы найти комбинации «глагол+существительное», и фильтрует их через лексические базы (WordNet). Финальная классификация использует «Гиперклассификатор», объединяющий анализ метаданных с глубоким анализом аудиовизуального контента.

Патент Google, описывающий систему организации результатов поиска по картинкам. Google группирует похожие изображения в кластеры на основе визуальных и семантических признаков. Система использует двухуровневый скоринг: Image Score определяет позицию изображения внутри кластера (Слой 1 или 2), а Cluster Score, основанный на качестве изображений, определяет ранжирование самого кластера в выдаче.

Патент Google описывает систему определения точного местоположения пользователя в трех измерениях, включая конкретный этаж в здании. Система использует данные о высоте (GPS, сенсоры, Wi-Fi) и направлении вертикального движения пользователя. Эти данные используются для ранжирования локальных результатов поиска и показа рекламы с учетом вертикальной близости и удобства доступа (предпочитая бизнесы на том же этаже).

Google использует многоуровневую систему для точного определения всех языков, которыми владеет пользователь, не полагаясь только на настройки аккаунта. Система анализирует историю посещений с помощью моделей машинного обучения (Language Recognition Model) и изучает языки топовых результатов по текущему запросу. Это позволяет Google показывать пользователю наиболее релевантный контент (включая рекламу или персонализированные результаты) на любом из языков, которыми он владеет.

Google использует механизм для улучшения результатов поиска по картинкам. Система анализирует набор изображений, найденных по запросу, и сравнивает их визуальные характеристики (цвет, текстуру, формы). Изображения, которые визуально похожи на большинство других в наборе, считаются более репрезентативными. Дополнительно система повышает в ранжировании те изображения, где ключевой объект находится в центре или в фокусе.

Google использует систему для локального поиска, которая интегрирует данные из разных источников: Желтых Страниц, сторонних поставщиков карт и веб-документов. Патент описывает процессы геокодирования неструктурированных адресов (особенно в CJK регионах), кластеризации бизнес-информации, извлечения данных о компаниях из веба и расширения запросов синонимами для улучшения результатов локального поиска.

Google использует область карты, видимую на экране пользователя (Viewport), как ключевой сигнал контекста при ранжировании локальных результатов. Объекты внутри или рядом с этой областью получают приоритет, в то время как удаленные объекты пессимизируются с помощью динамического фактора ослабления оценки (Score Attenuation Factor). Это позволяет адаптировать выдачу к текущему интересу пользователя на карте.

Google использует иерархию сигналов (язык запроса, настройки браузера, IP-адрес, доминирующий язык в выдаче) для динамического определения предпочтительного языка пользователя. Затем система агрессивно повышает результаты на этом языке, используя факторы смещения или формулы взвешивания, чтобы гарантировать, что пользователь увидит контент на понятном ему языке в топе выдачи.

Google использует систему для создания структурированной базы данных цитат. Система извлекает цитаты из веба, идентифицирует автора и сущность, о которой идет речь. Цитаты оцениваются на основе авторитетности источника, релевантности сущности, свежести и популярности. Это позволяет поиску предоставлять семантически точные цитаты об объектах, людях или событиях, а не просто совпадения по ключевым словам.

Патент описывает, как Google Maps агрегирует и отображает ленту свежих новостей и социального контента, релевантную просматриваемой области карты или искомой теме. Система ранжирует этот контент по свежести и может визуализировать географические сущности, упомянутые в обновлениях, создавая тепловую карту активности.

Анализ патента Google, описывающего систему поиска событий. Чтобы избежать доминирования популярных событий в выдаче, система разделяет запрашиваемый временной интервал на более мелкие части (например, неделю на дни). Затем она находит и отображает наиболее релевантные события для каждой из этих частей, обеспечивая тем самым временное разнообразие результатов. Патент также подчеркивает важность извлечения данных о времени и месте событий из структурированных источников.

Google использует систему для определения «необязательных ресурсов» (например, скриптов аналитики, трекеров), которые не влияют на видимый контент или структуру страницы. Анализируя шаблоны URL и сравнивая результаты рендеринга с ресурсом и без него, Googlebot может пропускать загрузку этих ресурсов, значительно ускоряя индексацию и экономя краулинговый бюджет.

Яндекс патентует систему для улучшения пользовательского опыта в новостных агрегаторах (например, Яндекс.Новости или Дзен). Система анализирует текст статьи и предсказывает вероятность того, что пользователь захочет искать дополнительную информацию об упомянутой сущности (человеке, месте, событии). Прогноз строится на анализе исторических паттернов поведения. Если вероятность высока, система автоматически генерирует и показывает «Карточку Объекта».

Google использует этот механизм для управления интерактивной рекламой (Shoppable Ads). Система анализирует изображение, содержащее несколько товаров (например, фото интерьера), и вычисляет релевантность (Product Relevance Score) и заметность (Prominence Score) каждого отдельного товара. Это позволяет динамически выделять с помощью интерактивных меток только те товары, которые наиболее соответствуют запросу и контексту пользователя.

Google автоматически создает и обновляет детальный профиль пользователя («Personal Data Book»), извлекая данные (адреса, интересы, финансы) из истории поиска, активности браузера и email. Эта информация динамически ранжируется на основе контекста (время, местоположение, частота использования, «эмоциональная ценность») для обеспечения функций автозаполнения и глубокой персонализации.

Google предоставляет инструмент, который использует актуальную логику обработки контента поисковой системы для генерации «предсказанного результата поиска» (сниппета) в изолированной среде. Это позволяет мгновенно увидеть, как страница будет выглядеть в выдаче (включая разные стили, например, для мобильных устройств и десктопов), без необходимости ждать ее сканирования и добавления в основной продакшн-индекс.

Google использует этот механизм для организации результатов визуального поиска (Query by Image). Система анализирует изображения и текстовые метки, загруженные пользователями (UGC). При получении запроса в виде картинки, система находит похожие UGC-изображения, группирует их по смыслу меток и ранжирует эти группы на основе совокупной визуальной релевантности и географической близости, обеспечивая точный и локально релевантный ответ.

Google использует фреймворк для быстрого создания парсеров, извлекающих точные отношения «Субъект-Предикат-Объект» (S-P-O) из HTML/XML. Ключевым механизмом является определение «области видимости» (Scope) в DOM-дереве, что гарантирует структурную близость и точность связей между извлекаемыми элементами.

Патент описывает методы агрегации данных о посещениях веб-страниц для создания отчетов о потоках трафика (например, в Google Analytics). Система анализирует структуру URL-адресов, определяет общие префиксы и группирует схожие страницы в «узлы». Это позволяет упростить визуализацию того, как пользователи перемещаются по сайту, особенно когда для однотипных действий используются динамические URL.

Google использует систему для персонализации отображения геолоцированных изображений в картографических сервисах. Система анализирует предпочтения пользователя (явные и автоматические) и ранжирует доступные фото и панорамы для конкретной локации. Учитываются такие факторы, как популярность (просмотры), качество, содержание изображения и возможность навигации к соседним снимкам (виртуальные туры).