Автор: Виктор Репин

Google оптимизирует ресурсы сканирования для динамического контента (например, цен товаров). Система использует алгоритм обучения с подкреплением (K-armed adversarial bandits) для адаптивного выбора наилучшей стратегии переобхода. Частота сканирования определяется прогнозируемой вероятностью изменения контента и популярностью страницы (клики, показы), которые рассчитываются с помощью нейронных сетей на основе исторических данных и метаданных.

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.

Патент Google, описывающий механизм условного назначения ставок в поисковой рекламе. Рекламодатели могут устанавливать разные ставки (Show Bid и No-Show Bid) в зависимости от того, появляется ли их сайт в топовых результатах органического поиска по тому же запросу. Система определяет связь между рекламой и органическими результатами для выбора соответствующей ставки.

Патент описывает систему Google для автоматического сбора данных о физических локациях сетевых магазинов. Система находит страницу «Поиск магазина» на сайте, имитирует ввод географических данных (например, почтовых индексов) и извлекает адреса, часы работы и телефоны из результатов. Это достигается путем анализа повторяющихся шаблонов в структуре (DOM) страницы после полного рендеринга JavaScript.

Google отслеживает, когда пользователь ищет товар, а затем посещает соответствующий магазин. После визита система запрашивает у пользователя обратную связь о наличии товара. Эта информация агрегируется и используется для проверки данных, предоставленных продавцом, а также для расчета метрик точности и прогнозирования скорости распродажи товара, отображаемых в поисковой выдаче.

Google использует метод динамической оптимизации фильтров доменов (Bloom filters) при поиске контента с определенными метками (Labels). Патент детализирует алгоритм минимизации ошибок фильтрации (Offset Error) путем интеллектуального сокращения URL-паттернов, балансируя между точностью и размером фильтра. Это инфраструктурный механизм для повышения эффективности поиска.

Патент описывает инфраструктуру (Google Base, предшественник Merchant Center) для приема структурированных данных от поставщиков. Система автоматически определяет популярные пользовательские атрибуты и продвигает их в стандартную схему (Core Attributes). Полнота данных (количество атрибутов, свежесть, длина описания) используется для расчета рейтинга элемента (Item Rank), влияющего на ранжирование.

Анализ фундаментального патента Google по геокодированию. Система рассматривает адреса как «документы» и применяет методы информационного поиска, игнорируя порядок слов. Ранжирование основано на важности объекта (Feature Rank) и динамическом факторе затухания оценки (SAF), который экспоненциально повышает результаты, находящиеся в текущей области просмотра карты пользователя (Viewport).

Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.

Google использует систему для идентификации продуктов внутри результатов поиска (изображений, видео, текста). Система находит лучшее предложение для этого продукта от продавцов и встраивает прямую ссылку на покупку («Purchase Icon») прямо в результат поиска. Это позволяет пользователям переходить от просмотра контента к покупке товара на сайте продавца в один клик.

Этот патент описывает архитектуру поисковой системы (на примере 3D-моделей), которая критически важна для понимания современного веб-поиска. Google применяет векторный поиск (ANN) для быстрого отбора кандидатов (L1) и многоэтапное ранжирование (L2/L3), используя разные наборы признаков и составные функции оценки на каждом этапе для повышения эффективности и точности.

Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для значимых сущностей система автоматически формирует справочную карточку на основе результатов поиска.

Патент Google, описывающий локальную поисковую систему на мобильном устройстве. Система индексирует контент нативных приложений и обширную контекстную информацию о действиях пользователя. Используя векторные представления, она кластеризует активность из разных приложений в единые «задачи» или «темы» (например, «Поездка в Италию»), позволяя искать связанный контент независимо от того, в каком приложении он находится.

Анализ патента Google, описывающего методы автоматической подсветки поисковых терминов пользователя на веб-странице после клика по результату. Это реализуется либо на стороне клиента через «Помощник браузера» (например, Google Toolbar), который перехватывает контент, либо на стороне сервера при отображении кэшированной версии страницы (Google Cache).

Google обрабатывает голосовые запросы, идентифицируя стандартный результат (ссылка и сниппет) и одновременно находя или синтезируя прямой ответ в форме законченного предложения. Этот ответ адаптируется под контекст пользователя (например, местоположение), конвертируется в аудиоформат и озвучивается вместе с отображением визуальной выдачи.

Яндекс патентует метод ускорения поиска по картинке (CBIR). Вместо индексации отдельных «визуальных слов» (Bag-of-Words), система использует «Составной параметр визуальных признаков» (VFCP). VFCP объединяет несколько визуальных слов и информацию об их взаимном расположении (геометрии, углах, масштабе). Это позволяет Яндексу анализировать композицию изображения и значительно ускоряет поиск похожих или почти идентичных картинок.

Google объединяет визуальный запрос (изображение) с приблизительными данными GPS для точного определения местоположения и направления взгляда пользователя (Enhanced Location Information). Если местоположение определено точно, приоритет в ранжировании отдается ближайшим объектам (Proximity). Если точность низкая, приоритет отдается наиболее авторитетным и популярным объектам в районе (Prominence).

Google обучает отдельные модели машинного обучения для каждого уникального запроса в Поиске по картинкам. Эти модели учатся определять визуальную релевантность, основываясь на признаках (цвет, текстура) изображений, на которые пользователи часто кликают. Это позволяет ранжировать изображения по их фактическому содержанию, а не только по окружающему тексту, и включает механизм повышения визуального разнообразия выдачи.

Google использует систему компьютерного зрения для определения точной геолокации объектов на фото и видео. Сравнивая визуальные признаки (Feature Points) загруженного контента с обширной базой гео-тегов, система идентифицирует местоположение. Для повышения точности используется агрегация оценок уверенности из нескольких кадров. Это позволяет Google связывать изображения с физическими локациями в Local Search.

Яндекс патентует метод исправления опечаток для запросов, которые система видит впервые. Поскольку статистики для нового запроса нет, система находит похожий по написанию и также редкий запрос в истории (запрос-прокси). Исторические данные о том, как пользователи исправляли этот прокси-запрос, используются для предсказания правильного написания новой опечатки.