Автор: Виктор Репин

Google анализирует визуальные характеристики изображений и строит граф сходства. Релевантные ключевые слова распространяются от размеченных изображений к похожим, но неразмеченным или плохо размеченным изображениям. Это позволяет поисковой системе понять реальное содержание картинки, основываясь на визуальных данных, и отфильтровать шум в метаданных или окружающем тексте.

Анализ патента Google, описывающего систему генерации ответов на предиктивные запросы. Если стандартный поиск неэффективен, Google может обучить модель машинного обучения «на лету» на основе исторических структурированных данных или использовать предобученную модель из индекса. В результате пользователь получает прогнозируемый ответ или интерактивный интерфейс, помеченный как предсказание.

Google использует механизм, который анализирует медиаконтент (фильмы, шоу), потребляемый пользователем на устройстве (например, телевизоре). Система извлекает контекст (актеры, объекты, сцены, диалоги) в реальном времени и использует его для автоматического дополнения последующих поисковых запросов пользователя. Это позволяет уточнить неоднозначные запросы и предоставить более релевантные результаты, связанные с просматриваемым контентом, даже если поиск выполняется на другом устройстве (например, смартфоне).

Google предсказывает, что пользователь будет искать, сразу после активации функции поиска, но до ввода запроса (Zero-Query Search). Система анализирует текущее местоположение устройства, историю поиска пользователя, его социальные связи и популярность запросов других людей поблизости, чтобы предложить релевантные результаты, категории и подсказки.

Google анализирует агрегированные данные о том, что пользователи делают после клика по результату поиска или подсказке (например, покупка, сохранение, бронирование). Если определенное действие статистически значимо для конкретного результата, Google добавляет к нему визуальный индикатор (значок или бейдж), чтобы помочь другим пользователям понять вероятный исход клика.

Яндекс патентует метод определения неизвестной даты создания веб-страницы путем анализа ссылочного графа. Система рассчитывает вероятность существования каждой ссылки на основе разницы в возрасте между страницами, их качества (Q) и скорости устаревания контента (τ). Неизвестные даты подбираются так, чтобы максимизировать общую вероятность наблюдаемой структуры ссылок. Метод также устанавливает иерархию надежности для дат, извлеченных из URL, заголовков и контента.

Google использует систему для определения, когда пользователь ищет список объектов (сущностей). Система анализирует запрос на наличие индикаторов списка («лучшие», «топ»), определяет категорию (например, «фильмы») и извлекает релевантные сущности из топовых веб-документов. Затем эти сущности ранжируются на основе их значимости в документе и релевантности документа запросу, и представляются в виде отдельного структурированного списка на странице результатов поиска.

Яндекс использует вероятностную модель для определения времени создания веб-страницы, анализируя структуру и время появления ссылок в сети. Система находит дату, которая максимизирует вероятность наблюдаемой структуры ссылочного графа. Этот метод позволяет игнорировать поддельные даты и одновременно рассчитывать параметр качества страницы на основе временной динамики ссылок.

Google анализирует временные метки (таймкоды) в комментариях к видео для определения популярных сегментов. Система кластеризует близкие метки, ранжирует сегменты по популярности и выполняет их предварительную загрузку (prefetching). Это позволяет пользователям мгновенно переходить к ключевым моментам видео без буферизации.

Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.

Google анализирует все известные названия (Titles), связанные с локальным бизнесом. Система сравнивает распределение частотности слов в этих названиях с двумя моделями: равномерным распределением (характерно для легитимных данных из разных источников) и распределением по закону Ципфа (характерно для маркетинговых текстов и спама). Если распределение ближе к закону Ципфа, листинг помечается как потенциальный спам и понижается в локальной выдаче.

Google использует механизм для улучшения точности распознавания голосовых запросов, содержащих редкие или локально-специфичные термины (например, названия местных бизнесов). Система анализирует местоположение пользователя и применяет иерархические географические модели (район, субрегион, регион), построенные на основе локальной популярности терминов, чтобы скорректировать ошибки стандартного распознавания речи и точно определить, какую локальную сущность ищет пользователь.

Google анализирует визуальные запросы (изображения) для распознавания сущностей (продукты, логотипы, текст, здания). Система находит связанную информацию в индексе (номера телефонов, адреса, URL) и генерирует «действенные результаты» — интерактивные кнопки, позволяющие пользователю немедленно совершить действие (позвонить, купить, проложить маршрут), запуская соответствующее приложение.

Google использует механизм для расширения поисковых запросов, добавляя синонимы, связанные концепции и альтернативные написания. Патент описывает, как система определяет эти расширения (включая обработку фраз) и как она может представлять их пользователю через интерфейс для уточнения и выбора вариантов перед выполнением поиска.

Google использует двухэтапную систему оценки для проактивной доставки информации (например, в Google Discover). Сначала система определяет уровень интереса пользователя к сущности (First Score). Затем вычисляется уверенность в необходимости уведомления (Second Score) с учетом популярности сущности, обратной связи других пользователей и текущего состояния взаимодействия пользователя с этой сущностью (Interaction State), чтобы доставлять только актуальную информацию в подходящее время.

Google использует систему для автоматического определения релевантности местоположения для поисковых запросов, особенно с мобильных устройств. Если запрос имеет локальный интент, система идентифицирует местоположение пользователя (через GPS, сеть или профиль) и добавляет его к запросу. Затем система решает, насколько агрессивно продвигать локальные результаты, используя «черные» и «белые» списки запросов для предотвращения ошибок локализации.

Google использует технику Minhashing для эффективной кластеризации пользователей на основе схожести их действий (кликов, просмотров, покупок). Этот масштабируемый метод лежит в основе коллаборативной фильтрации и систем рекомендаций (например, Google Discover), позволяя обновлять профиль пользователя независимо от других и в реальном времени.

Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

Яндекс патентует метод оценки времени создания веб-страниц, когда эта дата неизвестна или недостоверна. Система использует известные даты, извлекает даты из текста («временные выражения»), а затем распространяет эту информацию по графу ссылок. Неизвестные даты определяются путем оптимизации (например, градиентным спуском): система ищет такие временные метки, которые максимизируют вероятность существования наблюдаемой структуры ссылок, исходя из разницы в возрасте между страницами.