Автор: Виктор Репин

Google сканирует веб-сайты в поисках метаданных, связывающих «цифровые дополнения» (AR-опыт, 3D-модели, действия) с реальными объектами. При визуальном поиске система ранжирует эти дополнения, учитывая не только релевантность и авторитетность источника (Prestige Score), но и глубокий контекст: местоположение пользователя, его профиль (подписки, предпочтения) и технические возможности его устройства.

Google использует систему, позволяющую «зарегистрированным издателям» предоставлять структурированные данные (например, цены, расписания, статус рейсов) отдельно от основного контента. Эта информация обновляется значительно чаще, чем стандартный веб-индекс, и используется для создания обогащенных результатов (Rich Results) с актуальными, «живыми» данными прямо в выдаче, минуя задержки стандартного сканирования.

Яндекс патентует метод повышения достоверности автоматически сгенерированных сводок (Карточек Объектов). Система проверяет фактическую точность отдельного сниппета, анализируя, подтверждается ли он другими сниппетами в той же сводке (внутренняя согласованность). Для этого используется NLP-модель, эффективно дообученная методом P-tuning, которая выявляет противоречия. Несогласованные факты удаляются из сводки.

Яндекс патентует метод обучения нейросети (ANN) для создания единого краткого ответа (например, для Алисы) путем суммаризации нескольких сниппетов из поисковой выдачи. Ключевая технология — «маска ограничения внимания» (attention-limiting mask). Она заставляет модель оценивать контекст каждого сниппета изолированно, предотвращая смешивание фактов из разных источников при генерации финального ответа.

Патент Google описывает механизм хранения личной информации пользователя, полученной из его утверждений (например, «Я съел банан»), в виде структурированных кортежей (tuples). Система объединяет эти персональные данные с информацией из Knowledge Graph (например, содержание калия в банане), чтобы генерировать персонализированные выводы и прямые ответы на сложные вопросы (например, «Достаточно ли я ем калия?»).

Яндекс патентует метод повышения качества данных, используемых для обучения алгоритмов ранжирования (включая Proxima). Система анализирует оценки, полученные от краудсорсинговых асессоров (например, в Толоке), и выявляет когнитивные искажения, вызванные нерелевантными факторами (позиция на экране, цвет, шрифт). Используя модель машинного обучения, Яндекс отделяет истинную оценку качества от этих искажений, гарантируя, что алгоритмы ранжирования обучаются на чистых данных.

Google использует технологию визуального поиска для идентификации исходного (канонического) документа по изображению (например, фотографии страницы). Система анализирует не только распознанный текст (OCR), но и структурную информацию (верстку, шрифты, расположение), чтобы точно найти оригинальный источник и вернуть его пользователю.

Патент описывает инфраструктуру визуального поиска Google. Система сканирует веб-ресурсы для обнаружения метаданных о «цифровых дополнениях» (интерактивный контент, AR, действия) и индексирует их, привязывая к объектам реального мира («анкорям»). При визуальном запросе система находит, ранжирует (используя сигналы релевантности и авторитетности) и предлагает пользователю релевантные дополнения, такие как покупка товара, просмотр рейтинга или запуск AR-опыта.

Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов. Система генерирует кандидатов и использует специальную модель (например, DSSM), чтобы предсказать, приведут ли два разных запроса к одинаковым результатам поиска (SERP Similarity). Если результаты предсказываются как схожие, отображается только один из вариантов. Это подтверждает, что схожесть выдачи является для Яндекса эталоном схожести интента.

Google анализирует результаты поиска, связанные с потенциальной поисковой подсказкой, и оценивает их безопасность на основе рейтингов контента. Если запрос часто ведет на нежелательный или небезопасный контент (например, для детей), он блокируется и не показывается в Autocomplete. Это механизм фильтрации подсказок, а не ранжирования сайтов.

Яндекс патентует метод обучения ранжирующих моделей (например, CatBoost), позволяющий напрямую оптимизировать сложные метрики качества (NDCG, ERR), которые обычно не поддаются стандартным методам градиентного бустинга. Для этого в процессе обучения в оценки релевантности добавляется шум, что «сглаживает» метрику и позволяет рассчитать градиент (Policy Gradient). Это позволяет Яндексу эффективнее обучать модели для достижения максимального качества ранжирования.

Google использует двухэтапный процесс для автоматического создания базы данных достопримечательностей из больших коллекций изображений. Сначала изображения группируются по географической близости (гео-кластеризация), а затем внутри этих групп они кластеризуются по визуальному сходству (визуальная кластеризация). Это позволяет системе идентифицировать конкретные объекты, оценивать их популярность по количеству фотографий и уникальных авторов, улучшать понимание запросов и автоматически аннотировать новые изображения.

Яндекс патентует метод клиентской отрисовки объектов (POI) на картах, который определяет финальную видимость результатов локального поиска. Система использует ранг объекта и уровень масштабирования для назначения визуального стиля метки. Алгоритм разрешает конфликты наложения (коллизии), понижая детализацию метки, и обеспечивает стабильность интерфейса при прокрутке, предотвращая «мерцание» уже показанных результатов.

Яндекс патентует систему для новостных агрегаторов, которая анализирует текст статьи и предсказывает вероятность того, что пользователь захочет найти дополнительную информацию об упомянутых объектах (людях, местах). Система обучается на исторических данных о том, как часто пользователи искали объект сразу после прочтения статьи о нем. Если вероятность высока, система автоматически показывает информационную «Карточку Объекта», уменьшая необходимость ручного поиска.

Яндекс патентует способ эффективной обработки разнотипных данных (числовых и категориальных) для использования в древовидных моделях машинного обучения (вероятно, CatBoost). Система преобразует эти данные в единый хэшированный комплексный вектор. Это позволяет моделям ранжирования учитывать сложные комбинации факторов, таких как поведение пользователей и характеристики документа, для точного предсказания релевантности или вероятности клика.

Яндекс использует этот метод для понимания контекста пользователя (например, отпуск, переезд или командировка) и его местоположения, чтобы предложить релевантную последовательность интересующих мест (POI). Вместо изолированного ответа на запрос система помогает выполнить многоэтапную задачу, предсказывая следующие релевантные локации или услуги на основе предопределенных сценариев.

Патент Google, описывающий инфраструктуру для сбора и синхронизации «событий» (просмотры веб-страниц, электронные письма, редактирование документов) пользователя на разных устройствах. Это позволяет создать единый индекс активности, доступный для поиска с любого устройства, формируя основу для персонализации поиска.

Яндекс использует метод для разрешения лексической неоднозначности (Word Sense Disambiguation). Система анализирует грамматическую структуру вокруг многозначного слова (омонима) и ищет однозначное слово, используемое в аналогичной структуре. Затем грамматическая роль (например, часть речи) однозначного слова переносится на омоним. Это позволяет системе понять точное значение слова без использования размеченных вручную корпусов.

Google может анализировать фоновый звук, записанный устройством до или после голосового запроса. Система идентифицирует аудио (например, песню или телепередачу), извлекает связанные сущности и термины из Графа Знаний и использует этот контекст для уточнения неоднозначных запросов, фильтруя или повышая релевантные результаты в выдаче.

Яндекс патентует метод генерации визуальных поисковых подсказок (Image-based search suggestions) с использованием двух независимых моделей ранжирования. Первая фокусируется на частотности (Frequency Parameter). Вторая — на «скрытом интересе» (Hidden Interest Parameter), выявляя неочевидные, но высокорелевантные связи. Финальный список формируется путем смешивания результатов этих двух моделей, при этом система может дополнительно отфильтровывать слишком очевидные подсказки.