Google использует процесс «согласования графов» для автоматического расширения Knowledge Graph. Система извлекает факты о потенциально новых сущностях из множества веб-документов, а затем проверяет их достоверность путем перекрестной сверки (corroboration). Если несколько независимых источников подтверждают ключевые (determinative) факты, сущность считается верифицированной и добавляется в граф знаний.
Автор: Виктор Репин
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
Патент описывает механизм обмена данными об интересах аудитории между разными платформами. Платформа-источник (например, YouTube) анализирует совместное потребление контента, группирует его в «бакеты» интересов и присваивает анонимные токены. Внешние сервисы (например, социальные сети или Поиск) используют эти токены для лучшего понимания тематики контента и глубокой персонализации своей выдачи.
Google применяет архитектуру нейронных сетей («Two-Tower Model») для поиска изображений. Система создает семантические векторы (эмбеддинги) отдельно для запроса и для пары «изображение + посадочная страница» в общем пространстве. Это позволяет находить релевантные изображения на основе семантической близости, а не только по ключевым словам, улучшая понимание контента и контекста.
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
Патент описывает, как Google динамически определяет тематические «режимы поиска» (например, «Вакансии» или «Рецепты») на основе запроса. Система предлагает переключиться в специализированный режим, который использует структурированные данные вместо общего веб-индекса и предоставляет уникальные элементы интерфейса для фильтрации, сортировки и форматирования результатов по атрибутам, специфичным для данной тематики.
Google анализирует логи поисковых запросов, чтобы выявить популярные категории, используемые пользователями («Категории наблюдаемого интереса»). Затем система анализирует текст сторонних пользовательских отзывов для извлечения описательных атрибутов о продуктах, компаниях и поставщиках. Продукты индексируются на основе этих извлеченных атрибутов и категорий, что позволяет лучше понимать репутацию бренда и то, как пользователи ищут и воспринимают продукт.
Google использует NLP и машинное обучение для анализа тональности (sentiment) пользовательских комментариев к медиаконтенту (например, видео на YouTube). Система определяет, считают ли пользователи контент смешным, информативным, спорным и т.д., и создает «профиль тональности» (Sentiment Profile). Этот профиль используется для улучшения поиска, фильтрации результатов и рекомендации похожего контента на основе схожести эмоционального отклика пользователей.
Google использует систему для прогнозирования контента (веб-сайтов, сущностей), который будет интересен пользователю в данный момент, без явного запроса. Система анализирует текущий контекст пользователя (местоположение, время, интересы) и сравнивает его с агрегированными данными о поведении других людей в аналогичном контексте. Контент, который статистически чаще востребован в этом контексте, чем в среднем, предоставляется пользователю проактивно.
Google использует этот механизм для разрешения неоднозначных запросов в Цифровом Ассистенте. Если намерение пользователя неясно, система анализирует текущие трендовые результаты веб-поиска или всплески похожих запросов, чтобы определить актуальный контекст (например, новости или музыка). Затем Ассистент формирует ответ, используя предпочитаемые пользователем источники информации для этого контекста.
Google анализирует, какие изображения пользователи нажимают вместе (co-select) в ответ на конкретный запрос. Изучая визуальные характеристики этих совместно выбранных изображений, Google создает «Профиль изображения, зависящий от запроса» (Query-Dependent Image Profile). Этот профиль взвешивает важность визуальных признаков (таких как цвет, форма или текстура) специально для этого запроса, позволяя системе лучше понимать намерения пользователя и повышать релевантность поиска изображений.
Google использует систему для автоматического создания туристических маршрутов. Она определяет кратчайший путь, а затем находит и ранжирует наиболее интересные локальные объекты (POI) в допустимой зоне отклонения («конверте»). Ранжирование учитывает популярность, отзывы и пользовательский контент. Система также интегрирует таргетированную рекламу, основанную на выбранном маршруте и объектах.
Google может определять, когда несколько последовательных запросов пользователя являются частью одного исследования («линии запроса»). Система объединяет параметры из этих запросов, создавая «комбинированный запрос». Это позволяет пользователю постепенно уточнять поиск (особенно голосом), не повторяя предыдущие условия, делая процесс более естественным и контекстуальным.
Патент Google описывает фундаментальный механизм эффективного ранжирования контента (документов или рекламы) в масштабе. Система предварительно рассчитывает базовые оценки (Base Scores) на основе атрибутов документа. При получении запроса система быстро корректирует эти оценки, используя модель, разделяющую атрибуты запроса и документа. Это позволяет находить Топ-N результатов без пересчета оценок для всего индекса и лежит в основе каскадного ранжирования (L1/L2/L3).
Яндекс патентует двухэтапную систему для персонализации рекомендаций товаров (например, в Яндекс.Маркете). Система сначала определяет товары, которые часто покупают вместе (на основе истории всех пользователей), а затем агрессивно переранжирует эти товары для конкретного пользователя. Для этого используется многоуровневая ML-модель, анализирующая данные устройства, историю браузинга и социально-демографические характеристики пользователя.
Google патентует систему «вспомогательного браузинга», которая активируется на странице результатов поиска (SERP) при проявлении интереса к ссылке. Система показывает текстовый сниппет и оценку интереса предыдущих пользователей, рассчитанную на основе имплицитных поведенческих сигналов, таких как время пребывания на странице (Linger Time/Dwell Time), повторные визиты и клики.
Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.
Google использует механизм для анализа HTML и не-HTML документов (PDF, Word и т.д.) с целью автоматического обнаружения упоминаний и цитат (статьи, компании, продукты). Система определяет контекстуально релевантный анкорный текст, ищет целевой URL в поиске и генерирует гиперссылку. Это позволяет Google учитывать связи между документами, даже если автор не проставил явные ссылки.
Яндекс патентует метод для рекомендательных систем (например, Дзен), который обрабатывает разные типы взаимодействий пользователя (например, клики и время просмотра) независимо друг от друга с помощью отдельных моделей (SVD, нейросети). Это позволяет избежать искажений от противоречивых сигналов (например, кликбейт) и точнее предсказать релевантность контента, комбинируя независимые оценки взвешенной суммой.