Яндекс патентует метод ранжирования физических локаций (POI) на основе их популярности, измеряемой количеством фотографий объекта в сети. Система использует двухэтапный процесс: сначала идентифицирует фото по метаданным (геотеги, описания), а затем применяет компьютерное зрение (например, SURF) для поиска визуально похожих изображений без метаданных. Общее количество найденных фото формирует рейтинг важности объекта.
Автор: Виктор Репин
Google использует технологию для автоматического извлечения структурированных данных (Заголовков и Элементов) со страниц сайта. Система находит примеры категорий и фильтров (например, «Бренды», «Цвета»), определяет их структурное расположение в коде (Path/XPath), и затем использует этот шаблон для извлечения всех остальных схожих элементов. Это позволяет формировать «Навигационные фильтры» – концептуально связанные списки для обогащения сниппетов или рекламы прямыми ссылками на отфильтрованный контент.
Патент описывает, как Google анализирует пользовательские аннотации и поведение при просмотре (Traffic Traces) для выявления важных сегментов внутри видео. Система автоматически группирует схожие сигналы, определяет границы популярных сегментов (Annotated Clips) и ранжирует их по уровню вовлеченности. Этот механизм лежит в основе функций типа Key Moments, позволяя Google понимать видеоконтент на гранулярном уровне.
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
Google использует исторические данные о поведении пользователя для определения его интересов. Когда запрос вызывает Панель знаний для сущности, система переоценивает потенциальные факты и сниппеты для включения в панель. Приоритет отдается контенту, который соответствует интересам пользователя и который занимает важное место на странице-источнике (Resource Score).
Google патентует систему для рекомендации целых категорий контента (например, «Рецепты барбекю»), а не только отдельных страниц. Система создает «Эмбеддинги Категорий», агрегируя эмбеддинги топовых результатов поиска по названию этой категории. Затем эти категории рекомендуются пользователям, чьи персональные интересы или текущий запрос близки к эмбеддингу категории в латентном пространстве.
Google использует этот механизм для обогащения поисковой выдачи. Когда система определяет, что запрос направлен на конкретную сущность (например, автора), она анализирует текущую SERP на наличие авторитетных источников и релевантность связанному типу (например, книгам). Если условия выполнены, система отображает блок (например, карусель) связанных сущностей, ранжированных на основе их популярности, совместного упоминания в вебе и последующих запросов пользователей.
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить ее уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
Google использует механизм краудсорсинга для повышения точности данных. Система отслеживает, как пользователи исправляют или подтверждают факты (значения атрибутов сущностей), представленные в поиске. Эти исправления, особенно подтвержденные внешними источниками, используются для корректировки оценок достоверности (Confidence Scores) этих фактов, что напрямую влияет на ранжирование и отображение структурированных данных.
Яндекс патентует систему расчета «Баллов Доверия» (Trust Score) для веб-ресурсов. Оценка основана на анализе контента, метаданных (WHOIS, возраст, частота обновления), поведенческих факторов (выбор в поиске) и технических аспектов (сертификаты, работоспособность ссылок). Уровень надежности визуально отображается пользователю путем модификации иконки сайта (favicon) в результатах поиска.
Google решает проблему нехватки данных для ранжирования новых или редких пар запрос-документ. Вместо запоминания исторических данных система изучает скрытые признаки (эмбеддинги) отдельно для запросов и документов. Оценка релевантности вычисляется как степень сходства этих эмбеддингов (через скалярное произведение), что позволяет прогнозировать вероятность клика или другого целевого действия даже для контента, который никогда ранее не показывался по данному запросу.
Яндекс патентует метод улучшения качества обучения алгоритмов ранжирования (MLA) путем автоматической генерации «сложных» отрицательных примеров (Hard Negatives). Если пользователь в рамках одной сессии уточняет запрос (с Q1 на Q2), система интерпретирует это как недовольство предыдущей выдачей (SERP1). Результаты из SERP1, особенно те, с которыми взаимодействие было коротким (<30 сек), используются как отрицательные (нерелевантные) примеры для запроса Q2. Это повышает контрастность обучающих данных и точность модели.
Яндекс патентует метод построения детальных профилей пользователей путем объединения данных из разных источников (например, данные интернет-провайдера и данные Яндекс.Метрики). Система обучает модель на пользователях, о которых известно максимум информации (пересечение источников), а затем использует эту модель для прогнозирования интересов новых пользователей с похожим поведением (Look-alike). Это позволяет персонализировать выдачу и другой целевой контент.
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
Google использует машинное обучение для анализа местоположения, скорости движения и истории пользователя, чтобы предсказать, когда он откроет приложение Карт и что будет искать. Это позволяет системе заранее подготовить релевантные ссылки на маршруты и показать их мгновенно при запуске приложения, обеспечивая нулевую задержку.
Яндекс патентует механизм поисковых подсказок (Suggest), который предлагает прямые ссылки на сайты еще до завершения ввода запроса. Система анализирует, какие сайты пользователи посещали ранее после ввода похожих запросов (историческое поведение), и предлагает наиболее популярные ресурсы в выпадающем списке, ускоряя навигацию и позволяя миновать SERP.
Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном предложении. На основе анализа схожести и включения контекстов система определяет семантические связи: синонимы, антонимы, отношения род-вид (гиперонимы/гипонимы) и часть-целое (холонимы/меронимы). Этот тезаурус помогает поиску лучше понимать запросы и релевантность контента.
Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный тематический интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу. Если их предпочтения статистически отличаются от общих, Google корректирует ранжирование, адаптируя выдачу под текущий контекст поиска пользователя.
Патент описывает, как Google использует контекст пользователя (местоположение, время, интересы), чтобы предсказать его информационные потребности и предложить «Контекстные кластеры» запросов еще до ввода текста. Система анализирует исторические данные, группирует схожие запросы, заданные в схожих обстоятельствах, и предлагает наиболее вероятные варианты для текущего контекста.
Яндекс использует модель машинного обучения для определения приоритета индексации новых или обновленных страниц. Система оценивает потенциальную «полезность» страницы сразу после сканирования (T1), используя только доступные на этот момент данные. Страницы с высоким прогнозом полезности попадают в очередь индексации в реальном времени, а остальные — в отложенную очередь. Порог для быстрой индексации динамически регулируется в зависимости от нагрузки на дата-центры.