Google использует механизм переранжирования для обеспечения разнообразия (Diversity) в поисковой выдаче или ленте рекомендаций. Система определяет ключевые признаки (Features) для каждого результата (например, домен, автор, тип контента) и назначает им «штрафные значения» (Demotion Values). Если признак повторяется в топе, следующий результат с этим же признаком принудительно смещается вниз на заданное количество позиций от предыдущего, предотвращая доминирование одного источника или темы.
Автор: Виктор Репин
Google анализирует, как пользователи уточняют свои запросы, и строит «Граф Запросов». Этот граф используется двумя способами: 1) Для повышения ранжирования документов (особенно по заголовкам), которые точно соответствуют популярным кластерам запросов, даже если у них мало ссылок. 2) Для автоматического переписывания широкого запроса пользователя в его наиболее популярные конкретные уточнения и объединения результатов.
Google анализирует историю посещений и действий пользователя в интернете, чтобы выявить незавершенные задачи (например, покупку товара или планирование поездки). Система использует графы вероятностных переходов для моделирования пути пользователя, прогнозирует его следующий шаг и проактивно предлагает релевантный контент или действия (Action Elements), помогая завершить задачу.
Google использует механизм для динамического обогащения просматриваемых веб-страниц. Система анализирует контент страницы и персональные данные пользователя (история поиска, местоположение, интересы), формирует комбинированный внутренний поисковый запрос, находит релевантные внешние документы или рекламу и встраивает ссылки на них непосредственно в текст исходной страницы.
Яндекс патентует метод генерации обучающих данных для систем ранжирования (например, лент рекомендаций). Система определяет последний элемент, с которым взаимодействовал пользователь перед закрытием или обновлением ленты. Элементам, получившим взаимодействие, присваивается «Оценка выигрыша». Элементам, показанным ниже последнего взаимодействия, присваивается «Оценка проигрыша», которая тем выше, чем ближе элемент находился к точке остановки пользователя. Это позволяет точнее обучать алгоритмы релевантности.
Google использует систему для автоматического извлечения структурированных данных (заголовков и связанных элементов) с целевой страницы. Эти данные организуются в «Навигационные фильтры» — концептуально параллельные списки (например, «Бренды: Canon, Nikon, Sony»). Система ранжирует эти фильтры на основе запроса пользователя, его интересов и доступного пространства, а затем интегрирует их в сниппет результата поиска или рекламное объявление для улучшения навигации.
Google использует механизм для корректировки показателей популярности документов (например, кликов). Система определяет «широту» (Query Breadth) запроса. Клики, полученные по широким, общим запросам, считаются менее значимыми индикаторами популярности, чем клики по узким, специфическим запросам. Это предотвращает искусственное завышение ранга документов, часто показываемых по высокочастотным общим терминам.
Патент Google описывает функцию браузера для контекстного поиска выделенного текста или изображений. Результаты и связанные запросы отображаются в специальной панели без ухода с исходной страницы. Ключевой механизм: Google использует URL и контекст исходной страницы для определения и ранжирования этих связанных запросов, направляя поисковый путь пользователя.
Патент Google описывает систему ранжирования результатов для сущностей (например, музыка, фильмы, бронирования). Система использует «Меру Эффективности» (Effectiveness Measure), которая учитывает два ключевых фактора: насколько быстро пользователь может получить контент или завершить транзакцию после клика (Quantity of Steps) и насколько пользователь предпочитает конкретного поставщика (Affinity Measure), основываясь на его подписках, установленных приложениях и истории взаимодействий.
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.
Google анализирует сессии пользователей для выявления ресурсов, которые часто посещаются последовательно (co-selected). Система строит граф этих связей и распространяет известные тематики (Contextual Profile) авторитетных ресурсов на связанные с ними страницы. Это позволяет определять контекст ресурса на основе поведения пользователей, даже если на странице мало текста.
Яндекс использует сессии, в которых пользователь переформулирует свой запрос, для автоматического создания негативных обучающих примеров. Если пользователь вводит новый запрос (Q2) сразу после предыдущего (Q1), система помечает результаты из первой выдачи как нерелевантные для уточненного запроса (Q2), особенно если взаимодействие с ними было коротким (например, менее 30 секунд). Это позволяет обучать алгоритмы ранжирования более точно понимать истинный интент пользователя.
Патент Google описывает систему классификации изображений, которая переносит поведенческие сигналы (клики, наведения) с известных изображений («Seed Images») на визуально похожие копии. Это позволяет системе идентифицировать нежелательный контент (например, сатирический «spoof» или кликбейт «Click Magnet») даже у новых изображений, еще не имеющих собственного трафика, наследуя репутацию их визуальных аналогов.
Google использует комплексный профиль пользователя (историю поиска, местоположение, социальные связи, календарь, отзывы) для динамического изменения отображения объектов на интерактивных Картах. Система корректирует стандартный рейтинг значимости объектов, делая более заметными те места, которые потенциально интересны конкретному пользователю, и скрывая нерелевантные.
Яндекс патентует метод ранжирования и смешивания (Blending), который учитывает визуальный размер (высоту) и позицию элемента на странице выдачи для расчета его «оценки полезности». Система обучается предсказывать, насколько полезным будет элемент определенного размера на определенной позиции. Ключевой механизм: большие элементы (виджеты, расширенные сниппеты) сильнее пессимизируются, если пользователи их пропускают и кликают на элементы ниже.
Google использует статистический анализ для обнаружения спама и переоптимизации. Система определяет ожидаемое количество связанных концепций (фраз) в типичном документе. Если документ содержит неестественно большое количество связанных фраз по сравнению с нормой, он идентифицируется как спам (keyword stuffing) и понижается в результатах поиска.
Яндекс патентует метод обучения моделей ранжирования и смешивания (блендинга). Для определения истинной полезности результата (веб-страницы или вертикального блока) система намеренно рандомизирует его позицию в выдаче для тестовой группы пользователей. Анализируя взаимодействие пользователей с результатом на случайных позициях, Яндекс вычисляет «Параметр Полезности», который затем используется для определения оптимального расположения этого результата в реальной выдаче.
Google анализирует логи запросов, чтобы понять, как пользователи переформулируют свои запросы в рамках одной сессии. Система выявляет слова, которые пользователи заменяют друг на друга в одинаковых контекстах, и валидирует их, проверяя, возвращают ли оба варианта запроса схожие результаты поиска. Эти контекстные синонимы затем используются для автоматического расширения или изменения запросов пользователей.
Яндекс патентует метод ранжирования «ненативных» элементов (свежий контент без статистики кликов) в 2D-выдаче (например, Яндекс Картинки). Система обучается предсказывать «Оценку Полезности» нового элемента на разных позициях, анализируя, как пользователи взаимодействуют с ним (Win) и его соседями справа и снизу (Loss). Новый контент вставляется на позицию с максимальной прогнозируемой полезностью.