Google может определять релевантность веб-страницы запросу, опираясь на аннотации, заголовки или комментарии, добавленные пользователями в их коллекциях контента («Web Notebooks»). Этот механизм позволяет странице ранжироваться по терминам, которых нет в ее собственном тексте, используя человеческую категоризацию как сигнал релевантности. Также сохраненные фрагменты могут использоваться для генерации сниппетов.
Автор: Виктор Репин
Яндекс патентует метод защиты краудсорсинговых данных (отзывов, рейтингов) от внешних манипуляций, таких как «рейды» или накрутки. При обнаружении аномального всплеска оценок система анализирует историю посещений пользователей, оставивших эти оценки. Сравнивая ее с историей обычных пользователей, Яндекс статистически выявляет внешний источник, мобилизовавший трафик (например, пост в блоге или Telegram-канале), и применяет корректирующие меры: удаляет или понижает вес этих аномальных оценок.
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм «Доверенных авторитетов», чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
Яндекс использует данные о поведении пользователей в исторических поисковых сессиях для выявления релевантных документов, которые не содержат слов из исходного запроса. Если пользователи часто переходят к ресурсу (в пределах 1-3 переходов) и проводят на нем значительное время (более 30 секунд), этот ресурс добавляется в «аннотированный индекс» и может ранжироваться по исходному запросу.
Патент Google, описывающий фундаментальный механизм Universal Search. Система определяет, когда запрос связан со специализированной вертикалью (например, ТВ-программы), используя систему триггеров (ключевые слова, белые и черные списки). Затем она одновременно запрашивает данные из основного веб-индекса и вертикального индекса. Результаты смешиваются и отображаются в единой выдаче, выделяя вертикальные данные в специальный блок (OneBox).
Анализ патента, лежащего в основе Google News. Google оценивает качество новостных источников по оригинальности и скорости реакции на события. Статьи группируются в кластеры (сюжеты), которые ранжируются по свежести и авторитетности. Внутри сюжета статьи сортируются по «модифицированной свежести», дающей бонус авторитетным источникам (Golden Sources).
Яндекс патентует метод ранжирования, учитывающий свежесть пользовательской активности. Система анализирует агрегированную историю просмотров, присваивая более высокий вес страницам, которые посещались или были созданы недавно. Этот «Ранг Свежести Просмотра» (FBR) рассчитывается итеративно, экспоненциально затухает со временем и распространяется по графу реальных переходов пользователей, а затем комбинируется с показателями релевантности (например, BM25).
Яндекс патентует метод персонализации поиска, при котором анализ поведения пользователя происходит прямо на его устройстве (на стороне клиента), а не на сервере. Система отслеживает микровзаимодействия (движение мыши, скорость скроллинга, копирование текста), чтобы понять предпочтения пользователя. На основе этих данных локально строится персональная модель ранжирования, которая затем используется Яндексом для улучшения выдачи, сохраняя конфиденциальность данных пользователя.
Яндекс прогнозирует популярность контента (например, видео на YouTube), анализируя, как часто его ищут в поиске (Search Logs), посещают через браузер (Browsing Logs, например, Yandex.Browser), и как часто его встраивают (Embeds) или ссылаются на других сайтах (Statistical Web Data). Эта прогнозируемая популярность используется как сильный фактор ранжирования.
Google использует механизм для улучшения выдачи по широким (категориальным) запросам. Если система определяет, что пользователь ищет информацию по категории, она продвигает в топ наиболее популярные и авторитетные сайты этой категории. Для этого Google оценивает качество ресурсов на основе их популярности по навигационным (брендовым) запросам, а не только по прямой релевантности исходному широкому запросу.
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) и на их основе мгновенно вычисляет признаки совместного вхождения и близости (query-dependent features) в Title, URL и тексте. Эти признаки, объединенные с векторными представлениями слов, обрабатываются нейросетью для генерации комплексного фактора ранжирования.
Яндекс патентует метод расчета авторитетности страниц (Fresh Browse Rank — FBR), который является эволюцией BrowseRank (аналог PageRank на основе логов посещений). FBR учитывает время: он повышает ранг страниц, которые были недавно созданы или недавно стали популярными, и понижает те, чей трафик угасает, используя механизм временного затухания (Time Decay). Этот сигнал авторитетности затем комбинируется с факторами релевантности запросу.
Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.
Яндекс патентует механизм динамической конфигурации внешнего вида поисковой выдачи (SERP Layout). Система прогнозирует, как пользователь будет взаимодействовать с результатами, основываясь на исторических данных и типе используемого приложения/устройства. Затем она отправляет инструкции для визуального изменения выдачи (изменение порядка отображения, выделение стилем, нелинейная верстка), чтобы соответствовать этому прогнозу, не меняя базовое ранжирование по релевантности.
Яндекс патентует метод улучшения навигации по сайтам. Система автоматически определяет наиболее важные разделы сайта (например, «Корзина», «Личный кабинет») независимо от его владельца. Это определение основано на категории сайта или анализе агрегированных поведенческих данных (популярности страниц). Затем система отображает прямые ссылки на эти разделы в интерфейсе пользователя (например, в браузере), обеспечивая быстрый доступ к ключевым функциям.
Яндекс патентует метод прогнозирования популярности контента (например, видео или статей). Система агрегирует данные из трех источников: поисковые логи (показы и клики в SERP), логи браузера (прямые посещения) и веб-граф (ссылки и встраивания на других сайтах, включая динамику их появления во времени). На основе этих данных модель машинного обучения (GBDT) предсказывает будущую популярность, которая затем используется для ранжирования.
Патент Google описывает два ключевых механизма. Первый — автоматическое расширение набора запросов (триггеров), активирующих структурированные карточки, с помощью графового анализа и передачи весов между запросами и сущностями. Второй — процесс извлечения данных для заполнения этих карточек, при котором источники ранжируются по критериям свежести (recency) или близости события (temporal criteria), особенно при поиске в персональных данных (например, email).
Google применяет алгоритмы диверсификации для предотвращения доминирования похожих результатов в выдаче или лентах, отсортированных по времени или местоположению. Система идентифицирует элементы с общими признаками (источник, автор, тип контента) и применяет «фактор понижения» (Demotion Factor), снижая их рейтинг. Это обеспечивает разнообразие контента при сохранении основной логики сортировки.
Google выявляет поисковый спам, анализируя группы (кластеры) документов, а не только отдельные страницы. Система ищет подозрительные структуры, такие как сети ссылок (плотные двудольные графы), и агрегирует сигналы манипуляции (скрытый текст, редиректы, неестественный текст) со всех страниц кластера. Это позволяет обнаружить спам, даже если сигналы на отдельных страницах слабые.