Автор: Виктор Репин

Google использует систему для оценки качества и честности пользователей (Raters), оставляющих отзывы. Анализируется, насколько сильно оценки пользователя отличаются от среднего мнения большинства. Если пользователь систематически отклоняется от консенсуса, ему присваивается низкий «Quality Score», и его отзывы теряют вес при расчете итогового рейтинга продукта, документа или автора. Это позволяет фильтровать спам и использовать очищенные данные в ранжировании.

Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.

Яндекс патентует систему динамического уточнения поисковой выдачи в реальном времени. Система отслеживает микровзаимодействия пользователя (скроллинг, выделение, остановка внимания) с конкретными словами или фразами в сниппетах. На основе этих сигналов вычисляется «параметр интереса», и исходный запрос автоматически переформулируется с акцентом на эти элементы, мгновенно генерируя уточненную выдачу без ручного ввода нового запроса.

Google использует Дополненный Граф Ресурсов для расчета независимых от запроса оценок качества страниц. Этот граф объединяет традиционные ссылки с поведенческими данными: запросами, кликами и пользовательскими сессиями. Алгоритм, подобный PageRank, запускается на этом объединенном графе, позволяя авторитетности передаваться не только через ссылки, но и через качественное взаимодействие пользователей с поиском (например, CTR и длительность клика).

Google использует систему для идентификации «триггерных запросов», которые активируют показ списка экспертов или авторитетных пользователей (например, из социальной сети) по данной теме. Система рассчитывает совокупную оценку авторитетности для запроса и сравнивает ее с динамическим порогом, который зависит от популярности и типа запроса, чтобы решить, стоит ли показывать блок с экспертами.

Патент описывает модификацию алгоритма PageRank. Вместо предположения, что все ссылки на странице имеют равную вероятность клика (модель случайного серфера), система измеряет реальное поведение пользователей. Вес ссылки определяется фактической частотой ее использования, что снижает эффективность ссылок, по которым никто не кликает.

Яндекс патентует метод борьбы с фродом в рейтингах организаций (например, на Картах). Система строит граф связей между организациями на основе общих пользователей, которые их оценили. Алгоритм ищет плотные кластеры (клики), где группа пользователей массово оценила одну и ту же группу организаций. Если распределение этих оценок статистически аномально (например, только 5 звезд), система маркирует этих пользователей как фрод и удаляет их оценки.

Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).

Google использует модель машинного обучения для прогнозирования «Оценки полезности» (Utility Score) документа, основанной на вероятности его показа и клика. Документы ранжируются по этой оценке, и только самые полезные (с учетом затрат на индексацию, важности и квот) попадают в основной поисковый индекс.

Google использует инфраструктуру для масштабируемой оценки электронных документов (включая веб-страницы и рекламу) с помощью распределенной сети асессоров. Система присваивает асессорам «Trust Score» (Оценку Доверия) и агрегирует их отзывы, учитывая контекстуальную чувствительность («Sensitivity Score»). Эти механизмы критичны для сбора данных, обучения ML-моделей и оценки качества контента.

Google анализирует структурированные данные (например, Schema.org) на страницах из результатов поиска. Чтобы проверить достоверность информации перед показом ее в виде прямого ответа (например, Featured Snippet), система ищет «согласованное значение» (Consistent Value). Это требует, чтобы одинаковые данные подтверждались на нескольких независимых, тематически релевантных и авторитетных сайтах.

Яндекс патентует усовершенствованный алгоритм смешивания (Blender) для определения лучшей позиции элемента (например, виджета или веб-документа) на странице результатов поиска. Вместо одного показателя полезности, система использует мультиклассификационную модель, которая прогнозирует отдельно вероятность «Выигрыша» (пользователь взаимодействует с элементом) и вероятность «Проигрыша» (пользователь игнорирует элемент и кликает ниже). Элемент размещается на позиции, где разница между Выигрышем и Проигрышем максимальна.

Google использует статистические модели для прогнозирования того, как асессоры (Quality Raters) оценят релевантность результатов поиска. Модели обучаются на объективных сигналах, включая детальные поведенческие данные: последовательность кликов (Pogo-sticking), время до выбора результата и предполагаемое время взаимодействия с контентом (Dwell Time). Полученные прогнозы используются для переранжирования выдачи.

Яндекс патентует метод обхода ограничений традиционного краулинга для сайтов с огромным количеством динамических страниц (например, агрегаторов билетов, каталогов). Вместо индексации миллионов комбинаций, система использует шаблоны URL-адресов (Address Templates) для динамической генерации прямой ссылки на релевантную страницу, соответствующую параметрам запроса пользователя, даже если эта страница никогда не сканировалась роботом.

Google использует метрику Reachability Score (Оценка Достижимости) для ранжирования страниц. Эта метрика оценивает, сколько времени пользователь, вероятно, проведет на сайте и сколько связанных ресурсов он посетит, переходя по ссылкам с исходной страницы. Оценка рассчитывается рекурсивно на основе агрегированных поведенческих данных (CTR, время просмотра) страниц, доступных в нескольких «хопах» (кликах) от исходной.

Google индексирует не только анкорный текст ссылки, но и окружающий ее текст («annotation text») в исходном документе. Эта информация ассоциируется с целевой страницей и используется для ее ранжирования, даже если сама целевая страница еще не была просканирована или не содержит текста (например, является изображением или видео).

Яндекс патентует архитектуру ранжирования, использующую две ML-модели для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя, создавая векторный профиль его интересов. Вторая модель в реальном времени использует этот профиль и данные текущей сессии для финального ранжирования результатов, обеспечивая учет как постоянных, так и сиюминутных интересов пользователя.

Google анализирует реальные пути навигации пользователей (реферальный трафик) для улучшения выбора контента (например, рекламы). Система извлекает ключевые слова со страницы-источника и взвешивает их на основе трех факторов: близости к кликнутой ссылке, объема трафика по этому пути и ценности последующих действий пользователя. Это позволяет точнее определять контекст перехода и противодействовать манипуляциям (например, линк-фермам).

Яндекс патентует метод персонализации отображения точек интереса (POI) на картах. Система анализирует историю взаимодействия пользователя со всеми сервисами Яндекса (Поиск, Такси, Еда, Музыка и т.д.), чтобы понять его предпочтения. POI и пользователи представляются в виде векторов (например, через DSSM). Ранжирование POI определяется близостью вектора пользователя к вектору POI. На карте отображается только ограниченный набор наиболее релевантных POI в зависимости от уровня масштабирования.

Google использует статистическую модель для оценки качества контента (например, целевых страниц рекламы) на основе поведения пользователей после клика. Система анализирует такие факторы, как время пребывания на странице и последующие действия пользователя (Session Features). Эти оценки агрегируются и используются для прогнозирования качества будущих показов, позволяя системе отдавать предпочтение контенту, который лучше удовлетворяет намерениям пользователя.