Автор: Виктор Репин

Яндекс патентует метод борьбы с фальсификацией рейтингов организаций (например, в Картах или Поиске). Система строит граф связей между организациями на основе того, какие пользователи оценивали их одновременно. Выявляя плотные группы (клики) организаций с аномально поляризованным распределением оценок (слишком много крайне положительных или отрицательных), Яндекс маркирует участвующих пользователей как ботов или спамеров и аннулирует их оценки.

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

Анализ патента (IBM), описывающего механизм использования данных о закладках пользователей для ранжирования веб-страниц. Система рассчитывает «Вес Важности» (Importance Weight) для URL на основе того, как часто пользователи добавляют или удаляют его из закладок. Этот вес используется для упорядочивания результатов поиска. Кроме того, названия папок (категории), которые пользователи присваивают закладкам, используются как дополнительные ключевые слова для индексации этих URL.

Яндекс патентует механизм показа расширенных подсказок (например, карточек объектов или навигационных ссылок) в выпадающем списке автодополнения. Система анализирует вводимый префикс и определяет доминирующий ресурс на основе агрегированной вероятности кликов (Суммарного веса). Если один ресурс явно доминирует над другими вариантами, Яндекс покажет его контент в виде расширенной подсказки еще до перехода на выдачу.

Google анализирует цепочки запросов пользователей в рамках поисковых сессий. Если пользователь начинает с общего или неточного запроса и уточняет его до тех пор, пока не найдет конкретный авторитетный ресурс, система связывает этот конечный ресурс с исходным запросом. В будущем этот авторитетный ресурс будет повышен в ранжировании по исходному запросу на основе коллективного поведения пользователей.

Яндекс патентует метод машинного обучения для прогнозирования поведения пользователей. Система одновременно обучается создавать векторные представления (эмбеддинги) действий пользователя и предсказывать следующее действие на основе текущего. Это позволяет системе определять будущий контекст пользователя и проактивно рекомендовать релевантный контент в поиске или персонализированных лентах.

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

Google использует систему для динамической интеграции результатов поиска по картинкам в основную веб-выдачу. Система анализирует намерение пользователя (Image Intent Score) и качество доступных изображений (Quality Scores). На основе этих данных она определяет, нужно ли показывать блок с картинками, какого размера он будет (Dimensions) и на какой вертикальной позиции его разместить (Insertion Score), оптимизируя SERP под конкретный запрос.

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

Яндекс патентует метод использования «Фактора Привлекательности» (Appeal Factor) в ранжировании. Система использует модель машинного обучения (например, нейросеть), обученную на скриншотах страниц, чтобы предсказать, насколько визуально привлекательной или удобной найдет страницу пользователь. Обучение происходит на основе оценок асессоров или анализа поведения пользователей (например, быстрые отказы).

Google использует систему для идентификации изображений, которые привлекают клики по причинам, не связанным с их качеством или релевантностью (например, сенсационный контент). Система анализирует категории запросов, по которым кликают на изображение. Если изображение получает непропорционально много кликов по определенным категориям (юмор, насилие и т.д.), оно классифицируется как «Click Magnet». Затем его ранжирование корректируется: понижается для общих запросов и повышается для запросов, ищущих сенсационный контент.

Google идентифицирует запросы, которые исторически показывают высокую эффективность (на основе CTR и Long Clicks), и генерирует синтетические запросы из структурированных данных (заголовков, анкоров). Когда пользователь вводит запрос, система находит похожий высокоэффективный или синтетический запрос и использует его для аугментации (дополнения или изменения) результатов поиска, приоритезируя тип аугментации в зависимости от интента пользователя.

Система перехватывает результаты поиска и проверяет их по реестру, содержащему пользовательские аннотации, метаданные и социальные связи. Затем результаты переупорядочиваются на основе релевантности, которая частично определяется этими аннотациями и метаданными. Пользователям предоставляются инструменты для добавления новых аннотаций, которые влияют на будущие результаты поиска.

Google патентует систему Retrieval-Augmented Generation (RAG) для повышения точности ответов LLM на локальные запросы. Специализированная «Research Model» извлекает актуальные фактические (адреса, часы работы) и субъективные (отзывы, рейтинги) данные из структурированных баз (Google Maps, UGC, Web). Эти данные передаются как контекст в «Response Model» для генерации точного ответа, минимизируя галлюцинации.

Патент описывает механизм генерации рекомендаций контента на основе того, что пользователь просматривает в данный момент, без ввода поискового запроса. Система анализирует текущий контент, находит связанные ресурсы и ранжирует их, основываясь преимущественно на метриках вовлеченности пользователей (трендовость, частота просмотров, совместные просмотры), а не только на текстовой релевантности.

Система ранжирования для поиска по блогам, которая комбинирует релевантность запросу (Relevance Score) с независимой оценкой качества (Quality Score). Эта оценка качества вычисляется на основе индикаторов, специфичных для блогов: паттерны частоты публикаций, равномерность размера постов, наличие в блогроллах, популярность в RSS-ридерах и совпадение контента в фиде и на сайте. Система использует эти данные для выявления автоматизации и спама.

Яндекс патентует метод для быстрых и релевантных контентных рекомендаций. Система заранее вычисляет набор общепопулярных материалов (офлайн). В момент запроса пользователя (онлайн) система находит материалы, похожие на его прошлые интересы, исключая те, что уже попали в общепопулярный набор. Финальная лента формируется путем объединения этих двух наборов, обеспечивая баланс между популярностью и персонализацией.

Google улучшает ранжирование, особенно для редких или новых запросов, используя поведенческие данные (клики) из семантически или сессионно связанных запросов. Если данных по исходному запросу недостаточно, система «заимствует» сигналы о кликах из похожих запросов, применяя взвешивание и нормализацию, чтобы точнее определить релевантность документа.