Анализ патента Google, описывающего систему оценки качества документов на основе исторических данных. Система анализирует, как контент, ссылки и поведение пользователей меняются с течением времени. Патент описывает механизмы определения свежести контента, выявления спама через анализ скорости роста ссылок и оценки авторитетности домена. Особое внимание уделяется тому, как система учится на предпочтениях пользователей, повышая в ранжировании документы, которые пользователи выбирают чаще, даже если эти документы старше или изначально ранжировались ниже.
Автор: Виктор Репин
Яндекс использует многоэтапный процесс для обучения трансформерных моделей (типа BERT/YATI). Модель сначала обучается на миллиардах кликов (прогнозируя поведение), затем дообучается на миллионах оценок асессоров (понимая качество). Ключевой этап — перенос знаний от асессоров обратно на данные о кликах (Knowledge Distillation) для масштабирования качества. Также в патенте описано, как метаданные (URL, Title) обрабатываются трансформером как семантические единицы.
Анализ патента Google, описывающего метод определения характеристик онлайн-сущностей (сайтов, авторов, организаций) путем анализа характеристик связанных с ними сущностей. Система сравнивает профиль связей сущности с эталонными профилями, чтобы вывести недостающую информацию (например, тематику или авторитетность) или проверить достоверность заявленных данных (например, экспертизу).
Яндекс применяет двухкомпонентную систему машинного обучения для персонализации выдачи. Первая модель агрегирует долгосрочную историю поиска пользователя в компактное векторное представление (профиль интересов). Вторая модель в реальном времени использует этот вектор вместе с данными текущей сессии (недавние запросы и действия) для предсказания вероятности взаимодействия с документом и переранжирования результатов.
Google анализирует потоки запросов, чтобы определить, когда пользователи целенаправленно ищут конкретный сайт (навигационный интент). Если система подтверждает это через доминирование в кликах, анкорных текстах или совпадение с URL/заголовком, ресурс получает глобальное повышение оценки качества. Это помогает сайту лучше ранжироваться по всем последующим запросам.
Яндекс патентует метод генерации прямых ссылок (Deep Links) на релевантные страницы структурированных сайтов (например, авиабилеты, E-commerce) без их предварительного сканирования. Система определяет подходящий сайт, извлекает параметры из запроса пользователя и динамически конструирует целевой URL с помощью шаблона адресации этого сайта (Address Template), решая проблему индексации сайтов с огромным количеством комбинаторных страниц.
Google патентует систему, которая использует модель машинного обучения (часто работающую локально в браузере), обученную на последовательностях действий пользователей. Модель предсказывает, на какую конкретную страницу (Action Interface) пользователь захочет перейти после поиска. Система генерирует прямой ярлык (Shortcut) на эту целевую страницу (например, «Бронирование» или «Цены») и отображает его в SERP, ускоряя навигацию.
Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» (CTP). Это позволяет документу в будущем находиться на ранней стадии поиска (L1 Retrieval) по этому термину, даже если текст его не содержит.
Яндекс патентует метод генерации факторов ранжирования, называемых «векторами аннотации». Система анализирует все прошлые запросы, по которым пользователи находили конкретный документ, изучает лингвистические характеристики этих запросов и фиксирует поведение пользователей (клики, время на сайте). Эти данные объединяются в векторы. Если запросы схожи, создается один усредненный вектор; если различны (разные интенты) — они кластеризуются, и для каждого кластера создается свой вектор. Эти векторы используются основными алгоритмами ранжирования.
Яндекс использует механизм переранжирования, основанный на исторических данных (логи поведения или оценки асессоров). Система находит прошлые пары «запрос-документ», похожие на текущую ситуацию. Если прошлая пара была высоко оценена (например, имела высокий CTR или высокую оценку качества), система агрессивно повышает ранг текущего документа, корректируя оценку основного алгоритма ранжирования.
Яндекс патентует метод генерации «Аннотационных векторов» для документов. Эти векторы агрегируют лингвистические характеристики всех запросов, по которым пользователи находили документ, и связанные с ними поведенческие метрики (CTR, Dwell Time). Система может кластеризовать эти данные для идентификации разных интентов, которые обслуживает документ. Эти векторы используются как признаки ранжирования, в частности, в моделях DSSM и основной формуле.
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
Патент описывает радикально новую архитектуру веба («Generative Navigational Corpus»), где контент-провайдеры предоставляют «сырые» данные (Seed Content), а Большая Фундаментальная Модель (LFM) генерирует веб-страницы, UI и ссылки в реальном времени, адаптируя формат и структуру под конкретный интент пользователя и контекст навигации.
Яндекс использует механизм «Exploration vs. Exploitation» для решения проблемы «холодного старта» новых документов, у которых нет накопленных поведенческих данных. Система предсказывает их потенциальную релевантность на основе контента и структуры, вычисляет «Exploration Score» с помощью Bandit-алгоритмов и принудительно добавляет лучшие из них на высокие позиции в SERP. Это позволяет собрать данные о поведении пользователей и улучшить ранжирование в долгосрочной перспективе.
Анализ патента Google, описывающего инфраструктуру для выполнения алгоритмов распространения меток (LPA) на огромных графах. Эта технология позволяет Google эффективно классифицировать веб-страницы и сайты (например, по качеству, тематике или спамности), распространяя эти метки на основе структуры связей и весов в графе.
Google использует метод обнаружения искусственного завышения рейтинга (например, PageRank) путем вычисления математической производной функции ранжирования по отношению к «фактору связности» (coupling factor). Резкие изменения этой производной (сильно положительные или отрицательные) сигнализируют о наличии структур ссылочного спама, таких как Link Farms или Web Rings (PBN), позволяя Google применять корректирующие меры.
Яндекс патентует метод клиентской персонализации. Система отслеживает детальные взаимодействия пользователя (скорость скроллинга, движения мыши, копирование текста) прямо на его устройстве. На основе этих данных локально обучается персональная модель ранжирования. Затем эта модель отправляется на сервер Яндекса, где она комбинируется с основной формулой ранжирования (например, путем переобучения) для создания высокоточной персонализированной выдачи.
Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая страница может быть проиндексирована по исходному запросу, даже если она не содержит ни одного слова из этого запроса. Это позволяет находить контент на основе поведенческой релевантности.
Яндекс патентует механизм автоматического «Мгновенного Ответа». Если система определяет, что один документ значительно релевантнее остальных (Relevancy Differential) и с высокой вероятностью полностью удовлетворяет запрос (Likelihood Parameter, основанный на анализе Заголовка, URL и CTR), она перенаправляет пользователя напрямую на этот сайт, не показывая страницу результатов поиска (SERP).
Яндекс патентует метод оптимизации ресурсов при проверке сайтов на вредоносный контент. Система строит граф связей между сайтами и присваивает им оценки доверия (Trust Scores) на основе истории ранжирования и поведения пользователей. Доверие наследуется по принципу «слабого звена»: ресурс получает наименьшую оценку из всех ссылающихся на него сайтов. Ресурсы с наименьшим доверием проверяются в первую очередь с помощью алгоритма кратчайшего пути.