Автор: Виктор Репин

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

Патент Google, описывающий систему извлечения информации о бизнесе (название, телефон) из неструктурированного текста веб-страниц. Система находит адрес в документе, определяет кандидатов на роль названия и телефона поблизости и использует статистическую модель для оценки вероятности их связи с адресом. Это основа для построения локального индекса и верификации данных (Citations).

Google использует алгоритм для определения наиболее авторитетной (официальной) страницы для конкретного бизнеса или адреса. Система анализирует кластер связанных страниц, изучая, как они ссылаются друг на друга, а также совпадение названия бизнеса с анкорами, заголовками (Title) и доменом. Страницы, посвященные только одной локации, получают преимущество.

Google может обрабатывать запросы, включающие определенные метки (labels). Система идентифицирует домены, связанные с этими метками через внешние аннотации (annotations), которые определяют соответствие метки и шаблона URL (URL pattern). Поисковая выдача формируется так, чтобы включать часть результатов с этих доменов, а затем результаты, чьи URL точно соответствуют заданным шаблонам, получают повышение в ранжировании.

Google анализирует взаимодействие пользователей (клики, время пребывания, вовлеченность) с контентом в Поиске, Соцсетях и Новостных лентах, чтобы определить, в каких темах конкретный источник (сайт или автор) является экспертным. Если источник признан авторитетным, его новые публикации по этим темам получают повышение в ранжировании, даже до сбора статистики по ним (решение проблемы «холодного старта»).

Яндекс патентует метод ранжирования, который учитывает как общий смысл документа, так и точное вхождение ключевых слов. Система использует три вектора: запроса, документа (для семантики) и специально отобранных фраз из документа (для лексики). Это позволяет нейросетям (Трансформерам) не упускать документы с точными совпадениями, улучшая релевантность выдачи.

Яндекс патентует эффективный способ персонализации выдачи с помощью тяжелых нейросетевых моделей (типа BERT/YATI). Система сначала анализирует историю поиска пользователя и текущий запрос (Ступень 1), создавая компактное представление контекста пользователя. Затем это представление многократно используется для оценки каждого документа в выдаче (Ступень 2). Это позволяет быстро применять сложные персонализированные модели ранжирования.

Патент Google описывает систему, которая анализирует ссылки на любой веб-странице и присваивает им оценку (Score), используя метрики, такие как PageRank, CTR и популярность. На основе этих оценок система может динамически модифицировать страницу: изменить порядок ссылок, удалить низкокачественные, выделить или аннотировать важные. Это помогает пользователю выбирать наиболее авторитетные и полезные переходы.

Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).

Яндекс патентует метод приоритизации сканирования новых страниц. Система прогнозирует не только общую будущую популярность (количество визитов) страницы, но и скорость, с которой этот интерес будет угасать. Страницы, которые, как ожидается, быстро наберут популярность и так же быстро ее потеряют (например, новости), получают наивысший приоритет в очереди на сканирование, чтобы успеть проиндексировать их на пике интереса.

Google анализирует поведение пользователей на выдаче, создавая «Профили Взаимодействия». Система учитывает продолжительность кликов (Short/Long Clicks), их последовательность (Single/Multiple Clicks, Pogo-sticking) и уточнение запросов. Эти данные используются для оценки удовлетворенности пользователей, сравнения версий алгоритмов ранжирования и выявления манипулятивных результатов (спама).

Яндекс патентует механизм мгновенного уточнения поисковой выдачи. Система отслеживает микровзаимодействия пользователя с конкретными элементами на SERP (слова, фразы в сниппетах) — например, выделение текста или скорость прокрутки. На основе накопленного интереса к этим элементам запрос переформулируется, и выдача динамически обновляется, чтобы лучше соответствовать уточненному интенту.

Google использует метрику Codomain Relationship Measure (CDR), чтобы определить, какой сайт показать в качестве целевой страницы в Поиске по Картинкам. Система анализирует связь между доменом контента и доменом хостинга изображения. Предпочтение отдается сайтам с сильной связью (например, использующим собственный CDN), что помогает бороться с хотлинкингом и продвигать авторитетные источники вместо низкокачественных агрегаторов.

Google использует механизм «псевдо-рендеринга» для анализа геометрической структуры веб-страницы и ее разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

Google анализирует последовательности действий пользователей («Action Trails»), чтобы выявить общие «Задачи» (например, планирование отпуска). Система кластеризует эти данные и определяет ключевые темы и лучшие ресурсы для каждого этапа задачи на основе агрегированного поведения. Это позволяет предлагать пользователю контент по смежным темам, которые он еще не искал, но которые релевантны его текущей задаче.

Яндекс патентует метод оценки интересов пользователя путем перевода разнородных событий (поисковые запросы, посещенные сайты, геолокация) в единое векторное пространство. Система использует иерархию нейронных сетей для создания эмбеддингов, отражающих поведение на разных временных отрезках (от минут до месяцев). Близость векторов коррелирует с близостью событий во времени, что позволяет строить детальный профиль интересов для глубокой персонализации.

Яндекс патентует метод информирования пользователей о надежности веб-ресурса прямо в поисковой выдаче. Система рассчитывает оценку доверия (Trust Score) для сайта и изменяет внешний вид его фавиконки (например, размер, цвет, прозрачность или добавляет символы), чтобы визуально показать, насколько ресурс безопасен и авторитетен.

Google может персонализировать выдачу, определяя сайты, которые пользователь предпочитает (Document Bias Set) и которые одновременно являются глобально авторитетными (High Quality Document Set). Если эти авторитетные и предпочитаемые сайты ссылаются на другие документы в результатах поиска, эти документы получают повышение (или понижение) в ранжировании для данного пользователя.

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.