Автор: Виктор Репин

Google использует эту систему, чтобы понять, о какой конкретной сущности (например, месте или человеке) идет речь на веб-странице, особенно когда названия неоднозначны. Система анализирует доминирование упоминаний сущности на странице (соотношения), расположение упоминаний (заголовок или тело документа), контекстуальные связи и анкорный текст входящих ссылок, чтобы связать страницу с правильной уникальной сущностью в своей базе данных.

Яндекс патентует метод выявления аномального трафика (накрутки ПФ) путем анализа истории посещений пользователей. Система строит граф, связывающий сайты, которые часто посещаются одними и теми же пользователями. Если группа сайтов сильно связана в графе (высокий уровень совместных посещений), но при этом не имеет естественной тематической связи или логики в действиях пользователей, эти сайты помечаются как получающие аномальный трафик и пессимизируются в выдаче.

Google обучает свои языковые модели (Трансформеры), интегрируя внешние сигналы, такие как PageRank, авторство, свежесть и вовлеченность, непосредственно в Механизм Внимания (Attention Mechanism). Во время обучения, если контент поступает из авторитетного источника, модель учится придавать ему больший вес. Это создает предубеждение LLM в пользу контента с высоким авторитетом, повышая точность и обоснованность (grounding) в поиске и генеративном ИИ.

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

Яндекс использует гибридный метод для точного определения времени создания веб-страниц, когда эта информация неизвестна или ненадежна. Система сначала извлекает даты из URL и HTML, оценивая их надежность по иерархии доверия. Затем она применяет вероятностную модель к структуре ссылок: неизвестные даты вычисляются путем максимизации вероятности наблюдаемой сети, исходя из предположения, что вероятность ссылки экспоненциально убывает с увеличением разницы в возрасте страниц.

Яндекс патентует метод оптимизации ранжирования, основанный на детальном анализе поведения пользователей после просмотра выдачи («параметры постпросмотра»). Система автоматически определяет вес различных поведенческих сигналов (клики, время просмотра, пропуски, удовлетворяющие клики) для создания целевой функции. Эта функция затем используется для обучения основного алгоритма ранжирования, чтобы максимизировать удовлетворенность пользователя.

Google использует систему машинного обучения для оценки авторов и аккаунтов на онлайн-платформах, объединяя сигналы качества (E-E-A-T) и популярности (взаимодействия пользователей) в единый показатель. Этот показатель используется для определения того, следует ли показывать контент от данного автора в ответ на запрос, причем порог фильтрации динамически повышается для YMYL-тем и трендовых запросов.

Google использует модель машинного обучения для расчета оценки качества сайта (Quality Score). Эта оценка зависит не только от собственных характеристик сайта (например, юзабилити или поведенческих факторов), но и от характеристик и оценок качества «соседей» — сайтов, которые ссылаются на него, на которые ссылается он, или которые связаны с ним иным образом (например, общим хостингом). Качество итеративно распространяется по графу связей.

Яндекс использует механизм для корректировки оценки качества сайта, сравнивая ее с эталонным значением, ожидаемым для сайтов с аналогичным объемом трафика или уровнем лояльности. Если сайт показывает аномально высокие метрики качества для своего размера, его рейтинг может быть понижен. Если метрики ниже ожидаемых, рейтинг может быть повышен. Это стабилизирует выдачу и усложняет манипуляции поведенческими факторами.

Патент раскрывает ядро алгоритма CatBoost — основного метода машинного обучения Яндекса для ранжирования. Он описывает, как система преобразует категориальные признаки (например, URL, домен, регион) в числовые значения. Чтобы избежать переобучения и утечки данных, система использует статистику (например, CTR) только из «прошлого», упорядочивая данные случайным образом (Ordered Boosting) и вычисляя значения признаков на основе предшествующих объектов.

Google анализирует тексты ссылок (анкоры), ведущих на страницу, чтобы определить ее основную тему или сущность (Unifying Subject). Система выбирает наиболее репрезентативный анкор, используя частотность, авторитетность ссылающихся сайтов (Page Importance Metric) или векторный анализ. Это имя затем используется как каноническое название сущности в базе знаний (Fact Repository).

Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации и частоту цитирования, система определяет URL первоисточника, даже если он не был проиндексирован ранее.

Патент Google, описывающий механизм, позволяющий вебмастерам встраивать инструкции непосредственно в HTML-код ссылок. Эти инструкции сообщают поисковой системе, как обрабатывать конкретную ссылку, например, блокировать ее учет или изменять ее вес при расчете ранжирования (PageRank). Этот патент является основой для атрибутов rel=»nofollow», rel=»sponsored» и rel=»ugc».

Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Эти признаки рассчитываются не изолированно для документа, а в контексте всей поисковой выдачи (SERP). Например, система оценивает значение фактора (скажем, CTR) относительно среднего или максимального значения этого фактора у конкурентов в той же выдаче. Новые признаки проверяются через A/B тесты на основе метрик вовлеченности пользователей, и лучшие внедряются в основную формулу ранжирования.

Яндекс патентует систему прогнозирования популярности контента (например, просмотров видео), особенно размещенного на внешних платформах. Система агрегирует данные из трех источников: поисковые логи (клики в SERP), логи браузера (прямые заходы) и данные краулера (ссылки и встраивания на других сайтах). Эти данные используются для обучения ML-модели (GBDT), которая оценивает текущую и будущую популярность контента для улучшения ранжирования.

Google расширяет понимание тематики документа за пределы его контента, анализируя внешние сигналы. Система косвенно выводит концепции, изучая, откуда приходят пользователи (входящие ссылки и запросы), куда они уходят (исходящие ссылки, клики по рекламе) и какие сайты посещают в рамках одной сессии. Особое внимание уделяется наиболее «успешным» (кликабельным) взаимодействиям и анкорному тексту.

Патент Google, описывающий методы автоматического обнаружения синонимов и эквивалентных фраз. Система анализирует последовательные запросы пользователя в рамках одной сессии: если запросы имеют общие слова (контекст), то различающиеся слова считаются потенциальными синонимами. Аналогичный анализ применяется к вариациям анкорного текста ссылок, ведущих на одну и ту же страницу. Это позволяет поисковой системе понимать, что разные запросы могут иметь одинаковое намерение.

Google использует механизм для борьбы со спамом, который намеренно вносит временные задержки или непредсказуемые колебания (например, временное понижение) в ранг документа после его изменения или получения новых ссылок. Система отслеживает реакцию вебмастера на эти неожиданные изменения. Если вебмастер активно пытается скорректировать поведение ранга, это сигнализирует о манипуляциях и помогает Google идентифицировать спам.