Как Google персонализирует выдачу, повышая сайты, которые пользователь посещал многократно и в течение длительного времени

Google использует систему персонализации, которая анализирует историю поиска пользователя для выявления «предпочитаемых результатов» (User-Preferred Search Results). Ключевыми критериями являются не только минимальное количество кликов, но и продолжительность интереса (time span). Если пользователь часто и долго взаимодействовал с сайтом, система рассчитывает высокую метрику популярности (Popularity Metric) и активно повышает этот сайт в его персональной выдаче.

Описание

Какую задачу решает

Патент решает проблему предоставления универсальных (неперсонализированных) результатов поиска, которые могут не соответствовать индивидуальным интересам конкретного пользователя. Традиционные системы ранжируют результаты одинаково для всех по одному запросу. Изобретение направлено на улучшение пользовательского опыта путем продвижения тех результатов или источников, к которым пользователь ранее проявлял устойчивый и повторяющийся интерес.

Что запатентовано

Запатентована система персонализации поиска, которая анализирует историю поиска пользователя (Search History) для создания профиля (User Profile), содержащего предпочитаемые результаты (User-Preferred Search Results). Ключевой особенностью является критерий отбора: результаты должны быть выбраны пользователем минимальное количество раз (predefined minimum number of times) и, как правило, в течение минимального периода времени (predefined minimum duration). При обработке нового запроса система повышает в ранжировании результаты, соответствующие этому профилю.

Как это работает

Система работает в два основных этапа:

Профилирование (Офлайн/Периодически): User Profiler анализирует историю поиска. Идентифицируются результаты (URL или хосты), которые пользователь выбирал часто и долго. Для них рассчитывается Popularity Metric (метрика популярности), учитывающая частоту (click_count), продолжительность интереса (time_span) и давность (time_decay). Лучшие кандидаты сохраняются в профиле.
Персонализация (Онлайн): При получении запроса генерируется стандартный список результатов. Search Result Ranker проверяет совпадения с профилем пользователя. Совпавшие результаты продвигаются выше (Re-ranking); степень продвижения (offset) зависит от их Popularity Metric.

Актуальность для SEO

Высокая. Персонализация является фундаментальным аспектом современных поисковых систем. Описанные в патенте концепции использования истории поиска, анализа качества кликов (например, Long click-through) и выявления долгосрочных интересов пользователя (time span) остаются крайне актуальными для повышения релевантности и удовлетворенности пользователей.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он демонстрирует конкретный механизм, при котором история взаимодействия пользователя с сайтом напрямую влияет на его ранжирование для этого пользователя. Это подчеркивает критическую важность стратегий, направленных не только на первичное привлечение трафика, но и на удовлетворенность пользователя (что выражается в Long click-throughs), удержание аудитории и формирование лояльности к бренду. Сайты, ставшие «предпочитаемыми», получают значительное преимущество в персональной выдаче.

Детальный разбор

Термины и определения

Click-through (Клик): Любой выбор пользователем URL-ссылки в результатах поиска, независимо от последующего поведения.
Good click-through (Хороший клик): Клик, при котором пользователь остается на документе минимальное время и затем возвращается на страницу результатов поиска (SERP). Комбинация Long click-through и не-Single click-through.
Impression Event (Событие показа): Запись в истории поиска о том, какие результаты были показаны пользователю в ответ на запрос.
Long click-through (Длинный клик): Клик, при котором пользователь остается на выбранном документе не менее минимального количества времени (например, 20 секунд), независимо от возврата на SERP.
Popularity Metric (Метрика популярности): Числовое значение, указывающее на вероятность выбора результата пользователем. Используется для определения степени повышения в ранжировании. Может рассчитываться эвристически или с помощью ML (например, как предсказанный Long click-through rate).
Search History (История поиска): Запись прошлых действий пользователя, включая запросы, показы, клики (с метками времени и позициями) и просмотры страниц.
Single click-through (Единственный клик): Клик, после которого пользователь не возвращается на страницу результатов поиска.
Time decay (Временной спад / Давность): Период времени с момента последнего выбора результата пользователем до настоящего момента. Используется для снижения веса старых предпочтений.
Time span (Временной охват): Период времени от самого раннего до самого последнего выбора результата пользователем. Используется для определения долгосрочного интереса.
User-Preferred Search Results (Предпочитаемые пользователем результаты): Результаты (URL или домены/хосты), которые пользователь выбирал ранее как минимум заданное число раз и, как правило, в течение заданного минимального периода времени.
User Profile (Профиль пользователя): Набор данных, характеризующий интересы пользователя, включающий User-Preferred Search Results и их метрики.
User Profiler (Профилировщик пользователя): Компонент системы, отвечающий за генерацию и обновление профилей пользователей на основе их истории поиска.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод персонализированного ранжирования.

Система получает запрос и идентифицирует результаты.
Идентифицируется набор User-Preferred Search Results из истории поиска. Условие: результат был выбран не менее заданного минимального числа раз.
В текущих результатах идентифицируются совпадения с User-Preferred Search Results.
Результаты упорядочиваются на основе Popularity Metric, связанной с каждым совпадением.
Критическое условие: Popularity Metric является функцией параметров, обязательно включающих time span period (интервал от самого раннего до самого последнего выбора этого результата пользователем).

Система защищает метод, где продвижение основано не просто на частоте, а на метрике, учитывающей продолжительность интереса (time span).

Claim 2 (Зависимый от 1): Уточняет критерии для User-Preferred Search Results.

Результат должен быть выбран минимальное количество раз И эти выборы должны охватывать период времени не менее минимальной продолжительности. Это подтверждает необходимость как объема кликов, так и долгосрочного интереса.

Claim 4 (Зависимый от 1): Уточняет определение «выбора» (selection).

Выбор результата включает клик и пребывание на документе в течение минимального времени. Это указывает на использование концепции Long click-through. Короткие клики не способствуют формированию предпочтений.

Claim 11 (Независимый пункт): Описывает процесс с фокусом на генерации профиля.

Идентифицируется профиль пользователя, который создается путем:
- Выявления кандидатов в истории (выбраны минимум раз).
- Определения Popularity Metric для кандидатов.
- Выбора подмножества кандидатов с метриками выше порога.
Далее следует процесс персонализации: идентификация совпадений в текущей выдаче и их переупорядочивание.

Claim 15 и 16 (Зависимые от 11): Детализируют расчет Popularity Metric с помощью Машинного Обучения.

Метрика определяется с помощью модели, обученной на историях поиска множества пользователей для предсказания вероятности выбора. Модель использует набор коэффициентов, характеризующих агрегированное поведение пользователей.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя данные о поведении для влияния на финальное ранжирование.

Офлайн-обработка данных (Связано с INDEXING и QUNDERSTANDING)
User Profiler периодически анализирует данные в Search History Database (собранные на этапе Data Acquisition) для генерации и обновления User Profile Database. Это включает вычисление Popularity Metrics и определение User-Preferred Search Results. Также на этом этапе могут обучаться ML-модели.

RANKING – Ранжирование
Search Engine генерирует исходный список результатов с базовыми оценками ранжирования (generic ranking scores).

RERANKING – Переранжирование
Основное применение патента. Search Result Ranker использует User Profile для корректировки порядка результатов, полученных на этапе RANKING. Он идентифицирует совпадения и применяет корректировку (offset) на основе Popularity Metric.

Входные данные:

Исходный запрос и идентификатор пользователя.
Исходный список результатов поиска с их generic ranking scores.
Профиль пользователя (User-Preferred Search Results и их Popularity Metrics).

Выходные данные:

Переупорядоченный (персонализированный) список результатов поиска.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, по которым у пользователя есть устоявшиеся предпочтения (повторяющиеся информационные, навигационные, транзакционные). Минимальное влияние на запросы по новым для пользователя темам.
Типы контента: Влияет на любой контент, стимулирующий повторное взаимодействие (новостные сайты, блоги, справочники, интернет-магазины).

Когда применяется

Идентификация пользователя: Система должна идентифицировать пользователя (логин, cookies) и связать его с User Profile.
Наличие истории: У пользователя должна быть достаточная история для генерации профиля.
Триггер активации: Текущие результаты поиска должны содержать элементы, совпадающие с User-Preferred Search Results.
Пороговые значения: Для попадания в профиль результат должен быть выбран минимальное количество раз (например, 4) и в течение минимального периода времени (например, 3 дня).

Пошаговый алгоритм

Процесс А: Генерация профиля пользователя (Офлайн / Периодически)

Сбор данных: Извлечение N выбранных пользователем результатов из Search History.
Фильтрация кандидатов: Отбор M результатов, соответствующих критериям:
1. Выбраны не менее минимального количества раз (click_count).
2. Временной интервал между первым и последним выбором (time span) превышает минимальную продолжительность.
Расчет метрик: Для каждого кандидата определяется Popularity Metric. Это может быть сделано двумя способами (см. Процессы В и Г).
Формирование профиля: Выбор Топ-P результатов с наивысшими Popularity Metrics в качестве User-Preferred Search Results и сохранение их в профиле.

Процесс Б: Персонализация выдачи (Онлайн)

Получение запроса и профиля: Система получает запрос, генерирует исходный список результатов и извлекает профиль пользователя.
Идентификация предпочтений: Сравнение результатов в списке с User-Preferred Search Results. Идентификация совпадений.
Корректировка ранжирования (Re-ranking): Изменение позиций совпавших результатов. Продвижение (offset) рассчитывается на основе Popularity Metric.
Выдача результатов: Предоставление переупорядоченного списка пользователю.

Процесс В: Расчет Popularity Metric (Эвристический)

Извлечение атрибутов: Определяются click_count, time_span, time_decay (время от последнего клика до настоящего момента).
Расчет метрики: Применяется формула, например: f1(click_count) * f2(time_span) * f3(time_decay), где f1 и f2 положительно коррелируют с аргументами, а f3 отрицательно (чем больше давность, тем ниже метрика).

Процесс Г: Расчет Popularity Metric (Машинное обучение)

Обучение модели (Офлайн): На основе истории поиска множества пользователей обучается модель (например, логистическая регрессия) для предсказания Long click-through rate, используя различные поведенческие свойства (features).
Применение модели: Для кандидата извлекается набор свойств его взаимодействий с пользователем. Модель предсказывает Long click-through rate, который используется как Popularity Metric.

Какие данные и как использует

Данные на входе

Патент полностью полагается на поведенческие данные из истории поиска пользователя.

Поведенческие факторы:
- Клики (Click-throughs): Основной сигнал. Патент дифференцирует типы: Click-through (любой), Long click-through (длинный), Single click-through (единственный), Good click-through (хороший).
- Частота кликов (click_count).
- Временные метки (Timestamps): Используются для расчета time_span и time_decay.
- Время пребывания (Dwell time): Используется для определения типа клика (Long/Short).
- Показы (Impressions) и Позиции: Данные о том, какие результаты были показаны и на каких позициях произошел клик.
Технические факторы:
- URL / ContentID: Идентификатор документа.
- Источник (Source / Hostname): Упоминается возможность агрегации предпочтений на уровне хоста (сайта).
Пользовательские факторы:
- Идентификатор пользователя (User Identifier).

Какие метрики используются и как они считаются

Ключевой метрикой является Popularity Metric. Патент описывает два основных метода расчета.

Метод 1: Эвристическая функция времени и частоты

Формула: Popularity Metric = f1(click_count) * f2(time_span) * f3(time_decay).
Цель: Приоритет отдается результатам, которые выбирались часто (высокий click_count), в течение длительного времени (высокий time_span) и недавно (низкий time_decay).

Метод 2: Предсказание Long Click-Through Rate (Машинное обучение)

Цель: Использовать ML-модель для предсказания вероятности Long click-through.
Используемые признаки (Features): Патент перечисляет обширный список свойств для обучения, включая:
- Количество показов, дней после последнего показа, средняя позиция при показах.
- Количество кликов (всех типов: общий, длинный, единственный, хороший).
- Количество дней после последнего клика (всех типов).
- Средняя позиция при клике (всех типов).
- Click-through rate (всех типов).

Пороговые значения для включения в профиль:

Минимальное число кликов.
Минимальная продолжительность интереса (time_span).

Выводы

Предпочтение = Частота + Продолжительность интереса: Ключевой вывод — Google определяет «предпочтение» не просто по количеству кликов. Результат должен быть выбран многократно И эти клики должны быть распределены во времени (time span). Это фокусирует систему на долгосрочной лояльности, а не на кратковременных всплесках.
Качество взаимодействия (Engagement) критично: Патент явно фокусируется на качестве кликов. Разделение на типы (Long, Good) и использование предсказанного Long Click-Through Rate в качестве основной метрики популярности подчеркивает важность удовлетворенности пользователя (Dwell Time). Короткие клики не способствуют формированию предпочтений.
Персонализация как слой переранжирования (Reranking): Этот механизм работает поверх основного ранжирования, корректируя выдачу на основе индивидуальной истории. Сайт может иметь низкий общий рейтинг, но высокий персональный для конкретного пользователя.
Учет давности (Recency): Несмотря на фокус на долгосрочных интересах, фактор time_decay (время с момента последнего клика) также учитывается, позволяя профилю адаптироваться к изменению текущих интересов пользователя.
Предиктивное моделирование поведения: Google использует сложные модели машинного обучения, обученные на агрегированных данных, чтобы предсказать будущую ценность результата для пользователя.

Практика

Best practices (это мы делаем)

Фокус на удовлетворенности пользователя и Dwell Time: Необходимо оптимизировать контент и UX так, чтобы максимизировать вероятность Long click-throughs. Это напрямую влияет на расчет Popularity Metric и вероятность попадания сайта в User-Preferred Search Results.
Стратегия удержания и повторных визитов: Поскольку для активации механизма требуются повторные взаимодействия в течение определенного периода (time_span), необходимо стимулировать пользователей возвращаться на сайт. Это подтверждает важность email-маркетинга, подписок и создания контента, к которому обращаются регулярно.
Построение сильного и узнаваемого бренда/домена: Персонализация часто работает на уровне домена. Создание авторитетного источника, которому пользователи доверяют и который легко узнают в выдаче, увеличивает вероятность повторных кликов и последующего повышения в персональной выдаче.
Мониторинг поведенческих метрик: Анализ показателей вовлеченности и процента возвратов помогает понять, насколько хорошо сайт удовлетворяет интент и каковы его шансы стать предпочитаемым ресурсом.

Worst practices (это делать не надо)

Использование кликбейта: Стратегии, направленные на получение клика, но не удовлетворяющие интент, приводят к коротким кликам (быстрым возвратам в выдачу). Это контрпродуктивно, так как такие взаимодействия не способствуют попаданию в User-Preferred Search Results.
Фокус только на привлечении нового трафика: Игнорирование работы с существующей аудиторией лишает сайт преимуществ персонализации. Если пользователь посетил сайт много раз за один день и не вернулся, сайт может не попасть в предпочтения из-за недостаточного time_span.
Игнорирование UX и скорости загрузки: Плохой пользовательский опыт увеличивает вероятность коротких кликов, что напрямую противоречит целям формирования Long click-through.

Стратегическое значение

Патент подтверждает стратегическую важность построения долгосрочных отношений с аудиторией. Лояльность пользователей становится измеримым и прямым преимуществом в ранжировании. Долгосрочная SEO-стратегия должна интегрировать работу над качеством контента, UX и брендингом для формирования долгосрочной лояльности. Этот механизм объясняет, почему крупные бренды и авторитетные ресурсы часто доминируют в выдаче у пользователей, которые ранее с ними взаимодействовали.

Практические примеры

Сценарий: Повышение предпочитаемого новостного источника

Исходная ситуация: Пользователь регулярно читает новости на сайте «NewsSite.com». За последний месяц он 10 раз переходил на этот сайт из поиска. Время на сайте всегда длительное (Long Clicks).
Обработка профиля: User Profiler анализирует историю. Количество кликов (10) и временной интервал (time_span = 1 месяц) превышают пороги. «NewsSite.com» добавляется в User-Preferred Search Results с высокой Popularity Metric.
Новый запрос: Пользователь вводит общий запрос «последние новости технологий».
Ранжирование: В стандартной выдаче статья с «NewsSite.com» находится на 7 позиции.
Переранжирование: Search Result Ranker идентифицирует совпадение с профилем. Учитывая высокую Popularity Metric, система применяет значительное смещение (offset) и перемещает результат с 7 на 1 или 2 позицию.
Результат: Пользователь видит предпочитаемый им источник в самом верху выдачи.

Вопросы и ответы

Что важнее для попадания в «Предпочитаемые результаты»: много кликов за один день или несколько кликов в течение недели?

Важнее несколько кликов в течение недели. Патент (в частности, Claim 1 и Claim 2) явно указывает на необходимость выполнения двух условий: минимальное количество кликов И минимальный временной интервал (time_span или minimum duration) между первым и последним кликом (например, 3 дня). Это сделано специально, чтобы отсеять временные всплески интереса и выявить устойчивые предпочтения пользователя.

Что такое «Длинный клик» (Long click-through) и почему он так важен в этом патенте?

Длинный клик — это посещение страницы из поиска, которое длится не менее определенного минимального времени (в патенте упоминается пример 20 секунд). Он служит индикатором удовлетворенности пользователя найденным контентом. В патенте Long click-through rate используется как основная целевая метрика для машинного обучения при расчете Popularity Metric, то есть система стремится максимизировать именно такие взаимодействия.

Влияет ли этот механизм на ранжирование сайта для новых пользователей, которые никогда на нем не были?

Напрямую нет. Описанный механизм является системой персонализации и корректирует выдачу только для тех пользователей, у которых уже есть история взаимодействия с сайтом. Однако работа над улучшением поведенческих факторов (например, увеличение Long click-throughs), необходимая для этого механизма, может косвенно улучшить общие сигналы качества сайта.

Как система определяет, насколько сильно повысить предпочитаемый результат?

Степень повышения (offset) зависит от рассчитанной Popularity Metric. Чем выше эта метрика (то есть чем чаще, дольше и недавнее пользователь взаимодействовал с результатом, или чем выше предсказанный Long click-through rate), тем агрессивнее будет повышение позиции в выдаче.

Может ли сайт выпасть из списка предпочитаемых результатов?

Да. В расчете Popularity Metric используется фактор time_decay (время с момента последнего клика). Если пользователь перестал взаимодействовать с сайтом, его Popularity Metric будет снижаться. При обновлении профиля сайт может быть исключен, если его метрика упадет ниже порога или он будет вытеснен более актуальными ресурсами.

Работает ли этот механизм, если пользователь не вошел в аккаунт Google?

Патент не уточняет метод идентификации, указывая лишь на наличие User Identifier. Это может быть идентификатор аккаунта, но также могут использоваться cookies или другие методы для связи истории поиска с конкретным браузером, даже если пользователь не авторизован.

Учитывает ли система предпочтения на уровне всего сайта или только конкретных URL?

Патент описывает оба варианта. В некоторых реализациях система может идентифицировать совпадение, если URL в текущей выдаче имеет общий источник (например, хост или домен) с User-Preferred Search Result. Это означает, что работа над качеством всего сайта и лояльностью к домену является эффективной стратегией.

Что такое «Хороший клик» (Good click-through) и чем он отличается от «Длинного»?

Good click-through — это Long click-through (пользователь остался на странице надолго), после которого пользователь вернулся обратно в выдачу (SERP). Это отличается от Single click-through, когда пользователь ушел и не вернулся. Good click-through может указывать на то, что пользователь нашел полезную информацию, но продолжил поиск.

Что такое Co-Occurrence Table и как она используется?

Патент описывает Co-Occurrence Table для расширения профиля пользователя (Supplemental Search Result Selection). Она показывает, какие результаты часто встречаются вместе в профилях разных пользователей. Если пользователь предпочитает А, и многие пользователи, предпочитающие А, также предпочитают Б, система может добавить Б в профиль пользователя, даже если у него недостаточно истории по Б.

Как SEO-специалисту использовать эти знания на практике?

Ключевой вывод — необходимо сместить фокус с простого привлечения трафика на построение ресурса, который становится регулярным и надежным источником для пользователя. Это включает обеспечение высокого качества контента для стимулирования Long clicks, работу над UX и стратегию удержания (подписки, регулярные обновления), чтобы обеспечить повторные визиты и выполнение условия time_span.