Google определяет текущий интерес пользователя (контекст) на основе его действий в рамках сессии (клики, посещенные сайты). Затем система использует специализированные кликовые модели, основанные на поведении прошлых пользователей с таким же контекстом, чтобы переранжировать результаты для следующих запросов пользователя, делая выдачу более релевантной его текущим задачам.
Описание
Какую задачу решает
Патент решает проблему неоднозначности поисковых запросов и разрыва между общими (наиболее популярными) результатами и текущим намерением пользователя. Например, запрос «мобильный телефон» может подразумевать покупку, чтение новостей или поиск определений. Стандартные кликовые модели (click models) усредняют поведение всех пользователей и часто отдают предпочтение наиболее популярному интенту. Данное изобретение позволяет адаптировать выдачу под специфический контекст текущей сессии пользователя.
Что запатентовано
Запатентована система контекстно-зависимого ранжирования. Ее суть заключается в определении текущего контекста (Context) пользователя (например, «покупки», «новости», «исследование») на основе его предыдущих действий в рамках поисковой сессии (Session). Для последующих запросов система применяет специализированную Contextual Click Model (Контекстную кликовую модель), основанную на поведении прошлых пользователей, находившихся в таком же контексте.
Как это работает
Система работает следующим образом:
- Мониторинг сессии: Отслеживаются действия пользователя (запросы и клики) в рамках текущей сессии.
- Определение контекста: Контекст определяется на основе анализа посещенных страниц. Ключевую роль играют Hub Sites (Узловые сайты), которые служат анкорями для определенных тематик.
- Разрешение неоднозначности: Если посещенный сайт относится к нескольким контекстам, система использует исторические данные для определения наиболее вероятного контекста, объединяет модели пропорционально вероятностям или даже может спросить пользователя.
- Выбор модели: Когда поступает новый запрос, система идентифицирует Contextual Click Model, соответствующую и запросу, и контексту сессии.
- Переранжирование: Стандартные результаты поиска (и их IR Scores) переранжируются с использованием этой модели, повышая вес ресурсов, которые предпочитали прошлые пользователи в аналогичной ситуации.
Актуальность для SEO
Высокая. Понимание контекста сессии и сиюминутного интента пользователя является центральным элементом современных поисковых систем. Механизмы персонализации и адаптации выдачи на основе поведения пользователя в реальном времени (например, концепция Search Journeys) активно развиваются. Этот патент описывает фундаментальный подход к использованию поведенческих данных, сегментированных по контексту.
Важность для SEO
Влияние на SEO высокое (8/10). Патент демонстрирует, что ранжирование является динамическим и зависит от непосредственного пути пользователя (User Journey), а не только от самого запроса. Это смещает фокус с оптимизации под изолированный запрос на оптимизацию под задачу пользователя. Для SEO-специалистов критически важно понимать, как их сайт встраивается в различные контексты поиска (например, исследование vs. покупка).
Детальный разбор
Термины и определения
- Context (Контекст)
- Категория интереса пользователя в данный момент (например, «покупки», «новости», «путешествия»). Определяется на основе предыдущих действий пользователя в сессии.
- Contextual Click Model (Контекстная кликовая модель)
- Модель, связывающая запросы с выбранными результатами, но сегментированная по определенному контексту. Она отражает поведение только тех пользователей, которые находились в этом контексте.
- Hub Site / Hub Page (Узловой сайт / Узловая страница)
- Страница с высоким трафиком из поиска или большим количеством входящих ссылок. Используется как анкорь для определения контекста. Сессии, включающие клик на Hub Site, анализируются для построения контекстных моделей.
- IR Score (Information Retrieval Score)
- Базовая оценка релевантности документа запросу, используемая поисковой системой.
- Selection Metric (Метрика выбора)
- Показатель в кликовой модели, отражающий, как часто определенный результат выбирался для данного запроса в данном контексте (например, частота кликов/CTR).
- Click Quality Metric (Метрика качества клика)
- Показатель качества взаимодействия после клика. Упоминается возможность использования средней продолжительности визита пользователя (Dwell Time).
- Session (Сессия)
- Группа действий пользователя (запросы, клики), ограниченная определенными рамками (временем неактивности, логином/логаутом или логической связью между запросами).
- Cluster (Кластер)
- Набор веб-сайтов или страниц, которые часто посещаются вместе в рамках сессий, связанных с определенным Hub Site. Этот кластер определяет контекст.
Ключевые утверждения (Анализ Claims)
Патент US8818977B1 (продолжение более ранних заявок) фокусируется на механизме определения контекста, особенно в неоднозначных ситуациях.
Claims 1 и 24 (Независимые пункты): Описывают метод определения контекста пользователя, когда предыдущие действия пользователя указывают на несколько возможных контекстов.
- Система определяет контекст пользователя на основе контента, предоставленного в текущей сессии.
- Определяется, что пользователь взаимодействовал со страницей (например, Hub Page в Claim 1 или любая страница из кластера в Claim 24), которая ассоциирована как с Контекстом А, так и с Контекстом Б.
- Система анализирует исторические данные о предыдущих сессиях, которые включали запрос этой же страницы.
- Вычисляется Метрика А: частота, с которой эти предыдущие сессии были определены как часть Контекста А.
- Вычисляется Метрика Б: частота, с которой эти предыдущие сессии были определены как часть Контекста Б.
- Текущий контекст пользователя определяется как Контекст А или Контекст Б на основе сравнения Метрики А и Метрики Б (выбирается наиболее вероятный).
- Пользователь вводит новый поисковый запрос.
- Система предоставляет ранжированные результаты, используя Contextual Click Model, соответствующую определенному (наиболее вероятному) контексту.
Claim 4 и 5 (Зависимые): Описывают альтернативный вариант, когда система определяет несколько контекстов и объединяет (merging) соответствующие кликовые модели. Объединение включает масштабирование (scaling) Selection Metric каждой модели на основе вероятности того, что данный контекст применим к текущей сессии.
Claim 12 (Зависимый): Описывает вариант, когда при неоднозначности контекста пользователю предоставляется выбор (prompt), и контекст назначается на основе ввода пользователя.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя предварительно вычисленные данные и применяя их в реальном времени.
INDEXING / QUNDERSTANDING (Офлайн-обработка)
На этом этапе происходит предварительная подготовка данных. Система анализирует Query/Click Log для идентификации Hub sites, определения контекстов (кластеризации сайтов вокруг узлов) и генерации Contextual Click Models для различных запросов в рамках каждого контекста.
QUNDERSTANDING – Понимание Запросов (Онлайн)
Система должна понимать не только сам запрос, но и контекст сессии, в рамках которой он задан. В реальном времени Session Identification Component отслеживает активность, а Context Recognition Component анализирует посещенные страницы и определяет текущий контекст сессии, включая разрешение неоднозначности.
RANKING / RERANKING – Ранжирование / Переранжирование
Основное применение патента. После того как базовые результаты получены и оценены (IR Scores), Click Model Identification Component извлекает подходящую Contextual Click Model. Эта модель используется для корректировки оценок и переранжирования результатов перед показом пользователю.
Входные данные:
- Текущий поисковый запрос и история действий пользователя в текущей сессии.
- База данных предварительно рассчитанных Contextual Click Models и определений Hub Sites.
- Исторические данные о частоте контекстов (для разрешения неоднозначности).
- Базовые оценки ранжирования (IR Scores).
Выходные данные:
- Переранжированный список результатов поиска, адаптированный под контекст сессии.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, которые могут иметь разный интент в зависимости от контекста (например, «Apple» — компания vs. фрукт; «Jaguars» — команда vs. автомобиль).
- Типы контента и Ниши: Влияет на все ниши, где пользователи выполняют задачи, требующие нескольких шагов (e-commerce, travel, исследования). В зависимости от контекста приоритет могут получать разные типы контента (товары vs. обзоры).
Когда применяется
- Условия активации: Алгоритм активируется, когда система может идентифицировать контекст текущей сессии на основе предыдущих действий пользователя (например, после клика на сайт, являющийся частью определенного контекстного кластера или Hub Site).
- Ограничения: Применяется только в рамках активной сессии. Если контекст не определен (например, первый запрос в сессии) или если для данного запроса нет данных в Contextual Click Model, используется стандартное ранжирование.
Пошаговый алгоритм
Процесс А: Офлайн-построение моделей
- Идентификация Hub Sites: Определение ключевых сайтов на основе трафика, ссылочного профиля или ручной разметки.
- Анализ логов и сессий: Анализ исторических данных (Query/Click Log) для идентификации сессий, включающих клики на Hub Sites.
- Определение Контекстов (Кластеризация): Агрегация других сайтов, посещенных в рамках этих сессий, в кластеры. Каждый кластер определяет контекст.
- Фильтрация выбросов: Удаление из кластеров сайтов, которые посещались редко (ниже порога), чтобы уточнить контекст.
- Построение Contextual Click Models: Для каждого контекста агрегируются все запросы, сделанные в рамках соответствующих сессий. Для каждого запроса записываются клики и рассчитываются Selection Metrics.
- Расчет метрик вероятности: Для сайтов, входящих в несколько контекстов, рассчитываются частотные метрики для использования в разрешении неоднозначности.
Процесс Б: Обработка запроса в реальном времени
- Идентификация сессии: Система определяет, является ли текущее действие частью активной сессии.
- Определение контекста: На основе предыдущих кликов в сессии система определяет контекст пользователя.
- Разрешение неоднозначности (Ключевой этап): Если предыдущий клик был на сайт, принадлежащий нескольким контекстам, система вычисляет вероятность каждого контекста на основе исторических частот (как описано в Claims 1 и 24) и выбирает наиболее вероятный (или смешивает модели).
- Получение нового запроса: Пользователь вводит запрос.
- Поиск модели: Система ищет Contextual Click Model для этого запроса в рамках определенного контекста.
- Применение модели и Ранжирование: Если модель найдена, она используется для корректировки IR scores результатов. Результаты, имеющие высокие Selection Metrics в этой модели, повышаются в выдаче.
Какие данные и как использует
Данные на входе
Основной тип данных, используемых в этом патенте, — поведенческие.
- Поведенческие факторы:
- Логи запросов и кликов (Query/Click Logs): Критически важные данные для определения контекста и построения кликовых моделей офлайн.
- История сессии: Текущие действия пользователя, используемые для определения контекста в реальном времени.
- Ссылочные факторы: Косвенно используются для идентификации Hub Sites (упоминается, что они могут определяться по количеству ссылающихся страниц).
- Системные данные: IR Scores, которые корректируются кликовой моделью.
Какие метрики используются и как они считаются
- Selection Metric (Метрика выбора): Частота или количество выборов определенного URL для данного запроса в рамках определенного контекста.
- Click Quality Metric (Метрика качества клика): Упоминается возможность использования метрики качества клика, например, средней продолжительности визита пользователя после клика (Dwell Time).
- Context Frequency Metrics / Вероятность контекста: Используются для разрешения неоднозначности. Рассчитывается как частота, с которой сессии, включающие посещение определенной страницы, принадлежали к Контексту А по сравнению с Контекстом Б.
- Expected Selection Rate (Ожидаемый CTR): В одном из вариантов реализации упоминается сравнение фактического CTR результата с ожидаемым CTR для его позиции. Дисконтирование может применяться, если результат недополучает клики (underperforming). Формула дисконтирования может быть: Фактический CTR / Ожидаемый CTR.
- Пороги включения в кластер: Минимальное количество или частота посещений сайта в рамках сессий, связанных с Hub Site, для включения этого сайта в контекстный кластер.
Выводы
- Ранжирование динамично и зависит от сессии: Поисковая выдача может радикально меняться в зависимости от действий, совершенных пользователем минуты назад. Контекст сессии может переопределить общую популярность результатов.
- Сегментация кликовых данных по контексту: Google не просто использует агрегированные кликовые данные. Система сегментирует их по контекстам. Популярность результата в одном контексте (например, «покупки») не обязательно повлияет на его ранжирование в другом (например, «исследование»).
- Контекст определяется кластерами сайтов и Hub Sites: Контекст определяется как набор сайтов (кластер), которые пользователи часто посещают вместе. Hub Sites (авторитетные ресурсы) служат анкорями для определения этих кластеров. Ассоциация с Hub Sites (через совместное посещение) помогает Google понять контекст вашего ресурса.
- Вероятностное разрешение неоднозначности: Патент детально описывает, как система справляется с ситуациями, когда сайт принадлежит нескольким контекстам. Она опирается на исторические вероятности для выбора доминирующего контекста или смешивает несколько кликовых моделей пропорционально их вероятности.
- Поведенческие факторы как основа моделей: Contextual Click Models строятся на основе реального поведения пользователей (CTR, возможно Dwell Time). Удовлетворение интента пользователя в рамках конкретного контекста критически важно для попадания в модель.
Практика
Best practices (это мы делаем)
- Оптимизация под User Journey и Контексты: Необходимо понимать, в каких контекстах пользователи приходят на сайт (например, исследование, сравнение, покупка). Создавайте и оптимизируйте контент под конкретные задачи пользователя в рамках этих контекстов. Сайт должен четко соответствовать определенному контексту, чтобы система могла его правильно классифицировать.
- Улучшение поведенческих сигналов в целевых контекстах: Поскольку модели основаны на Selection Metrics (CTR) и потенциально на Click Quality Metrics (Dwell Time), критически важно максимизировать эти показатели. Сниппеты должны быть оптимизированы под интент в конкретном контексте, а контент должен полностью удовлетворять этот интент.
- Развитие Topical Authority и становление «Hub Site»: Стремитесь к тому, чтобы ваш сайт стал авторитетным ресурсом (Hub Site) в своей нише или, как минимум, частью авторитетного контекстного кластера. Это достигается за счет полного охвата тематики и построения сильной тематической авторитетности.
- Анализ совместного посещения (Co-visitation Analysis): Изучайте, какие сайты пользователи посещают до и после вашего. Понимание того, с какими Hub Sites ассоциируется ваш ресурс, позволяет понять, в каких контекстуальных кластерах он находится и как Google его воспринимает.
Worst practices (это делать не надо)
- Смешение интентов и контекстов: Создание страниц, которые пытаются одновременно удовлетворить и информационный, и транзакционный интент без четкой структуры, может привести к тому, что страница не будет сильно ассоциирована ни с одним контекстом и не попадет в сильные Contextual Click Models.
- Оптимизация только под изолированные запросы: Игнорирование того, как пользователи попадают на страницу и куда идут дальше. Ценность страницы определяется не только ее релевантностью запросу, но и ее полезностью в рамках текущего контекста сессии.
- Накрутка поведенческих факторов: Искусственное манипулирование кликами вне естественного контекста пользователя может быть неэффективным. Система анализирует сессии целиком, и неестественные паттерны или клики на сайты, не входящие в кластер, могут быть отфильтрованы как шум (выбросы).
- Игнорирование качества клика (Dwell Time): Создание кликбейтных сниппетов без предоставления ценного контента приведет к низким Click Quality Metrics, что негативно скажется на позициях сайта в Contextual Click Models.
Стратегическое значение
Патент подтверждает стратегию Google по переходу от анализа изолированных запросов к пониманию задач и пути пользователя (User Journeys). Ранжирование становится динамичным и адаптивным. Для SEO это означает необходимость смещения фокуса на оптимизацию для выполнения задач (Task Completion) и обеспечение четких контекстуальных сигналов. Понимание пути пользователя и создание контента, который эффективно решает его задачи на каждом этапе, становится ключевым фактором успеха.
Практические примеры
Сценарий 1: Разрешение неоднозначности запроса
- Действие пользователя: Пользователь посещает сайт ESPN.com (идентифицирован как Hub site для контекста «Спорт»).
- Идентификация контекста: Система присваивает текущей сессии контекст «Спорт».
- Запрос: Пользователь вводит запрос «Jaguars».
- Применение модели: Система использует Contextual Click Model для запроса «Jaguars» в контексте «Спорт». Исторические данные показывают, что в этом контексте пользователи значительно чаще кликают на сайт футбольной команды Jacksonville Jaguars, чем на сайт автомобилей Jaguar.
- Результат: Сайт футбольной команды ранжируется значительно выше сайта автомобильного бренда.
Сценарий 2: Адаптация выдачи в процессе исследования товара
- Начало сессии: Пользователь вводит запрос «лучшие кроссовки для бега» и кликает на результат с сайта Runner’s World (Hub Site для контекста «Исследование/Обзоры»).
- Определение контекста: Система определяет контекст сессии как «Исследование».
- Следующий запрос: Пользователь вводит «Nike Pegasus цена».
- Применение модели: Система применяет Contextual Click Model для контекста «Исследование».
- Результат: В выдаче повышаются результаты, содержащие подробные обзоры Nike Pegasus со сравнением цен и отзывами экспертов, а не прямые листинги магазинов, так как исторические данные показывают, что пользователи в контексте «Исследование» предпочитают именно такие ресурсы для этого запроса.
Вопросы и ответы
Что такое «Контекст» (Context) в рамках этого патента?
Контекст — это категория текущего интереса или задачи пользователя, например, «покупки», «новости» или «исследование». Он определяется не по одному запросу, а на основе анализа действий пользователя (кликов по сайтам) в рамках текущей поисковой сессии. Контекст позволяет системе понять намерение пользователя за пределами буквального значения его запроса.
Что такое Contextual Click Model и чем она отличается от стандартной?
Стандартная кликовая модель учитывает поведение всех пользователей по данному запросу. Contextual Click Model учитывает поведение только тех пользователей, которые находились в определенном контексте. Например, для запроса «Ягуар» модель в контексте «Авто» будет предпочитать сайты о машинах, а в контексте «Спорт» — сайты о футбольной команде.
Как определяются «Hub Sites» (Узловые сайты) и какова их роль?
Hub Sites — это авторитетные сайты с высоким трафиком или большим количеством входящих ссылок. Они служат анкорями для определения контекста. Система анализирует исторические сессии, которые включали посещение Hub Site, и смотрит, какие еще сайты посещались в этих сессиях. Набор этих сайтов формирует кластер, который и определяет контекст.
Как система обрабатывает сайты, подходящие под несколько контекстов (например, Amazon — покупки и обзоры)?
Патент описывает несколько методов. Основной метод (Claims 1, 24): система анализирует исторические данные и вычисляет, как часто посещение этого сайта происходило в Контексте А и как часто в Контексте Б, выбирая наиболее вероятный. Альтернативные методы: система может смешивать (merge) кликовые модели из обоих контекстов пропорционально их вероятности или спросить пользователя напрямую.
Влияет ли этот патент на ранжирование первого запроса в сессии?
Как правило, нет. Для определения контекста системе необходимы предварительные действия пользователя в рамках сессии (например, клики по результатам). Для первого запроса контекст еще не определен, поэтому будет применяться стандартное ранжирование или модели, основанные на долгосрочной истории пользователя, а не на контексте текущей сессии.
Как долго сохраняется контекст сессии?
Патент определяет сессию как группу действий, ограниченную определенными рамками. Это может быть время неактивности (например, 5-10 минут), вход/выход из аккаунта или логическая связь между запросами. Как только сессия завершается по одному из этих критериев, контекст, определенный в рамках этой сессии, сбрасывается.
Какие поведенческие метрики используются в кликовой модели?
Основной метрикой является Selection Metric — частота или количество выборов результата (аналог CTR в контексте). Также патент упоминает возможность использования Click Quality Metric, например, средней продолжительности визита после клика (Dwell Time), что подчеркивает важность удовлетворения интента пользователя.
Как это влияет на SEO для сайтов e-commerce?
Для e-commerce важно четко позиционировать свои страницы в контексте «Покупка». Если пользователь находится в контексте «Исследование» (например, читал обзоры), стандартные листинги товаров могут ранжироваться ниже. Необходимо создавать контент для обоих контекстов и обеспечивать высокие поведенческие метрики на страницах товаров, чтобы они попадали в Contextual Click Model для покупок.
Как это влияет на SEO для информационных сайтов?
Информационные сайты имеют шанс стать Hub Sites для контекстов «Исследование» или «Новости». Это дает преимущество в ранжировании по смежным запросам в рамках сессии пользователя. Важно полностью раскрывать тему и удерживать пользователя на сайте, формируя сильные поведенческие сигналы в своем контексте.
Можно ли манипулировать контекстом для улучшения ранжирования?
Манипулировать контекстом сложно, так как он определяется на основе естественного поведения пользователя и сравнения с глобальными кластерами авторитетных сайтов. Попытки искусственно симулировать сессии могут быть неэффективны, так как система использует фильтрацию шума и выбросов (outliers) при построении моделей. Лучшая стратегия — естественным образом встраиваться в путь пользователя.