SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

MODIFYING SEARCH RESULT RANKING BASED ON IMPLICIT USER FEEDBACK AND A MODEL OF PRESENTATION BIAS (Модификация ранжирования результатов поиска на основе неявной обратной связи пользователя и модели предвзятости представления)
  • US8938463B1
  • Google LLC
  • 2007-03-12
  • 2015-01-20
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

Описание

Какую проблему решает

Патент решает критическую проблему интерпретации неявной обратной связи пользователей (Implicit User Feedback), такой как клики (CTR). Проблема заключается в том, что пользователи кликают на результаты не только из-за их релевантности, но и из-за Presentation Bias (предвзятости представления). Это включает позицию результата (пользователи склонны кликать на верхние результаты независимо от качества) и визуальные аспекты (привлекательность сниппета, выделение жирным шрифтом). Изобретение направлено на то, чтобы отделить влияние этих факторов от истинного сигнала релевантности, содержащегося в кликах, тем самым повышая точность ранжирования.

Что запатентовано

Запатентована система и метод создания и использования Prior Model (Априорной модели), которая моделирует Presentation Bias. Эта модель предсказывает фоновую вероятность клика (ожидаемый CTR) на результат, основываясь на наборе признаков, связанных с его представлением (позиция, визуальное оформление) и контекстом выдачи. Цель – использовать эту модель для нормализации реальных данных о кликах, чтобы уменьшить влияние предвзятости представления на ранжирование.

Как это работает

Система работает в два этапа: офлайн-построение модели и онлайн-применение.

  • Построение Prior Model (Офлайн): Система анализирует обширные логи пользовательских кликов (User Selections Logs) по множеству разных запросов. Извлекаются признаки, характеризующие представление результата (например, позиция, длина сниппета, наличие рекламы). Затем система вычисляет вероятность клика для различных комбинаций этих признаков, независимо от конкретного запроса.
  • Применение модели (Онлайн): Во время ранжирования система получает реальный сигнал обратной связи для документа (например, Click Fraction). Одновременно Prior Model предсказывает ожидаемый CTR для этого документа, учитывая его текущую позицию и оформление. Реальный CTR сравнивается с предсказанным. Если реальный CTR значительно выше предсказанного, это интерпретируется как сильный сигнал релевантности, и результат получает повышение (boost).

Актуальность для SEO

Критически высокая. Точная интерпретация поведенческих факторов является одним из ключевых элементов современного машинного обучения в ранжировании. Понимание и компенсация позиционной предвзятости (Position Bias) и других видов Presentation Bias абсолютно необходимы для эффективного использования CTR в качестве сигнала качества. Этот патент описывает фундаментальный механизм для решения этой задачи.

Важность для SEO

Патент имеет критическое значение (10/10) для понимания того, как Google оценивает успех контента. Он показывает, что высокий CTR сам по себе недостаточен для улучшения ранжирования. Важен CTR относительно ожидаемого уровня для данной позиции и способа представления. Это означает, что SEO-стратегии должны фокусироваться на создании контента, который не просто привлекает клики, но и демонстрирует релевантность и удовлетворенность пользователя, превосходящие ожидания, основанные на его позиции в выдаче.

Детальный разбор

Термины и определения

Presentation Bias (Предвзятость представления)
Факторы, влияющие на вероятность клика пользователя, которые не связаны напрямую с качеством или релевантностью документа. Включает позицию (Position Bias), привлекательность сниппета, выделение жирным шрифтом, наличие рекламы и т.д.
Prior Model (Априорная модель)
Модель (например, логистическая регрессия), которая представляет фоновую вероятность выбора результата пользователем при заданных значениях признаков (Presentation Features и Relevance Features). Часто строится независимо от конкретного запроса.
Implicit User Feedback (Неявная обратная связь пользователя)
Данные о взаимодействии пользователя с результатами поиска (клики, время пребывания на документе), используемые как сигнал для оценки релевантности.
Implicit User Feedback Model
Модель, которая агрегирует неявную обратную связь для оценки релевантности документа в контексте запроса (например, модель, рассчитывающая Click Fraction).
Click Fraction (Доля кликов)
Метрика для Implicit User Feedback Model. Рассчитывается как отношение взвешенных кликов на документ по запросу к общему числу взвешенных кликов по этому запросу.
User Selections Logs (Логи выбора пользователей)
Хранилище данных о взаимодействиях пользователей с SERP, включающее запросы, клики, время на документе, а также значения признаков для показанных результатов.
Presentation Features (Признаки представления)
Признаки, индикативные для Presentation Bias (например, позиция, длина сниппета, количество выделенных слов).
Relevance Features (Признаки релевантности)
Признаки, индикативные для качества или релевантности документа (например, базовый IR score, язык, страна).
Document Dwell Time / Staytime (Время пребывания на документе)
Время между кликом на результат и возвратом пользователя на страницу выдачи. Используется для взвешивания кликов (длинные клики обычно лучше коротких).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс создания и использования модели для снижения влияния предвзятости представления.

  1. Система получает информацию о выборе результатов поиска по множеству запросов.
  2. Эта информация включает признаки предвзятости представления (presentation bias features), включая ранг (позицию), и признаки релевантности (relevancy features).
  3. Система обучает модель (Prior Model) на этой информации для предсказания CTR на основе этих признаков.
  4. Модель предоставляется поисковой системе.
  5. Поисковая система использует предсказания модели (предсказанный CTR), чтобы уменьшить влияние Presentation Bias при ранжировании. Это достигается путем определения оценки качества (quality score) и исключения независимых эффектов предвзятости представления из этой оценки с помощью предсказаний модели.

Claim 5 (Зависимый от 1): Детализирует обучение модели путем разделения на две модели.

  1. Обучается первая модель, предсказывающая CTR на основе признаков предвзятости представления.
  2. Обучается вторая модель, предсказывающая CTR на основе признаков релевантности.

Claim 6 (Зависимый от 5): Описывает использование двух моделей.

Поисковая система использует предсказания первой и второй моделей для корректировки оценок ранжирования (ranking scores) результатов поиска с целью снижения Presentation Bias. Это может включать расчет отношения между предсказаниями двух моделей (Claim 7).

Claim 8 (Зависимый от 1): Описывает механизм корректировки ранжирования.

Поисковая система использует сравнение предсказаний Prior Model (ожидаемый CTR) с данными из Implicit User Feedback Model (например, реальным Click Fraction) для корректировки оценок ранжирования.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя данные, собранные на этапе взаимодействия с пользователем, и влияя на финальное ранжирование.

INDEXING / Офлайн-процессы (Анализ данных)
Критически важный компонент. На этом этапе (или в рамках отдельных офлайн-процессов анализа логов) происходит построение Prior Model. Система анализирует User Selections Logs, извлекает Presentation Features и Relevance Features и обучает модель предсказывать CTR независимо от запроса.

RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента происходит на финальных стадиях ранжирования (L3 или Reranking).

  1. Получение сигналов: Система получает базовые IR-оценки и сигналы от Implicit User Feedback Model (например, реальный Click Fraction – аспект релевантности документа).
  2. Предсказание Bias: Система оценивает текущие признаки для документа в SERP и использует Prior Model для получения предсказанного CTR (сигнал, соответствующий аспекту представления).
  3. Комбинирование сигналов: Система комбинирует реальный сигнал и предсказанный сигнал предвзятости для формирования итогового сигнала релевантности (Relevance Signal), очищенного от Presentation Bias.
  4. Переранжирование: Итоговый сигнал используется для корректировки ranking scores.

Входные данные:

  • Логи пользовательских взаимодействий (Запросы, Клики, Временные метки).
  • Значения Presentation Features (позиция, сниппеты, форматирование) и Relevance Features (базовые IR scores) для показанных результатов.
  • Сигнал от Implicit User Feedback Model (реальный CTR/Click Fraction).

Выходные данные:

  • Prior Model (результат офлайн-обучения).
  • Скорректированный сигнал релевантности или Boost фактор, применяемый к ranking scores (онлайн).

На что влияет

  • Все типы контента и запросов: Механизм универсален и применяется ко всем результатам поиска, где используется неявная обратная связь. Он влияет на интерпретацию CTR для любого документа.
  • Результаты на первой странице: Наибольшее влияние оказывается на результаты в ТОП-10, где Position Bias наиболее выражен. Результат на позиции 1 имеет очень высокий ожидаемый CTR из-за предвзятости, поэтому ему труднее получить буст, чем результату на позиции 8.
  • Визуально привлекательные результаты: Результаты с оптимизированными сниппетами, удачным форматированием или привлекательными заголовками также будут иметь более высокий ожидаемый CTR согласно Prior Model, что усложняет получение буста за счет поведенческих факторов.

Когда применяется

  • Триггер активации: Алгоритм применяется всегда, когда для ранжирования используются данные Implicit User Feedback. Компенсация предвзятости является неотъемлемой частью интерпретации этих данных.
  • Условия применения: Для применения необходимы две составляющие: наличие обученной Prior Model и наличие данных о реальных кликах.
  • Обработка новых документов: Патент также описывает возможность использования отдельной модели (FIG. 4E) для оценки результатов, по которым нет исторических данных о кликах.

Пошаговый алгоритм

Процесс А: Построение Prior Model (Офлайн)

  1. Сбор данных: Получение доступа к User Selections Logs, содержащим данные о показах и кликах по множеству запросов.
  2. Извлечение признаков: Для каждого показанного результата извлечение множества признаков. Это включает Presentation Bias Features (позиция, форматирование, длина сниппета, наличие рекламы) и Relevance Features (IR score документа, IR score предыдущего/следующего документа, язык, страна).
  3. Агрегация данных: Сбор статистики кликов (включая короткие, средние, длинные клики) по всем запросам для различных комбинаций значений извлеченных признаков.
  4. Обучение модели: Определение независимой от запроса вероятности выбора (предсказанный CTR) при заданных признаках. Это может быть реализовано через линейную или логистическую регрессию. Результатом является Prior Model.
  5. (Вариант) Обучение двух моделей: Обучение первой модели на полном наборе признаков и второй модели на подмножестве (например, только Relevance Features или только Presentation Features).

Процесс Б: Применение Prior Model (Онлайн, во время ранжирования)

  1. Получение первого сигнала (Релевантность): Получение сигнала от Implicit User Feedback Model (например, реальный Click Fraction (a)) для документа в контексте запроса.
  2. Получение второго сигнала (Представление): Оценка текущих признаков для документа. Использование Prior Model для предсказания ожидаемого CTR (p) на основе этих признаков.
  3. Комбинирование сигналов: Объединение первого и второго сигналов для формирования итогового сигнала релевантности. Это реализуется через сравнение реального и предсказанного CTR. Например, расчет коэффициента повышения (Boost), зависящего от отношения a/p.
  4. Корректировка ранжирования: Применение итогового сигнала для корректировки ranking score документа.
  5. (Вариант) Обработка новых документов: Если для документа нет данных в Implicit User Feedback Model, система может использовать третью модель (обученную на редких результатах) для предсказания его релевантности.
  6. Финальное ранжирование: Пересортировка результатов на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Патент детализирует широкий спектр факторов, используемых для построения Prior Model.

  • Поведенческие факторы (Ключевые данные): Клики (user selections), время пребывания на документе (Dwell Time/Staytime) для классификации кликов (короткие, средние, длинные). Логи запросов.
  • Контентные/Визуальные факторы (Presentation Features):
    • Длина заголовка, сниппета и URL.
    • Количество выделенных жирным терминов (Bold Terms) в заголовке и сниппете.
    • Позиция выделенных терминов.
    • Наличие привлекательных или отталкивающих терминов (в патенте используется пример Porn Terms).
  • Структурные/Контекстные факторы SERP (Presentation Features):
    • Позиция (Rank) результата.
    • Страница выдачи.
    • Наличие и качество рекламы (Ads).
    • Наличие специальных результатов (Onebox).
    • Формат представления (например, отступ/Indentation, цвет фона).
  • Факторы соседних результатов (Context/Relevance Features):
    • Качество (IR score) предыдущих и следующих результатов.
    • Признаки представления (длина сниппета, форматирование) предыдущих и следующих результатов.
  • Факторы запроса (Context/Relevance Features): Длина запроса, тип запроса (например, навигационный/информационный), конкретные термины запроса.
  • Пользовательские/Географические факторы (Context/Relevance Features): Язык интерфейса, страна пользователя.

Какие метрики используются и как они считаются

  • Predicted Click Through Rate (pCTR или 'p'): Основная метрика, вычисляемая Prior Model. Это вероятность клика при заданном наборе признаков представления и контекста.
  • Actual Click Through Rate (aCTR или 'a') / Click Fraction: Метрика из Implicit User Feedback Model, отражающая реальное поведение пользователей по конкретному запросу. Рассчитывается на основе взвешенных кликов.
  • Boost Factor (Коэффициент повышения): Метрика, используемая для корректировки ранжирования, основанная на сравнении aCTR и pCTR. Патент приводит несколько примеров формул для расчета Boost:
    • Boost=C∗(a/p)Boost = C * (a/p)Boost=C∗(a/p) (где C=константа).
    • Формулы на основе разницы (a−p)(a-p)(a−p) с различными коэффициентами и ограничениями (min/max).
  • Weighted Clicks (Взвешенные клики): Клики, взвешенные по времени пребывания на документе (Dwell Time). Длинные клики получают больший вес, чем короткие. Используются для расчета Click Fraction.

Выводы

  1. CTR должен превосходить ожидания: Ключевой вывод патента – высокий абсолютный CTR не гарантирует улучшения позиций. Для получения буста от поведенческих факторов реальный CTR документа должен быть выше, чем CTR, предсказанный Prior Model для его позиции и способа представления.
  2. Активная компенсация позиционной предвзятости: Система активно компенсирует преимущество высоких позиций. Результат на позиции 1 имеет очень высокий ожидаемый CTR (pCTR). Чтобы доказать свою релевантность, он должен показать исключительно высокий реальный CTR (aCTR) с хорошим удержанием.
  3. Относительность CTR и преимущество низких позиций: Результат на более низкой позиции (например, 7) имеет низкий pCTR. Ему требуется значительно меньший aCTR, чтобы превзойти ожидания и получить буст. Это позволяет качественным результатам подниматься с низких позиций.
  4. Влияние визуального представления (Сниппеты): Presentation Bias включает визуальные аспекты (сниппет, заголовок, форматирование). Привлекательный сниппет повышает pCTR. Если документ не оправдывает эту привлекательность (например, имеет высокий показатель коротких кликов), система может его пессимизировать.
  5. Контекст выдачи имеет значение: Prior Model учитывает контекст SERP, включая качество соседних результатов (их IR scores) и наличие отвлекающих элементов (реклама, Onebox). Присутствие сильных конкурентов или рекламы может изменить ожидаемый CTR для вашего результата.
  6. Интерпретация кликов сложна: Патент подчеркивает сложность интерпретации кликов, включая взвешивание по времени пребывания (Dwell Time) и учет типа запроса (информационный vs навигационный) для более точной оценки удовлетворенности пользователя.

Практика

Best practices (это мы делаем)

  • Оптимизация под удовлетворенность пользователя (User Satisfaction и Dwell Time): Фокусируйтесь на том, чтобы контент полностью отвечал на запрос пользователя и удерживал его внимание (длинные клики). Это гарантирует, что клики получат максимальный вес (Weighted Clicks) и реальный CTR (aCTR) будет интерпретирован как сигнал качества, превосходящий ожидания Prior Model (pCTR).
  • Реалистичная оценка CTR по позициям: При анализе эффективности учитывайте ожидаемый CTR для каждой позиции. Сравнивайте ваш реальный CTR с бенчмарками. Если результат на позиции 5 имеет CTR как у бенчмарка для позиции 3, это сильный положительный сигнал для Google.
  • Оптимизация сниппетов для релевантности, а не только кликабельности: Создавайте заголовки и описания, которые точно отражают содержание страницы. Привлекательные, но нерелевантные сниппеты могут увеличить pCTR и привести к коротким кликам, что в итоге приведет к пессимизации, так как система определит, что клики были обусловлены Presentation Bias, а не качеством контента.
  • Анализ контекста SERP: Оценивайте, как выглядит ваша выдача. Наличие рекламы, спецэлементов (Onebox) и форматирование конкурентов влияет на ожидаемый CTR вашего результата. Необходимо выделиться на общем фоне релевантностью.

Worst practices (это делать не надо)

  • Кликбейт и манипуляция сниппетами: Использование заголовков и сниппетов, которые привлекают клики, но не соответствуют содержанию страницы. Prior Model учтет привлекательность сниппета (повысив pCTR), а реальные данные покажут низкую удовлетворенность (короткие клики). Это приведет к выводу, что результат нерелевантен.
  • Искусственная накрутка CTR: Попытки искусственно завысить CTR. Во-первых, Google имеет механизмы фильтрации спам-кликов (упомянутые в патенте как анализ естественности поведения). Во-вторых, даже если клики засчитаны, если они не демонстрируют удовлетворенности (короткий Dwell Time), они будут иметь низкий вес при расчете aCTR и не помогут превзойти pCTR.
  • Игнорирование интента и типа запроса: Непонимание разницы между информационными и навигационными запросами. Патент упоминает, что ожидаемое время пребывания (Staytime) и паттерны кликов различаются для разных типов запросов, и это учитывается при взвешивании кликов.

Стратегическое значение

Этот патент подтверждает, что Google рассматривает SERP как экосистему, где взаимодействие пользователя с одним результатом зависит от контекста других. Стратегическое значение заключается в переходе от абсолютных метрик (CTR, Позиция) к относительным (CTR выше ожидаемого). Это фундаментальный механизм, позволяющий Google использовать машинное обучение для постоянного улучшения качества выдачи на основе поведения пользователей, минимизируя при этом риски манипуляций и естественные искажения, связанные с интерфейсом.

Практические примеры

Сценарий 1: Результат на низкой позиции демонстрирует высокую релевантность

  1. Ситуация: Ваш качественный обзор товара находится на позиции 8.
  2. Prior Model (pCTR): Из-за низкой позиции и стандартного сниппета модель предсказывает низкий ожидаемый CTR, например, 2%.
  3. Реальность (aCTR): Пользователи, которые видят ваш результат, кликают на него с частотой 5% и проводят много времени на странице (длинные клики).
  4. Результат: Система видит, что aCTR (5%) значительно выше pCTR (2%). Рассчитывается высокий Boost Factor. Страница поднимается в выдаче.

Сценарий 2: Результат на высокой позиции не оправдывает ожиданий

  1. Ситуация: Ваша страница с кликбейтным заголовком находится на позиции 2.
  2. Prior Model (pCTR): Из-за высокой позиции и привлекательного заголовка модель предсказывает высокий ожидаемый CTR, например, 18%.
  3. Реальность (aCTR): Страница получает 17% кликов, но большинство пользователей быстро возвращаются в выдачу (короткие клики), что снижает вес этих кликов.
  4. Результат: Система видит, что взвешенный aCTR ниже или равен pCTR. Boost Factor нейтрален или отрицателен. Страница теряет позиции, уступая место более релевантным результатам.

Вопросы и ответы

Что такое Presentation Bias (Предвзятость представления) в контексте этого патента?

Presentation Bias – это совокупность факторов, которые влияют на вероятность клика на результат, но не связаны с его истинной релевантностью или качеством. Ключевым элементом является позиция результата (Position Bias): чем выше результат, тем чаще на него кликают. Также сюда входят визуальные аспекты: длина и привлекательность сниппета, количество выделенных жирным слов, наличие рекламы или спецэлементов (Onebox) рядом с результатом.

Как работает Prior Model и зачем она нужна?

Prior Model обучается на огромном массиве данных о кликах по разным запросам. Её задача – предсказать ожидаемый CTR (pCTR) для результата, основываясь на его Presentation Features (позиция, оформление) и контексте выдачи. Она нужна для того, чтобы установить базовый уровень ожидаемых кликов. Сравнивая реальный CTR (aCTR) с этим базовым уровнем (pCTR), система может понять, кликают ли на результат из-за его качества или просто потому, что он находится на первом месте.

Означает ли этот патент, что высокий CTR больше не важен для SEO?

Высокий CTR по-прежнему критически важен, но патент уточняет, что важен не абсолютный, а относительный CTR. Ваш CTR должен быть выше, чем ожидаемый CTR для вашей позиции и способа представления. Если результат на позиции 1 имеет 30% CTR, но ожидаемый CTR для этой позиции составляет 32%, это может быть негативным сигналом. Важно максимизировать CTR, демонстрируя при этом высокую удовлетворенность пользователя (длинные клики).

Как этот механизм влияет на результаты на низких позициях (например, ТОП 7-10)?

Этот механизм очень помогает качественным результатам на низких позициях. Ожидаемый CTR (pCTR) для позиции 8 очень низок. Если ваш результат на этой позиции сможет показать даже средний реальный CTR (aCTR), который будет значительно выше pCTR, он получит существенный буст. Это позволяет системе обнаруживать релевантные документы, которые изначально были недооценены базовыми алгоритмами ранжирования.

Как Google учитывает качество сниппета в этой модели?

Качество и привлекательность сниппета учитываются как Presentation Features при построении Prior Model. Признаки могут включать длину сниппета, количество выделенных слов, наличие привлекательных терминов. Если сниппет привлекателен, Prior Model предскажет более высокий ожидаемый CTR (pCTR). Это означает, что результату придется демонстрировать еще более высокий реальный CTR (aCTR), чтобы доказать свою релевантность.

Что произойдет, если я использую кликбейт для повышения CTR?

Использование кликбейта – проигрышная тактика. Во-первых, привлекательность заголовка может повысить ожидаемый CTR (pCTR). Во-вторых, кликбейт обычно ведет к низкой удовлетворенности и коротким кликам. Патент описывает взвешивание кликов по времени пребывания (Dwell Time). Короткие клики имеют низкий вес, что снижает итоговый взвешенный aCTR. В результате система увидит, что результат не оправдал ожиданий, и понизит его в выдаче.

Учитывает ли модель контекст соседних результатов?

Да, патент явно указывает, что Prior Model может учитывать признаки соседних результатов. Это включает как их качество (например, базовые IR scores), так и их представление (сниппеты, форматирование). Например, если ваш результат находится после очень сильного и привлекательного результата, ожидаемый CTR для вашего результата может быть ниже, так как пользователи склонны выбирать предыдущий.

Как система обрабатывает новые документы, по которым еще нет статистики кликов?

Патент предлагает вариант решения этой проблемы (описанный в FIG. 4E). Система может использовать отдельную модель (третью модель), обученную специально на редких или нечасто кликаемых результатах. Эта модель использует доступные признаки (например, позицию, IR score, язык) для предсказания базового уровня релевантности для новых документов, пока не будет накоплено достаточно данных.

Влияет ли наличие рекламы или спецблоков (Onebox) на ранжирование органических результатов через эту модель?

Да, влияет. Наличие рекламы (Ads) и специальных результатов (Onebox) указаны как признаки для Prior Model. Эти элементы могут отвлекать внимание пользователя и снижать CTR органических результатов. Prior Model учтет это и скорректирует ожидаемый CTR (pCTR) для органики в зависимости от контекста выдачи.

На каком этапе ранжирования применяется эта модель?

Применение модели происходит на финальных этапах ранжирования или переранжирования (Reranking). Система использует Prior Model для корректировки сигналов, полученных от Implicit User Feedback Model, перед тем как определить финальный порядок результатов. Это позволяет скорректировать выдачу на основе актуальных данных о поведении пользователей и текущем представлении SERP.

Похожие патенты

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует CTR и разницу в оценках релевантности для визуального выделения доминирующего результата в выдаче
Google может визуально выделять результат поиска (например, с помощью миниатюры страницы), если система уверена, что это именно то, что ищет пользователь. Эта уверенность основана на значительном превосходстве результата над всеми остальными по показателям CTR (Click-Through Rate) и/или оценке релевантности (Relevance Score).
  • US7836391B2
  • 2010-11-16
  • SERP

  • Поведенческие сигналы

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

Популярные патенты

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом
Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).
  • US10402457B1
  • 2019-09-03
  • Ссылки

  • Антиспам

  • Краулинг

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов
Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.
  • US9342615B2
  • 2016-05-17
  • Техническое SEO

  • SERP

  • Ссылки

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

seohardcore