Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

RECOMMENDING PAIRWISE VIDEO COMPARISONS TO IMPROVE RANKING (Рекомендация парных сравнений видео для улучшения ранжирования)

US8688716B1
Google LLC
2012-06-15
2014-04-01

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

Какую проблему решает

Патент решает проблему эффективного и масштабируемого ранжирования огромного количества элементов (например, видео или веб-страниц), когда данные о пользовательских предпочтениях (голоса, клики, сравнения) ограничены, зашумлены или недостоверны. Цель — определить наилучшие элементы с наименьшим количеством сравнений, оптимизируя сбор данных (Active Learning) и повышая точность рейтинга.

Что запатентовано

Запатентована система для корректировки Quality Distributions (Вероятностных распределений качества) элементов на основе попарных сравнений. Ключевым механизмом является стратегический выбор следующей пары для сравнения путем максимизации ожидаемой Information Value (Информационной ценности, K). Эта ценность рассчитывается путем объединения «стоимости» потенциальной ошибки ранжирования (E) с вероятностью этой ошибки (P).

Как это работает

Система работает итеративно:

Вероятностная Оценка: Каждому элементу присваивается Quality Distribution (например, гистограмма), показывающая вероятность принадлежности к определенному уровню качества.
Ранжирование: Элементы ранжируются на основе их текущих распределений.
Расчет Информационной Ценности (K): Для пар (i, j) система рассчитывает: (1) Стоимость ошибки E(i,j) – насколько важно правильно ранжировать эту пару (критично для ТОП-позиций); (2) Вероятность ошибки P(i,j) – насколько вероятно, что текущий порядок неверен. K = E * P.
Планирование Сравнений (Active Learning): Система выбирает пару с наивысшим K для следующего сравнения (или анализа взаимодействия).
Обновление Распределений: Когда пользователь указывает предпочтение (например, кликом в SERP), Quality Distributions элементов обновляются.
Модификатор Доверия (α): Обновление взвешивается с учетом доверия (trustworthiness) к пользователю или достоверности сессии.

Актуальность для SEO

Высокая. Хотя патент фокусируется на видео, описанные методы актуальны для любых систем, использующих пользовательские сигналы для обучения ранжированию (Learning to Rank). Механизмы эффективного сбора данных и вероятностная интерпретация пользовательских предпочтений (включая клики в поиске, как прямо указано в патенте в разделе "Alternative Applications") являются фундаментальными для современных поисковых систем.

Важность для SEO

Патент имеет высокое стратегическое значение (7/10) для понимания того, как Google может интерпретировать поведенческие факторы. Он предлагает сложную вероятностную модель для использования кликов в SERP как «голосов» в попарном сравнении, включая учет позиций элементов и механизм фильтрации шума/манипуляций (α). Это дает глубокое понимание того, как сигналы пользовательского взаимодействия влияют на оценку качества.

Термины и определения

Quality Distribution (Распределение качества): Вероятностная модель качества элемента (видео, результата поиска). Представлена в виде гистограммы (histogram), где каждый столбец показывает вероятность того, что элемент имеет определенный уровень качества. Сумма всех вероятностей равна 1.
f(x) и C(x): f(x) - функция распределения (гистограмма). C(x) - кумулятивная функция распределения (накопленная сумма вероятностей). Используются для расчета вероятности победы и обновления распределений.
Pairwise Comparison (Попарное сравнение): Процесс выбора предпочтительного элемента из двух. Может быть явным (голосование) или неявным (например, интерпретация кликов и пропусков в SERP).
Information Value (K) (Информационная ценность): Метрика для определения того, какую пару элементов следует сравнить следующей (Active Learning). Рассчитывается как K = E * P. Максимизация K позволяет системе обучаться наиболее эффективно.
Cost (E) / Ranking Error (Стоимость ошибки ранжирования): Мера критичности ошибки в относительном порядке двух элементов. Ошибка между 1-й и 2-й позицией имеет гораздо более высокую стоимость (E), чем между 50-й и 51-й.
Ranking Error Probability (P) (Вероятность ошибки ранжирования): Вероятность того, что текущий относительный порядок двух элементов неверен, рассчитанная на основе их Quality Distributions. Высокое значение P указывает на неопределенность.
Comparison Scheduler (Планировщик сравнений): Компонент, который анализирует Information Value (K) и определяет последовательность сравнений.
Modifier (α) (Модификатор доверия): Коэффициент (от 0 до 1), используемый для взвешивания результата сравнения на основе доверия (trustworthiness) к пользователю или уверенности в самом акте сравнения (например, слишком быстрый клик).
Ranking Classifier (Классификатор ранжирования): (Упоминается в описании) ML-компонент, который анализирует признаки контента (аудио/видео) для прогнозирования начального Quality Distribution нового элемента (решение проблемы «холодного старта»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования и выбора сравнений.

Доступ к элементам (видео), каждый связан с Quality Distribution (основанным на исторических попарных сравнениях).
Определение ранжирования на основе Quality Distributions.
Расчет множества «стоимостей» (costs, эквивалент K) для попарных сравнений. Стоимость основана на ожидаемой стоимости неправильного ранжирования (E) И вероятности неправильного ранжирования (P).
Выбор пары для сравнения на основе рассчитанных стоимостей (максимизация информационной ценности K).
Предоставление пары и получение результата сравнения.
Обновление Quality Distribution для обоих элементов на основе результата.

Claim 5 (Зависимый от 1): Уточняет формулу расчета стоимости ошибки ранжирования (E).

Стоимость ошибки определяется как абсолютное значение разницы инверсий рейтингов двух элементов: $E(i,j) = |\frac{1}{R_i} - \frac{1}{R_j}|$ . Это математически гарантирует, что ошибки в топе выдачи имеют значительно больший вес.

Claim 2, 3, 4 (Зависимые от 1): Детализируют использование модификатора доверия (α).

Обновление Quality Distribution использует модификатор (α) для изменения влияния результата. Модификатор зависит от сущности (пользователя), выполняющей сравнение, и может корректироваться на основе истории соответствия её действий ожидаемым результатам (т.е. насколько пользователь надежен и согласуется с общей оценкой).

Где и как применяется

Хотя патент в основном описывает систему для ранжирования видео, он явно указывает (в разделе Alternative Applications) на возможность применения к ранжированию результатов поиска (search result items).

RANKING / RERANKING – Ранжирование и Переранжирование
Если система применяется к поисковой выдаче, она функционирует на этих этапах для интерпретации пользовательских взаимодействий:

Интерпретация кликов как сравнений: Система может интерпретировать клики в SERP как результат попарного сравнения. Например, клик на результат №3 может интерпретироваться как предпочтение результата №3 над результатами №1 и №2 (позиционное смещение).
Интерпретация позиций: Патент описывает: «Выбор элемента со второй страницы результатов поиска может быть интерпретирован как умеренное предпочтение перед другими элементами на второй странице, но как сильное предпочтение (strongly preferential) перед элементами на первой странице».
Взвешивание кликов: Используется модификатор доверия (α) для оценки надежности клика (например, слишком быстрый клик и возврат или клик от бота могут иметь низкий α).

CRAWLING & DATA ACQUISITION (Сбор данных)
Механизм стратегического выбора пар (максимизация K) может использоваться для оптимизации сбора данных для обучения моделей ранжирования (например, в задачах для асессоров Side-by-Side или при интерливинге/A/B тестировании SERP).

INDEXING – Индексирование и извлечение признаков
На этом этапе может работать Ranking Classifier (описанный в патенте) для анализа признаков контента (аудио/видео/текст) и определения начального Quality Distribution нового документа до сбора поведенческих данных.

На что влияет

Все типы контента и запросов: Механизм универсален и может применяться к любому набору элементов, требующих ранжирования на основе пользовательских предпочтений.
ТОП выдачи: Алгоритм расчета стоимости ошибки (E) специально разработан так, чтобы придавать экспоненциально большее значение точности ранжирования в верхней части списка (ТОП-10).
Новый контент: Система позволяет быстро интегрировать новый контент за счет инициализации через Ranking Classifier и высокого значения K из-за начальной неопределенности.

Когда применяется

Условия работы: Система работает непрерывно, обрабатывая входящие сигналы сравнения (клики/голоса).
Триггеры активации: Фокус на сборе данных (Active Learning) активируется, когда Quality Distributions широкие (высокая неопределенность P) у элементов, находящихся на важных позициях (высокая стоимость E).

Пошаговый алгоритм

Процесс А: Инициализация и Планирование (Active Learning)

Инициализация распределений: Каждому новому элементу присваивается начальное Quality Distribution (например, равномерное или на основе Ranking Classifier).
Расчет ранжирования: Система рассчитывает текущий рейтинг элементов, сравнивая их Quality Distributions.
Расчет стоимости ошибки (E): Для пар элементов (i, j) рассчитывается стоимость E, основанная на их позициях (R). $E(i,j) = |\frac{1}{R_i} - \frac{1}{R_j}|$ .
Расчет вероятности ошибки (P): Рассчитывается вероятность P(i,j), что их текущий порядок неверен.
Расчет информационной ценности (K): Рассчитывается $K(i,j) = E(i,j) * P(i,j)$ .
Планирование сравнений: Comparison Scheduler формирует последовательность сравнений, отдавая приоритет парам с наивысшим K.

Процесс Б: Обработка сравнения (Клика/Голоса)

Получение результата: Система получает результат сравнения (например, пользователь предпочел i, а не j; или кликнул на i, пропустив j).
Оценка доверия (α): Определяется модификатор α на основе надежности пользователя или характеристик взаимодействия (например, скорость выбора/клика).
Обновление распределений: Quality Distributions f(x) для победителя (i) и проигравшего (j) обновляются с использованием байесовского подхода.
Применение модификатора (α): Обновление корректируется с помощью α (Eq. 7 и 8 в патенте). Если α=1 (полное доверие), применяется полное обновление. Если α=0, результат игнорируется.
Нормализация: Распределения нормализуются, чтобы сумма вероятностей оставалась равной 1.
Возврат к Процессу А: Обновленные распределения используются для пересчета ранжирования и планирования.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Основные данные – это результаты попарных сравнений. В контексте поиска это клики на результаты в SERP, интерпретируемые как сигналы предпочтения одного результата над другим.
Пользовательские факторы: Данные о надежности пользователя (trustworthiness) используются для расчета модификатора α. Это может включать историю оценок пользователя и их соответствие общему мнению.
Временные/Технические факторы: Поведение во время сессии (например, время на просмотр/выбор, скорость клика). Слишком быстрое взаимодействие может снизить α.
Контентные/Мультимедиа факторы (Для инициализации): Патент упоминает использование Ranking Classifier для определения начального Quality Distribution. Для этого извлекаются низкоуровневые признаки: визуальные (цветовые гистограммы, HOG, SIFT, SURF) и аудио (спектрограммы, громкость).

Какие метрики используются и как они считаются

Quality Distribution (f(x)): Вероятностная гистограмма качества.
Information Value (K): $K(i,j) = E(i,j)P(i,j)$ . Используется для планирования сравнений.
Cost of Incorrect Ranking (E): Стоимость ошибки ранжирования. $E(i,j) = |\frac{1}{R_i} - \frac{1}{R_j}|$ .
Ranking Error Probability (P): Вероятность ошибки, рассчитываемая из сравнения Quality Distributions.
Modifier (α): Коэффициент доверия к результату сравнения (0-1).

Вероятностная природа качества и релевантности: Google может рассматривать качество/релевантность не как фиксированную величину, а как вероятностное распределение (Quality Distribution). Цель системы – постоянно снижать неопределенность и уточнять это распределение на основе новых данных.
Клики как попарные сравнения: Патент явно подтверждает возможность интерпретации кликов в SERP как сигналов предпочтения. Клик на результат ниже в выдаче интерпретируется как голос против результатов выше (позиционное смещение).
Значимость позиции при интерпретации кликов: Система учитывает позиции сравниваемых элементов. Клик на результат на второй странице является сильным сигналом предпочтения (strongly preferential) по сравнению с результатами на первой странице.
Доверие к пользователю и сессии (α): Не все клики одинаково полезны. Система имеет механизм (Модификатор α) для взвешивания влияния каждого клика на основе надежности пользователя или характеристик сессии (защита от шума и манипуляций).
Приоритет точности в ТОПе: Формула стоимости ошибки (E) подтверждает, что для Google критически важна точность ранжирования именно в самом верху выдачи. Ошибки в нижней части выдачи имеют минимальное влияние.
Эффективное обучение (Active Learning): Система оптимизирует сбор данных, фокусируясь на получении информации, которая максимально уточняет ранжирование там, где это важнее всего (высокое K).

Best practices (это мы делаем)

Фокус на удовлетворении интента (User Satisfaction): Критически важно, чтобы страница полностью удовлетворяла интент пользователя. Это снижает вероятность pogo-sticking (возврата в выдачу и клика на другой результат), что будет интерпретировано как проигрыш в попарном сравнении с конкурентом.
Оптимизация сниппетов для квалифицированных кликов: Сниппеты должны точно отражать содержание. Обманчивые сниппеты приведут к быстрым возвратам, что может интерпретироваться как негативный сигнал и, возможно, снизить модификатор доверия (α) для этого взаимодействия.
Анализ ТОП-10 как наивысший приоритет: Понимая, что точность в ТОПе имеет наивысший приоритет (высокий Cost E), необходимо сосредоточить усилия на том, чтобы быть объективно лучшим результатом среди первых позиций.
Стимулирование «длинных кликов» и удержания: Удержание пользователя на сайте (высокий Dwell Time) повышает вероятность того, что модификатор α для этого взаимодействия будет высоким, и сигнал предпочтения будет учтен с полным весом.

Worst practices (это делать не надо)

Манипуляция поведенческими факторами (Накрутка кликов): Попытки искусственно симулировать клики неэффективны. Механизм модификатора доверия (α) предназначен для фильтрации ненадежных пользователей или аномального поведения (например, боты, голосующие слишком быстро или однообразно).
Использование Clickbait заголовков: Привлечение нецелевого трафика, который быстро покидает сайт (pogo-sticking), напрямую вредит ранжированию, так как это интерпретируется как проигрыш в попарном сравнении с результатами, на которые пользователь перешел после вашего сайта.
Игнорирование позиций за пределами ТОП-10: Если ваш сайт находится на второй странице, но пользователи часто доходят до него и кликают, это является сильным позитивным сигналом (strongly preferential), указывающим на предпочтение вашего результата перед всей первой страницей.

Стратегическое значение

Патент предоставляет теоретическую основу для того, как Google может использовать данные о кликах для постоянной настройки ранжирования (Learning to Rank) с помощью вероятностных моделей. Для SEO-специалистов это подтверждает стратегическую важность обеспечения наилучшего пользовательского опыта и удовлетворения интента, поскольку именно эти сигналы питают описанную систему обучения и определяют, кто выигрывает в «сравнениях» на SERP.

Практические примеры

Сценарий 1: Интерпретация Pogo-Sticking (Возврат в выдачу)

Ситуация: Пользователь вводит запрос. Результат А на позиции №1, Результат Б на позиции №2.
Действие пользователя: Пользователь кликает на А, проводит там 5 секунд, возвращается в выдачу (pogo-sticking) и кликает на Б, где остается.
Интерпретация системы: Это интерпретируется как попарное сравнение, где Б предпочтительнее А.
Расчет доверия (α): Возврат из А был быстрым (признак неудовлетворенности). Доверие к этому сравнению (α) высокое.
Обновление: Quality Distribution Б смещается вверх, а Quality Distribution А смещается вниз.
Результат: Вероятность того, что Б будет ранжироваться выше А, увеличивается.

Сценарий 2: Клик на второй странице (Сильный сигнал)

Ситуация: Результат X на позиции №5 (Стр. 1), Результат Y на позиции №12 (Стр. 2).
Действие пользователя: Пользователь просматривает первую страницу, не кликает, переходит на вторую страницу и кликает на Y.
Интерпретация системы: Это интерпретируется как сильное предпочтение (strongly preferential) Y над X (и другими результатами первой страницы).
Обновление: Quality Distribution Y значительно улучшается, так как он «победил» результаты с более высоким изначальным рейтингом.
Результат: Результат Y с большей вероятностью переместится на первую страницу.

Означает ли этот патент, что клики (CTR) являются фактором ранжирования?

Да, но в сложной форме. Патент описывает механизм, который интерпретирует клики не просто как CTR, а как результаты попарных сравнений (голоса предпочтения). Клик на один результат рассматривается как голос против других (особенно тех, что выше). Эта интерпретация используется для обновления вероятностной оценки качества (Quality Distribution) этих результатов.

Как система защищается от накрутки кликов и поведенческих факторов?

Система использует Модификатор Доверия (α). Он оценивает надежность пользователя (trustworthiness) и самого акта взаимодействия. Если пользователь ведет себя как бот (например, кликает слишком быстро, действует однообразно) или его предыдущие оценки были ненадежными, его клики будут иметь низкий вес (α близок к 0) и не повлияют на ранжирование.

Что такое «Распределение качества» (Quality Distribution) и почему это важно?

Это вероятностная модель. Вместо фиксированной оценки (например, 7 из 10), система хранит вероятность для каждого уровня качества (гистограмму). Это позволяет системе учитывать неопределенность. По мере поступления новых данных (кликов/сравнений) система уточняет и сужает это распределение, становясь более уверенной в качестве элемента.

Что такое «Информационная ценность» (K) и как она используется Google?

Информационная ценность (K) показывает, насколько полезным будет сравнение двух конкретных элементов для уточнения общего рейтинга. Она высока, когда есть большая неопределенность (P) И когда это сравнение важно (высокая стоимость ошибки E, т.е. в ТОПе). Google может использовать это для эффективного сбора данных, например, выбирая пары для A/B тестов или задач асессоров (Side-by-Side).

Насколько важна позиция в выдаче согласно этому патенту?

Позиция критически важна. Во-первых, формула стоимости ошибки (E) придает огромный вес точности ранжирования в ТОПе. Во-вторых, при интерпретации кликов позиция определяет силу сигнала: клик на результат ниже (особенно на следующей странице) является более сильным сигналом предпочтения, чем клик на результат выше.

Как патент учитывает Pogo-sticking (возврат в выдачу)?

Pogo-sticking является явным сигналом для попарного сравнения. Если пользователь вернулся с результата А и кликнул на Б, это интерпретируется как предпочтение Б над А. Система обновит Quality Distributions обоих результатов, понизив А и повысив Б, особенно если возврат был быстрым.

Что делать, если мой сайт находится на второй странице?

Патент предполагает, что клики на второй странице могут быть очень ценными. Если пользователи пропускают первую страницу и кликают на ваш результат на второй, это интерпретируется как сильное предпочтение (strongly preferential) вашего сайта над всеми результатами первой страницы. Это мощный сигнал для повышения вашего ранжирования.

Применяется ли этот патент только к видео?

Нет. Хотя основное описание фокусируется на видео, в разделе «Alternative Applications» прямо указано, что этот механизм может использоваться для ранжирования результатов поиска (search result items), интерпретируя клики пользователей в SERP как попарные сравнения.

Как система определяет качество нового документа, у которого еще нет кликов?

Патент предлагает использовать классификатор (Ranking Classifier), обученный на признаках уже ранжированных элементов (например, визуальные, аудио или текстовые признаки). Этот классификатор предсказывает начальное Quality Distribution для нового документа еще до того, как он получит какие-либо пользовательские сигналы.

Что такое "Стоимость ошибки" (Cost of Incorrect Ranking E) и почему она важна?

Это метрика критичности точности ранжирования. Формула $∣ (1 Похожие патентыКак Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента с недостатком текста Google применяет вероятностную модель для улучшения поиска медиаконтента, такого как видео, где текстовых данных мало. Система определяет скрытые темы (Domain Topics) запроса P(T|Q) и находит контент, релевантный этим темам P(R|T). Это позволяет ранжировать видео, даже если оно не содержит ключевых слов из запроса, используя данные о кликах и базы знаний для установления связей. US8620951B1 2013-12-31 Семантика и интент Мультимедиа SERPКак Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст. US10489459B1 2019-11-26 Семантика и интентКак Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя. US7231399B1 2007-06-12 Поведенческие сигналыКак Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске. US8903812B1 2014-12-02 Поведенческие сигналы SERP АнтиспамКак Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов. US8732187B1 2014-05-20 Ссылки Мультимедиа Поведенческие сигналыПопулярные патенты Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия. US8959083B1 2015-02-17 Персонализация Поведенческие сигналы SERP Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче. US20140188927A1 2014-07-03 Персонализация SERP Ссылки Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска. US7783644B1 2010-08-24 Поведенческие сигналы Индексация Семантика и интент Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности. US9098551B1 2015-08-04 EEAT и качество Поведенческие сигналы SERP Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно. US8326826B1 2012-12-04 Семантика и интент Поведенческие сигналы EEAT и качество Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям. US8738612B1 2014-05-27 Семантика и интент Поведенческие сигналы SERP Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний. US9465871B1 2016-10-11 Антиспам SERP Ссылки Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда. US20250054045A1 2025-02-13 Персонализация Поведенческие сигналы Семантика и интент Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества. US9208232B1 2015-12-08 Ссылки Структура сайта Семантика и интент Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео) Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова. US8572096B1 2013-10-29 Поведенческие сигналы Семантика и интент Мультимедиаseohardcore$