Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

POPULATING QUERY SUGGESTION DATABASE USING CHAINS OF RELATED SEARCH QUERIES (Заполнение базы данных предложений запросов с использованием цепочек связанных поисковых запросов)

US9342600B1
Google LLC
2012-11-01
2016-05-17

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

Какую проблему решает

Патент решает проблему неэффективности поиска, когда пользователи вынуждены вводить несколько последовательных запросов (переформулировок), чтобы найти желаемый результат, поскольку первоначальная выдача не удовлетворяет их потребности. Стандартные факторы ранжирования не всегда точно определяют конечную цель пользователя. Изобретение направлено на повышение эффективности поиска путем изучения исторических паттернов переформулирования запросов и определения результатов, которые фактически удовлетворяют пользователей.

Что запатентовано

Запатентована система для выявления и агрегации «цепочек связанных поисковых запросов» (chains of related search queries) на основе анализа поведения пользователей. Ключевым механизмом является использование временных интервалов между кликом по результату и вводом следующего запроса для определения удовлетворенности пользователя (Timing Criterion). Система агрегирует данные о том, как часто исходный запрос (Q1) через цепочку переформулировок приводит к выбору конкретного удовлетворительного результата (D). Эта информация сохраняется в Query Database.

Как это работает

Система работает в два этапа: офлайн-обработка и онлайн-применение.

Офлайн: Анализируются исторические данные поиска. Система идентифицирует цепочки запросов, где промежуточные запросы приводили к быстрому вводу следующего запроса (неудовлетворенность), а последний запрос приводил к длительному времени взаимодействия перед следующим запросом (удовлетворенность). Эти цепочки агрегируются.
Онлайн: Когда пользователь вводит исходный запрос (Q1), система обращается к Query Database. Она может использовать агрегированные данные тремя способами: (1) повысить в ранжировании конечный удовлетворительный результат (D) для запроса Q1; (2) агрессивно вставить результат D в выдачу Q1, если его там не было; (3) предложить последний запрос из цепочки (QN) в блоке «Связанные запросы» (Related Searches).

Актуальность для SEO

Высокая. Понимание пути пользователя, переформулировок запросов и метрик удовлетворенности (таких как время взаимодействия/длинные клики) является центральным элементом современных поисковых систем. Этот патент описывает конкретную реализацию использования поведенческих сигналов для улучшения релевантности и ранжирования.

Важность для SEO

Патент имеет значительное влияние на SEO (8.5/10). Он формализует использование поведенческих данных (в частности, pogo-sticking и dwell time) для оценки удовлетворенности и последующей корректировки ранжирования. Это подчеркивает, что контент, который действительно удовлетворяет интент пользователя и завершает его поисковую сессию, получает преимущество, даже если он не идеально соответствует тексту первоначального запроса.

Термины и определения

Chain of Related Search Queries (Цепочка связанных поисковых запросов): Последовательность запросов, введенных пользователем, начинающаяся с исходного запроса и включающая последующие уточнения. Каждый запрос в цепочке, кроме последнего, нарушает критерий выбора результата поиска (т.е. пользователь был не удовлетворен).
Desired Search Result (D) (Желаемый результат поиска): Результат поиска, выбранный пользователем в ответ на последний запрос в цепочке, который удовлетворяет Timing Criterion (т.е. пользователь был удовлетворен).
Filtering Rules (Правила фильтрации): Набор правил, используемых для исключения ненадежных или нерелевантных цепочек запросов перед агрегацией данных (например, требования к пересечению терминов, частоте, отсутствию гео-зависимости).
First Search Query (Q1) (Первый поисковый запрос): Исходный запрос, с которого начинается цепочка.
Historical Search Query Data (Исторические данные поисковых запросов): Логи поиска, включающие введенные запросы, выбранные результаты и временные метки этих действий.
Last Related Search Query (QN) (Последний связанный поисковый запрос): Последний запрос в цепочке, который привел к выбору Desired Search Result (D).
Query Database (База данных запросов): Хранилище агрегированных данных о цепочках запросов, связывающее Q1 с D и QN.
Search Result Selection Criterion / Timing Criterion (Критерий выбора результата поиска / Временной критерий): Критерий для определения удовлетворенности пользователя. Он удовлетворяется, если временной интервал между выбором результата и вводом последующего запроса превышает заданный порог (predetermined time interval).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает комплексный метод, включающий как создание базы данных цепочек, так и ее использование.

Получение Historical Search Query Data.
Идентификация Chains of Related Search Queries. Ключевое условие: каждый запрос в цепочке, кроме последнего, нарушает Timing Criterion (временной критерий) в отношении выбора пользователем результатов. Цепочка определяется как последовательность запросов, где исходный запрос последовательно уточняется.
Агрегация цепочек в группы с общим исходным запросом (Q1) и общим выбранным конечным результатом (D).
Сохранение агрегированных данных в Query Database.
Использование базы данных при получении нового запроса: ранжирование документов с учетом частоты, с которой этот запрос приводил к выбору каждого из документов (через цепочки).
Идентификация последнего связанного запроса (QN) из цепочек, связанных с входным запросом.
Возврат ранжированных результатов и идентифицированного связанного запроса (QN) пользователю.

Claim 2 (Зависимый от 1): Определяет Timing Criterion.

Временной критерий удовлетворяется, когда интервал времени между моментом выбора пользователем результата и моментом ввода последующего запроса превышает заранее определенный временной интервал (predetermined time interval). Это означает, что если пользователь вводит следующий запрос быстро, критерий нарушается (неудовлетворенность); если медленно или не вводит вообще – критерий удовлетворяется (удовлетворенность).

Claims 3-11 (Зависимые): Описывают Filtering Rules для повышения качества данных перед агрегацией.

Примеры правил фильтрации включают требования:

Наличия пересечения терминов между Q1 и заголовком D (Claim 4).
Наличия пересечения терминов между Q1 и QN (Claim 5).
Достаточной частоты встречаемости цепочки в логах (Claim 6).
Отсутствия локационно-специфических терминов в Q1 и QN (Claim 7).
Превышения порога для соотношения (#Q1->D) / #Q1 (Claim 8).

Claim 12 (Зависимый): Описывает структуру данных в Query Database.

Для каждой группы цепочек сохраняется: Первый запрос (Q1), Количество вводов Q1 (#Q1), Конечный результат (D), Набор последних запросов ({QN}), Количество раз, когда Q1 привел к выбору D (#Q1->D).

Claims 13-14 (Зависимые): Описывают механизм вставки (Insertion) результата D в выдачу Q1.

Определение частоты, с которой Q1 привел к выбору D (#Q1->D).
Определение частоты выбора для каждого результата в текущей выдаче Q1.
Идентификация самого высокоранжированного результата в выдаче, чья частота выбора меньше, чем частота #Q1->D.
Вставка результата D на позицию выше этого идентифицированного результата.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя офлайн-анализ для влияния на онлайн-ранжирование и формирование SERP.

INDEXING / Офлайн-обработка данных
Основная часть работы по анализу данных происходит офлайн. Модуль Related Search Queries Module обрабатывает Historical Search Query Data (логи), идентифицирует цепочки запросов, применяет фильтры, агрегирует данные и наполняет Query Database.

QUNDERSTANDING – Понимание Запросов
Данные из Query Database помогают системе понять взаимосвязи между различными формулировками запросов (Q1 и QN) и интентами, которые они представляют, основываясь на реальном поведении пользователей.

RANKING – Ранжирование
Патент явно описывает, что ранжирование документов производится, по крайней мере частично, на основе частоты, с которой входной запрос приводил к выбору каждого из документов (частота Q1->D). Это может применяться на любом из уровней ранжирования (L1-L3).

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
На этом этапе происходят два ключевых процесса:

Вставка результатов (Insertion): Модуль Search Result Insertion Module может агрессивно вставить результат D в сформированную выдачу на основе сравнения частот.
Генерация связанных запросов: Модуль Related Searches Module идентифицирует последние запросы (QN) и предоставляет их для отображения в SERP (например, в блоке «Пользователи также ищут»).

Входные данные (Офлайн):

Historical Search Query Data (запросы, клики, временные метки, идентификаторы сессий).
Заголовки документов (для фильтрации).

Входные данные (Онлайн):

Запрос пользователя (Q1).
Предварительно ранжированный набор результатов.
Данные из Query Database.

Выходные данные:

Скорректированный набор ранжированных результатов (с повышенными позициями или вставленными результатами D).
Набор связанных поисковых запросов (QN).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные, широкие или сложные запросы, которые пользователи часто уточняют или переформулируют в процессе поиска.
Типы контента: Влияет на все типы контента, для которых доступны поведенческие данные. Система агностична к типу контента, фокусируясь на том, какой результат удовлетворил пользователя.

Когда применяется

Офлайн-обработка: Выполняется периодически или непрерывно по мере поступления новых исторических данных поиска.
Онлайн-применение: Активируется при обработке любого запроса (Q1), для которого в Query Database существуют агрегированные данные о цепочках.
Триггер для вставки (Insertion): Механизм вставки активируется, когда частота Q1->D для результата D (не присутствующего в топе или находящегося низко) превышает частоту кликов существующих результатов в выдаче.

Пошаговый алгоритм

Процесс А: Офлайн-генерация базы данных запросов

Сбор данных: Получение Historical Search Query Data (логи запросов, кликов и временных меток).
Идентификация цепочек: Анализ последовательностей запросов в рамках пользовательских сессий. Определение начала (Q1) и конца цепочки (QN, D) с использованием Timing Criterion:
- Если время между кликом и следующим запросом <= Порога (ts): Запрос нарушает критерий (неудовлетворенность). Цепочка продолжается.
- Если время > Порога (ts): Запрос удовлетворяет критерий (удовлетворенность). Цепочка завершается. Результат D идентифицируется.
Фильтрация (Опционально): Применение Filtering Rules для удаления шума (например, проверка пересечения терминов Q1 и D, Q1 и QN; проверка частоты цепочки; фильтрация нежелательного контента).
Агрегация: Группировка оставшихся цепочек по общему первому запросу (Q1) и общему конечному результату (D). Подсчет частот (#Q1, #Q1->D).
Сохранение: Запись агрегированных данных (Q1, #Q1, {QN}, D, #Q1->D) в Query Database.

Процесс Б: Онлайн-ранжирование и вставка результатов

Получение запроса: Пользователь вводит запрос Q1.
Стандартное ранжирование (с учетом частот): Система идентифицирует документы и ранжирует их, используя, в том числе, данные о частоте Q1->D из Query Database как фактор ранжирования. Формируется базовый набор результатов.
Идентификация кандидатов для вставки: Система ищет в Query Database другие результаты (D'), которые часто являются конечной целью для Q1, но не попали в базовый набор или ранжируются низко.
Определение частот: Определяется частота Q1->D' для кандидатов и частота кликов для результатов в базовом наборе.
Сравнение частот и вставка: Система находит самый высокоранжированный результат в базовом наборе, чья частота кликов меньше, чем частота Q1->D'. Кандидат D' вставляется в выдачу выше этого результата.
Возврат результатов: Скорректированная выдача возвращается пользователю.

Процесс В: Онлайн-генерация связанных запросов

Получение запроса: Пользователь вводит запрос Q1.
Поиск в базе данных: Система ищет в Query Database записи для Q1 и извлекает соответствующие последние запросы ({QN}).
Возврат связанных запросов: Набор {QN} возвращается вместе с результатами поиска для отображения в SERP.

Какие данные и как использует

Данные на входе

Основной тип данных, используемых в патенте, — поведенческие.

Поведенческие факторы: Критически важные данные. Используются Historical Search Query Data, включающие:
- Последовательности введенных запросов (Queries issued).
- Выбранные результаты поиска (Search results selected/Clicks).
- Временные метки (Timestamps) для каждого действия (ввода запроса и клика).
- Идентификаторы пользователей или сессий (для группировки действий в цепочки).
Контентные факторы: Используются косвенно. Заголовки (Titles) выбранных результатов (D) могут использоваться в Filtering Rules для проверки релевантности цепочки. Термины запросов Q1 и QN также используются для фильтрации.
Географические факторы: Упоминаются в контексте фильтрации. Система может исключать цепочки, содержащие локационно-специфические термины.

Какие метрики используются и как они считаются

Timing Criterion (Временной критерий): Основная метрика для определения удовлетворенности. Рассчитывается как разница во времени между кликом по результату и вводом следующего запроса.
Predetermined Time Interval (ts): Пороговое значение для Timing Criterion. Если время > ts, пользователь удовлетворен.
Частота Q1 (#Q1): Общее количество раз, когда был введен первый запрос.
Частота Q1->D (#Q1->D): Количество раз, когда запрос Q1 через цепочку переформулировок привел к удовлетворительному выбору результата D.
Transition Rate (Коэффициент перехода): Соотношение $(#Q1→D) / (#Q1)$ . Используется в правилах фильтрации для определения значимости цепочки.
Пересечение терминов (Term Overlap): Метрика схожести, используемая в фильтрации. Сравнивается количество общих терминов между Q1 и QN или Q1 и заголовком D с заданными порогами.

Формализация метрик удовлетворенности: Патент явно определяет механизм измерения удовлетворенности пользователя через Timing Criterion (время до следующего запроса). Это подтверждает важность концепций «длинных кликов» (long clicks) и предотвращения «pogo-sticking».
Интент важнее формулировки: Система использует цепочки переформулировок для понимания истинного интента, стоящего за исходным запросом. Это позволяет ранжировать контент, который удовлетворяет интент, даже если он слабо соответствует тексту первого запроса.
Поведенческие данные как фактор ранжирования и триггер для вставки: Частота, с которой страница является конечным удовлетворительным результатом (Q1->D), используется как прямой сигнал ранжирования и как основание для агрессивной вставки результата в выдачу (Insertion).
Агрессивный механизм вставки: Логика вставки результата D основана на сравнении частот удовлетворенности. Если D чаще удовлетворяет пользователей, чем текущие результаты в топе, он будет вставлен выше них.
Дата-центричный подход к связанным запросам: Генерация «Related Searches» основана не только на семантической близости, но и на реальных путях пользователей (Q1 -> QN).
Важность качества данных: Система включает сложные Filtering Rules для обеспечения того, чтобы только надежные и релевантные поведенческие паттерны влияли на ранжирование.

Best practices (это мы делаем)

Оптимизация под удовлетворенность пользователя (Search Satisfaction): Главная задача — гарантировать, что контент полностью отвечает на запрос пользователя и не вызывает желания вернуться в выдачу для поиска альтернатив (pogo-sticking). Необходимо минимизировать Bounce Rate в пользу Dwell Time (время взаимодействия).
Стремление стать «Желаемым результатом» (D): Создавайте контент, который является конечной точкой поисковой сессии. Это увеличивает вероятность того, что ваша страница будет идентифицирована как D и получит повышение по связанным исходным запросам (Q1).
Анализ путей запросов и переформулировок: Изучайте данные (например, в GSC), чтобы понять, какие запросы приводят пользователей на ваши страницы. Если вы видите паттерны, где пользователи приходят к вам после уточнения широких запросов, это сигнал, что вы можете ранжироваться и по этим широким запросам благодаря данному механизму.
Улучшение CTR и Вовлеченности: Поскольку частота кликов и последующее поведение являются входными данными для системы, оптимизация сниппетов для повышения CTR и улучшение юзабилити страницы для удержания пользователя критически важны.

Worst practices (это делать не надо)

Использование кликбейта и вводящих в заблуждение заголовков: Если заголовок обещает ответ, но контент его не предоставляет, пользователи быстро вернутся в SERP. Это нарушает Timing Criterion и сигнализирует системе о неудовлетворенности, что ухудшает поведенческие метрики страницы.
Создание поверхностного контента: Контент, который лишь частично отвечает на запрос, вынуждает пользователя искать дополнительную информацию. Это приводит к продолжению цепочки запросов и снижает шансы вашей страницы стать конечным результатом (D).
Игнорирование интента широких запросов: Попытка ранжироваться по широким запросам (Q1) без понимания того, какие конкретные результаты (D) пользователи ищут в итоге, неэффективна. Система предпочтет те результаты, которые статистически чаще удовлетворяют конечный интент.

Стратегическое значение

Этот патент подтверждает стратегическую важность поведенческих сигналов в алгоритмах ранжирования Google. Он описывает конкретный механизм, как Google учится на ошибках пользователей и корректирует выдачу в реальном времени. Долгосрочная SEO-стратегия должна фокусироваться на максимальном удовлетворении интента пользователя и анализе всего пути пользователя, а не только отдельных ключевых слов. Понимание того, как пользователи уточняют свои запросы, становится ключом к захвату трафика по более широким и конкурентным запросам.

Практические примеры

Сценарий: Ранжирование по неоднозначному запросу

Исходный запрос (Q1): Пользователь вводит «Ягуар». Это неоднозначно (животное, автомобиль, ОС).
Поведение пользователя (Неудовлетворенность): Пользователь кликает на статью о животном, но быстро возвращается в SERP (нарушение Timing Criterion).
Переформулировка (QN): Пользователь вводит «Ягуар цена автомобиля».
Удовлетворенность (D): Пользователь кликает на сайт автодилера, изучает его и не возвращается в SERP (удовлетворение Timing Criterion). Сайт автодилера = D.
Агрегация данных: Google фиксирует цепочку Q1(«Ягуар») -> QN(«Ягуар цена автомобиля») -> D(Сайт автодилера). Если этот паттерн повторяется часто (высокая частота Q1->D).
Результат (Ранжирование/Вставка): В следующий раз, когда пользователь вводит «Ягуар», Google может повысить сайт автодилера (D) в выдаче, даже если он менее релевантен слову «ягуар» текстуально, основываясь на поведенческих данных. Также запрос «Ягуар цена автомобиля» (QN) будет предложен в связанных запросах.

Как именно Google измеряет удовлетворенность пользователя в этом патенте?

Удовлетворенность измеряется с помощью Timing Criterion (Временного критерия). Если временной интервал между кликом по результату и вводом следующего поискового запроса превышает определенный порог (predetermined time interval), система считает, что пользователь удовлетворен. Быстрый возврат к выдаче и ввод нового запроса (pogo-sticking) сигнализирует о неудовлетворенности.

Может ли моя страница ранжироваться по запросу, даже если она не содержит ключевых слов из этого запроса?

Да. Если исторические данные показывают, что пользователи часто начинают с запроса Q1 (который ваша страница не содержит) и через цепочку переформулировок приходят к вашей странице (D) и остаются удовлетворенными, система может начать ранжировать вашу страницу по запросу Q1. Это происходит за счет использования частоты Q1->D как фактора ранжирования или через механизм агрессивной вставки.

Насколько агрессивно Google может вставить результат в выдачу?

Механизм вставки (Insertion) достаточно агрессивен. Система сравнивает частоту удовлетворенности (Q1->D) для вашего результата с частотой кликов результатов, уже находящихся в топе. Ваш результат будет вставлен выше первого результата в топе, чья частота кликов ниже вашей частоты удовлетворенности Q1->D.

Как этот патент влияет на блок «Связанные запросы» (Related Searches)?

Патент напрямую описывает механизм наполнения этого блока. Если пользователи часто переформулируют Запрос А в Запрос Б, то Запрос Б (который в патенте называется QN - последний запрос в цепочке) будет предложен в качестве связанного запроса при вводе Запроса А. Это основано на реальных данных о поведении пользователей, а не только на семантическом анализе.

Что такое «Цепочка связанных поисковых запросов»?

Это последовательность запросов, введенных пользователем в рамках одной поисковой задачи. Цепочка начинается с исходного запроса и продолжается до тех пор, пока пользователь не найдет удовлетворительный результат. Промежуточные запросы в цепочке считаются неудачными попытками (пользователь быстро вводил следующий запрос).

Как я могу использовать этот механизм для улучшения SEO своего сайта?

Сосредоточьтесь на том, чтобы ваш контент максимально полно удовлетворял интент пользователя и завершал его поисковую сессию. Избегайте кликбейта и поверхностного контента, который провоцирует pogo-sticking. Чем чаще ваша страница будет являться конечным удовлетворительным результатом (D) в цепочках запросов, тем выше она будет ранжироваться.

Учитывает ли система только одну возможную цепочку для исходного запроса?

Нет, система агрегирует все возможные цепочки. Исходный запрос Q1 может привести к разным конечным результатам (D1, D2, D3) через разные пути переформулировок (QN1, QN2, QN3). Система учитывает частоту каждого из этих путей для принятия решений о ранжировании и связанных запросах.

Что такое Filtering Rules и почему они важны?

Filtering Rules используются для очистки исторических данных от шума и обеспечения надежности выводов. Например, система может требовать минимального пересечения терминов между исходным запросом и конечным результатом или минимальной частоты встречаемости цепочки. Это гарантирует, что случайные или манипулятивные действия пользователей не повлияют на глобальное ранжирование.

Влияет ли этот механизм на все запросы?

Наибольшее влияние он оказывает на широкие, неоднозначные или сложные запросы, которые пользователи склонны уточнять. Для очень специфических или навигационных запросов, где пользователи обычно находят ответ с первой попытки, этот механизм будет менее актуален, так как цепочки переформулировок будут короткими или отсутствовать.

Является ли этот патент описанием RankBrain или другой известной системы?

Патент не упоминает конкретных названий алгоритмов. Однако он описывает механизмы обработки поведенческих данных и понимания интента через анализ переформулировок, что является ключевым компонентом современных систем машинного обучения в поиске, включая те, которые занимаются интерпретацией сложных запросов и оценкой удовлетворенности пользователей.

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google анализирует поведение пользователей для выбора разнообразных связанных запросов и диверсификации контента на выдаче

Google использует механизм для диверсификации предложений на странице результатов (например, связанных запросов или рекламных блоков), основанный на анализе сессий пользователей. Система отбирает подсказки, которые часто следуют за исходным запросом (высокая «Utility»), но при этом редко следуют друг за другом (высокая «Diversity»). Это позволяет покрыть разные намерения пользователя, исходящие из одного неоднозначного запроса.

US8631030B1
2014-01-14

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта

Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.

US9208233B1
2015-12-08

Ссылки
Семантика и интент
Индексация

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта