Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

UNIFORM RESOURCE LOCATOR CANONICALIZATION (Каноникализация унифицированных указателей ресурсов)

US9081861B2
Google LLC
2008-07-21
2015-07-14

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.

Какую проблему решает

Патент решает проблему неэффективности сканирования интернета, вызванную тем, что множество различных URL могут указывать на один и тот же контент (например, из-за наличия параметров сессии, трекинга или разного порядка параметров). Это приводит к тому, что краулеры многократно загружают идентичный контент, расходуя значительные ресурсы как поисковой системы, так и веб-сервера. Проблема особенно актуальна для «тяжелого» контента, такого как видеофайлы.

Что запатентовано

Запатентована система автоматического определения правил каноникализации URL на основе теории информации. Суть изобретения заключается в вычислении условной энтропии (conditional entropy) между параметрами URL и отпечатками контента (fingerprints). Это позволяет статистически определить информационное содержание (information content) каждого параметра и классифицировать его как релевантный или нерелевантный для идентификации уникального контента.

Как это работает

Ключевым механизмом является использование условной энтропии для оценки связи между параметрами URL (V) и контентом (F). Система вычисляет две метрики:

$H(F|V)$ : Неопределенность контента при известном значении параметра. Высокое значение указывает, что параметр плохо предсказывает контент.
$H(V|F)$ : Неопределенность значения параметра при известном контенте. Высокое значение указывает, что значение параметра случайно для одного и того же контента (например, ID сессии).

Параметр признается релевантным, только если обе энтропии ниже определенных порогов. В противном случае он признается нерелевантным и исключается при формировании канонического URL. В процессе краулинга новые URL каноникализируются по этим правилам, и если каноническая версия уже известна, контент повторно не скачивается.

Актуальность для SEO

Высокая. Эффективное управление краулинговым бюджетом и точная каноникализация остаются фундаментальными задачами для Google. Описанные методы, основанные на статистическом анализе и теории информации, являются масштабируемым подходом для автоматической адаптации к различным структурам сайтов без ручного вмешательства.

Важность для SEO

Патент имеет высокое значение для технического SEO (85/100). Он описывает конкретный статистический механизм, который Google использует для автоматического определения канонических URL. Понимание этого механизма критически важно для управления дублированным контентом, оптимизации фасетной навигации, работы с отслеживающими параметрами и обеспечения корректной консолидации сигналов ранжирования, особенно на крупных сайтах.

Термины и определения

Canonical URL (Канонический URL): Представитель класса эквивалентности URL. URL, выбранный системой в качестве основного для идентификации конкретного контента среди группы различных URL, указывающих на этот контент.
Canonicalization Function (Функция каноникализации, C(URL)): Функция, которая преобразует входной URL в его каноническую форму. В идеале C(URL1) = C(URL2) тогда и только тогда, когда URL1 и URL2 указывают на одинаковый контент.
Conditional Entropy (Условная энтропия): Мера неопределенности одной случайной величины при условии, что значение другой случайной величины известно. Используется для количественной оценки информационного содержания параметров.
Fingerprint (Отпечаток контента, F или FP): Идентификатор контента. Может быть хешем (например, MD5), полным содержимым файла или метаданными (например, значением заголовка Content-Length, полученным через HTTP HEAD запрос).
H(F|V) (Энтропия F при условии V): Метрика $H(F|V)$ . Измеряет неопределенность того, какой контент (F) будет получен, если известно значение параметра (V). Высокое значение предполагает нерелевантность параметра.
H(V|F) (Энтропия V при условии F): Метрика $H(V|F)$ . Измеряет неопределенность значения параметра (V), если контент (F) известен. Высокое значение предполагает нерелевантность параметра (например, случайные значения для одного и того же контента).
Information Content (Информационное содержание): Мера того, насколько параметр релевантен для идентификации уникального контента. Определяется на основе расчетов условной энтропии.
Irrelevant/Relevant Parameter (Нерелевантный/Релевантный параметр): Классификация параметра. Нерелевантные параметры (например, трекинг) игнорируются при каноникализации. Релевантные (например, ID продукта) сохраняются. Важно отличать от Необходимых (Necessary) параметров, которые могут требоваться для доступа к контенту, но не влияют на его идентификацию.
Parameter Tuple (Кортеж параметров): Группа из двух или более параметров, рассматриваемых вместе для определения их совместной релевантности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения нерелевантности параметра URL.

Система получает множество URL с параметрами и идентифицирует отпечатки (fingerprints) соответствующего контента.
Вычисляется первая энтропия $H(F|V)$ (энтропия отпечатков при условии значений первого параметра).
Вычисляется вторая энтропия $H(V|F)$ (энтропия значений первого параметра при условии отпечатков).
На основе значений первой и второй энтропии определяется, что первый параметр нерелевантен для идентификации уникального контента.
На основе этого определения формируются и сохраняются канонические URL.

Ядром изобретения является применение расчета условной энтропии (обеих метрик) к корпусу данных для автоматической классификации параметров URL.

Claim 2 и 4 (Зависимые): Уточняют критерии классификации.

Claim 2 определяет нерелевантность: если $H(F|V)$ и $H(V|F)$ превышают соответствующие пороговые уровни.
Claim 4 определяет релевантность: если $H(F|V)$ и $H(V|F)$ ниже соответствующих пороговых уровней.

Claim 8 (Независимый пункт): Описывает процесс классификации параметров на уровне хоста.

Получение множества URL для определенного хоста.
Определение information content параметров на основе $H(F|V)$ и $H(V|F)$ .
Определение наборов релевантных и нерелевантных параметров.
Определение и сохранение канонических URL на основе этой классификации.

Claim 16 (Зависимый от 8): Описывает процесс активного тестирования (верификации) гипотезы о нерелевантности.

Берется URL с параметром, определенным как нерелевантный. Получается его отпечаток (F1).
Генерируется тестовый URL без этого параметра. Получается его отпечаток (F2).
F1 и F2 сравниваются.
Определение нерелевантности уточняется (refining) на основе сравнения (если F1=F2, гипотеза подтверждается).

Где и как применяется

Изобретение является ключевым компонентом систем сканирования и индексирования.

CRAWLING – Сканирование и Сбор данных
Основной этап применения. Web Crawler использует этот механизм для оптимизации краулингового бюджета. При обнаружении нового URL он каноникализируется "на лету" с использованием выведенных правил (Claim 9). Если каноническая версия уже известна, загрузка пропускается. Также краулер используется для активного тестирования правил (Claim 16).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обучение системы (генерация правил). Analysis Module в офлайн (пакетном) режиме анализирует данные, собранные краулером (URL и fingerprints), вычисляет энтропию и генерирует правила каноникализации. Также на этом этапе определяется финальный канонический URL для контента в индексе, на который консолидируются все сигналы.

Входные данные:

Корпус URL, полученных в результате краулинга.
Отпечатки контента (Fingerprints), соответствующего этим URL.
(Опционально) Эвристические правила и предопределенные списки параметров.

Выходные данные:

Набор правил каноникализации (специфичных для хоста/пути или глобальных).
База данных канонических URL.
Решение о необходимости скачивания конкретного URL.

На что влияет

Структуры URL и сайты: Сильно влияет на сайты, генерирующие большое количество параметров: E-commerce (фасеты, сортировки, трекинг), форумы (session IDs), UGC-платформы.
Типы контента: Влияет на все типы контента, но особенно подчеркивается важность для ресурсов с высоким потреблением трафика, таких как видеофайлы.
Компоненты URL: Метод применяется не только к параметрам запроса (query parameters), но также может анализировать компоненты пути (path components) и префиксы хоста (например, www1 vs www2) (Claim 7, 14, 15).

Когда применяется

Триггеры активации (Обучение): Анализ запускается при накоплении достаточного количества данных для конкретного хоста или кластера хост/путь для статистически значимого расчета энтропии. Если данных мало, правила могут не генерироваться.
Триггеры активации (Применение): Правила применяются в реальном времени каждый раз, когда краулер обнаруживает новый URL.
Активное тестирование (Refinement): Применяется, когда уверенность в релевантности параметра невысока (например, вероятность находится в диапазоне неопределенности 10%-90%) или для периодической валидации существующих правил.

Пошаговый алгоритм

Процесс А: Генерация правил каноникализации (Офлайн-анализ)

Сбор и кластеризация данных: Получение множества URL и их отпечатков (F). Группировка по хосту или хосту/пути.
Расчет информационного содержания: Для каждого параметра (V) в кластере вычисление условных энтропий $H(F|V)$ и $H(V|F)$ .
Определение релевантности: Сравнение энтропий с порогами. Если обе ниже порогов, параметр релевантен. Иначе – нерелевантен.
Анализ кортежей (Tuples) (Опционально): Анализ комбинаций параметров (особенно нерелевантных по отдельности) для выявления совместной релевантности. Если кортеж релевантен, все его компоненты признаются релевантными.
Анализ чувствительности к регистру (Опционально): Вычисление $H(F|lower(V)) - H(F|V)$ . Если разница выше порога, регистр важен.
Слияние и разрешение конфликтов: Агрегация правил для хоста, разрешение конфликтов между разными путями и комбинирование с эвристическими правилами (например, сортировка параметров).
Сохранение правил: Сохранение финального набора правил (например, ACCEPT/IGNORE).

Процесс Б: Применение правил при сканировании (Онлайн)

Обнаружение URL: Краулер находит новый URL.
Каноникализация: Применение сохраненных правил к URL (отбрасывание нерелевантных параметров, нормализация регистра, сортировка релевантных параметров). Обработка вложенных URL в параметрах.
Сравнение: Поиск полученного канонического URL в базе данных.
Принятие решения: Если совпадение найдено, скачивание не производится. Если нет – контент скачивается, индексируется, канонический URL сохраняется.

Процесс В: Активное тестирование (Уточнение)

Выбор кандидата: Выбор URL с параметром, который был определен как нерелевантный.
Генерация тестового URL: Создание копии URL без этого параметра.
Получение и сравнение отпечатков: Получение отпечатков оригинального и тестового URL (например, через HTTP HEAD или GET).
Уточнение правила: Если отпечатки совпадают, нерелевантность подтверждается. Если отличаются, правило корректируется.

Какие данные и как использует

Данные на входе

Система использует структурные и технические данные, связанные с URL и контентом.

Структурные факторы (URL):
- Host (Хост) и префиксы: Используются для кластеризации. Префиксы (www1, m) также анализируются на релевантность.
- Path (Путь): Компоненты пути могут анализироваться как параметры.
- Query Parameters (Параметры запроса): Основной объект анализа (имена, значения, порядок, регистр, вложенные URL).
Технические факторы (Контент):
- Content Fingerprints (Отпечатки контента): Хэш-сумма файла (например, MD5). Критически важны для определения уникальности контента.
- HTTP Headers: Значения HTTP-заголовков (например, Content-Length), полученные через HTTP HEAD запрос, могут использоваться как легковесные отпечатки.
Системные данные (Heuristics): Предопределенные списки универсально релевантных или нерелевантных параметров (например, "sessionid").

Какие метрики используются и как они считаются

Ключевые метрики основаны на теории информации.

Условная энтропия (Conditional Entropy): Рассчитывается по стандартной формуле теории информации, где вероятности вычисляются на основе частоты встречаемости значений и отпечатков в анализируемом корпусе данных.
$H(F|V)$ : Измеряет, насколько хорошо значение параметра предсказывает контент.
$H(V|F)$ : Измеряет, насколько случайно значение параметра относительно контента.
Пороговые значения энтропии: Используются для классификации. Параметр релевантен, если обе энтропии ниже порогов (например, 0.5 бит).
Метрика чувствительности к регистру: $H(F|lower(V)) - H(F|V)$ . Измеряет прирост информации при учете регистра.
Байесовская вероятность (Bayesian Probability): Патент упоминает возможность использования теоремы Байеса для комбинирования результатов энтропии, эвристик и фиксированных списков для определения итоговой вероятности релевантности.

Автоматизированная каноникализация на основе данных: Патент описывает мощный механизм, позволяющий Google автоматически выводить правила каноникализации для конкретных сайтов на основе статистического анализа (теории информации), а не полагаться только на ручные правила или сигналы вебмастеров (rel=canonical).
Энтропия как мера важности параметра: Ключевым является использование условной энтропии ( $H(F|V)$ и $H(V|F)$ ) для оценки влияния параметра на уникальность контента. Это позволяет точно отличать параметры, идентифицирующие контент (product_id), от "мусорных" (session_id).
Комплексный анализ URL: Система анализирует не только отдельные параметры запроса, но и их комбинации (tuples), чувствительность к регистру, а также другие части URL, такие как компоненты пути и префиксы хоста.
Активная верификация и адаптивность: Система включает механизм активного тестирования (refinement) гипотез о нерелевантности параметров, что позволяет ей проверять свои выводы и адаптироваться к изменениям на сайтах.
Релевантность vs Необходимость: Патент четко разделяет параметры, релевантные для идентификации контента, и параметры, необходимые для доступа к нему (например, авторизация). Система каноникализации фокусируется только на первых.
Важность консистентности для SEO: Для корректной работы таких систем критически важна консистентность со стороны веб-сервера. Непоследовательное использование параметров может привести к ошибкам каноникализации.

Best practices (это мы делаем)

Обеспечение консистентности URL и контента: Убедитесь, что параметры, идентифицирующие контент, используются последовательно. Это помогает системе корректно рассчитать низкую энтропию. Также убедитесь, что URL с нерелевантными параметрами (UTM, session ID) возвращают контент, абсолютно идентичный канонической версии.
Стандартизация порядка и регистра параметров: Рекомендуется на стороне сервера принудительно использовать нижний регистр и соблюдать фиксированный (например, алфавитный) порядок параметров. Это упрощает анализ для Google и снижает вероятность ошибок каноникализации.
Использование чистых и стабильных URL: По возможности избегайте включения в URL параметров, которые часто меняются, но не влияют на контент. Это позволяет системе легко идентифицировать их как нерелевантные (высокая энтропия $H(V|F)$ ).
Проверка доступности без параметров: Убедитесь, что контент доступен, если из URL удалить все нерелевантные параметры. Это имитирует процесс активного тестирования Google (Claim 16) и подтверждает правильность структуры.
Управление фасетной навигацией (Tuples): При проектировании фасетной навигации убедитесь, что комбинации фильтров (кортежи параметров) последовательно ведут к уникальному набору результатов. Система способна распознавать такие комбинации как релевантные.
Корректная обработка HTTP HEAD запросов: Убедитесь, что сервер корректно отвечает на HTTP HEAD запросы и возвращает точные заголовки (например, Content-Length). Патент упоминает возможность использования этих данных в качестве легковесных fingerprints.

Worst practices (это делать не надо)

Изменение контента на основе нерелевантных параметров: Критическая ошибка. Если вы вставляете ID сессии или трекинг-код в тело HTML-документа (например, в ссылки или текст), это меняет отпечаток контента (Fingerprint). Система увидит корреляцию и ошибочно классифицирует нерелевантный параметр как релевантный, что приведет к массовому дублированию в индексе.
Непоследовательное изменение контента: Если URL с одним и тем же значением параметра иногда возвращает разный контент (например, из-за некорректного A/B тестирования). Это создает высокую энтропию $H(F|V)$ и ведет к ошибкам.
Блокировка доступа к URL с параметрами через robots.txt: Если заблокировать сканирование URL с "мусорными" параметрами, система не сможет собрать данные для анализа энтропии и не научится игнорировать эти параметры. Это может привести к проблемам с обнаружением контента по ссылкам, содержащим эти параметры.
Смешивание релевантных и нерелевантных данных в пути (Path): Использование структур вида /session-id-12345/product/ вместо /product/?sid=12345. Хотя система может анализировать путь, отделение нерелевантных данных в параметры запроса упрощает их идентификацию.

Стратегическое значение

Патент подчеркивает фундаментальную важность технической гигиены и архитектуры сайта. Он демонстрирует, что Google подходит к каноникализации как к статистической задаче, основанной на анализе данных, а не только на следовании инструкциям вебмастеров. Стратегически это означает, что сайты с чистой, логичной и консистентной структурой URL получают преимущество: их краулинговый бюджет расходуется эффективно, а сигналы ранжирования корректно консолидируются.

Практические примеры

Сценарий: Анализ параметров E-commerce сайта

Ситуация: Сайт использует параметры для ID товара (релевантный) и ID партнера (нерелевантный).

Анализируемые URL:

/item?id=123&affid=A (Отпечаток: FP1)
/item?id=123&affid=B (Отпечаток: FP1)
/item?id=456&affid=A (Отпечаток: FP2)

Анализ параметра 'id':

$H(F|V)$ : Низкая. Значение '123' ведет к FP1, '456' ведет к FP2. Контент предсказуем.
$H(V|F)$ : Низкая. FP1 всегда имеет '123', FP2 всегда имеет '456'. Значение предсказуемо.
Результат: Параметр 'id' релевантен.

Анализ параметра 'affid':

$H(F|V)$ : Умеренная. Значение 'A' ведет к FP1 или FP2.
$H(V|F)$ : Высокая. При известном FP1 значение 'affid' может быть 'A' или 'B'. Неопределенность высокая.
Результат: Параметр 'affid' нерелевантен.

Итог: Система генерирует правило: ИГНОРИРОВАТЬ 'affid', ПРИНЯТЬ 'id'. Когда краулер находит /item?id=123&affid=Z, он каноникализирует его в /item?id=123 и не скачивает контент, если он уже в индексе.

Что такое условная энтропия H(F|V) и H(V|F) простыми словами?

H(F|V) отвечает на вопрос: "Если я знаю значение параметра, насколько я уверен в том, какой контент увижу?". Если уверенность высокая (низкая энтропия), параметр помогает идентифицировать контент. H(V|F) отвечает на вопрос: "Если я знаю контент, насколько я уверен в том, какое значение параметра будет в URL?". Если для одного контента значения параметра случайны (высокая энтропия, как у sessionID), параметр не связан с контентом. Параметр считается релевантным, только если обе энтропии низкие.

Заменяет ли этот механизм необходимость использования rel=canonical?

Нет, не заменяет. Этот патент описывает автоматизированную систему, которую Google использует для самостоятельного определения канонических URL, особенно при отсутствии явных сигналов. rel=canonical остается лучшей практикой для вебмастера. Однако, если ваши настройки rel=canonical сильно противоречат статистическим выводам системы, основанным на энтропии, Google может предпочесть свой вариант каноникала.

Как этот патент влияет на краулинговый бюджет?

Влияние прямое и очень сильное. Основная цель изобретения — предотвратить повторное скачивание дублирующегося контента. Правильно определив нерелевантные параметры, Google избегает сканирования миллионов избыточных URL. Это позволяет эффективнее расходовать краулинговый бюджет сайта на обнаружение нового и уникального контента.

Что произойдет, если я заблокирую параметры в robots.txt?

Это плохая практика в контексте данного патента. Чтобы система могла рассчитать энтропию и научиться игнорировать параметры, она должна иметь возможность сканировать URL с этими параметрами и сравнивать контент (fingerprints). Если доступ заблокирован, обучение не произойдет, и Google не сможет корректно определить правила каноникализации для вашего сайта.

Как система определяет, важен ли регистр символов в параметрах URL?

Система сравнивает энтропию с учетом регистра $H(F|V)$ и энтропию без учета регистра $H(F|lower(V))$ . Если разница значительна (т.е. учет регистра сильно уменьшает неопределенность контента), система делает вывод, что регистр важен. Если разницы нет, регистр игнорируется при каноникализации.

Что такое анализ кортежей (Tuples) параметров и зачем он нужен?

Это анализ комбинаций параметров. Иногда параметры по отдельности могут казаться нерелевантными, но вместе они необходимы для идентификации контента. Например, параметры ?type=cats и ?page=2. Их комбинация точно определяет уникальный контент (вторую страницу категории "кошки"). Система анализирует энтропию для комбинаций, чтобы не отбросить важные параметры, что критично для фасетной навигации.

Что означает "активная верификация" (Refinement) правил?

Это значит, что Googlebot активно тестирует свои гипотезы (Claim 16). Если система считает параметр нерелевантным, она может сгенерировать тестовый URL без него и проверить, изменился ли контент (сравнив отпечатки). Если контент совпал, гипотеза подтверждается. Это показывает, что система постоянно самообучается и проверяет свои правила на практике.

Применяется ли этот анализ к поддоменам или путям в URL?

Да. Патент указывает, что метод может применяться к префиксам хоста (например, 'www1', 'www2') и к компонентам пути (path). Они рассматриваются как обычные параметры, для которых рассчитывается энтропия. Если система обнаружит, что http://www1.site.com/page и http://www2.site.com/page всегда отдают одинаковый контент, префиксы будут признаны нерелевантными.

Как обрабатываются параметры, необходимые для доступа (например, авторизация), но не влияющие на контент?

Патент различает "релевантные" (relevant) и "необходимые" (necessary) параметры. Параметры авторизации могут быть необходимы для доступа, но нерелевантны для идентификации контента. Система классифицирует их как нерелевантные и удалит при создании канонического URL. Канонический URL в индексе служит идентификатором, а не способом доступа.

Что делать, если Google неправильно каноникализирует мои URL?

Необходимо провести технический аудит и найти причины непоследовательности. Проанализируйте, не меняется ли контент (и его отпечаток) при изменении параметров, которые вы считаете нерелевантными (например, вставка Session ID в HTML). Убедитесь, что rel=canonical настроен корректно. Исправление непоследовательности на стороне сервера поможет системе Google собрать корректную статистику энтропии и пересмотреть свои правила для вашего хоста.

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

US7886217B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

US8184953B1
2012-05-22

Индексация
Мультимедиа

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента

Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.

US9213745B1
2015-12-15

Семантика и интент
EEAT и качество
SERP

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO