Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

SYSTEM FOR AUTOMATICALLY MANAGING DUPLICATE DOCUMENTS WHEN CRAWLING DYNAMIC DOCUMENTS (Система автоматического управления дубликатами документов при сканировании динамических документов)

US7680773B1
Google LLC
2005-03-31
2010-03-16

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

Какую проблему решает

Патент решает проблему неэффективности сканирования интернета, вызванную динамическими веб-страницами. Динамический контент часто доступен по множеству различных URL-адресов с разными параметрами (например, идентификаторы сессий, параметры отслеживания, варианты сортировки), которые ведут на одну и ту же страницу. Если поисковая система сканирует все эти варианты, это приводит к значительной трате ресурсов (сетевой трафик, хранилище, вычислительные мощности) на обработку дубликатов как со стороны поисковой системы, так и со стороны веб-сервера.

Что запатентовано

Запатентована система автоматического определения значимости параметров URL для управления дубликатами. Система анализирует группы схожих URL (Clusters) и статистически выводит «Правила эквивалентности» (Equivalence Rules). Эти правила определяют, какие параметры влияют на содержание страницы (content-relevant), а какие нет (content-irrelevant). На основе этих правил URL-адреса группируются в «Классы эквивалентности» (Equivalence Classes), и для каждого класса выбирается один «Представительский URL» (Representative URL), который используется для сканирования и индексации.

Как это работает

Система работает путем статистического анализа поведения параметров URL:

Кластеризация: URL-адреса группируются по общему хосту и пути (например, example.com/products?).
Мониторинг дубликатов: Если в кластере обнаруживается высокий уровень дублирования контента (Duplicate Rate), активируется анализ.
Анализ значимости и незначимости: Система проверяет, как изменение значения параметра влияет на контент, используя Significance Analysis и Insignificance Analysis. Например, если изменение параметра 'sessionID' не меняет контент, он помечается как незначимый.
Генерация правил: На основе анализа создается Equivalence Rule, определяющее значимые параметры.
Скрининг URL: При обнаружении нового URL система применяет правило. Если контент уже известен (существует Equivalence Class), новый URL игнорируется. Если контент уникален, URL сканируется как новый Representative URL.

Актуальность для SEO

Высокая. Управление параметрами URL и каноникализация динамического контента остаются фундаментальными задачами технического SEO, особенно для крупных сайтов E-commerce и платформ с фасетной навигацией. Базовая логика, описанная в этом патенте (статистический вывод о значимости параметров для определения дубликатов), по-прежнему лежит в основе управления краулинговым бюджетом и процесса каноникализации.

Важность для SEO

Патент имеет критическое значение (9/10) для технического SEO. Он описывает фундаментальный механизм, с помощью которого Google стремится понять структуру сайта и идентифицировать дублированный контент, вызванный параметрами URL. Понимание этого механизма необходимо для эффективного управления краулинговым бюджетом, обеспечения корректной индексации страниц фасетной навигации, сортировок и страниц с отслеживающими метками. Неправильная автоматическая обработка параметров может привести к массовому индексированию дубликатов или, наоборот, к потере уникального контента.

Термины и определения

Cluster (Кластер): Группа URL-адресов, которые, предположительно, имеют одинаковую интерпретацию набора параметров URL. Обычно URL в кластере имеют одинаковый хост и путь до знака вопроса (?).
Cluster Name (Имя кластера): Уникальный идентификатор кластера. Например, http://www.foo.com/directory?.
Equivalence Class (Класс эквивалентности): Набор URL-адресов внутри кластера, которые ссылаются на абсолютно одинаковый или практически идентичный контент. Каждый класс имеет уникальное имя (Equivalence class name), которое выводится путем применения Equivalence Rule.
Equivalence Rule (Правило эквивалентности): Набор критериев, выведенный из анализа кластера URL. Правило определяет, какие параметры являются content-relevant, а какие — content-irrelevant.
Representative URL (Представительский URL): URL, выбранный для представления всех других URL в Equivalence Class. Часто это первый обнаруженный URL в классе. Он используется для сканирования и индексации (де-факто канонический URL).
Content-relevant parameter (Значимый параметр): Параметр URL, изменение значения которого приводит к изменению контента страницы.
Content-irrelevant parameter (Незначимый параметр): Параметр URL, который не влияет на основной контент страницы (например, session ID, tracking code).
Conflict parameter (Конфликтный параметр): Параметр, который демонстрирует признаки как значимости, так и незначимости. Система обычно считает их content-relevant, чтобы избежать потери контента.
Insignificance Analysis (Анализ незначимости): Процедура определения того, является ли параметр нерелевантным. Если разные значения параметра соответствуют одному и тому же контенту, параметр считается незначимым.
Insignificance Index (Индекс незначимости): Метрика, количественно оценивающая, насколько параметр не влияет на контент.
Significance Analysis (Анализ значимости): Процедура определения того, является ли параметр релевантным. Анализируется, приводит ли удаление параметра к неоднозначности (т.е. оставшаяся часть URL начинает указывать на разный контент).
Significance Index (Индекс значимости): Метрика, количественно оценивающая, насколько параметр важен для определения контента.
Duplicate Rate (Уровень дублирования): Метрика кластера, показывающая долю дублированного контента. Рассчитывается как (Общее число URL - Число уникальных контентов) / Общее число URL.
Validation URL (Валидационный URL): URL, идентифицированный как дубликат, который сохраняется системой для периодической проверки точности Equivalence Rule или доступности Representative URL.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод группировки идентификаторов документов (URL) по их контенту.

Система разделяет множество URL на несколько кластеров (Clusters), причем URL в каждом кластере имеют одинаковое имя хоста.
Для кластера генерируется Правило эквивалентности (Equivalence Rule), которое определяет, какие параметры URL являются значимыми для контента (content-relevant).
Кластер группируется в несколько Классов эквивалентности (Equivalence Classes) в соответствии с этим правилом. Все URL в классе ссылаются на практически одинаковый контент.
В каждом классе идентифицируется единственный URL как Представительский (Representative URL).
Для класса, содержащего несколько URL, определенная операция (например, сканирование или индексация) выполняется только над этим единственным Представительским URL.

Ядро изобретения — автоматическое создание правил для идентификации дубликатов на основе параметров и выбор единственного канонического представителя для обработки.

Claim 4 (Зависимый от 3): Детализирует процедуру Анализа незначимости (Insignificance Analysis).

URL в кластере группируются в наборы, каждый набор соответствует уникальному контенту.
Вычисляется Индекс незначимости (Insignificance Index) для параметра. Индекс основан на количестве URL в тех наборах, где данный параметр имеет как минимум два разных значения.

Если параметр часто имеет разные значения при одинаковом контенте, его индекс незначимости высок.

Claim 7 (Зависимый от 6): Детализирует процедуру Анализа значимости (Significance Analysis).

Анализируемый параметр удаляется из каждого URL в кластере, оставляя «остаток URL» (document identifier remainder).
URL группируются в наборы на основе этих остатков.
Индекс значимости (Significance Index) вычисляется путем суммирования количества уникальных контентов внутри тех наборов, которые содержат как минимум два разных контента.

Если удаление параметра приводит к тому, что URL с одинаковыми остатками ведут на разный контент, значит, удаленный параметр был важен для различения этого контента, и его индекс значимости высок.

Где и как применяется

Изобретение напрямую связано с управлением краулингом и процессом каноникализации.

CRAWLING – Сканирование и Сбор данных
Это основная область применения патента. Система используется для оптимизации процесса сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).

URL Screening: Перед добавлением URL в очередь на сканирование система проверяет его принадлежность к кластеру и применяет Equivalence Rule.
Оптимизация: Если URL является дубликатом (принадлежит к существующему Equivalence Class), сканирование отменяется. Сканируется только Representative URL.

INDEXING – Индексирование и извлечение признаков
Система напрямую влияет на процесс Каноникализации.

Выбор каноникала: Representative URL, определенный на этапе краулинга, становится канонической версией документа для индексации.
Консолидация сигналов: Сигналы (например, ссылки) на дубликаты (другие URL в Equivalence Class) консолидируются на Representative URL.

Входные данные:

Кандидатный URL для сканирования.
База данных просканированных URL и их контента (например, Content Checksum) для проведения анализов.
Существующие Equivalence Rules и Equivalence Classes.

Выходные данные:

Решение о сканировании кандидатного URL (Да/Нет).
Обновленные Equivalence Rules (при необходимости).
Новые или обновленные Equivalence Classes и их Representative URLs.

На что влияет

Технические факторы и структура URL: Влияет исключительно на обработку URL-адресов, содержащих параметры (динамические URL).
Типы контента и Ниши: Особенно сильно влияет на сайты электронной коммерции (E-commerce), форумы, и любые сайты с фасетной навигацией, сортировками, пагинацией, идентификаторами сессий и UTM-метками.

Когда применяется

Система работает в двух режимах: Реактивный (генерация правил) и Проактивный (применение правил).

Триггеры для генерации/обновления правил:

Высокий Duplicate Rate: Когда уровень дублирования контента внутри кластера превышает определенный порог (например, 50% или 80%).
Истечение срока действия (Staleness): Правила могут периодически пересматриваться.
Ошибки валидации: Если проверка с помощью Validation URLs показывает, что правило неверно предсказывает контент.

Условия применения правил (URL Screening):

Применяется каждый раз, когда обнаруживается новый кандидатный URL, который соответствует имени существующего кластера, для которого есть действующее Equivalence Rule.

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: Генерация правил и Скрининг URL.

Процесс А: Генерация Правил Эквивалентности (Equivalence Rule Generation)

Этот процесс запускается, когда Duplicate Rate в кластере превышает порог.

Разделение на кластеры: URL разделяются на кластеры по хосту и пути.
Анализ Незначимости (Insignificance Analysis):
1. URL в кластере группируются по уникальному контенту.
2. Для каждого параметра проверяется: если в группе с одинаковым контентом параметр имеет разные значения, это увеличивает его Insignificance Index.
Анализ Значимости (Significance Analysis):
1. Параметр временно удаляется из всех URL кластера.
2. URL группируются по оставшейся части (remainder).
3. Если в группе с одинаковым остатком URL ведут на разный контент, это увеличивает Significance Index параметра (так как он отвечал за различие).
Классификация параметров:
1. Индексы нормализуются в значения Content-Relevance Value и Content-Irrelevance Value.
2. Применяется эвристика (например, «правило 90-10»). Если релевантность >90% — content-relevant. Если <10% — content-irrelevant. Между ними — Conflict (обычно трактуется как content-relevant для безопасности).
Создание правила: Формируется и сохраняется Equivalence Rule для кластера.

Процесс Б: Скрининг URL (URL Screening)

Этот процесс применяется к каждому новому кандидату на сканирование.

Получение URL: Система получает кандидатный URL.
Идентификация кластера: Определяется кластер, к которому принадлежит URL.
Проверка Duplicate Rate: Если уровень дублирования высок, планируется анализ (Процесс А), если он еще не запланирован.
Поиск правила: Система ищет действующее Equivalence Rule. Если правила нет, URL планируется к сканированию.
Создание имени класса: Если правило найдено, оно применяется к URL: удаляются все content-irrelevant параметры, а оставшиеся content-relevant параметры упорядочиваются канонически. Результат — потенциальное имя Equivalence Class.
Поиск класса: Система проверяет, существует ли уже Equivalence Class с таким именем.
Обработка дубликата: Если класс найден, сканирование отменяется. URL может быть сохранен как Validation URL.
Обработка уникального URL: Если класс не найден, создается новый Equivalence Class, URL назначается его Representative URL и планируется к сканированию.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и контентных факторах, связанных с идентификацией дубликатов.

Структурные факторы (URL):
- Hostname и Path: Используются для определения Cluster Name.
- Параметры URL (Query Parameters): Имена и значения параметров являются основным объектом анализа (Significance и Insignificance Analysis).
Контентные факторы:
- Контент страницы (Document Content): Используется для определения уникальности. Система сравнивает контент, полученный по разным URL. В патенте упоминается Content Checksum (контрольная сумма контента) для эффективного сравнения.
Ссылочные факторы:
- PageRank: Упоминается в описании патента как фактор, который может использоваться при слиянии классов эквивалентности (когда параметр переходит из значимого в незначимый) для выбора нового Representative URL.

Какие метрики используются и как они считаются

Duplicate Rate (Уровень дублирования): Используется как триггер для активации анализа кластера. Формула: $\text{Duplicate\_Rate} = \frac{\text{Number\_URL} - \text{Number\_Unique\_Content}}{\text{Number\_URL}}$
Insignificance Index: Сумма количества URL в наборах (сгруппированных по контенту), где анализируемый параметр имеет более одного значения.
Significance Index: Сумма количества уникальных контентов минус 1 (NUC-1) в наборах (сгруппированных по остатку URL после удаления параметра), где контент различается.
Content-Relevance Value (Значение релевантности контенту): Нормализованный индекс значимости. Формула: $\text{Value} = \frac{\text{Significance Index}}{\text{Significance Index} + \text{Insignificance Index}}$
Пороговые значения (Heuristics): Используется «правило 90-10» (или альтернативно «80-20») для классификации параметров на основе Content-Relevance Value.
- >90%: Content-relevant
- <10%: Content-irrelevant
- 10%-90%: Conflict

Автоматическое обучение структуре сайта: Google не полагается исключительно на указания вебмастеров. Система активно и автоматически изучает, как параметры влияют на контент, путем статистического анализа результатов сканирования.
Приоритет сохранения контента над экономией ресурсов: Система разработана так, чтобы минимизировать риск пропуска уникального контента. Параметры в состоянии Conflict (когда система не уверена) классифицируются как content-relevant. Это означает, что Google предпочтет просканировать несколько дубликатов, чем потерять одну уникальную страницу.
Каноникализация на основе параметров: Процесс создания Equivalence Class Name (удаление незначимых параметров и сортировка значимых) является формой автоматической каноникализации URL. Representative URL становится канонической версией.
Динамическая адаптация: Система предусматривает механизмы валидации (Validation URLs) и пересмотра правил. Это позволяет Google адаптироваться к изменениям на сайте (например, если параметр, который был незначимым, стал влиять на контент).
Кластеризация как основа анализа: Анализ проводится не глобально, а в контексте Cluster (обычно директории или скрипта). Это означает, что один и тот же параметр (например, id) может быть признан значимым в одной части сайта и незначимым в другой.
Важность доступности каноникала: Патент описывает механизм замены Representative URL, если он становится недоступным, используя один из Validation URLs. Это подчеркивает важность стабильности канонических адресов.

Best practices (это мы делаем)

Соблюдение консистентности параметров: Убедитесь, что параметры используются последовательно. Если параметр (например, sort=price) меняет контент, он всегда должен его менять. Если параметр (например, utm_campaign) не влияет на контент, он никогда не должен на него влиять. Непоследовательность приводит к классификации Conflict и избыточному сканированию.
Канонический порядок параметров: Всегда генерируйте внутренние ссылки с параметрами в фиксированном порядке (например, всегда ?color=blue&size=M, а не иногда ?size=M&color=blue). Это помогает системе быстрее сгруппировать URL в Equivalence Class, так как патент упоминает канонический порядок при создании имени класса.
Использование чистых Representative URLs: Стремитесь к тому, чтобы канонический URL (тот, который вы хотите видеть в качестве Representative URL) был максимально чистым, в идеале без незначимых параметров. Убедитесь, что этот URL доступен для сканирования и отдает код 200.
Мониторинг логов сервера и краулингового бюджета: Анализируйте, какие параметры Googlebot активно сканирует. Если сканируется много URL с незначимыми параметрами, это указывает на то, что система еще не выработала эффективное Equivalence Rule или классифицировала параметры как Conflict.
Использование rel="canonical": Хотя патент описывает автоматическую систему, использование тега rel="canonical" на страницах с параметрами, указывающего на чистый Representative URL, помогает ускорить и уточнить процесс определения Equivalence Class.

Worst practices (это делать не надо)

Смешивание значимых и незначимых параметров в одном токене: Не объединяйте несколько значений в один параметр, если часть из них влияет на контент, а часть нет. Это затрудняет статистический анализ.
Использование разных имен параметров для одной цели: Не используйте ?id=123 и ?product=123 для одной и той же страницы в пределах одного кластера. Это замедляет выявление дубликатов.
Блокировка параметризованных URL через robots.txt (с осторожностью): Блокировка всех параметров может помешать Google обнаружить уникальный контент (если параметры значимы). Также это может помешать системе собрать достаточно данных для генерации Equivalence Rule. Если вы блокируете дубликаты, убедитесь, что Representative URL остается доступным.
Нестабильные канонические URL: Частая смена канонических адресов или их недоступность (коды 4xx/5xx) приводит к тому, что система вынуждена постоянно переназначать Representative URL, что негативно сказывается на индексации.

Стратегическое значение

Этот патент подчеркивает, что управление краулингом и каноникализация являются не разовой настройкой, а динамическим процессом обучения со стороны Google. Для крупных сайтов, особенно E-commerce, техническая чистота и логическая последовательность в структуре URL имеют первостепенное значение. Стратегия должна заключаться в том, чтобы максимально облегчить Google процесс статистического вывода правил: чем чище и консистентнее структура URL, тем быстрее Google оптимизирует краулинг и тем меньше ресурсов будет тратиться на обработку дубликатов, освобождая бюджет для сканирования важного контента.

Практические примеры

Сценарий: Оптимизация фасетной навигации в интернет-магазине

Сайт имеет категорию /dresses/ с фильтрами по цвету (color), размеру (size) и параметром отслеживания (ref).

Наблюдение: Googlebot активно сканирует URL вида /dresses/?color=red&size=S&ref=main, /dresses/?color=red&size=S&ref=sidebar и т.д., тратя краулинговый бюджет.
Анализ (как это делает Google):
- Система определяет кластер /dresses/.
- Она видит, что изменение ref не меняет контент (высокий Insignificance Index для ref).
- Она видит, что изменение color или size меняет контент (высокий Significance Index).
Генерация правила: Equivalence Rule: color и size значимы; ref незначим.
Применение (Действие SEO-специалиста):
1. Убедиться, что все внутренние ссылки используют консистентный порядок параметров (например, всегда color перед size).
2. Настроить rel="canonical" со страницы /dresses/?color=red&size=S&ref=main на /dresses/?color=red&size=S.
Ожидаемый результат: Google группирует все варианты с разными ref в один Equivalence Class. Он выбирает /dresses/?color=red&size=S как Representative URL и перестает сканировать URL с параметром ref, фокусируясь на сканировании новых комбинаций цвета и размера.

Что такое «Кластер» (Cluster) и «Класс эквивалентности» (Equivalence Class) в контексте этого патента?

Кластер — это группа URL с одинаковым хостом и путем (например, все URL, начинающиеся с example.com/forum/thread.php?). Класс эквивалентности — это подгруппа внутри кластера, состоящая из URL, которые ведут на идентичный контент. Например, thread.php?id=5&session=ABC и thread.php?id=5&session=XYZ находятся в одном кластере и, вероятно, в одном классе эквивалентности, так как контент потока 5 одинаков независимо от сессии.

Как Google определяет, является ли параметр значимым (content-relevant) или нет?

Система использует два статистических метода: Анализ Незначимости и Анализ Значимости. В первом случае она проверяет, меняется ли контент при изменении значения параметра. Во втором случае она проверяет, можно ли различить контент, если этот параметр удалить. На основе этих данных вычисляются индексы, и применяется эвристика (например, «правило 90-10») для финальной классификации.

Что происходит, если система не уверена в значимости параметра (Conflict)?

Если результаты анализа противоречивы (например, Content-Relevance Value находится между 10% и 90%), параметр классифицируется как Conflict. В патенте указано, что такие параметры обычно считаются значимыми (content-relevant), чтобы «перестраховаться». Это означает, что Google предпочтет просканировать дубликаты, чем рискнуть пропустить уникальный контент.

Как этот патент связан с инструментом «Параметры URL» в Google Search Console?

Этот патент описывает автоматическую систему, которая выполняет ту же задачу, что и ручной инструмент «Параметры URL» (который Google в значительной степени устарел). Система, описанная в патенте, позволяет Google автоматически изучать поведение параметров без необходимости вмешательства вебмастера, что критически важно для масштабирования сканирования всего интернета.

Влияет ли порядок параметров в URL на этот процесс?

Да, влияет. В патенте упоминается, что при создании имени Equivalence Class оставшиеся значимые параметры могут быть упорядочены в предопределенном, каноническом порядке. Это позволяет системе распознать ?a=1&b=2 и ?b=2&a=1 как один класс. Однако, если сайт генерирует ссылки с разным порядком, это замедляет процесс обучения системы.

Что такое Representative URL и как он выбирается?

Representative URL — это URL, который Google выбирает в качестве канонического для группы дубликатов (Equivalence Class). Обычно это первый URL из класса, который обнаружила система. Однако, если происходит слияние классов (например, при изменении правил), система может выбрать URL с наивысшим PageRank (как указано в описании патента) в качестве нового представителя.

Что произойдет, если Representative URL станет недоступен (например, 404)?

Патент предусматривает механизм валидации. Система периодически проверяет Representative URL. Если он становится недоступным, система может использовать один из сохраненных Validation URLs (другие URL из того же класса, которые ранее были пропущены при сканировании) для замены представителя, убедившись, что он отдает корректный контент.

Как использование rel="canonical" взаимодействует с этой системой?

Тег rel="canonical" служит сильным сигналом для определения предпочтительного Representative URL. Он помогает системе быстрее и точнее формировать Equivalence Classes, снижая необходимость в длительном статистическом анализе поведения параметров. Использование rel="canonical" рекомендуется для ускорения процесса оптимизации краулинга.

Должен ли я блокировать незначимые параметры в robots.txt?

Это зависит от ситуации, но часто это не лучшая стратегия. Блокировка может помешать системе собрать достаточно данных для генерации точного Equivalence Rule. Кроме того, если ссылки с этими параметрами существуют, блокировка помешает консолидации сигналов на Representative URL. Лучше использовать консистентную структуру URL и rel="canonical".

Как этот патент влияет на сайты с фасетной навигацией?

Он имеет огромное значение. Система пытается определить, какие комбинации фильтров создают уникальный и ценный контент, а какие являются просто вариациями. Если навигация реализована технически чисто и последовательно, система сможет эффективно определить значимые комбинации для индексации и игнорировать избыточные, оптимизируя краулинговый бюджет.

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

US7886217B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.

US9081861B2
2015-07-14

Техническое SEO
Краулинг
Индексация

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

US8055626B1
2011-11-08

Индексация
Краулинг
Техническое SEO

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

US8577897B2
2013-11-05

SERP
Семантика и интент
EEAT и качество

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню

Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.

US9053177B1
2015-06-09

SERP
Ссылки
Структура сайта

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика

Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.

US9031929B1
2015-05-12

Поведенческие сигналы
EEAT и качество

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта

Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.

US9195944B1
2015-11-24

Поведенческие сигналы
Индексация
SERP

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы