SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

AUTOMATIC GENERATION OF REWRITE RULES FOR URLS (Автоматическое генерирование правил перезаписи для URL-адресов)
  • US7827254B1
  • Google LLC
  • 2003-12-31
  • 2010-11-02
  • Краулинг
  • Техническое SEO
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

Описание

Какую проблему решает

Патент решает фундаментальную проблему эффективности сканирования и индексирования: дублирование контента, вызванное динамическими URL. Многие сайты используют параметры в URL (например, session IDs, коды отслеживания, реферальные теги), которые не влияют на основное содержание страницы. Это приводит к тому, что множество разных URL указывают на один и тот же контент. Система устраняет эту избыточность, предотвращая повторное сканирование и индексирование дубликатов, что экономит ресурсы краулера (Crawl Budget) и предотвращает размывание сигналов ранжирования.

Что запатентовано

Запатентована система и метод для автоматического генерирования правил перезаписи URL (Rewrite Rules). Цель этих правил — преобразовать множество вариантов динамических URL в единую каноническую форму (Canonical URL) путем удаления параметров, которые не влияют на содержание документа. Система определяет эти правила путем активного тестирования (пробинга) различных комбинаций параметров на конкретном хосте и сравнения полученного контента.

Как это работает

Система работает в два этапа: генерация правил и их применение.

  • Генерация правил (Обучение): Система собирает образцы URL с сайта, содержащие определенную комбинацию параметров. Для образцов она активно запрашивает версии с различными подмножествами параметров. Сравнивая контент (используя, например, similarity hash), система определяет минимальный набор параметров, необходимый для отображения того же контента. На основе анализа выборки выводится общее правило для хоста.
  • Применение правил (Краулинг): Когда краулер (Spider) обнаруживает новый URL, компонент перезаписи (Rewrite Component) применяет сгенерированные правила, чтобы преобразовать URL в его Canonical URL перед его добавлением в очередь на сканирование.

Актуальность для SEO

Высокая. Несмотря на дату подачи (2003 год), этот патент описывает фундаментальный механизм автоматической каноникализации. Проблема обработки параметров URL и оптимизации краулингового бюджета остается критически важной, особенно для крупных e-commerce и динамических сайтов. Хотя современные сигналы (например, rel=canonical) могут иметь приоритет, описанный механизм остается важной частью арсенала Google для борьбы с дубликатами.

Важность для SEO

Патент имеет критическое значение для технического SEO (8/10). Он напрямую влияет на то, как Google сканирует сайт (Crawl Budget Optimization) и какие страницы индексируются (Canonicalization). Понимание этого механизма необходимо для корректной настройки фасетной навигации, систем отслеживания и фильтрации, а также для гарантии консолидации сигналов ранжирования на правильных канонических URL.

Детальный разбор

Термины и определения

Approximately the same content (Приблизительно тот же контент)
Контент, который считается идентичным основному контенту исходного документа, несмотря на незначительные различия (например, реклама, временные метки). Определяется с помощью методов сравнения документов, таких как Similarity Hash.
Canonical URL (Канонический URL)
Предпочтительная версия URL. В контексте патента — это самая короткая версия URL (с минимальным количеством параметров), которая возвращает тот же контент, что и исходный URL.
Fetch Bot (Бот-загрузчик)
Компонент краулера (Spider), отвечающий за загрузку контента по заданным URL.
Parameter (Параметр)
Часть строки запроса URL (обычно после символа '?'), состоящая из ключа и значения. Система анализирует комбинации параметров.
Promiscuous Crawl («Неразборчивое» сканирование)
Режим сканирования для сбора данных для анализа. Он накладывает мало ограничений на динамические URL и смещен в сторону сканирования URL с новыми комбинациями параметров.
Required Parameter (Необходимый параметр)
Параметр, который существенно влияет на содержание документа. Если его удалить, контент изменится. Определяется по итогам тестирования выборки URL.
Rewrite Component (Компонент перезаписи)
Модуль в составе Spider, который генерирует Rewrite Rules и применяет их для преобразования URL в каноническую форму.
Rewrite Rule (Правило перезаписи)
Инструкция, описывающая, как преобразовать URL (обычно для конкретного хоста или шаблона) путем удаления избыточных параметров.
Similarity Hash (Хеш подобия)
Упомянутый в патенте метод для определения того, являются ли два документа «приблизительно одинаковыми».

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых блока утверждений: один описывает процесс генерации правил (Claim 1), а другой — процесс применения этих правил (Claim 7).

Claim 1 (Независимый пункт): Описывает основной метод генерации правил перезаписи.

  1. Система получает первый URL, включающий один или несколько параметров, и извлекает его контент.
  2. Система генерирует набор различных комбинаций (подмножеств) параметров из исходного URL.
  3. Извлекается контент для URL, содержащих эти различные комбинации параметров.
  4. Проводится сравнение контента исходного URL с контентом, полученным по URL с комбинациями параметров.
  5. Идентифицируется комбинация параметров, которая приводит к получению контента, «приблизительно такого же» (approximately the same), как у первого URL, и которая содержит сокращенное число параметров.
  6. На основе этой идентифицированной комбинации генерируется одно или несколько правил перезаписи URL (URL rewrite rules).

Ядром изобретения является автоматическое определение важности параметров путем активного запроса (пробинга) сервера и сравнения результатов.

Claim 5 (Зависимый от 1): Уточняет критерий выбора канонической версии.

Идентифицированная комбинация параметров должна включать минимальное количество параметров по сравнению с другими комбинациями, которые также возвращают приблизительно тот же контент. Это гарантирует выбор самой короткой возможной канонической версии URL.

Claim 7 (Независимый пункт): Описывает метод применения заранее созданных правил для преобразования URL в каноническую форму.

  1. Система получает URL, который ссылается на контент и содержит набор параметров.
  2. Применяется заранее определенное правило перезаписи (predetermined rewrite rule).
  3. Правило удаляет из URL те параметры, которые (как было определено ранее путем сравнения контента) не влияют на контент, на который ссылается URL.
  4. Переписанный URL выводится как каноническая форма (canonical form) исходного URL.

Где и как применяется

Изобретение является ключевой частью инфраструктуры сбора и обработки данных, затрагивая этапы CRAWLING и INDEXING.

CRAWLING – Сканирование и Сбор данных
Это основная область применения патента. Механизм работает внутри краулера (Spider).

Процесс генерации правил:

  • Система выполняет Promiscuous Crawl, собирая множество динамических URL с различными комбинациями параметров.
  • Затем Rewrite Component инициирует активное зондирование (Active Probing): Fetch Bots многократно запрашивают вариации URL для тестирования параметров.

Процесс применения правил:

  • Во время стандартного сканирования из загруженных документов извлекаются URL.
  • Rewrite Component применяет сгенерированные Rewrite Rules.
  • Полученные Canonical URLs передаются в URL Manager для планирования дальнейшего сканирования. Это оптимизирует краулинговый бюджет, предотвращая загрузку дубликатов.

INDEXING – Индексирование и извлечение признаков
На этапе индексирования система использует Canonical URLs, полученные на этапе CRAWLING. Это предотвращает появление дубликатов в индексе и позволяет консолидировать все сигналы ранжирования (например, ссылки) на едином каноническом адресе.

Входные данные:

  • Набор URL с одного хоста, содержащих параметры.
  • Контент, полученный в ответ на запросы этих URL и их вариаций.

Выходные данные:

  • Набор Rewrite Rules, специфичных для сайта или шаблона URL.
  • Преобразованные Canonical URLs во время сканирования.

На что влияет

  • Конкретные типы контента и ниши: Наибольшее влияние оказывается на крупные динамические сайты:
    • E-commerce и маркетплейсы: Обработка фильтров, сортировок, параметров отслеживания (UTM-метки, аффилиатные коды), идентификаторов сессий.
    • Форумы и UGC-платформы: Обработка параметров просмотра тем, идентификаторов сессий.
    • Новостные сайты: Обработка реферальных кодов и систем аналитики.
  • Технические факторы: Влияет на сайты, использующие строки запроса (query strings) для управления отображением контента.

Когда применяется

  • Генерация правил: Происходит периодически или по мере накопления достаточного количества данных о новом сайте или новой структуре URL (обнаруженных через Promiscuous Crawl). Это ресурсоемкий процесс.
  • Применение правил: Происходит в реальном времени каждый раз, когда краулер извлекает новый URL во время сканирования.
  • Пороговые значения: Для генерации правила необходимо собрать предопределенное количество образцов URL (например, 5) с определенной комбинацией параметров. Параметр считается «обязательным», если он присутствует в пороговом количестве (например, 4 из 5) канонических версий, найденных в ходе тестирования.

Пошаговый алгоритм

Процесс А: Автоматическая генерация правил перезаписи (Обучение)

  1. Сбор данных (Gathering): Система собирает набор URL с определенного хоста, используя Promiscuous Crawl с фокусом на обнаружении новых комбинаций параметров.
  2. Выбор комбинации параметров (Selection): Выбирается конкретная комбинация параметров (например, paramA и paramB), которая часто встречается в собранных данных.
  3. Формирование выборки (Sampling): Из собранных URL отбирается предопределенное количество образцов (например, 5 различных URL), содержащих выбранную комбинацию.
  4. Итеративное тестирование образцов (Probing & Comparison): Для каждого URL из выборки:
    1. Загрузка документа с полным набором параметров (эталон).
    2. Загрузка документа со всеми возможными подмножествами параметров (без параметров, только А, только B, A и B и т.д.).
    3. Сравнение контента вариаций с эталоном с использованием Similarity Hash.
    4. Выбор самой короткой версии URL (с минимальным количеством параметров), которая возвращает approximately the same content. Она помечается как локальный Canonical URL для данного образца.
  5. Агрегация результатов (Aggregation): Анализируются все полученные локальные Canonical URLs из выборки.
  6. Идентификация необходимых параметров (Identification): Если параметр присутствует в пороговом количестве канонических URL (например, в 4 из 5), он помечается как «Необходимый» (Required).
  7. Генерация правила (Rule Generation): Создается Rewrite Rule для данного хоста и исходной комбинации параметров. Правило предписывает перезаписывать URL, оставляя только Required Parameters и удаляя все остальные.

Процесс Б: Применение правил (Краулинг)

  1. Обнаружение URL: Краулер извлекает ссылку из документа.
  2. Применение правил: Rewrite Component проверяет наличие подходящих Rewrite Rules.
  3. Каноникализация: Если правило найдено, URL перезаписывается (удаляются неважные параметры).
  4. Планирование: Канонический URL передается в URL Manager для добавления в очередь на сканирование.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и технических данных, получаемых в процессе сканирования.

  • Технические факторы: URL-структура, включая хост, путь (path) и строку запроса (query string). Система группирует URL и применяет правила на уровне хоста.
  • Структурные факторы (URL): Параметры (ключи) и их значения в строке запроса. Анализируются наличие и комбинации параметров.
  • Контентные факторы: Полное содержание документа (веб-страницы), полученное при запросе URL. Это используется исключительно для сравнения версий.

Какие метрики используются и как они считаются

  • Схожесть контента (Content Similarity): Ключевая метрика для определения approximately the same content. Рассчитывается путем сравнения документов, например, с помощью Similarity Hash. Это позволяет игнорировать незначительные изменения в контенте (реклама, счетчики).
  • Минимальное количество параметров (Minimum number of parameters): Критерий для выбора канонической версии. Предпочтение отдается самой короткой версии URL.
  • Размер выборки (Sample Size): Предопределенное количество URL (например, 5), используемых для тестирования определенной комбинации параметров.
  • Порог для необходимого параметра (Threshold for Required Parameter): Статистический порог для генерации правила. Параметр считается необходимым, если он присутствует в значительном большинстве (например, >80% или 4 из 5) канонических URL, определенных в выборке.

Выводы

  1. Активная каноникализация через пробинг: Google не полагается пассивно на сигналы от вебмастеров. Система активно зондирует (Active Probing) веб-серверы, чтобы алгоритмически определить, как обрабатывать параметры URL, путем тестирования и сравнения ответов.
  2. Контент определяет каноничность: Решение о том, является ли параметр необходимым, принимается исключительно на основе того, меняется ли контент при его удалении. Структура URL вторична.
  3. Агрессивное сокращение URL: Система стремится найти самую короткую возможную версию URL (minimum number of parameters), которая представляет контент. Это подтверждает стратегию Google по минимизации индекса и оптимизации сканирования.
  4. Толерантность к шуму (Approximate Matching): Использование Similarity Hash и концепции «приблизительно того же контента» критически важно. Это позволяет системе игнорировать незначительные изменения на странице (реклама, счетчики, временные метки) и фокусироваться на основном содержании.
  5. Специфичность правил для хоста: Правила генерируются на основе анализа конкретного хоста. Система признает, что один и тот же параметр может быть критически важным на одном сайте и избыточным на другом.

Практика

Best practices (это мы делаем)

  • Обеспечение Graceful Degradation параметров: Критически важно, чтобы веб-сервер корректно обрабатывал запросы при удалении неважных параметров (UTM-метки, session ID). Их удаление не должно приводить к ошибке (404, 500) или изменению основного контента. Это позволит системе Google корректно обучиться и сгенерировать Rewrite Rules.
  • Четкая дифференциация полезного контента: Если параметр должен изменять контент (например, фильтр товара или пагинация), убедитесь, что изменения контента достаточно существенны (т.е. меняется основной контент, а не только порядок элементов), чтобы Similarity Hash не классифицировал их как дубликаты.
  • Поддержание стабильности и скорости сервера: Процесс генерации правил (Active Probing) создает дополнительную нагрузку на сервер, так как система активно запрашивает множество вариаций URL. Медленные ответы или ошибки сервера могут помешать системе корректно проанализировать структуру сайта.
  • Использование явных сигналов каноникализации: Внедрение rel=canonical на всех страницах остается лучшей практикой. Это снижает зависимость Google от ресурсоемкого механизма активного пробинга и страхует от ошибок автоматического определения правил.
  • Консистентность структуры URL: Поддержание консистентности в порядке параметров на всем сайте облегчает системе процесс обучения и снижает вероятность ошибок каноникализации.

Worst practices (это делать не надо)

  • Возврат ошибок при отсутствии необязательных параметров: Если сервер возвращает ошибку 404 или 500, когда Google тестирует URL без session ID, система сделает вывод, что session ID является обязательным параметром (Required Parameter), что приведет к индексации дубликатов.
  • Использование параметров для минимальных изменений: Не используйте разные параметры URL для отображения контента, который лишь незначительно отличается. Система может посчитать эти версии дубликатами и канонизировать их на одну версию.
  • Блокировка сканирования параметров через Robots.txt (Устаревшая практика): Блокировка URL с параметрами может помешать Google как обнаружить контент, так и изучить правила перезаписи. Если параметры неважные, лучше позволить сканирование и полагаться на каноникализацию.
  • Генерация нестабильного контента: Избегайте чрезмерной рандомизации блоков контента. Если контент будет слишком сильно отличаться при каждой загрузке, система не сможет установить эквивалентность URL с помощью similarity hash.

Стратегическое значение

Этот патент подчеркивает фундаментальную важность технического SEO и чистой архитектуры сайта. Он демонстрирует, насколько серьезно Google подходит к проблеме эффективности сканирования и борьбы с дубликатами. Для Senior SEO-специалистов это подтверждает, что управление URL-параметрами, особенно в сложных системах, таких как фасетная навигация в e-commerce, является критическим требованием для успешного индексирования и ранжирования. Понимание механизма Active Probing позволяет лучше диагностировать сложные проблемы каноникализации.

Практические примеры

Сценарий: Определение канонического URL для страницы товара в E-commerce

Сайт генерирует сложные URL для отслеживания источников трафика и сессий.

  1. Исходный URL (Образец): /product.asp?id=123&session=XYZ&ref=email
  2. Комбинация параметров: id, session, ref.
  3. Активное тестирование (Probing): Система запрашивает:
    • /product.asp?id=123&session=XYZ&ref=email (Эталон)
    • /product.asp?
    • /product.asp?id=123
    • /product.asp?session=XYZ
    • (и другие комбинации)
  4. Сравнение контента:
    • Система обнаруживает, что /product.asp? возвращает главную страницу (Не совпадает).
    • Система обнаруживает, что /product.asp?id=123 возвращает тот же товар, что и эталон (Совпадает).
    • Система обнаруживает, что /product.asp?session=XYZ возвращает ошибку или главную страницу (Не совпадает).
  5. Определение Канонической версии: Самый короткий URL, вернувший совпадение — /product.asp?id=123.
  6. Генерация правила (После анализа выборки): Система подтверждает, что id является необходимым параметром, а session и ref — нет. Создается правило: "На этом сайте для URL по шаблону /product.asp удалять параметры session и ref".

Вопросы и ответы

Как система определяет, что контент «приблизительно совпадает» (approximately the same)?

В патенте упоминается использование техник сравнения документов, таких как similarity hash (хеш подобия). Это означает, что система не требует побайтового совпадения контента. Она способна игнорировать различия в динамических элементах страницы, таких как рекламные блоки, временные метки или счетчики посещений, фокусируясь на сравнении основного содержания документа.

Заменяет ли этот механизм необходимость использования атрибута rel=canonical?

Нет, не заменяет. Этот патент описывает автоматизированный алгоритмический подход Google, который используется как защитный механизм. Атрибут rel=canonical является явным указанием вебмастера и обычно имеет приоритет. Использование rel=canonical снижает необходимость для Google применять ресурсоемкий процесс активного пробинга, описанный в патенте, и страхует от ошибок автоматизации.

Что произойдет, если мой сервер вернет ошибку (например, 404 или 500), когда Google попытается загрузить URL с удаленным параметром?

Это критическая ошибка конфигурации. Если удаление параметра приводит к ошибке сервера, система Google не сможет сравнить контент и сделает вывод, что данный параметр является обязательным (required). Это приведет к тому, что URL с этим параметром (например, session ID) будет считаться уникальным и индексироваться отдельно, что приведет к массовому индексированию дубликатов.

Как этот патент влияет на оптимизацию краулингового бюджета (Crawl Budget Optimization)?

Влияние прямое и значительное. Основная цель изобретения — повысить эффективность сканирования. Автоматически удаляя ненужные параметры перед постановкой URL в очередь, Google экономит свои ресурсы. Однако, на этапе обучения (генерации правил) система тратит дополнительный бюджет, так как ей нужно многократно запрашивать страницы с разными комбинациями параметров для тестирования.

Может ли процесс активного тестирования (Active Probing) создать проблемы с нагрузкой на сервер?

Да, это возможно. Для анализа одной комбинации параметров система должна выполнить множество запросов. Например, если URL имеет 4 параметра, это может потребовать до 24=162^4 = 1624=16 запросов к серверу для анализа одного образца URL. На сайтах с тысячами комбинаций это может создать заметную нагрузку.

Что произойдет, если система неправильно классифицирует необходимый параметр как избыточный?

Если необходимый параметр (например, идентификатор категории или пагинация) будет ошибочно удален с помощью Rewrite Rule, это приведет к неправильной каноникализации. Уникальный контент будет считаться дубликатом и не будет индексироваться самостоятельно. Сигналы ранжирования будут консолидированы на неправильном URL.

Как система обрабатывает параметры сортировки или фильтрации в e-commerce?

Это зависит от реализации. Если сортировка значительно меняет набор товаров на странице, Google может посчитать это другим контентом и признать параметр обязательным. Если же меняется только порядок одних и тех же элементов, система может посчитать контент «приблизительно совпадающим» и попытаться каноникализировать его к версии по умолчанию.

Применяются ли правила перезаписи глобально или для каждого сайта отдельно?

Патент описывает процесс генерации правил на основе анализа URL, собранных с конкретного веб-сайта или хоста. Это означает, что правила специфичны для сайта. Параметр с одним и тем же именем (например, 'id') может быть критически важным на одном сайте и совершенно неважным на другом.

Что такое «Promiscuous Crawl» и как он связан с этим патентом?

Это специальный режим сканирования, упомянутый в патенте, который используется для сбора данных для обучения. В этом режиме краулер намеренно сканирует множество URL с различными, в том числе новыми, комбинациями параметров, чтобы изучить поведение сервера и собрать достаточно образцов для генерации Rewrite Rules.

Что означает критерий «минимальное количество параметров»?

Это означает, что Google предпочитает самые короткие URL в качестве канонических. Если URL А (с 1 параметром) и URL Б (с 2 параметрами) возвращают одинаковый контент, система выберет URL А в качестве канонического. Это подчеркивает важность использования чистых и лаконичных URL.

Похожие патенты

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
  • US7680773B1
  • 2010-03-16
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.
  • US7886217B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров
Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.
  • US9081861B2
  • 2015-07-14
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования
Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).
  • US7930400B1
  • 2011-04-19
  • Индексация

  • Краулинг

  • Техническое SEO

Популярные патенты

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
  • US8898150B1
  • 2014-11-25
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы
Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.
  • US9129029B1
  • 2015-09-08
  • Local SEO

  • Поведенческие сигналы

  • Свежесть контента

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

seohardcore