SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования

SYSTEM AND METHOD FOR MANAGING MULTIPLE DOMAIN NAMES FOR A WEBSITE IN A WEBSITE INDEXING SYSTEM (Система и метод управления несколькими доменными именами для веб-сайта в системе индексирования веб-сайтов)
  • US7930400B1
  • Google LLC
  • 2006-12-27
  • 2011-04-19
  • Индексация
  • Краулинг
  • Техническое SEO
  • Структура сайта
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).

Описание

Какую проблему решает

Патент решает проблему дублирования контента и размывания сигналов ранжирования (например, PageRank), когда один и тот же веб-сайт доступен по нескольким эквивалентным доменным именам (например, с WWW и без WWW). Индексация одного и того же документа под разными URL приводит к неэффективному расходованию краулингового бюджета и ослаблению авторитетности контента. Также решается задача предоставления владельцам сайтов контроля над тем, как и с какой скоростью краулеры сканируют их ресурсы.

Что запатентовано

Запатентована система, позволяющая верифицированным владельцам сайтов (Verified Owners) указывать предпочтительное доменное имя (Preferred Domain Name). Поисковая система использует это предпочтение для перезаписи URL-адресов (URL Rewriting) к предпочтительному домену перед индексацией, обеспечивая консолидацию сигналов. Также запатентованы методы верификации владельцев и интерфейсы для управления скоростью сканирования (Crawl Rate Control).

Как это работает

Система функционирует через несколько ключевых механизмов:

  • Верификация владельца: Владельцы подтверждают свои права на управление сайтом, размещая специфический метатег или файл (Verification Tag/File).
  • Выбор предпочтительного домена: Верифицированные владельцы используют предоставленный интерфейс (GUI) для выбора канонического домена из списка эквивалентных доменов.
  • Перезапись URL (URL Rewriting): Когда система обнаруживает URL, использующий непредпочтительный домен, она перезаписывает его, используя Preferred Domain Name.
  • Индексирование: Документы индексируются только под перезаписанным (каноническим) URL. Метаданные, такие как PageRank (document importance value), консолидируются на этом URL.
  • Управление скоростью сканирования: Верифицированные владельцы могут запрашивать изменение скорости, с которой краулер обращается к сайту, основываясь на данных о нагрузке.

Актуальность для SEO

Высокая. Описанные механизмы лежат в основе функциональности Google Search Console (ранее Google Webmaster Tools). Процессы верификации владельцев, управление скоростью сканирования и сама концепция указания предпочтительного домена являются фундаментальными аспектами технического SEO. Хотя методы каноникализации эволюционировали (Google теперь чаще полагается на 301 редиректы и rel=canonical), инфраструктура для управления настройками сайта, описанная в патенте, остается крайне актуальной.

Важность для SEO

Патент имеет высокое значение для технического SEO (8.5/10). Он описывает фундаментальную инфраструктуру, позволяющую Google решать проблемы каноникализации на уровне домена и консолидировать сигналы ранжирования. Понимание этих механизмов критически важно для обеспечения корректной индексации сайта, управления краулинговым бюджетом и поддержания статуса верифицированного владельца для доступа к инструментам управления индексацией.

Детальный разбор

Термины и определения

Crawl Rate (Скорость сканирования)
Частота, с которой поисковые роботы (Robots) запрашивают документы с веб-сайта.
Crawl Rate Limit (Лимит скорости сканирования)
Максимально допустимая скорость сканирования для конкретного сайта, установленная системой или владельцем сайта.
Domain Name Database (База данных доменных имен)
Хранилище, содержащее записи о веб-сайтах, их эквивалентных доменных именах, предпочтительном домене и статусе верификации.
Equivalent Domain Names (Эквивалентные доменные имена)
Различные доменные имена, которые ведут на один и тот же веб-сайт (например, example.com и www.example.com).
Past Utilization Value (Значение прошлого использования)
Метрика, отражающая максимальную скорость сканирования или нагрузку, зафиксированную на сайте за определенный прошлый период.
Preferred Domain Name (Предпочтительное доменное имя)
Доменное имя, выбранное верифицированным владельцем как каноническое для использования в индексе поисковой системы.
Sitemap (Карта сайта)
Документ (часто в формате XML), содержащий список URL-адресов веб-сайта, доступных для сканирования, и метаданные о них (дата изменения, приоритет). Патент также описывает методы их генерации.
URL Rewriting (Перезапись URL)
Процесс изменения URL-адреса документа с непредпочтительного доменного имени на предпочтительное доменное имя перед индексацией.
Verification Status (Статус верификации)
Индикатор, показывающий, подтверждено ли право собственности пользователя на веб-сайт в текущий момент.
Verification Tag/File (Тег/Файл верификации)
Специальный метатег или файл с уникальным идентификатором, размещаемый на сайте для подтверждения прав собственности.
Verified Owner (Верифицированный владелец)
Пользователь, подтвердивший свои права на управление веб-сайтом с помощью механизма верификации.

Ключевые утверждения (Анализ Claims)

Патент охватывает три основные области: управление предпочтительным доменом, верификацию владельцев и контроль скорости сканирования.

Claim 1 (Независимый пункт): Описывает основной процесс индексации с использованием предпочтительного домена.

  1. Система ассоциирует множество доменных имен (включая одно предпочтительное) с веб-сайтом.
  2. Для документа, чей URL использует непредпочтительное доменное имя, система перезаписывает этот URL на новый, использующий предпочтительное доменное имя.
  3. Система индексирует документ, используя перезаписанный URL.

Это фундаментальный механизм каноникализации на уровне домена, основанный на предпочтениях владельца. Ключевым моментом является то, что перезапись происходит до индексации.

Claim 2 и 3 (Зависимые): Уточняют, что метаданные, в частности document importance value (показатель важности документа, например, PageRank), генерируются для перезаписанного URL.

Это подтверждает, что целью перезаписи является консолидация сигналов ранжирования на каноническом URL.

Claim 5 (Зависимый): Детализирует процесс установления ассоциации.

  1. Предоставляется список верифицированных доменных имен.
  2. Предоставляется механизм для указания пользователем предпочтительного домена.
  3. Если указанный домен отсутствует в списке, система проверяет права собственности пользователя на этот домен.

Это подчеркивает важность верификации для управления настройками индексации.

Claim 11 (Независимый пункт): Описывает процесс с точки зрения взаимодействия с пользователем.

  1. Отображение текущего предпочтительного домена.
  2. Отображение списка ассоциированных доменных имен.
  3. Принятие выбора пользователя нового предпочтительного домена.
  4. Перезапись URL-адресов документов на новый предпочтительный домен.

Этот пункт защищает пользовательский интерфейс (например, в Google Search Console) для управления каноническим доменом.

Где и как применяется

Изобретение затрагивает этапы сканирования и индексирования, а также инфраструктуру взаимодействия с владельцами сайтов.

CRAWLING – Сканирование и Сбор данных
На этом этапе система (Web Crawler System) применяет два ключевых механизма:

  1. URL Rewriting: При обнаружении ссылок на сайт система проверяет предпочтения домена. Если ссылка ведет на непредпочтительный домен, URL может быть перезаписан на предпочтительный домен до того, как он будет поставлен в очередь на сканирование или обработан, экономя краулинговый бюджет.
  2. Crawl Rate Control: Модуль контроля скорости сканирования и база данных (Crawl Rate Database) определяют скорость, с которой роботы могут обращаться к сайту, основываясь на установленных лимитах (Crawl Rate Limit) и исторических данных (Past Utilization Value).

INDEXING – Индексирование и извлечение признаков
На этом этапе обрабатываются уже перезаписанные (канонические) URL.

  1. Серверы обработки контента анализируют документы по каноническим URL.
  2. Метаданные, включая показатели важности документа (рассчитываемые Page Rankers), ассоциируются именно с каноническим URL.
  3. Индексаторы вносят документ в индекс под каноническим URL.

Входные данные:

  • Настройки предпочтительного домена от верифицированного владельца.
  • Настройки скорости сканирования от верифицированного владельца.
  • Данные верификации (наличие Verification Tag/File на сайте).
  • URL-адреса, найденные в ходе сканирования или полученные из Sitemaps.
  • Статистика сканирования (количество страниц, байты, время доступа).

Выходные данные:

  • Перезаписанные (канонические) URL-адреса в индексе.
  • Консолидированные метаданные (например, PageRank) для канонических URL.
  • Скорректированная скорость сканирования сайта.

На что влияет

  • Конкретные типы сайтов: Наибольшее влияние оказывается на сайты, доступные по нескольким адресам: сайты с конфигурацией WWW и без WWW, сайты, прошедшие миграцию доменов, международные сайты с несколькими TLD, указывающими на один контент, или сайты, использующие домены-синонимы.
  • Контентные факторы: Влияет на то, как консолидируется авторитетность контента, предотвращая его дублирование в индексе.

Когда применяется

  • Условия активации (Preferred Domain): Механизм перезаписи URL активируется, когда верифицированный владелец установил предпочтение для группы эквивалентных доменов. Перезапись происходит каждый раз, когда система обрабатывает URL, принадлежащий этой группе.
  • Условия активации (Crawl Rate Control): Контроль скорости сканирования применяется постоянно. Возможность увеличения скорости (Faster crawl rate) предоставляется только в том случае, если текущий лимит является ограничивающим фактором (Is crawl rate limit a factor?).
  • Условия активации (Verification): Проверка статуса владельца происходит при попытке изменить настройки. Периодическая ре-верификация может происходить автоматически или по запросу одного из владельцев для управления списком доступа.

Пошаговый алгоритм

Процесс А: Выбор предпочтительного домена (Preferred Domain Name Selection)

  1. Инициализация: Пользователю (предполагается, что он верифицирован для хотя бы одного домена сайта) предоставляется список верифицированных доменных имен, связанных с сайтом.
  2. Ввод данных: Пользователю предоставляется механизм (GUI) для указания предпочтительного доменного имени.
  3. Валидация выбора: Система проверяет, находится ли выбранный домен в списке верифицированных.
    • Если ДА: Переход к шагу 5.
    • Если НЕТ: Переход к шагу 4.
  4. Проверка собственности: Система проверяет, владеет ли пользователь указанным доменом (т.е., может ли он пройти верификацию для него).
    • Если ДА: Переход к шагу 5.
    • Если НЕТ: Запрос на указание другого домена.
  5. Применение: Система принимает указанное доменное имя как Preferred Domain Name для перезаписи URL и метаданных документов этого сайта.

Процесс Б: Индексирование с использованием предпочтительного домена

  1. Ассоциация: Установление связи между группой эквивалентных доменов и предпочтительным доменом (на основе Процесса А).
  2. Перезапись URL: Для документа с определенным URL, использующим непредпочтительный домен, этот URL перезаписывается на новый URL, включающий предпочтительное доменное имя.
  3. Генерация метаданных: Метаданные (например, PageRank) генерируются для документа с использованием перезаписанного URL.
  4. Индексирование: Документ индексируется с использованием перезаписанного URL.

Процесс В: Контроль скорости сканирования (Crawl Rate Control)

  1. Мониторинг: Сайт сканируется в соответствии с текущим лимитом скорости (Crawl Rate Limit). Данные о сканировании (Crawl Data) сохраняются.
  2. Анализ: Система определяет, является ли текущий лимит скорости ограничивающим фактором (сравнивая его с Past Utilization Value).
  3. Предоставление интерфейса: Владельцу сайта предоставляется механизм контроля скорости и статистика сканирования.
  4. Корректировка скорости:
    • Если лимит является фактором: Владельцу разрешается выбрать более высокую скорость, и лимит увеличивается.
    • Если лимит НЕ является фактором: Владелец информируется об этом, и лимит не увеличивается, даже если выбрана более высокая скорость. Владелец всегда может выбрать более низкую скорость.

Какие данные и как использует

Данные на входе

  • Технические факторы: URL-адреса, Доменные имена. Критически важным является наличие на сайте специфических файлов (Verification File) или метатегов (Verification Tag) для подтверждения прав собственности.
  • Пользовательские факторы (Владельца сайта): Ввод данных верифицированным владельцем через GUI: выбор предпочтительного домена, выбор скорости сканирования (Faster, Normal, Slower). Идентификатор пользователя (User ID) для привязки настроек к аккаунту.
  • Временные факторы: Метки времени (Timestamp), связанные с верификацией владельца и установкой предпочтений. Статистика сканирования за период времени (например, для расчета Past Utilization Value).
  • Системные данные: Crawl Data (статистика по количеству доступных страниц, времени доступа, загруженным байтам). Данные из Domain Name Database и Site Owner Verification Database.

Какие метрики используются и как они считаются

  • Verification Status: Булева метрика (верифицирован/не верифицирован). Определяется путем проверки наличия корректного Verification Tag/File на сайте для данного пользователя.
  • Preferred Flag / Preferred Domain Name: Индикатор, указывающий канонический домен для группы эквивалентных доменов. Устанавливается владельцем сайта.
  • Crawl Rate Limit: Метрика, определяющая максимальную скорость сканирования. Может быть выражена в количестве запросов за период времени или пропускной способности.
  • Past Utilization Value: Историческая метрика максимальной скорости сканирования за определенный период. Используется для определения того, является ли текущий лимит ограничивающим фактором.
  • Document Importance Value (PageRank): Упоминается в патенте как метаданные, которые генерируются для перезаписанного (канонического) URL. Патент не описывает расчет этой метрики, но указывает на ее использование в контексте консолидации.

Выводы

  1. Каноникализация через перезапись URL: Google использует механизм URL Rewriting для решения проблемы эквивалентных доменов. URL-адреса приводятся к предпочтительному виду до индексации, что является эффективным способом консолидации сигналов.
  2. Консолидация сигналов ранжирования: Основная цель выбора предпочтительного домена — гарантировать, что метаданные, такие как PageRank (document importance value), рассчитываются и применяются к каноническому URL, предотвращая размывание авторитетности.
  3. Критичность верификации владельца: Доступ к управлению критическими настройками индексации (предпочтительный домен) и сканирования (Crawl Rate) предоставляется исключительно верифицированным владельцам. Механизм верификации через уникальные теги/файлы является обязательным условием.
  4. Управление владением (Re-verification): Патент описывает механизм управления списком владельцев, позволяя текущим владельцам удалять устаревшие верификационные файлы и инициировать повторную проверку прав, обеспечивая актуальность доступа.
  5. Интеллектуальный контроль скорости сканирования: Система не просто позволяет менять скорость сканирования, но и анализирует, является ли текущий лимит реальным ограничением (используя Past Utilization Value). Увеличение скорости разрешается только тогда, когда это действительно необходимо для более полного охвата сайта.
  6. Инфраструктура GSC: Патент фактически описывает техническую реализацию и пользовательские интерфейсы ключевых функций Google Search Console (Webmaster Tools), включая генерацию Sitemaps, управление доменами, верификацию и контроль сканирования.

Практика

Best practices (это мы делаем)

  • Обеспечение верификации в GSC: Необходимо убедиться, что все версии сайта (включая www/без www, http/https) добавлены и верифицированы в Google Search Console. Это обеспечивает доступ к инструментам управления, описанным в патенте.
  • Последовательная каноникализация: Необходимо иметь четкую стратегию выбора предпочтительного домена. Хотя современные методы чаще используют 301 редиректы и rel=canonical, этот патент подтверждает, что Google фундаментально стремится индексировать только одну версию домена. Все внутренние ссылки и Sitemaps должны использовать предпочтительный домен.
  • Управление скоростью сканирования (Crawl Rate): Используйте инструменты GSC (основанные на Crawl Rate Control) для мониторинга нагрузки на сервер. При необходимости снижайте скорость, чтобы избежать проблем с производительностью. Если контент обновляется часто, а сервер имеет запас мощности, можно запросить увеличение скорости, следуя логике патента.
  • Управление доступом владельцев: Регулярно проверяйте список верифицированных владельцев в GSC. Используйте механизм ре-верификации, описанный в патенте (удаление старых файлов/тегов верификации), для удаления неавторизованных пользователей или бывших сотрудников/агентств.
  • Поддержание верификационных файлов: Убедитесь, что используемые методы верификации (метатеги, HTML-файлы) надежно защищены и не будут случайно удалены при обновлениях сайта.

Worst practices (это делать не надо)

  • Игнорирование каноникализации домена: Позволять Google индексировать несколько версий домена (например, www и без www) одновременно. Это приводит к размыванию сигналов ранжирования, как описано в патенте.
  • Удаление верификационных файлов: Случайное удаление Verification Tag/File приведет к потере статуса верифицированного владельца и доступа к управлению настройками индексации и сканирования.
  • Бесконтрольное предоставление прав владельца: Предоставление полного доступа (статуса владельца) временным подрядчикам без последующего аудита и отзыва прав.
  • Необоснованное изменение скорости сканирования: Попытка установить максимальную скорость сканирования на слабом хостинге может привести к недоступности сайта, или запрос может быть просто проигнорирован системой, если текущий лимит не является фактором.

Стратегическое значение

Этот патент подчеркивает стратегический приоритет Google в отношении чистоты индекса и эффективного сканирования. Он демонстрирует стремление Google взаимодействовать напрямую с верифицированными владельцами сайтов для получения точных инструкций по индексации. Для SEO-специалистов это подтверждает, что техническая конфигурация сайта и использование инструментов для вебмастеров (GSC) являются не опциональными, а фундаментальными требованиями для успешного продвижения. Консолидация сигналов на канонических URL является основой для построения авторитетности.

Практические примеры

Сценарий 1: Каноникализация домена (WWW vs без WWW)

  1. Ситуация: Сайт доступен по example.com и www.example.com. Google индексирует обе версии.
  2. Действие (по патенту): Владелец проходит верификацию для обоих доменов. Используя интерфейс (аналогичный описанному в патенте для GSC), он выбирает www.example.com как Preferred Domain Name.
  3. Результат: Когда краулер встречает ссылку на example.com/page1.html, система применяет URL Rewriting и изменяет её на www.example.com/page1.html перед индексацией. Сигналы консолидируются на версии с WWW.

Сценарий 2: Управление скоростью сканирования для крупного E-commerce сайта

  1. Ситуация: Крупный магазин запускает распродажу, нагрузка на сервер возрастает, и активность Googlebot усугубляет проблемы с производительностью.
  2. Действие (по патенту): Верифицированный владелец использует интерфейс Crawl Rate Control и выбирает опцию "Slower" (Медленнее), чтобы снизить использование сетевых ресурсов.
  3. Результат: Система применяет новый Crawl Rate Limit, и роботы Google снижают частоту запросов, уменьшая нагрузку на сервер во время пикового трафика.

Вопросы и ответы

Означает ли этот патент, что 301 редиректы или rel=canonical не нужны для каноникализации домена?

Нет. Патент описывает механизм, позволяющий владельцу указать предпочтение (то, что раньше было настройкой предпочтительного домена в GSC). Однако на практике для надежной каноникализации всегда рекомендуется использовать стандартные методы, такие как 301 редиректы и атрибут rel=canonical. Эти сигналы более универсальны и понятны всем поисковым системам. Механизм патента служит дополнительным уровнем контроля для Google.

Как именно Google верифицирует владельца сайта согласно патенту?

Патент описывает использование специфичных для пользователя идентификаторов, которые должны быть размещены на сайте. Это может быть верификационный файл (Verification File) с уникальным именем или верификационный метатег (Verification Tag) с уникальным содержанием, размещенный, например, в заголовке главной страницы. Система проверяет наличие этого файла или тега для подтверждения прав.

Как работает механизм URL Rewriting, описанный в патенте?

URL Rewriting происходит внутри системы Google до индексации. Когда система обрабатывает URL, она проверяет, принадлежит ли домен этого URL к группе эквивалентных доменов, для которых установлено предпочтение. Если домен в URL не является предпочтительным, система заменяет его на Preferred Domain Name, сохраняя остальную часть пути. Документ индексируется уже с новым, перезаписанным URL.

Что происходит с PageRank при использовании этого механизма?

Патент явно указывает (Claim 3), что показатель важности документа (document importance value, такой как PageRank) генерируется для перезаписанного URL. Это означает, что все сигналы авторитетности, направленные на любые эквивалентные домены, консолидируются на предпочтительном домене, предотвращая размывание веса.

Могу ли я увеличить скорость сканирования (Crawl Rate) моего сайта в любой момент?

Не всегда. Патент описывает интеллектуальный механизм. Система сначала анализирует, является ли текущий лимит скорости реальным ограничением для сканирования вашего сайта (сравнивая лимит с Past Utilization Value). Если сайт и так сканируется не на пределе лимита (например, из-за медленных ответов сервера), то запрос на увеличение скорости будет отклонен или проигнорирован.

Что такое процесс ре-верификации (Re-verification) и зачем он нужен?

Это механизм управления доступом. Он позволяет одному верифицированному владельцу просмотреть список всех верификационных файлов/тегов, существующих на сайте, удалить неактуальные (например, принадлежащие бывшим сотрудникам) и запустить повторную проверку. Владельцы, чьи файлы были удалены, теряют статус верифицированного владельца.

Что произойдет, если несколько верифицированных владельцев укажут разные предпочтительные домены?

Патент не описывает детально механизм разрешения конфликтов в такой ситуации. Однако, исходя из описанной структуры базы данных, предполагается, что для сайта существует единая настройка предпочтительного домена. На практике в системах типа GSC последнее изменение настройки, сделанное любым верифицированным владельцем, обычно имеет приоритет.

Насколько актуален этот патент, учитывая развитие алгоритмов каноникализации Google?

Патент крайне актуален как описание инфраструктуры взаимодействия Google с владельцами сайтов. Хотя алгоритмы автоматического определения канонических URL стали совершеннее, механизмы верификации, управления доступом и контроля скорости сканирования, описанные в патенте, по-прежнему активно используются в Google Search Console.

Описывает ли этот патент генерацию Sitemaps?

Да, значительная часть патента (первые фигуры и описание) посвящена методам генерации Sitemaps, включая извлечение URL из файловой системы или логов доступа, добавление метаданных (дата изменения, частота обновления, приоритет) и генерацию дифференциальных Sitemaps (содержащих только новые или измененные URL).

Где на практике SEO-специалист сталкивается с реализацией этого патента?

Практически вся работа в Google Search Console основана на этом патенте: процесс добавления и верификации сайта, аудит пользователей с правами доступа, отчеты о сканировании и возможность управления скоростью сканирования в настройках сайта. Также сюда относится устаревшая функция указания основного зеркала (с WWW или без).

Похожие патенты

Как Google позволяет верифицированным владельцам сайтов управлять скоростью сканирования (Crawl Rate) и выбирать предпочитаемый домен
Анализ патента, лежащего в основе функций Google Search Console. Он описывает механизмы верификации прав собственности, выбора канонического (предпочитаемого) домена для консолидации сигналов и управления скоростью сканирования. Ключевой момент: система увеличивает скорость сканирования только тогда, когда текущий лимит является реальным ограничивающим фактором для краулера.
  • US7599920B1
  • 2009-10-06
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования
Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и регулировать предельную скорость сканирования (Crawl Rate Limit) с учетом фактической нагрузки.
  • US8533226B1
  • 2013-09-10
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
  • US8055626B1
  • 2011-11-08
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования
Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.
  • US7827254B1
  • 2010-11-02
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
  • US7680773B1
  • 2010-03-16
  • Техническое SEO

  • Краулинг

  • Индексация

Популярные патенты

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко
Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.
  • US8521725B1
  • 2013-08-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи
Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.
  • US8538970B1
  • 2013-09-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR
Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).
  • US10650066B2
  • 2020-05-12
  • Ссылки

  • SERP

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов
Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.
  • US7610282B1
  • 2009-10-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

seohardcore