SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

DETECTING MIRRORS ON THE WEB (Обнаружение зеркал в Интернете)
  • US8055626B1
  • Google LLC
  • 2005-08-09
  • 2011-11-08
  • Индексация
  • Краулинг
  • Техническое SEO
  • Структура сайта
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

Описание

Какую проблему решает

Патент решает фундаментальную проблему эффективности поисковых систем, связанную с существованием идентичного контента, доступного по разным URL (зеркалам). Это приводит к нескольким проблемам: растрате краулингового бюджета при повторном сканировании одного и того же контента, избыточной нагрузке на веб-серверы и увеличению размера индекса. Кроме того, это вызывает размывание сигналов ранжирования (например, ссылочного веса), поскольку авторитетность распределяется между несколькими версиями контента вместо консолидации на одной.

Что запатентовано

Запатентована система и метод для автоматического обнаружения того, являются ли два имени хоста (Hostnames) или раздела сайта (Subtrees) зеркалами (Mirrors) друг друга. Изобретение использует мультисигнальный анализ (Multiple Signals), агрегируя данные из различных источников (контент, структура, DNS, WHOIS) и рассчитывая уровень уверенности (Confidence Level). Также описан эффективный метод для выявления потенциальных кандидатов путем анализа структурного сходства карты сайта (Sitemap).

Как это работает

Система работает в два основных этапа. Первый этап — эффективная идентификация кандидатов. Чтобы избежать сравнения всех хостов между собой, система инвертирует компоненты пути URL (например, site.com/a/b.html становится b.html/a/site.com) и сортирует их. Хосты с идентичной структурой оказываются рядом в списке. Второй этап — верификация. Для пары кандидатов собираются Multiple Signals: совпадение контента, IP-адресов, данные WHOIS, информация о редиректах и т.д. Этим сигналам присваиваются веса (в примере патента наибольший вес имеют редиректы и IP), и вычисляется Confidence Level. Если зеркало подтверждено, один из вариантов исключается из последующего сканирования и индексирования.

Актуальность для SEO

Высокая. Проблемы каноникализации, эффективности сканирования и консолидации сигналов остаются критически важными для Google. Хотя конкретные алгоритмы и веса, вероятно, эволюционировали с момента подачи патента (2005 г.), фундаментальный подход, основанный на анализе инфраструктурных (IP, DNS) и структурных (Sitemap) сигналов для обнаружения зеркал на уровне хостов и разделов, остается актуальным.

Важность для SEO

Патент имеет высокое значение (8/10) для технического SEO. Он описывает инфраструктурные механизмы, лежащие в основе каноникализации и оптимизации краулингового бюджета. Понимание того, что Google активно анализирует IP-адреса, структуру сайта и редиректы для выявления зеркал, критически важно для управления крупными сайтами, международным SEO, миграциями и предотвращения размывания сигналов ранжирования.

Детальный разбор

Термины и определения

Confidence Level (Уровень уверенности)
Рассчитанная метрика, указывающая на вероятность того, что два Hostnames или Subtrees являются зеркалами. Рассчитывается на основе взвешенных Multiple Signals.
Crawl Repository (Репозиторий сканирования)
База данных, хранящая документы и ссылки, обнаруженные краулером. Источник данных для анализа контента и структуры.
DNS Map (Карта DNS)
Соответствие между именами хостов и IP-адресами. Используется для определения совпадения IP или подсети.
Edit Distance (E) (Расстояние редактирования)
Метрика схожести между двумя именами хостов (от 0 до 1). Используется как один из сигналов.
Hostname/Subtree (Имя хоста/Поддерево)
Объект анализа. Hostname — это доменное имя (например, www.example.com). Subtree — это раздел иерархии директорий (например, example.com/en/), включающий все объекты ниже этого уровня.
Mirrors (Зеркала)
Два или более Hostnames или Subtrees, которые ссылаются на один и тот же контент.
Multiple Signals (Множественные сигналы)
Набор данных, используемых для верификации зеркал (контент, ссылки, IP, WHOIS, редиректы и т.д.).
Reversed URLs (Инвертированные URL)
Техника оптимизации, при которой компоненты пути URL меняются местами для эффективного поиска структурных совпадений (Sitemap) путем сортировки.
Transitive Closure (Транзитивное замыкание)
Логический принцип: если A является зеркалом B, и B является зеркалом C, то A является зеркалом C.
WHOIS Database (База данных WHOIS)
Источник данных о владельцах доменных имен.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод мультисигнального анализа для обнаружения зеркал.

  1. Идентификация первого и второго Hostname или Subtree как потенциальных зеркал.
  2. Получение Multiple Signals для этой пары.
  3. Условие (специфичное для этого Claim): как минимум один сигнал должен включать информацию о том, что один хост/поддерево автоматически перенаправляет (automatically redirects) на другой.
  4. Идентификация зеркал путем:
    • Присвоения весов (weights) сигналам.
    • Расчета Confidence Level на основе информации о редиректе, как минимум одного другого сигнала и присвоенных весов.

Claim 7 (Независимый пункт): Описывает метод эффективного выявления кандидатов в зеркала (механизм оптимизации).

  1. Идентификация множества URL с компонентами пути (path components).
  2. Создание инвертированных URL (Reversed URLs) путем изменения порядка компонентов пути.
  3. Сортировка хостов/поддеревьев на основе Reversed URLs.
  4. Сравнение последовательно смежных элементов в отсортированном списке для идентификации пары кандидатов (на основе структурного сходства).
  5. Определение того, являются ли эта пара зеркалами, используя Multiple Signals.

Claim 12 (Независимый пункт): Описывает полный процесс от выявления кандидатов до применения результатов.

  1. Получение URL и генерация Reversed URLs.
  2. Сортировка и сравнение смежных URL для выявления пар похожих хостов/поддеревьев.
  3. Получение Multiple Signals для пары (из Crawl Repository, DNS map или WHOIS database).
  4. Присвоение весов и расчет Confidence Level.
  5. Исключение одного из хостов/поддеревьев пары из последующего сканирования или индексирования поисковой системой на основе рассчитанного Confidence Level.

Где и как применяется

Изобретение применяется на ранних этапах поискового процесса для оптимизации сбора и хранения данных.

CRAWLING – Сканирование и Сбор данных
Основной этап применения патента. Система сканирования (Web Crawler Engine) использует компонент Mirror Detector для анализа хостов и URL.

  • Оптимизация очереди сканирования: Если система определяет, что два хоста являются зеркалами (например, www.site.com и site.com), и один URL уже был сканирован (www.site.com/page), то система (Content Manager) не будет добавлять в очередь эквивалентный URL с другого зеркала (site.com/page).
  • Обработка полученных документов: Когда робот (Fetch Bot) загружает документ, Mirror Detector определяет, является ли он зеркалом ранее загруженного документа. Если да, документ может быть отброшен, а исходящие ссылки в нем проигнорированы.

INDEXING – Индексирование и извлечение признаков
На этом этапе результаты работы алгоритма используются для обеспечения того, чтобы в индексе хранилась только одна копия контента. Это критически важно для процесса каноникализации и консолидации сигналов ранжирования (например, ссылочного веса) на предпочтительной версии документа.

Входные данные:

  • Набор URL из репозитория сканирования.
  • Контент сканированных страниц.
  • Карты DNS (соответствие Хост-IP).
  • Данные из баз данных WHOIS.
  • Информация о редиректах, полученная во время сканирования.

Выходные данные:

  • Идентификация пар хостов/поддеревьев как зеркал с рассчитанным Confidence Level.
  • Аннотации для URL, указывающие, что они являются зеркалами и не требуют сканирования или индексирования.

На что влияет

  • Технические дубли: Обработка версий сайта с www и без, HTTP/HTTPS.
  • Крупные сайты и E-commerce: Управление дубликатами, возникающими из-за фасетной навигации или параметров URL, если они формируют зеркальные Subtrees. Критично для экономии краулингового бюджета.
  • Международное SEO: Определение отношений между доменами (ccTLD) или разделами, если они содержат идентичный контент и структуру.
  • Среды разработки (Staging): Обнаружение и исключение тестовых серверов, если они доступны для сканирования.

Когда применяется

  • Условия работы алгоритма: Алгоритм работает непрерывно в процессе сканирования интернета и анализа структуры обнаруженных URL.
  • Триггеры активации: Процесс верификации активируется, когда механизм оптимизации (инвертирование URL) идентифицирует потенциальных кандидатов на основе структурного сходства (Sitemap similarity).

Пошаговый алгоритм

Процесс определения зеркал состоит из двух основных этапов: идентификация кандидатов и их верификация.

Этап А: Идентификация потенциальных пар (Оптимизация)

  1. Сбор данных: Система получает набор URL, связанных с различными хостами и поддеревьями.
  2. Инвертирование путей: Компоненты пути каждого URL инвертируются. Например, www.google.com/news/world/index.html становится index.html/world/news/www.google.com.
  3. Сортировка: Инвертированные URL сортируются. В результате URL с одинаковой структурой, но разными хостами оказываются рядом в списке.
  4. Выявление кандидатов: Последовательно смежные URL в отсортированном списке сравниваются. Если они имеют схожие карты сайта (sitemaps), соответствующие им хосты или поддеревья помечаются как потенциальные зеркала.

Этап Б: Верификация и расчет уверенности

  1. Сбор сигналов: Для каждой пары кандидатов (A и B) система собирает Multiple Signals.
  2. Расчет метрик дублирования: Вычисляется количество страниц с совпадающими суффиксами, которые имеют точное совпадение контента (Me) и приблизительное совпадение (Ms), относительно общего числа сканированных страниц на обоих хостах (Na, Nb).
  3. Расчет схожести хостов: Вычисляется расстояние редактирования (E) между именами хостов.
  4. Анализ технических сигналов: Определяются бинарные метрики: совпадение цели редиректа (SameRedir), совпадение IP (SameIP), совпадение владельца (SameOwner).
  5. Взвешивание и вычисление Confidence Level: Сигналам присваиваются веса, и они агрегируются в итоговый уровень уверенности (confidence_for_mirror(A, B)) с использованием предопределенного алгоритма.
  6. Принятие решения: На основе Confidence Level пара классифицируется как зеркала.
  7. Транзитивное замыкание: Результаты используются для дальнейшего определения зеркал по транзитивности (если A=B и B=C, то A=C).
  8. Исключение из сканирования: Один из идентифицированных зеркал исключается из последующего сканирования и индексирования.

Какие данные и как использует

Данные на входе

Система использует комбинацию технических, контентных, структурных и внешних данных.

  • Технические факторы:
    • Структура URL (Path Components).
    • IP-адрес или подсеть (полученные из DNS Map). Совпадение IP является сильным сигналом.
    • Информация о редиректах (Redirect Information).
  • Контентные факторы:
    • Полный контент сканированных страниц для анализа точного (exact content) и частичного дублирования (nearly duplicate content).
  • Структурные факторы:
    • Структура ссылок и карта сайта (Link Structure/Site Map), часто выводимые из анализа URL путей.
  • Внешние данные (Регистрационные):
    • Информация о владельце домена (Owner), полученная из WHOIS Database.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик для расчета итогового Confidence Level для пары (A, B). Патент приводит конкретный пример псевдокода для расчета уверенности. Примечание: В тексте патента указано, что результат находится в диапазоне от 0 до 1, однако приведенный псевдокод допускает значения выше 1. Мы приводим псевдокод точно так, как он указан в патенте.

Выводы

  1. Алгоритмическое обнаружение зеркал: Google активно и алгоритмически обнаруживает зеркала и дубликаты на уровне хостов и разделов (Subtrees). Система не полагается исключительно на сигналы от вебмастеров (такие как rel=canonical).
  2. Многофакторный анализ с акцентом на технические сигналы: Обнаружение основано на комбинации сигналов. В примере патента технические сигналы — редиректы (SameRedir) и совпадение IP-адресов (SameIP) — имеют наибольший вес (1.0 и 0.9 соответственно). Это подчеркивает важность корректной технической инфраструктуры.
  3. Структурное сходство как триггер: Система использует анализ структуры сайта (Sitemap) для эффективного выявления потенциальных зеркал. Техника инвертирования URL путей (Reversed URLs) позволяет быстро находить разделы с идентичной организацией контента.
  4. Важность контентного анализа: Степень точного (Me) и частичного (Ms) дублирования контента является значимым подтверждающим фактором. Чем больше процент дубликатов, тем выше вероятность признания зеркалом.
  5. Цель — Эффективность и Консолидация: Основные цели изобретения — экономия ресурсов (краулинговый бюджет, место в индексе) и консолидация сигналов ранжирования на одной версии контента.
  6. Автоматическое исключение: Если система с высокой уверенностью определяет хост или Subtree как зеркало, она может полностью исключить его из сканирования и индексации.

Практика

Best practices (это мы делаем)

  • Проактивное управление каноникализацией (Редиректы): Необходимо явно указывать канонические версии с помощью 301 редиректов для зеркал уровня хоста (www/non-www, http/https). Это самый надежный сигнал (SameRedir имеет максимальный вес в примере патента), который помогает системе быстро и точно определить зеркало.
  • Поддержание консистентной структуры URL: Поскольку анализ структуры (Sitemap) используется для идентификации потенциальных зеркал, крайне важно поддерживать чистую и последовательную структуру URL и внутреннюю перелинковку. Всегда ссылайтесь только на канонические URL.
  • Технический аудит инфраструктуры (IP): Понимайте, что SameIP является сильным сигналом (вес 0.9). Размещение идентичного контента на одном IP помогает Google идентифицировать зеркала. И наоборот, если сайты не должны считаться зеркалами, но имеют схожий контент (например, региональные версии), желательно размещать их на разных IP/подсетях и активно использовать hreflang.
  • Контроль доступности сред: Staging, development и тестовые среды должны быть закрыты от краулеров (например, с помощью HTTP-аутентификации), чтобы избежать их идентификации как зеркал основного сайта и траты краулингового бюджета.
  • Точность данных WHOIS: Для доменов одной организации следует поддерживать консистентные данные WHOIS. Сигнал SameOwner используется системой для подтверждения связи между доменами.

Worst practices (это делать не надо)

  • Доступность нескольких версий сайта: Позволять сканировать и индексировать несколько версий сайта (например, www и non-www, отвечающие 200 OK). Это заставляет систему алгоритмически определять зеркала, что тратит ресурсы и создает риск ошибки в выборе каноникала.
  • Использование неканонических URL во внутренних ссылках: Непоследовательная внутренняя перелинковка усложняет определение структуры сайта и может привести к некорректной идентификации зеркал или дубликатов.
  • Создание идентичных разделов без явной каноникализации: Размещение одного и того же контента в разных разделах без указания канонической версии может привести к тому, что система определит эти разделы как зеркальные Subtrees и выберет для сканирования только один из них.

Стратегическое значение

Патент подтверждает фундаментальную важность технического SEO и чистой архитектуры сайта. Эффективность сканирования напрямую зависит от того, насколько легко Google может идентифицировать и игнорировать дублирующийся контент. Стратегия должна заключаться в максимальном упрощении работы поисковой системы: один уникальный контент должен быть доступен по одному каноническому URL, а все альтернативные пути должны явно указывать на каноникал через редиректы или rel=canonical.

Практические примеры

Сценарий 1: Обработка www и non-www версий

  1. Ситуация: Сайт доступен по site.com и www.site.com, оба отвечают 200 OK.
  2. Действие Google (по патенту): Система инвертирует URL, обнаруживает идентичную структуру. Затем собирает сигналы: IP-адрес (совпадает, SameIP=1), WHOIS (совпадает, SameOwner=1), Контент (полностью дублируется, Высокий Me). Confidence Level будет максимальным. Google выберет одну версию для сканирования.
  3. SEO-действие: Настроить 301 редирект с одной версии на другую. Это дает Google явный сигнал (SameRedir), ускоряет процесс определения зеркала и гарантирует выбор предпочтительной версии.

Сценарий 2: Управление региональными доменами на одном IP

  1. Ситуация: Компания использует brand.de и brand.at (Германия и Австрия). Контент на немецком языке идентичен на 95%. Оба сайта размещены на одном IP-адресе.
  2. Действие Google (по патенту): Система идентифицирует структурное сходство. Проверка сигналов: SameIP=1, SameOwner=1, Ms (почти дубликаты) очень высокое. Confidence Level высокий.
  3. Результат: Система может классифицировать их как зеркала и консолидировать на одном домене (например, brand.de), что приведет к потере видимости в Австрии.
  4. Рекомендация SEO: Необходимо использовать hreflang для указания отношений. Чтобы снизить вероятность классификации как полных зеркал, необходимо уникализировать контент (цены, условия доставки, контакты) и рассмотреть возможность размещения на разных IP-адресах.

Вопросы и ответы

Какова основная цель этого патента с точки зрения Google?

Основная цель — повышение эффективности инфраструктуры поиска. Обнаружение зеркал позволяет Google экономить краулинговый бюджет, не сканируя один и тот же контент многократно, уменьшает размер индекса и снижает нагрузку на веб-серверы. Вторичная цель — консолидация сигналов ранжирования (например, PageRank) на одной канонической версии.

Как метод "Reversed URLs" помогает Google находить зеркала?

Это техника оптимизации для быстрого поиска кандидатов. Путь URL инвертируется (например, site.com/a/b.html становится b.html/a/site.com), а затем список всех URL сортируется. Сайты с идентичной файловой структурой (Sitemap), независимо от домена, оказываются рядом в отсортированном списке. Это позволяет системе быстро выявить структурные совпадения без дорогостоящего сравнения всех возможных пар сайтов.

Какие сигналы имеют наибольший вес при определении зеркал согласно патенту?

В примере формулы, приведенной в патенте, наибольший вес имеют технические сигналы и степень дублирования контента. Информация о редиректах (SameRedir, вес 1.0) и совпадение IP-адресов (SameIP, вес 0.9) являются очень сильными индикаторами. Также критически важна доля страниц с точно или почти совпадающим контентом.

Насколько важен IP-адрес для определения зеркал?

Он очень важен. Совпадение IP (вес 0.9) является одним из самых сильных сигналов. Для SEO это означает, что размещение двух доменов с идентичным контентом и структурой на одном IP-адресе значительно увеличивает вероятность их классификации как зеркал. Если сайты должны ранжироваться независимо, лучше использовать разные IP и уникализировать контент.

Заменяет ли этот механизм необходимость использования rel=canonical или 301 редиректов?

Нет, не заменяет. Этот механизм является автоматизированной системой Google для обнаружения зеркал, когда явные сигналы отсутствуют или противоречивы. SEO-специалисты всегда должны предоставлять четкие сигналы каноникализации с помощью 301 редиректов (предпочтительно, так как это сильный сигнал по патенту) или rel=canonical. Это гарантирует правильную интерпретацию и предотвращает ошибки автоматического обнаружения.

Как этот патент влияет на международное SEO (International SEO)?

Он очень актуален. Если у вас есть несколько сайтов с идентичным контентом на одном языке для разных регионов (например, США и Канада), и они имеют одинаковую структуру и общий IP, они могут быть классифицированы как зеркала. Чтобы обеспечить правильное ранжирование в нужных регионах, критически важно использовать hreflang и локализировать контент.

Что произойдет, если Google ошибочно классифицирует мой уникальный контент как зеркало?

Если уникальный контент ошибочно классифицирован как зеркало другого ресурса, он будет исключен из сканивания и индексирования (Claim 12). Это приведет к полной потере видимости и трафика для этого контента. В таком случае необходимо усилить сигналы уникальности: изменить структуру URL, уникализировать контент и проверить инфраструктурные настройки (IP).

Используются ли данные WHOIS и насколько они важны?

Да, совпадение владельца (SameOwner) на основе данных WHOIS является одним из Multiple Signals. Однако в примере формулы ему присвоен низкий вес (0.1), что указывает на его вспомогательную роль по сравнению с техническими (IP, редиректы) и контентными факторами.

Как система обрабатывает почти дублирующийся контент (near-duplicate)?

Система учитывает как точные совпадения (Me), так и почти дублирующийся контент (Ms). В примере формулы почти дубликатам присваивается чуть меньший вес (0.8), чем точным совпадениям. Это означает, что даже при незначительных отличиях в контенте, но при сильных структурных и технических сигналах, ресурс может быть признан зеркалом.

Что такое "Subtree" (Поддерево) в контексте этого патента?

Subtree относится к разделу иерархии директорий сайта, например, site.com/en/. Система может обнаруживать зеркала не только на уровне целых доменов (site1.com vs site2.com), но и на уровне отдельных разделов (site1.com/blog/ vs site2.com/info/), если их структура и контент идентичны.

Похожие патенты

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования
Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).
  • US7930400B1
  • 2011-04-19
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
  • US7680773B1
  • 2010-03-16
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования
Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.
  • US7827254B1
  • 2010-11-02
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.
  • US7886217B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Популярные патенты

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи
Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.
  • US6526440B1
  • 2003-02-25
  • Ссылки

  • Антиспам

  • SERP

seohardcore