SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

TECHNIQUES FOR FINDING RELATED HYPERLINKED DOCUMENTS USING LINK-BASED ANALYSIS (Методы поиска связанных гиперссылочных документов с использованием анализа на основе ссылок)
  • US6754873B1
  • Google LLC
  • 2000-04-06
  • 2004-06-22
  • Ссылки
  • SERP
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

Описание

Какую проблему решает

Патент решает задачу автоматического поиска гиперссылочных документов (веб-страниц), которые не просто тематически связаны с выбранным документом, но и находятся на «том же уровне обобщения» (same level of generality). Традиционный текстовый поиск часто не справляется с задачей поиска прямых аналогов или конкурентов (например, найти другие крупные газеты при просмотре сайта NY Times). Изобретение предлагает метод, основанный исключительно на анализе структуры ссылок (link-based analysis), устраняя необходимость ручной категоризации и фильтруя шум от внутренних ссылок и страниц-агрегаторов.

Что запатентовано

Запатентована техника поиска связанных документов с использованием анализа сопутствующих ссылок (co-citation). Система анализирует ссылочное окружение: определяются страницы, ссылающиеся на исходный документ (Backlink Set), а затем изучается, на какие еще документы они ссылаются (Forwardlink Set). Ключевой инновацией является механизм нормализации веса этих ссылок: вес снижается, если в Backlink Set много страниц с одного хоста (нормализация по хосту) или если ссылающаяся страница содержит слишком много исходящих ссылок (нормализация по количеству ссылок).

Как это работает

Механизм основан на предположении, что если документ C часто цитирует документы A и B вместе, то A и B связаны.

  • Определение Backlink Set: Находятся страницы, ссылающиеся на выбранный документ.
  • Определение Forwardlink Set: Идентифицируются страницы (кандидаты), на которые ссылаются документы из Backlink Set.
  • Нормализация по хосту: Вес ссылки уменьшается, если в Backlink Set присутствует несколько страниц с одного и того же хоста. Это снижает влияние внутренних ссылок.
  • Нормализация по количеству ссылок: Вес ссылки уменьшается пропорционально общему количеству исходящих ссылок на странице-доноре. Это уравнивает влияние страниц-каталогов и сфокусированных статей.
  • Скоринг и Фильтрация: Кандидаты ранжируются по сумме нормализованных весов. Дополнительно могут применяться фильтры симметричности связи и глобальной популярности.

Актуальность для SEO

Высокая. Принципы анализа сопутствующих ссылок (co-citation), разнообразия хостов (host diversity) и нормализации веса ссылок остаются фундаментальными концепциями в информационном поиске. Хотя конкретные формулы, описанные в этом патенте (подан в 2000 г.), вероятно, эволюционировали в более сложные ML-модели и векторные представления, базовая логика использования ссылочного графа для кластеризации сайтов и понимания их взаимоотношений крайне актуальна.

Важность для SEO

(7/10). Патент имеет высокое стратегическое значение для формирования ссылочной стратегии. Он демонстрирует, как Google использует структуру ссылок не только для оценки авторитетности (как в PageRank), но и для определения тематической близости и идентификации конкурентов. Это подчеркивает критическую важность получения ссылок из релевантного ссылочного окружения (Link Neighborhoods) и подтверждает ценность разнообразия доноров.

Детальный разбор

Термины и определения

Backlink Set (Набор обратных ссылок)
Первый набор документов. Страницы, которые содержат прямую ссылку на выбранный (исходный) документ.
Forwardlink Set (Набор прямых ссылок)
Второй набор документов. Страницы, на которые указывают ссылки из документов Backlink Set. Это кандидаты на звание связанных страниц.
Host (Хост)
Сервер или домен, на котором размещен документ. Используется для нормализации веса ссылок и обеспечения разнообразия (Host Diversity).
Popular List (Список популярных страниц)
Заранее сгенерированный список страниц, которые наиболее часто встречаются в списках связанных страниц по всей сети. Используется для фильтрации несимметричных результатов.
Same Level of Generality (Тот же уровень обобщения)
Концепция, описывающая документы, которые являются аналогами или конкурентами исходного документа.
Symmetric List / Relation (Симметричный список / Отношение)
Список связанных страниц, для которых связь является взаимной. Если А связана с Б, и Б также связана с А (по результатам этого же анализа), связь симметрична. Такие связи приоритезируются.
Unsymmetric List (Несимметричный список)
Список связанных страниц, для которых связь не является взаимной.
Value (Значение/Вес ссылки)
Числовое значение, присваиваемое каждой прямой ссылке. Нормализуется на основе характеристик хоста и количества ссылок.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации списка связанных документов с двумя ключевыми механизмами нормализации.

  1. Система получает первый набор документов (Backlink Set) и второй набор (Forwardlink Set).
  2. Каждой ссылке в документах первого набора присваивается значение (вес).
  3. Нормализация по хосту: Вес ссылки уменьшается, если в первом наборе присутствуют несколько документов с того же хоста, что и документ, содержащий эту ссылку.
  4. Нормализация по количеству ссылок: Вес ссылки дополнительно уменьшается путем деления на число, основанное на количестве исходящих ссылок в документе плюс предопределенная величина (predetermined amount). Например, 1/(Links+K)1/(Links+K)1/(Links+K).
  5. Для каждого документа во втором наборе генерируется оценка (Score) на основе суммы весов указывающих на него ссылок.
  6. Генерируется список связанных документов на основе этих оценок.

Claim 8 (Независимый пункт): Описывает метод, включающий нормализацию (как в Claim 1) и дополнительный шаг проверки на симметричность.

  1. Выполняются шаги по генерации первого списка связанных документов с использованием двойной нормализации.
  2. Для каждого документа в первом списке генерируется его собственный (второй) список связанных документов.
  3. Документ удаляется из первого списка, если выбранный (исходный) документ не входит во второй список этого документа. Это фильтр, оставляющий только симметрично связанные документы.

Claim 10 (Зависимый от 8 и 9): Детализирует обработку несимметричных результатов с использованием фильтрации по популярности.

Документ из списка несимметричных результатов удаляется, если он присутствует в Popular List. Это позволяет отфильтровать глобально популярные сайты.

Claim 13 и 18 (Независимые пункты): Фокусируются конкретно на механизме нормализации по количеству ссылок (без обязательного упоминания нормализации по хосту), подчеркивая важность деления веса на количество ссылок плюс константа.

Где и как применяется

Изобретение затрагивает этапы индексирования (для подготовки данных) и ранжирования/метапоиска (как специализированная функция).

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает сырые данные о структуре ссылок в сети.

INDEXING – Индексирование и извлечение признаков
Основная подготовительная работа происходит здесь (описано как «Preprocessing of Web»).

  1. Извлечение ссылок: Система строит ссылочный граф, сохраняя наборы прямых (Forwardlink Sets) и обратных ссылок (Backlink Sets) для каждой страницы.
  2. Предварительный расчет: Списки связанных страниц могут быть рассчитаны заранее для всех веб-страниц.
  3. Генерация Popular List: Система анализирует частоту встречаемости страниц в списках связанных страниц и генерирует глобальный Popular List.

RANKING / METASEARCH – Ранжирование / Метапоиск
Алгоритм не является частью основного ранжирования для произвольных запросов. Он представляет собой специализированную функцию (например, оператор related: или функция, упоминаемая в патенте как GoogleScout), которая активируется по запросу пользователя для конкретного URL.

  1. Расчет и Скоринг: Система использует предварительно рассчитанные данные о ссылках и применяет механизмы взвешивания (нормализация по хосту и количеству ссылок).
  2. Фильтрация: Применяются фильтры симметричности и популярности для уточнения списка.

Входные данные:

  • Выбранный гиперссылочный документ (URL).
  • Backlink Set для выбранного документа и Forwardlink Sets для документов в Backlink Set.
  • Данные о хостах и количестве исходящих ссылок для документов в Backlink Set.
  • Popular List.

Выходные данные:

  • Отсортированный список связанных гиперссылочных документов.

На что влияет

  • Конкретные типы контента и ниши: Наибольшее влияние оказывается на страницы сущностей (компаний, продуктов, организаций), где важно найти конкурентов или аналоги. Механизм помогает идентифицировать тематические кластеры сайтов на основе того, как на них ссылаются третьи стороны.
  • Структура сайта: Механизм нормализации по хосту специально разработан для снижения влияния внутренних ссылок при определении внешних связанных ресурсов.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда пользователь явно запрашивает список связанных страниц для конкретного документа.
  • Исключения и особые случаи: Для очень популярных страниц (миллионы обратных ссылок) патент предлагает использовать случайную выборку (random sampling) из Backlink Set (например, 10 000 ссылок) для повышения эффективности. Для страниц с малым количеством обратных ссылок упоминается использование «ссылки на себя» (self link) для улучшения результатов.

Пошаговый алгоритм

Процесс А: Предварительная обработка (Офлайн / Indexing)

  1. Сканирование и сохранение: Сканирование веб-страниц, сохранение Forwardlink и Backlink Sets для всего набора документов.
  2. Расчет связанных списков: Предварительный расчет списков связанных страниц для всех документов (используя Процесс Б).
  3. Генерация Popular List: Анализ всех рассчитанных списков и идентификация веб-страниц, которые встречаются в них наиболее часто.

Процесс Б: Генерация списка связанных страниц (Runtime или Офлайн)

  1. Получение Backlink Set: Извлечение набора обратных ссылок для выбранной страницы. При необходимости применяется выборка.
  2. Получение Forwardlink Set: Определение набора страниц (кандидатов), на которые ссылаются страницы из Backlink Set.
  3. Присвоение значений (Взвешивание): Итерация по всем прямым ссылкам в Backlink Set:
    1. Нормализация по хосту: Если в Backlink Set есть несколько страниц с одного хоста, уменьшить значение ссылки (например, разделить на количество страниц с этого хоста).
    2. Нормализация по количеству ссылок: Уменьшить значение ссылки в зависимости от общего количества исходящих ссылок на странице-доноре (например, разделить на количество ссылок плюс константа).
    3. Присвоение итогового нормализованного значения ссылке.
  4. Генерация оценок (Scoring): Для каждой страницы в Forwardlink Set суммируются значения всех указывающих на нее ссылок.
  5. Генерация списка: Формирование списка связанных страниц путем сортировки кандидатов по полученным оценкам.

Процесс В: Отображение списка (Runtime / Фильтрация)

  1. Определение Симметрии: Проверка, является ли связь взаимной (присутствует ли исходный URL в списке связанных страниц кандидата).
  2. Разделение Списков: Формирование Symmetric List и Unsymmetric List.
  3. Отображение: Сначала отображаются результаты из Symmetric List. Затем отображаются результаты из Unsymmetric List, при условии, что их нет в глобальном Popular List.

Какие данные и как использует

Данные на входе

Патент полностью основан на анализе структуры ссылок и не использует контентные, поведенческие или временные факторы (хотя упоминает возможность комбинирования с text-based similarity).

  • Ссылочные факторы: Критически важные данные. Используются входящие ссылки (для Backlink Set), исходящие ссылки (для Forwardlink Set) и общее количество исходящих ссылок на странице-доноре (для нормализации).
  • Технические факторы: Используются данные о хостах (доменах) страниц в Backlink Set для выполнения нормализации по хосту.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для взвешивания:

  • Вес ссылки (Value): Основная метрика. Используются две формулы нормализации:
    • Нормализация по хосту (Host Normalization): Вес делится на количество страниц с того же хоста (H) в Backlink Set. Vhost=1HV_{host} = \frac{1}{H}Vhost=H1​
    • Нормализация по количеству ссылок (Link Count Normalization): Вес делится на общее количество исходящих ссылок на странице (L) плюс константа (C, в патенте предлагается C=10). Vlinks=1L+CV_{links} = \frac{1}{L+C}Vlinks=L+C1​
  • Комбинированный вес: Итоговый вес ссылки получается путем перемножения факторов: Vfinal=Vhost∗VlinksV_{final} = V_{host} * V_{links}Vfinal=Vhost∗Vlinks.
  • Score (Оценка связанности): Итоговая оценка для страницы-кандидата. Рассчитывается как сумма комбинированных весов всех ссылок, указывающих на нее из Backlink Set.
  • Symmetry (Симметричность): Метрика, определяющая взаимность связи. Используется для приоритезации результатов.

Выводы

  1. Определение связанных сайтов через Co-Citation: Патент описывает фундаментальный механизм анализа сопутствующих ссылок (co-citation). Связанность определяется не прямыми ссылками между сайтами А и Б, а тем фактом, что третья сторона (С) ссылается и на А, и на Б.
  2. Критичность нормализации данных в ссылочном графе: Структура веба создает шум (внутренние ссылки, каталоги). Google активно нормализует вес ссылок, чтобы устранить эти искажения и получить более точный сигнал связанности.
  3. Важность разнообразия хостов (Host Diversity): Механизм нормализации по хосту снижает влияние множественных ссылок с одного домена. Это подтверждает, что для точной оценки ссылочного профиля Google стремится учитывать сигналы от максимально разнообразного набора источников.
  4. Нормализация веса ссылок по их количеству (Пессимизация Хабов): Патент явно указывает на снижение веса отдельных ссылок, если страница-донор содержит их слишком много. Ссылки со сфокусированных страниц имеют больший вес, чем ссылки из крупных каталогов.
  5. Симметричность как индикатор качества связи: Приоритет отдается симметрично связанным сайтам (А похож на Б, и Б похож на А). Система считает такие связи более надежными индикаторами нахождения на одном уровне общности.
  6. Фильтрация глобальной популярности: Система фильтрует слишком общие или глобально популярные сайты из несимметричных результатов, чтобы предоставить более специфичные и полезные связанные ресурсы.

Практика

Best practices (это мы делаем)

  • Стратегическое со-цитирование (Strategic Co-citation): Необходимо стремиться получать ссылки со страниц (Hubs), которые уже ссылаются на ваших прямых конкурентов или авторитетные сайты в вашей нише. Быть упомянутым в одном контексте с лидерами рынка помогает системе идентифицировать ваш сайт как находящийся на «том же уровне обобщения» через механизм co-citation.
  • Приоритет разнообразия доноров (Host Diversity): Подтверждается критическая важность получения ссылок с разных хостов. Из-за нормализации по хосту, 10 ссылок с 10 разных сайтов значительно ценнее, чем 10 ссылок с одного сайта.
  • Предпочтение сфокусированных ссылок (Low OBL): Отдавайте приоритет ссылкам со страниц с умеренным количеством исходящих ссылок. Из-за нормализации по количеству ссылок, ссылка из тематической статьи передаст больший вес, чем ссылка из каталога с сотнями ссылок.
  • Анализ ссылочного окружения (Link Neighborhood Analysis): Регулярно анализируйте ссылочный профиль конкурентов. Ищите страницы, которые ссылаются на нескольких конкурентов одновременно — это первоочередные цели для линкбилдинга.

Worst practices (это делать не надо)

  • Получение ссылок из каталогов и агрегаторов общего назначения: Ссылки со страниц с огромным количеством исходящих ссылок неэффективны. Механизм нормализации по количеству ссылок (1/(L+K)1/(L+K)1/(L+K)) значительно снижает их вес.
  • Фокус на сквозных (site-wide) или множественных ссылках с одного домена: Эта тактика неэффективна из-за нормализации по хосту. Система агрегирует сигналы с одного хоста, снижая их индивидуальный вес.
  • Манипуляции через сетки (PBN) на одном хостинге/IP: Создание множества страниц на одном хосте (или легко идентифицируемой сетке) с целью повлиять на связанность может быть неэффективно из-за нормализации по хосту (если система идентифицирует их как один хост).
  • Игнорирование ссылочного контекста: Получение ссылок со страниц, которые не ссылаются на другие сайты в вашей нише, не поможет системе кластеризировать ваш сайт вместе с лидерами рынка.

Стратегическое значение

Патент подчеркивает, что анализ ссылочного графа является многогранным процессом, выходящим за рамки простого подсчета авторитетности (PageRank). Для Senior SEO-специалистов важно понимать, что ссылочная стратегия должна не только повышать рейтинг, но и правильно позиционировать сайт в тематическом и конкурентном ландшафте. Механизмы co-citation лежат в основе того, как Google может кластеризировать сайты и понимать отношения между сущностями без анализа текста.

Практические примеры

Сценарий: Позиционирование нового сайта интернет-магазина электроники

  1. Цель: Чтобы Google идентифицировал новый сайт (NewStore.com) как связанный с лидерами рынка (например, BestBuy.com, Amazon.com).
  2. Анализ (Co-citation): SEO-команда анализирует Backlink Set конкурентов и обнаруживает, что авторитетные обзорные сайты (TechRadar.com, CNET.com) часто ссылаются на них в своих статьях.
  3. Действие (Link Building): Проведение аутрич-кампании для получения ссылок с TechRadar.com и CNET.com на NewStore.com, в идеале — в тех же статьях, где упоминаются конкуренты.
  4. Влияние механизма нормализации:
    • По количеству ссылок: Ссылка из статьи «Топ-5 магазинов электроники» (5 исходящих ссылок) будет иметь больший вес, чем ссылка из «Каталога всех магазинов» (200 исходящих ссылок).
    • По хосту: Получение одной ссылки с TechRadar.com и одной с CNET.com лучше, чем получение пяти ссылок только с CNET.com.
  5. Ожидаемый результат: Система видит, что в Backlink Set NewStore.com входят TechRadar и CNET. Анализируя их Forwardlink Set, система видит BestBuy и Amazon и присваивает им высокие оценки связанности с NewStore.com, тем самым правильно классифицируя новый сайт как игрока этого рынка.

Вопросы и ответы

Чем этот алгоритм отличается от PageRank?

PageRank измеряет глобальную авторитетность страницы на основе входящих ссылок. Этот алгоритм измеряет связанность (relatedness) и находит страницы на «том же уровне обобщения» с помощью анализа сопутствующих ссылок (co-citation analysis). Он анализирует, на что еще ссылаются ваши доноры, и использует сложные механизмы нормализации веса для повышения точности.

Что такое анализ сопутствующих ссылок (co-citation) в контексте этого патента?

Co-citation происходит, когда третья страница ссылается на две разные страницы. Если страница С ссылается на страницу А (выбранная страница) и страницу Б (кандидат), то А и Б считаются сопутствующими. Чем больше общих доноров у А и Б, и чем выше вес этих ссылок после нормализации, тем более связанными они считаются системой.

Почему Google снижает вес ссылок, если на странице-доноре их много (Link Count Normalization)?

Это делается для нормализации влияния разных типов страниц. Страницы с большим количеством ссылок (например, каталоги) не должны иметь больше влияния, чем страницы с небольшим количеством сфокусированных ссылок (например, статьи). Снижение веса (например, по формуле 1/(Links+K)1/(Links+K)1/(Links+K)) гарантирует, что все страницы-доноры имеют примерно равное совокупное влияние.

Что означает нормализация по хосту (Host Normalization) и почему она важна для SEO?

Нормализация по хосту означает, что если несколько страниц с одного домена ссылаются на ваш сайт, их совокупное влияние ограничивается (например, вес их исходящих ссылок делится на количество этих страниц). Это подчеркивает критическую важность разнообразия доменов (Host Diversity) в стратегии линкбилдинга и снижает влияние внутренних ссылок на этот анализ.

Что такое «симметрично связанные» сайты и почему они приоритетны?

Связь симметрична, если сайт А считается связанным с сайтом Б, И при выполнении анализа для сайта Б он считается связанным с сайтом А. Система отдает приоритет таким связям, так как они считаются более надежными индикаторами того, что сайты действительно находятся на одном уровне обобщения (например, являются прямыми конкурентами).

Использует ли этот алгоритм анализ текста или анкоров?

Нет. Согласно патенту, этот метод основан исключительно на анализе структуры ссылок (Link-based Analysis). Он не анализирует содержание страниц или текст анкоров для определения связанности. Это позволяет находить связанные ресурсы даже при отсутствии общих ключевых слов.

Как я могу использовать принципы этого патента для улучшения SEO моего сайта?

Ключевая стратегия — это построение ссылочного профиля, который отражает профили лидеров вашей ниши. Необходимо активно искать возможности для получения ссылок со страниц, которые уже ссылаются на ваших конкурентов (Hub-страницы). Это поможет системе через механизм co-citation правильно кластеризировать ваш сайт.

Какова ценность ссылок из каталогов согласно этому патенту?

Ценность таких ссылок значительно снижается. Поскольку каталоги содержат множество исходящих ссылок, вес каждой отдельной ссылки будет минимальным из-за нормализации по количеству ссылок (Link Count Normalization). Фокус следует сместить на получение ссылок с тематических страниц с умеренным количеством исходящих ссылок.

Актуален ли этот патент, если Google сейчас использует нейронные сети и векторные вложения?

Да, принципы актуальны. Хотя современные методы (векторные вложения) могут более сложно определять связанность на основе контента и контекста, структура ссылок остается мощным сигналом. Фундаментальные концепции, такие как co-citation и нормализация веса, по-прежнему являются важными элементами анализа ссылочного графа и могут использоваться как признаки в современных ML-моделях.

Что такое «Popular List» и как он используется?

Это список глобально популярных сайтов, которые очень часто появляются в списках связанных страниц по всей сети. Система использует этот список для фильтрации результатов: если сайт связан несимметрично и при этом находится в Popular List, он, скорее всего, будет удален из финального списка, чтобы предоставить пользователю более специфичные результаты.

Похожие патенты

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами
Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.
  • US7783639B1
  • 2010-08-24
  • Ссылки

  • Антиспам

  • EEAT и качество

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска
Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.
  • US8612411B1
  • 2013-12-17
  • Ссылки

  • SERP

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
  • US8055626B1
  • 2011-11-08
  • Индексация

  • Краулинг

  • Техническое SEO

Популярные патенты

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи
Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.
  • US8538970B1
  • 2013-09-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

seohardcore