SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

DUPLICATE DOCUMENT DETECTION (Обнаружение дубликатов документов)
  • US20140188919A1
  • Google LLC
  • 2007-02-14
  • 2014-07-03
  • Индексация
  • SERP
  • Краулинг
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

Описание

Какую проблему решает

Патент решает проблему неточного обнаружения дубликатов контента. Традиционные методы часто дают сбой из-за различий в окружающем контенте (boilerplate), таком как навигация или реклама, при идентичном основном содержании (core content). Кроме того, они неэффективны при обработке динамического контента (JavaScript, AJAX), который изменяет страницу во время рендеринга, и уязвимы к спам-тактикам (например, скрытым ключевым словам). Цель изобретения — повысить точность (precision) и полноту (recall) обнаружения дубликатов, что позволяет улучшить качество выдачи и оптимизировать ресурсы сканирования.

Что запатентовано

Запатентована система обнаружения дубликатов, использующая гибридный подход, который анализирует как нерендеренные (non-rendered), так и рендеренные (rendered) версии документов. Система генерирует множество сигналов (signals) сравнения различных атрибутов обеих версий. Эти сигналы, включая сигналы, основанные на контексте запроса (query-based signals), объединяются в вектор и передаются обученной модели машинного обучения (Machine Learning classifier model), которая вычисляет уверенность (confidence) в том, что два документа являются дубликатами.

Как это работает

Ключевой механизм заключается в сравнении двух состояний документа:

  • Fetched Body (Исходный код): Анализ сырого HTML, полученного с сервера.
  • Synthetic Body (Рендеренная версия): Анализ сериализованной объектной модели документа (DOM) после выполнения динамического контента (например, JavaScript).

Система выполняет множество тестов для сравнения атрибутов (текст, заголовки, ссылки, сниппеты) в обоих состояниях. Результаты этих тестов формируют Signal Vector. Этот вектор обрабатывается ML Model, которая обучена распознавать паттерны, характерные для дубликатов, игнорируя различия в динамическом или шаблонном контенте.

Актуальность для SEO

Высокая. Рендеринг контента и каноникализация являются фундаментальными процессами в современном поиске. Архитектурный подход, описанный в патенте — сравнение контента до и после рендеринга с использованием машинного обучения для принятия окончательного решения — остается крайне актуальным, особенно с учетом повсеместного использования JavaScript-фреймворков. Хотя конкретные сигналы и модели ML могли эволюционировать, общая методология является стандартом.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он описывает инфраструктуру, лежащую в основе каноникализации и индексирования. Он подчеркивает, что Google оценивает контент в его финальном, отрендеренном состоянии (Synthetic Body). Это означает, что SEO-специалисты должны анализировать DOM после выполнения JavaScript, чтобы понять, как поисковая система видит уникальность контента. Это критически важно для технического SEO и оптимизации сайтов, активно использующих динамический контент.

Детальный разбор

Термины и определения

Attributes (Атрибуты)
Характеристики документа, используемые для сравнения (текст, длина, заголовок, URL, сниппеты, ссылки, количество изображений, данные о кликах и т.д.). Описаны в TABLE 1 патента.
Distance-based Signals (Сигналы, основанные на расстоянии)
Класс сигналов, измеряющих степень различия между документами с использованием метрик расстояния (например, расстояние Левенштейна, tf-idf, Jaccard distance).
DOM (Document Object Model)
Иерархическое представление отрендеренного документа (Rendered Body).
Fetched Body (Загруженное тело / Исходный код)
Нерендеренная версия документа (non-rendered version). Исходный HTML-код, полученный с сервера.
ML Model (Machine Learning Classifier Model)
Модель машинного обучения (например, дерево решений, нейронная сеть), обученная классифицировать пары документов как дубликаты на основе входного вектора сигналов.
Query-based Signals (Сигналы, основанные на запросе)
Класс сигналов, учитывающих контекст поискового запроса. Включают сравнение сниппетов, частоту терминов запроса, данные о релевантности.
Rendered Body (Отрендеренное тело)
Версия документа после его обработки (рендеринга), включающая динамический контент.
Signal Vector (Вектор сигналов)
Структура данных, объединяющая все сгенерированные сигналы для пары документов. Служит входом для ML Model.
Simple Signals (Простые сигналы)
Класс сигналов, основанных на сравнении базовых атрибутов: заголовков, URL, длины тела, языка документа или классификации спама.
Synthetic Body (Синтетическое тело)
Рендеренная версия документа (rendered version), используемая для анализа. Сериализованная версия DOM, включающая весь контент после рендеринга.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов с использованием машинного обучения и анализа двух версий документов.

  1. Выполнение первого набора тестов на нерендеренных версиях (Fetched Body) первого и второго документов для определения первого набора сигналов. Сравниваются атрибуты тела документа (document body attributes).
  2. Выполнение второго набора тестов на рендеренных версиях (Synthetic Body) документов для определения второго набора сигналов. Сравниваются атрибуты синтетического тела (synthetic body attributes).
  3. Обязательное условие: Утверждается, что как минимум один сигнал в каждом наборе должен быть сигналом, основанным на запросе (query-based signal), который базируется на сравнении соответствующих сниппетов (snippet) документов.
  4. Генерация вектора сигналов (signal vector), включающего первый и второй наборы сигналов.
  5. Предоставление вектора сигналов на вход ML Model, обученной определять уверенность (confidence) в том, являются ли документы дубликатами.

Ядром изобретения является обязательная комбинация анализа сырого HTML и финального отрендеренного DOM, использование широкого спектра сигналов, включая специфичные для запроса (сниппеты), и применение ML для принятия финального решения.

Claims 3-6 (Зависимые): Уточняют типы и примеры сигналов.

  • Сигналы делятся на три класса: distance-based, simple или query-based (Claim 3).
  • Приводятся конкретные примеры алгоритмов и метрик для каждого типа (например, расстояние Левенштейна, TF-IDF, сравнение заголовков, URL, частота терминов запроса).

Claim 9 (Зависимый): Описывает процесс улучшения модели ML (Active Learning).

Если уверенность (confidence), выданная моделью, ниже порога, система может запросить оценку у человека-асессора (human comparison). Эта оценка затем используется для дообучения классификатора и создания новой модели с улучшенной точностью.

Где и как применяется

Изобретение применяется преимущественно на этапе индексирования для управления качеством индекса и каноникализации.

CRAWLING – Сканирование и Сбор данных
Система может использовать результаты обнаружения дубликатов для оптимизации краулингового бюджета, избегая сканирования зеркального контента (mirrored content) и бесконечных хостов (infinite hosts).

INDEXING – Индексирование и извлечение признаков
Основной этап применения.

  1. Рендеринг (WRS): Система обрабатывает Fetched Body и выполняет рендеринг для получения DOM и Synthetic Body.
  2. Извлечение признаков и Генерация Сигналов: Извлекаются атрибуты из обеих версий, вычисляются сигналы сравнения с другими документами.
  3. Каноникализация: ML Model используется для определения дубликатов. Результат (confidence score) влияет на выбор канонической версии и решение о включении документа в основной индекс.

RANKING – Ранжирование
На этом этапе могут вычисляться или учитываться query-based signals (например, сравнение сниппетов), так как они зависят от контекста конкретного запроса.

Входные данные:

  • Fetched Body и Synthetic Body двух сравниваемых документов.
  • Атрибуты, извлеченные из этих тел (текст, ссылки, метаданные и т.д.).
  • Поисковый запрос (для query-based signals).
  • Данные о релевантности (например, клики пользователей).

Выходные данные:

  • Оценка уверенности (confidence), указывающая на вероятность того, что два документа являются дубликатами.

На что влияет

  • Типы контента и технологии: Наибольшее влияние оказывается на контент, генерируемый динамически (JavaScript, AJAX, SPA), а также на синдицированный контент или контент в разных форматах (например, версия для печати, AMP).
  • E-commerce: Влияет на страницы товаров, которые могут незначительно отличаться (например, только артикулом или цветом).
  • Специфические запросы: Патент требует использования query-based signals. Это означает, что решение о дублировании может зависеть от контекста запроса. Два документа могут быть признаны дубликатами для одного запроса, но уникальными для другого.

Когда применяется

Алгоритм применяется в процессе индексирования для определения уникальности нового или обновленного документа и выбора канонической версии.

  • Оптимизация: В патенте упоминается возможность использования "простых скрининговых тестов" (simple screening tests). Если предварительные тесты показывают низкую вероятность дублирования, полный анализ может не проводиться.
  • Пороговые значения: Порог уверенности используется для принятия решения. Если уверенность низкая, может быть задействован процесс с участием асессоров (Claim 9).

Пошаговый алгоритм

Процесс обнаружения дубликатов для пары документов (Документ 1 и Документ 2):

  1. Получение исходных данных: Система получает Fetched Body (исходный код) для обоих документов.
  2. Рендеринг и генерация DOM: Система выполняет рендеринг обоих документов, включая выполнение JavaScript и загрузку динамического контента, для создания DOM.
  3. Генерация Synthetic Body: DOM сериализуется в Synthetic Body для обоих документов.
  4. Выбор атрибутов (Attribute Selection): Система выбирает атрибуты для сравнения из Fetched Bodies и Synthetic Bodies. Может применяться фильтрация для исключения изменчивого контента (например, рекламы) из некоторых тестов.
  5. Генерация первой группы сигналов (Non-Rendered): Выполняется набор тестов (Distance-based, Simple, Query-based) для сравнения атрибутов Fetched Bodies.
  6. Генерация второй группы сигналов (Rendered): Выполняется набор тестов для сравнения атрибутов Synthetic Bodies.
  7. Формирование Signal Vector: Все сгенерированные сигналы объединяются в единый Signal Vector.
  8. Классификация (ML Model): Signal Vector подается на вход обученной модели машинного обучения.
  9. Определение Confidence Score: Модель вычисляет уверенность в том, что документы являются дубликатами.
  10. Пост-обработка (Опционально): Если Confidence Score ниже порога, документы могут быть отправлены на ручную проверку асессорам для дообучения модели.

Какие данные и как использует

Данные на входе

Патент предоставляет обширный список атрибутов (TABLE 1), которые могут использоваться:

  • Контентные факторы: Содержимое тела, заголовок (title), видимый текст (для сниппетов), коллекции слов и N-грамм, самая длинная общая подстрока.
  • Технические факторы: URL, домен, длина документа (length), длина сжатой версии.
  • Ссылочные факторы: Количество входящих ссылок (anchors), домены входящих и исходящих ссылок и их частота.
  • Поведенческие факторы (Relevance Data): Данные о релевантности документа запросу. Пропорция или абсолютное число кликов (clicks) в результатах поиска.
  • Мультимедиа факторы (для Rendered Body): Количество изображений. Количество пикселей, занятых изображениями по сравнению с текстом.
  • Системные факторы: Классификация документа как спам. Определение языка документа. Список и частота запросов, по которым документ был показан.

Какие метрики используются и как они считаются

Система использует комбинацию метрик для генерации сигналов (TABLE 2):

1. Метрики схожести (Distance-based signals):

  • Строковые метрики: Расстояние Хэмминга, Левенштейна, Дамерау-Левенштейна. Самая длинная общая подпоследовательность (longest subsequence). Расстояние Жаккара (Jaccard distance).
  • Векторные метрики: Term frequency-inverse document frequency (TF-IDF). Упоминается сравнение топ-100 TF-IDF терминов.
  • Хеширование: Алгоритм Charikar random-hyperplane hashing.
  • Метрики сжатия: Modified normal compression distance (MCD).

    mcd(A,B)=max{∣c(AB)−c(AA)∣,∣c(AB)−c(BB)∣}max{c(AA),c(BB)}mcd(A,B)=\frac{max\{|c(AB)-c(AA)|,|c(AB)-c(BB)|\}}{max\{c(AA),c(BB)\}

2. Простые метрики (Simple signals):

  • Сравнение заголовков, URL, доменов.
  • Сравнение длин документов (Body length distance - BLD).

    bld(A,B){0if len(A)=len(B)=0∣len(A)−len(B)∣max[len(A),len(B)]otherwisebld(A,B) \begin{cases} 0 & \text{if } len(A)=len(B)=0 \\ \frac{|len(A)-len(B)|}{max[len(A),len(B)]} & otherwise \end{cases}

3. Метрики на основе запроса (Query-based signals):

  • Сравнение сниппетов (обязательно согласно Claim 1).
  • Частота терминов запроса.
  • Сравнение данных о релевантности (клики).

Методы машинного обучения:

Для агрегации сигналов используется обученный классификатор. Упоминаются propositional rule learner (JRIP, RIPPER), decision tree classifier (J48, ID3, C4.5), нейронные сети, байесовские сети, логистическая регрессия и другие.

Выводы

  1. Рендеринг критичен для оценки уникальности: Ключевой вывод — необходимость анализа контента как до (Fetched Body), так и после (Synthetic Body) рендеринга. Google оценивает дублирование на основе того, что пользователь видит в браузере, включая контент, загруженный динамически через JavaScript.
  2. Комплексный подход (Beyond Text Similarity): Обнаружение дубликатов — это не результат работы одного алгоритма. Это результат работы системы машинного обучения, которая взвешивает множество разнообразных сигналов (текстовых, структурных, ссылочных и поведенческих).
  3. Устойчивость к манипуляциям и Boilerplate: Использование ML Model, агрегирующей множество сигналов, делает систему устойчивой к попыткам обмана отдельных алгоритмов. Различия в шаблонном или динамическом контенте (например, рекламе) могут игнорироваться, если основной контент идентичен.
  4. Дублирование зависит от контекста запроса: Патент явно требует использования query-based signals (в частности, сравнение сниппетов). Это означает, что оценка уникальности контента может меняться в зависимости от того, какой запрос ввел пользователь.
  5. Итеративное улучшение модели (Active Learning): Система предусматривает механизм обратной связи, при котором низкая уверенность модели приводит к ручной оценке асессорами, что позволяет постоянно улучшать точность классификатора.

Практика

Best practices (это мы делаем)

  • Анализ контента после рендеринга (DOM): SEO-специалисты должны оценивать уникальность контента, анализируя DOM (или Synthetic Body), а не только исходный HTML-код. Это особенно важно для сайтов на JavaScript (SPA). Используйте инструменты Google (GSC URL Inspection, Mobile-Friendly Test) для проверки отрендеренного контента.
  • Обеспечение корректного рендеринга (JavaScript SEO): Гарантируйте доступность критических ресурсов (JS/CSS) для Googlebot. Для сайтов с Client-Side Rendering (CSR) необходимо убедиться, что контент рендерится корректно, или рассмотреть использование SSR/Dynamic Rendering.
  • Обеспечение уникальности основного контента (Core Content): Сосредоточьтесь на создании уникального основного контента. Система разработана так, чтобы игнорировать различия в шаблонных элементах (boilerplate), таких как навигация или футер.
  • Оптимизация сниппетов для демонстрации уникальности: Поскольку query-based signals и сравнение сниппетов являются обязательной частью системы (Claim 1), важно, чтобы видимый текст на странице позволял генерировать уникальные сниппеты для целевых запросов. Это поможет дифференцировать похожие страницы (например, карточки товаров).
  • Управление каноникализацией: Внедряйте четкие сигналы каноникализации (rel="canonical"). Хотя система Google может принимать собственное решение на основе ML, ваши указания являются важным сигналом.

Worst practices (это делать не надо)

  • Блокировка критических ресурсов: Блокировка JS/CSS файлов, необходимых для рендеринга основного контента. Это может привести к тому, что Synthetic Body будет неполным, вызывая неправильную классификацию страницы.
  • Попытки скрыть дублирование мелкими правками кода: Незначительные изменения в исходном коде, перестановка блоков или добавление невидимого текста не помешают системе обнаружить дубликаты, так как анализируется рендеренная версия и используется множество сигналов.
  • Клоакинг (Cloaking): Показ разного контента в Fetched Body и Synthetic Body с целью манипуляции поисковой системой. Система анализирует обе версии.
  • Создание множества страниц с минимальными отличиями (Near-Duplicates): Создание страниц (например, вариантов товаров или локальных лендингов), отличающихся только незначительными деталями. Если система не считает эти отличия существенными для основного содержания или контекста запроса, они будут классифицированы как дубликаты.

Стратегическое значение

Патент подтверждает фундаментальную важность этапа рендеринга в архитектуре Google. Стратегии, основанные только на анализе статического HTML, устарели. Для успешного SEO необходимо глубокое понимание того, как Googlebot сканирует, рендерит и интерпретирует контент. Кроме того, патент демонстрирует, что каноникализация — это сложный процесс, основанный на машинном обучении и учитывающий контекст запроса, а не просто набор жестких правил. Это подчеркивает необходимость комплексного подхода к созданию уникального контента и технической оптимизации рендеринга.

Практические примеры

Сценарий 1: Сравнение AMP и основной версии страницы

  1. Ситуация: Есть основная страница (Doc 1) и ее AMP-версия (Doc 2). Их HTML-код (Fetched Body) сильно различается из-за спецификаций AMP.
  2. Анализ Fetched Body: Сигналы показывают значительные различия.
  3. Анализ Synthetic Body: После рендеринга основной контент, заголовки и видимый текст практически идентичны. Сигналы показывают высокую степень сходства.
  4. Решение ML Model: Модель получает противоречивые сигналы, но, будучи обученной фокусироваться на основном контенте, она присваивает больший вес сигналам из Synthetic Body.
  5. Результат: Система классифицирует страницы как дубликаты с высокой степенью уверенности, несмотря на разный исходный код.

Сценарий 2: Управление вариантами товара в E-commerce

  1. Ситуация: Футболка доступна в цветах: Красный (Doc 1) и Синий (Doc 2). Описание идентично, отличаются только цвет и артикул в тексте и заголовке.
  2. Анализ Synthetic Body: Distance-based signals (например, TF-IDF) покажут очень высокую степень сходства.
  3. Детальный анализ: Simple signals зафиксируют разницу в заголовке и тексте. Query-based signals по запросу "красная футболка" покажут разницу в сниппетах.
  4. Результат: ML Model учитывает эти различия. Если модель обучена распознавать значимость таких атрибутов в контексте E-commerce, она может классифицировать страницы как уникальные. Если различия минимальны и не влияют на сниппеты, они могут быть признаны дубликатами, что требует использования rel="canonical".

Вопросы и ответы

В чем разница между Fetched Body, Rendered Body и Synthetic Body?

Fetched Body — это исходный HTML-код, полученный от сервера до рендеринга (как "View Source"). Rendered Body — это то, как страница выглядит в браузере после обработки HTML, CSS и выполнения JavaScript. Synthetic Body — это техническое представление Rendered Body (сериализованная версия DOM), которое система использует для анализа отрендеренного контента.

Означает ли этот патент, что Google всегда выполняет JavaScript перед определением дубликатов?

Да, патент описывает систему, которая специально разработана для анализа как исходного кода, так и контента после рендеринга (Synthetic Body), что включает выполнение JavaScript. Это позволяет системе видеть финальную версию страницы и принимать более точные решения о дублировании, особенно для динамических сайтов.

Как система обрабатывает шаблонный контент (boilerplate), например, навигацию или футер?

Система использует несколько механизмов. Во-первых, использование множества сигналов и ML Model позволяет системе научиться распознавать и игнорировать несущественные различия в шаблонных элементах. Во-вторых, в патенте упоминается возможность выбора атрибутов (Attribute Selection), что позволяет исключать изменчивый или нерелевантный контент (например, рекламу или boilerplate) из некоторых тестов сравнения.

Что такое "сигналы, основанные на запросе" (query-based signals) и почему они важны?

Query-based signals — это сравнения, которые выполняются в контексте конкретного поискового запроса, например, сравнение сниппетов (обязательное по Claim 1) или анализ данных о кликах. Они важны, потому что позволяют определить, являются ли два документа взаимозаменяемыми ответами на данный запрос. Две похожие страницы могут быть признаны дубликатами для общего запроса, но уникальными для более специфического.

Могут ли две страницы с разным HTML-кодом быть признаны дубликатами?

Да, абсолютно. Если разный HTML-код (включая скрипты) в результате рендеринга приводит к созданию идентичных или очень похожих Synthetic Bodies (финального контента), система классифицирует их как дубликаты. Система анализирует результат рендеринга, а не только путь его достижения.

Могут ли две страницы с одинаковым HTML-кодом быть признаны уникальными?

Да, это возможно. Если в HTML-коде содержатся скрипты, которые при рендеринге загружают разный динамический контент (например, в зависимости от времени суток или параметров пользователя), то их Synthetic Bodies будут отличаться. Если эти отличия затрагивают основной контент, ML Model может классифицировать их как уникальные.

Использует ли эта система поведенческие факторы (например, CTR) для определения дубликатов?

Да, патент явно упоминает использование поведенческих данных. В списке атрибутов указаны "пропорция или абсолютное число кликов", а в списке query-based signals упоминается "сравнение данных о релевантности" (relevance data), например, количество кликов на документ в результатах поиска.

Как этот патент влияет на SEO для сайтов на JavaScript-фреймворках (SPA)?

Влияние значительно. Для SPA критически важно, чтобы Googlebot мог корректно отрендерить контент и получить полный Synthetic Body. Если рендеринг не удается, система не сможет оценить уникальность контента. SEO-специалисты должны уделять особое внимание технической оптимизации рендеринга (например, используя Dynamic Rendering или SSR), чтобы гарантировать корректную индексацию и каноникализацию.

Может ли система проигнорировать тег rel="canonical", если обнаружит дубликат?

Да. Тег rel="canonical" является сильной подсказкой, но не директивой. Описанная в патенте система — это механизм, который Google использует для определения дубликатов на основе анализа контента и других сигналов. Если ML Model с высокой уверенностью определяет, что страница А является дубликатом Б, она может выбрать Б в качестве канонической версии, даже если теги указывают иначе.

Что происходит, если модель машинного обучения не уверена в своем решении?

Патент описывает механизм обратной связи (Claim 9). Если оценка уверенности (confidence) модели ниже определенного порога, пара документов может быть отправлена на ручную проверку асессорам. Их вердикт затем используется для дообучения и улучшения точности ML Model в будущем (Active Learning).

Похожие патенты

Как Google переранжирует результаты поиска в реальном времени, скрывая контент, который пользователь уже видел на других сайтах
Google использует механизм оценки новизны информации для динамической корректировки поисковой выдачи во время сессии пользователя. Система вычисляет «Information Gain Score» для непросмотренных документов, определяя, сколько новой информации они содержат по сравнению с уже посещенными сайтами. Результаты с уникальной информацией повышаются, а повторяющийся контент понижается, чтобы уменьшить избыточность.
  • US11354342B2
  • 2022-06-07
  • SERP

  • Семантика и интент

  • Персонализация

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании
Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.
  • US8639680B1
  • 2014-01-28
  • Техническое SEO

  • Индексация

  • SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)
Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.
  • US10007731B2
  • 2018-06-26
  • SERP

  • Техническое SEO

  • Индексация

Как Google определяет и фильтрует дубликаты в выдаче, сравнивая релевантные запросу сниппеты вместо целых страниц
Google использует механизм для улучшения разнообразия поисковой выдачи, предотвращая показ нескольких результатов с идентичным контентом по конкретному запросу. Вместо сравнения документов целиком, система извлекает только те части (сниппеты), которые релевантны запросу. Если эти сниппеты у разных документов слишком похожи, они считаются дубликатами для данного запроса, и менее релевантные результаты фильтруются.
  • US6615209B1
  • 2003-09-02
  • SERP

Популярные патенты

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска
Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.
  • US10210263B1
  • 2019-02-19
  • Ссылки

  • SERP

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы
Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.
  • US20120278171A1
  • 2012-11-01
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче
Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.
  • US8645362B1
  • 2014-02-04
  • Техническое SEO

  • Поведенческие сигналы

  • SERP

seohardcore