Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта

STRUCTURED METADATA EXTRACTION (Извлечение структурированных метаданных)

US8954438B1
Google LLC
2012-05-31
2015-02-10

Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.

Какую проблему решает

Патент решает проблему масштабного извлечения структурированных данных с множества различных веб-сайтов, которые используют разные форматы и шаблоны для представления одной и той же информации (например, списки эпизодов телешоу, трек-листы музыкальных альбомов). Изобретение направлено на автоматизацию процесса, который ранее часто требовал ручного труда или создания уникальных парсеров (wrappers) для каждого отдельного сайта.

Что запатентовано

Запатентована система для автоматического извлечения структурированных метаданных, использующая гибридный подход, сочетающий эвристические правила и обучение на основе шаблонов. Система сначала использует эвристики для извлечения списка элементов (Element List), проверяет его достоверность путем кросс-валидации с другими источниками (Hosts), и, в случае успеха, генерирует шаблон (Element List Pattern), основанный на структуре DOM-дерева (DOM tree path) исходного сайта. Этот шаблон затем используется для более эффективного извлечения данных с этого сайта в будущем.

Как это работает

Система работает по принципу итеративного обучения (bootstrapping):

Сбор и кластеризация: Документы собираются (например, по URL pattern), рендерятся и кластеризуются по Хостам и Сущностям (Entity), часто используя анализ тегов <title>.
Эвристическое извлечение (Первый проход): Система пытается извлечь Element List, используя общие эвристические правила (например, поиск списков, анализ размеров шрифта).
Кросс-валидация: Извлеченный список сравнивается со списками для той же сущности, полученными с других сайтов. Совпадающие элементы валидируются.
Генерация шаблона: Если данные валидны, система анализирует DOM tree path (путь от корневого узла до узла элемента) и создает специфичный для сайта Element List Pattern.
Извлечение на основе шаблонов (Второй проход): Система использует сгенерированный шаблон для более точного и эффективного извлечения данных с этого хоста.

Актуальность для SEO

Высокая. Извлечение структурированных данных для наполнения Графа Знаний (Knowledge Graph) и формирования расширенных сниппетов является критически важной задачей для Google. Способность понимать структуру сайта через анализ DOM и автоматически генерировать парсеры остается актуальной, дополняя данные, полученные через Schema.org.

Важность для SEO

Патент имеет высокое значение для технического и стратегического SEO (85/100). Он показывает, что Google активно пытается понять и запомнить HTML-шаблоны сайта для извлечения данных. Это подчеркивает критическую важность семантически верной, чистой и, главное, последовательной структуры HTML и DOM. Нестабильная структура DOM может препятствовать способности Google эффективно извлекать и верифицировать информацию с сайта.

Термины и определения

DOM (Document Object Model) Tree Path (Путь в дереве DOM): Конкретный путь в структуре HTML-документа от корневого узла (например, <html>) до узла, содержащего интересующий элемент (например, <html><body><li><ul><div>). Это основа для генерации шаблонов извлечения.
Element (Элемент): Отдельный компонент сущности. Например, эпизод телешоу, песня в альбоме.
Element List (Список элементов): Структурированный набор элементов, связанных с конкретной сущностью.
Element List Pattern (Шаблон списка элементов): Специфичный для хоста шаблон (часто основанный на DOM tree path), который система генерирует после успешного извлечения и валидации данных. Используется для будущего извлечения.
Entity (Сущность): Объект, о котором собирается информация. Например, телешоу, музыкальный альбом, персона.
Entity Name Pattern (Шаблон имени сущности): Паттерн (например, регулярное выражение), используемый для извлечения имени сущности из документа, часто из тега <title>. Пример: PREFIX(.*)SUFFIX.
Heuristic Rules (Эвристические правила): Общие правила или предположения, используемые для первоначального извлечения данных до того, как будет сгенерирован специфичный шаблон. Могут включать поиск списков, анализ шрифтов или предопределенные пользователем пути DOM.
Host (Хост): Веб-сайт или домен, с которого извлекаются данные (например, uuu.com, zzz.com).
Cross-Validation (Кросс-валидация): Процесс проверки точности извлеченного Element List путем сравнения его со списками для той же сущности, полученными с других хостов. Элементы, присутствующие в нескольких списках, считаются валидными.
URL Pattern (Шаблон URL): Паттерн, используемый для идентификации и доступа к документам на сайте, которые могут содержать искомые структурированные данные.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод извлечения структурированных метаданных, включающий итеративный процесс обучения шаблонам.

Система получает доступ к документам с нескольких хостов.
Извлекаются имена сущностей с первого хоста с использованием Entity Name Pattern.
Система принимает решение о методе извлечения (Эвристический или На основе шаблонов).
Если выбран Эвристический метод: Извлекается первый Element List для сущности с использованием Heuristic Rules.
Производится валидация первого списка путем сравнения его с референсными списками (полученными с других хостов) для той же сущности.
Генерируется Element List Pattern на основе первого списка и структурированных метаданных первого хоста. Ключевой момент: генерация шаблона включает определение Element Node Pattern, основанного на DOM tree path (путь от корня до элемента).
Система снова принимает решение о методе извлечения.
Если выбран метод На основе шаблонов: Извлекается второй Element List с использованием сгенерированного Element List Pattern.

Ядро изобретения заключается в способности системы автоматически обучаться структуре (DOM path) конкретного сайта после того, как данные были успешно извлечены эвристически и подтверждены внешними источниками.

Claim 6 (Зависимый от 1): Уточняет, что извлечение имен сущностей может включать поиск тега <title> в документах.

Claim 9 (Независимый пункт): Описывает систему (аппаратную реализацию), сконфигурированную для выполнения тех же шагов, что и в Claim 1. Это подтверждает описанный выше итеративный процесс обучения на основе DOM.

Где и как применяется

Изобретение применяется на этапе индексирования для глубокого анализа контента и извлечения фактов.

CRAWLING – Сканирование и Сбор данных
На этом этапе система использует URL Patterns для идентификации и загрузки потенциально релевантных документов с различных хостов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс включает несколько подэтапов:

Рендеринг: Загруженные документы рендерятся для построения DOM-дерева.
Извлечение Сущностей (Entity Extraction): Система кластеризует документы по хостам и использует Entity Name Patterns (например, анализируя <title>) для идентификации сущностей на страницах.
Извлечение Структурированных Данных (Structured Data Extraction): Применяется основной алгоритм патента (гибрид эвристик и шаблонов DOM) для извлечения Element Lists.
Валидация и Наполнение Базы Знаний: Извлеченные данные проходят кросс-валидацию с данными из других источников. Валидированные данные могут использоваться для наполнения Графа Знаний.
Генерация и Хранение Шаблонов: Система генерирует и сохраняет Element List Patterns, специфичные для каждого хоста, для использования при последующем индексировании.

Входные данные:

Сырые HTML документы.
URL Patterns (для поиска страниц).
Начальные Heuristic Rules.
Entity Name Patterns.

Выходные данные:

Валидированные Element Lists (структурированные данные).
Сгенерированные Element List Patterns (специфичные для хоста шаблоны DOM).

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, представленный в виде списков или таблиц, связанный с четко определенными сущностями (эпизоды, треки, характеристики продукта, составы команд и т.д.).
Конкретные ниши или тематики: Влияет на ниши с большим количеством структурированных данных: медиа (кино, музыка), спорт, электронная коммерция, рецепты.
Форматы контента: Влияет на способность Google понимать данные, представленные в семантическом HTML (<ul>, <ol>, <table>, <div>), даже без микроразметки.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система идентифицирует страницы, которые могут содержать структурированные данные о сущностях (например, на основе URL Pattern или наличия списков).
Условия работы: Для генерации шаблона необходимо выполнение двух условий: (1) успешное эвристическое извлечение данных и (2) успешная кросс-валидация этих данных с другими источниками. Если валидация невозможна (например, данные уникальны для этого сайта), шаблон может не быть сгенерирован.
Частота применения: Применяется во время индексирования и переиндексирования контента. Использование сгенерированных шаблонов делает переиндексирование более эффективным.

Пошаговый алгоритм

Процесс извлечения структурированных метаданных:

Доступ к документам: Система получает доступ к одному или нескольким документам с различных хостов, например, используя предопределенные шаблоны URL.
Рендеринг и хранение: Документы рендерятся для формирования DOM-дерева и сохраняются.
Кластеризация по хостам: Документы группируются по источнику (веб-сайту).
Извлечение сущностей: Для каждого хоста система извлекает имена сущностей, используя Entity Name Pattern (например, анализируя теги <title>). Документы дополнительно кластеризуются по сущностям.
Принятие решения об извлечении: Для кластера документов система определяет, использовать ли эвристический метод или метод на основе шаблонов (если шаблон уже существует).
Выполнение эвристического извлечения (Bootstrapping):
1. Система извлекает предварительный Element List, используя общие эвристические правила.
2. Валидация: Предварительный список проходит кросс-валидацию путем сравнения со списками для той же сущности с других хостов.
3. Генерация шаблона: Если валидация успешна, система анализирует DOM tree path к валидированным элементам и генерирует Element List Pattern, специфичный для данного хоста.
Выполнение извлечения на основе шаблонов:
1. Система извлекает Element List, используя ранее сгенерированный Element List Pattern (конкретный путь DOM).
2. Валидация: Извлеченный список также проходит валидацию.
Агрегация: Валидированные данные структурируются и сохраняются. Сгенерированные шаблоны также сохраняются для будущего использования.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и контентных факторах, необходимых для извлечения и кластеризации.

Технические факторы:
- URL-структура: Используется для поиска релевантных страниц (URL Pattern) и для кластеризации документов по хостам.
Структурные факторы (HTML/DOM):
- DOM Tree: Критически важный элемент. Система анализирует пути в DOM (DOM tree path) для генерации шаблонов извлечения.
- HTML теги: Специфические теги (<li>, <div>, <ul>, <ol>) используются как в эвристиках, так и в шаблонах.
- Тег <title>: Явно упоминается как ключевой источник для извлечения имени сущности (Entity Name Pattern).
Контентные факторы:
- Текст внутри узлов DOM: Текстовое содержание элементов извлекается как данные (например, название эпизода).
- Текст заголовков (неявно): Эвристики могут включать анализ текста, который визуально выделяется (большой шрифт), что часто соответствует заголовкам.

Какие метрики используются и как они считаются

Патент не описывает сложных метрик или формул, но опирается на следующие механизмы:

Сопоставление с шаблоном (Pattern Matching): Используются URL Patterns, Entity Name Patterns и Element List Patterns (DOM paths). Это бинарная проверка соответствия структуры или текста шаблону.
Кросс-валидация (Cross-Validation): Метрика достоверности основана на консенсусе. Элемент считается валидным, если он появляется в списках, извлеченных с нескольких разных хостов. Патент не указывает точных порогов (сколько хостов нужно для подтверждения).
Анализ DOM-дерева: Процесс генерации шаблона включает определение пути от корневого узла документа до узла элемента.

Google активно reverse-engineers шаблоны сайтов: Система не полагается только на микроразметку. Она способна изучать и запоминать структуру DOM-дерева сайта (DOM tree path), чтобы автоматически извлекать структурированные данные.
Последовательность структуры DOM критически важна: Поскольку система генерирует Element List Pattern на основе анализа DOM, любая нестабильность в структуре HTML (например, частые редизайны, динамически изменяющиеся классы или структура верстки) может сломать эти шаблоны и затруднить извлечение данных.
Важность консенсуса (Кросс-валидация): Патент подчеркивает, что Google проверяет точность извлеченных данных, сравнивая их с данными с других хостов. Это механизм защиты от ошибок парсинга и недостоверной информации. Факты подтверждаются консенсусом.
Ключевая роль тега <title> в идентификации сущностей: Тег <title> явно указан как основной источник для применения Entity Name Pattern и начальной кластеризации контента по сущностям.
Гибридный подход к извлечению: Система использует эвристики для обнаружения новых данных и шаблоны для эффективного масштабирования. Это позволяет адаптироваться к новым сайтам и оптимизировать обработку уже известных.

Best practices (это мы делаем)

Обеспечение чистого и последовательного HTML/DOM: Используйте стабильные HTML-шаблоны для однотипного контента. Путь в DOM к ключевой информации (например, к списку характеристик товара или списку статей в категории) должен быть идентичным на всех страницах этого типа. Это облегчает генерацию и применение Element List Pattern.
Использование семантической верстки: Применяйте семантические элементы (<ul>, <ol>, <table>) для представления списков и таблиц. Это помогает как эвристическим методам, так и анализу DOM-структуры.
Оптимизация тегов <title> для идентификации сущностей: Убедитесь, что теги <title> четко и последовательно идентифицируют основную сущность на странице. Если у вас много страниц о разных сущностях, используйте стабильный формат (например, "Название Сущности – Категория | Бренд"), чтобы облегчить работу Entity Name Pattern.
Мониторинг DOM после обновлений: После внедрения изменений в дизайн или фронтенд-код проверяйте, не изменилась ли структура DOM для ключевых элементов. Используйте инструменты для сравнения DOM до и после релиза.
Согласованность данных с авторитетными источниками: Поскольку система использует кросс-валидацию, убедитесь, что ваши данные (названия, даты, списки) согласуются с общепринятыми фактами в вашей нише. Это повышает вероятность успешной валидации.

Worst practices (это делать не надо)

Нестабильная структура DOM и динамические CSS-классы: Использование фреймворков, которые генерируют динамические, непредсказуемые имена классов или часто меняют структуру вложенности элементов для одного и того же типа контента. Это мешает системе определить стабильный DOM tree path.
Сложная или нелогичная верстка списков: Представление списочных данных с помощью сложных структур <div> вместо семантических тегов <li> или <table>.
Непоследовательные теги <title>: Использование разных форматов тегов <title> для однотипных страниц затрудняет кластеризацию контента по сущностям.
Блокировка или маскировка контента при рендеринге: Если ключевые структурированные данные не видны во время рендеринга Googlebot, они не могут быть извлечены ни эвристиками, ни шаблонами.

Стратегическое значение

Этот патент подтверждает стратегию Google по извлечению знаний из веба любой ценой, не дожидаясь, пока вебмастера внедрят идеальную микроразметку. Для SEO это означает, что техническое совершенство и последовательность верстки являются не просто рекомендацией, а необходимым условием для эффективного взаимодействия с системами извлечения данных Google. Построение сайта с чистой, логичной и стабильной архитектурой DOM напрямую влияет на то, насколько полно Google сможет понять и использовать контент сайта в Графе Знаний и расширенных результатах поиска.

Практические примеры

Сценарий: Оптимизация сайта с обзорами фильмов для извлечения списка актеров.

Анализ текущей ситуации: Вебмастер замечает, что Google не всегда корректно отображает список актеров фильма в панели знаний, используя данные с его сайта. Анализ показывает, что на некоторых страницах список актеров сверстан через <div>, а на других через <span> с разной вложенностью.
Применение знаний из патента: Необходимо стандартизировать DOM-структуру, чтобы система могла сгенерировать надежный Element List Pattern.
Внедрение изменений: Все страницы фильмов приводятся к единому шаблону. Список актеров теперь всегда представлен как семантический список <ul class="cast-list">. Тег <title> стандартизирован: "Название фильма (Год) – Актеры и съемочная группа".
Ожидаемый результат: При следующем индексировании система Google: (1) Легко идентифицирует сущность (Фильм) по <title>. (2) Использует эвристику (поиск <ul>) для извлечения списка актеров. (3) Проверяет список через кросс-валидацию с другими сайтами. (4) Генерирует DOM tree path к <ul class="cast-list">. (5) В дальнейшем эффективно извлекает данные об актерах с этого сайта, используя запомненный шаблон.

Означает ли этот патент, что можно не использовать микроразметку Schema.org?

Нет, это не означает, что от Schema.org следует отказываться. Микроразметка остается самым прямым и недвусмысленным способом сообщить поисковым системам о ваших структурированных данных. Описанная в патенте система служит дополнением и страховкой, позволяя Google извлекать данные с сайтов, где разметка отсутствует или реализована некорректно. Лучшая стратегия — использовать Schema.org и поддерживать чистую структуру DOM.

Как система определяет, что такое "Сущность" (Entity) на странице?

Патент явно указывает на использование Entity Name Pattern для извлечения имени сущности, часто из тега <title> документа. Система ищет повторяющиеся паттерны в заголовках страниц на одном хосте (например, "Watch [Имя Шоу] Online"), чтобы определить, что является именем сущности, а что — частью шаблона заголовка. Это позволяет кластеризировать контент по сущностям.

Что такое "Эвристические правила" (Heuristic Rules) в контексте этого патента?

Эвристические правила — это набор общих предположений о том, как могут быть представлены данные на веб-странице. Патент упоминает такие примеры, как поиск в объекте типа "list" (<ul>, <ol>), поиск текста с большим размером шрифта вверху страницы или использование предопределенных пользователем (инженером Google) ожидаемых путей DOM. Они используются для первоначального извлечения данных до того, как будет создан точный шаблон.

Как работает генерация шаблона (Element List Pattern)?

После того как система успешно извлекла данные эвристически и подтвердила их точность через кросс-валидацию, она анализирует, где именно эти данные были расположены в документе. Она определяет точный DOM tree path — последовательность HTML-тегов от корневого узла (<html>) до узла, содержащего элемент. Этот путь и становится шаблоном для будущего извлечения данных с этого конкретного хоста.

Как частые редизайны или изменения верстки влияют на эту систему?

Они влияют негативно. Если структура DOM меняется, сгенерированный ранее Element List Pattern становится недействительным. Системе придется вернуться к более медленному и менее точному эвристическому методу извлечения, заново валидировать данные и генерировать новый шаблон. Поддержание стабильной структуры DOM критически важно.

Что происходит, если мои данные уникальны и их нельзя проверить на других сайтах?

Патент основан на кросс-валидации для подтверждения точности данных и генерации шаблонов. Если данные уникальны и не могут быть верифицированы с помощью других источников (Hosts), система может не смочь подтвердить точность эвристического извлечения. В этом случае, согласно патенту, генерация надежного Element List Pattern может не произойти.

Влияет ли использование JavaScript фреймворков (например, React, Vue) на этот механизм?

Да, влияет. Система работает с отрендеренным DOM. Если фреймворк генерирует чистый, семантический и стабильный DOM после рендеринга, система сможет работать эффективно. Однако, если фреймворк создает излишне сложную структуру, использует динамические имена классов или нестабильную вложенность элементов, это затруднит генерацию надежных шаблонов DOM.

Как я могу проверить, понимает ли Google структуру моего DOM?

Хотя мы не можем напрямую увидеть сгенерированные Google шаблоны, можно использовать косвенные признаки. Проверьте, корректно ли Google извлекает информацию для Графа Знаний или расширенных сниппетов с вашего сайта. Также используйте инструменты валидации HTML и анализ структуры DOM в инструментах разработчика, чтобы убедиться в его чистоте, семантичности и отсутствии избыточной сложности.

Какова роль URL Pattern в этом процессе?

URL Pattern используется на начальном этапе для идентификации страниц, которые потенциально содержат искомые структурированные данные. Например, система может использовать паттерн вида http://www.site.com/movies/*/cast, чтобы найти страницы со списком актеров. Это помогает сузить область поиска и повысить эффективность сканирования и индексирования.

Как система обрабатывает сайты на разных языках?

Патент упоминает, что система может хранить несколько веб-страниц на одном или нескольких языках для кросс-валидации. Также указывается, что может использоваться более одного URL pattern, каждый из которых соответствует определенному языку (например, английскому, испанскому). Это предполагает, что система может извлекать и валидировать данные в мультиязычном контексте.

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2014-03-25

Структура сайта
Краулинг

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

US8452791B2
2013-05-28

Knowledge Graph
Семантика и интент
Структура сайта

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.

US8458584B1
2013-06-04

Краулинг
Структура сайта

Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам

Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.

US9720896B1
2017-08-01

Семантика и интент

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц

Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.

US9081832B2
2015-07-14

Ссылки
SERP
Свежесть контента

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы