Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента

DETECTION OF BOILERPLATE CONTENT (Обнаружение шаблонного контента)

US8898296B2
Google LLC
2012-08-01
2014-11-25

Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.

Какую проблему решает

Патент решает проблему снижения качества рекомендаций запросов (Query Recommendations), когда система генерации рекомендаций ошибочно анализирует шаблонный контент (boilerplate content) вместо основного содержания страницы. Шаблонный контент (навигация, футеры, реклама, дисклеймеры) не отражает основную тему ресурса, и рекомендации, основанные на нем, бесполезны для пользователя. Цель изобретения — точно идентифицировать и отфильтровать boilerplate content перед применением техник генерации рекомендаций.

Что запатентовано

Запатентована система и метод обнаружения boilerplate content на стороне клиента (client device), анализируя объектную модель документа (DOM tree) отдельного ресурса. Вместо сравнения множества страниц сайта (серверный подход), система оценивает узлы DOM-дерева на основе предопределенных признаков (predefined traits), характерных для разных типов шаблонов (Anchor Blocks, Anchor Lists, Footers, Ads). Узлам присваивается оценка вероятности (likelihood score), указывающая, насколько они похожи на шаблонный контент.

Как это работает

Система работает на клиентском устройстве (например, через тулбар, плагин или браузер):

Анализ DOM: Система обходит DOM tree загруженной веб-страницы.
Выбор узлов: Выбираются узлы или группы узлов для анализа.
Оценка признаков: Каждый узел проверяется на соответствие predefined traits, характерным для boilerplate content. Признаки включают размер, форму (соотношение сторон), иерархию (количество и тип дочерних элементов), расположение на странице и характеристики ссылок (например, процент текста, являющегося ссылкой).
Расчет оценки (Scoring): На основе выявленных признаков рассчитывается likelihood score, отражающий вероятность того, что контент является шаблонным.
Передача данных: Текстовый контент узлов и их скорректированные оценки передаются в систему рекомендаций запросов (Query Recommendation Engine). Эта система использует оценки для исключения или понижения веса шаблонного контента при определении тематики страницы.

Актуальность для SEO

Высокая. Понимание структуры страницы и отделение основного контента от boilerplate является фундаментальной задачей для поисковых систем. Хотя патент описывает применение этой технологии конкретно для Query Recommendations на стороне клиента, базовые принципы анализа DOM и идентификации шаблонов по структурным признакам критически важны для индексирования, ранжирования и оценки качества контента в современном поиске.

Важность для SEO

Патент имеет высокое значение для SEO. Он детально описывает, как Google может идентифицировать структурные элементы страницы (навигацию, футеры, рекламу) без анализа самого текста или сравнения с другими страницами. Это подчеркивает важность чистой семантической верстки и правильного структурирования контента. Понимание этих механизмов позволяет оптимизаторам гарантировать, что поисковая система корректно идентифицирует основное содержание (Main Content) и не придает излишнего веса шаблонным элементам или ссылкам в них.

Термины и определения

Anchor Block (Блок ссылок): Тип boilerplate content. Прямоугольная область страницы, включающая множество ссылок, например, навигационные панели, рекламные блоки или блоки связанных статей.
Anchor List (Список ссылок): Тип boilerplate content. Серия последовательных ссылок, которые появляются внутри другого элемента, например, внутри основного контента.
Boilerplate Content (Шаблонный контент): Контент ресурса, который повторяется на нескольких или всех ресурсах определенного веб-сайта, или части ресурса, которые не релевантны основному содержанию (Main Content). Примеры: навигация, футеры, реклама, дисклеймеры.
Client Device (Клиентское устройство): Устройство пользователя (компьютер, смартфон), на котором выполняется браузер и происходит анализ DOM.
DOM Tree (Document Object Model Tree): Структурированная объектная модель ресурса (например, HTML документа), представленная в виде иерархии узлов (nodes). Используется браузером для рендеринга страницы.
Footer (Футер / Подвал): Тип boilerplate content. Одна или несколько строк текста внизу страницы, часто содержащие копирайт или дисклеймер.
Layout Engine (Движок рендеринга): Компонент веб-браузера, который строит DOM tree и рассчитывает визуальное представление страницы (например, Trident/MSHTML).
Likelihood Score (Оценка вероятности): Числовая оценка, рассчитываемая для узла DOM, указывающая на вероятность того, что данный узел содержит boilerplate content. Рассчитывается на основе Predefined Traits.
Predefined Traits (Предопределенные признаки): Набор характеристик (размер, форма, иерархия, расположение, атрибуты), используемых для идентификации boilerplate content.
Query Recommendation Engine (Система рекомендаций запросов): Система (на стороне клиента или сервера), которая анализирует контент ресурса для предложения пользователю других релевантных ресурсов или запросов.
Time Slicing (Квантование времени): Техника копирования DOM tree в основном потоке пользовательского интерфейса порциями за определенные промежутки времени, чтобы избежать зависания интерфейса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод, выполняемый на клиентском устройстве.

Система получает ресурс с сервера.
Выбираются один или несколько узлов DOM tree этого ресурса.
Определяется, что выбранные узлы демонстрируют один или более predefined traits, характерных для boilerplate content (контента, повторяющегося на нескольких ресурсах сайта).
Оценка (boilerplate content score), связанная с выбранными узлами, корректируется в ответ на обнаружение этих признаков.
Информация предоставляется Query Recommendation Engine. Эта информация включает текстовый контент узлов и идентифицирует скорректированную оценку (adjusted boilerplate content score).

Claim 3 (Зависимый от 1): Уточняет механизм корректировки оценки.

Корректировка boilerplate content score включает увеличение или уменьшение оценки на основании определения того, что узлы демонстрируют predefined traits.

Claim 4 (Зависимый от 1): Описывает использование порогового значения.

Определяется, удовлетворяет ли boilerplate content score предопределенному порогу.
Если ДА, информация предоставляется Query Recommendation Engine, идентифицируя текстовый контент как boilerplate content.

Claims 5-10 (Зависимые): Детализируют признаки для идентификации Anchor Block.

Признаки включают: связь с блочным элементом (division-type, table-type, list-type) (Claim 6); размер области меньше предопределенного количества пикселей (Claim 7); соотношение высоты к ширине (или наоборот) больше предопределенного значения (Claim 8); наличие как минимум предопределенного количества дочерних элементов (Claim 9); процент текста, находящегося внутри элементов ссылок, превышает предопределенный порог (Claim 10).

Claims 11-13 (Зависимые): Детализируют признаки для идентификации Anchor List.

Признаки включают: наличие как минимум предопределенного количества дочерних объектов-ссылок (Claim 12); два или более объекта-ссылки выровнены по левому краю друг относительно друга (Claim 13).

Claims 14-16 (Зависимые): Детализируют признаки для идентификации Footer.

Признаки включают: область расположена в месте, обычно соответствующем низу веб-страницы (Claim 15); родительским узлом является элемент BODY (Claim 16).

Claim 17 (Зависимый от 1): Описывает техническую реализацию для повышения производительности.

Система копирует различные части DOM tree в течение двух или более временных интервалов (time slices), пока не будет получена полная копия. Выбор узлов для анализа происходит из этой копии с использованием фонового потока (background thread).

Где и как применяется

Изобретение применяется на этапе обработки контента после его загрузки, но до момента использования этого контента для генерации рекомендаций. В контексте стандартной архитектуры поиска, это относится к этапу анализа и извлечения признаков.

INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)

Хотя патент описывает реализацию на стороне клиента (Client-side implementation) для целей Query Recommendations, описанная технология обнаружения boilerplate content по структурным признакам является ключевой частью этапа индексирования в поисковой системе.

Рендеринг и Анализ Структуры: Система (будь то клиентское приложение по патенту или Googlebot) должна отрендерить страницу и построить DOM tree.
Feature Extraction (Извлечение Признаков): Происходит анализ DOM tree для классификации различных частей контента. Система идентифицирует boilerplate content (навигацию, футеры, рекламу) и отделяет его от основного содержания (Main Content).

Специфика патента (Client-Side):

Патент описывает выполнение этого процесса на Client Device (например, в браузере пользователя с установленным тулбаром или плагином). Это позволяет генерировать релевантные рекомендации на лету, не полагаясь на серверный анализ.

Входные данные:

Ресурс (HTML/XML документ), полученный с сервера.
DOM tree, построенное движком рендеринга (Layout Engine).
Набор Predefined Traits для разных типов boilerplate.

Выходные данные:

Текстовый контент узлов DOM.
Скорректированные оценки (Adjusted boilerplate content score / Likelihood Score) для этих узлов.
(Опционально) Явная идентификация контента как boilerplate, если оценка превысила порог.

На что влияет

Конкретные типы контента: Влияет на все типы страниц, использующие шаблоны. Особенно сильно влияет на страницы с обширной навигацией, большими футерами или большим количеством рекламных блоков (например, новостные сайты, блоги, форумы).
Структурные элементы: Напрямую влияет на то, как интерпретируется контент и ссылки, расположенные в навигационных меню (Anchor Blocks), списках ссылок (Anchor Lists), футерах (Footers) и рекламных блоках (Ads).

Когда применяется

Триггеры активации: Процесс активируется на клиентском устройстве, когда пользователь или приложение инициирует процесс генерации Query Recommendation для текущей просматриваемой страницы.
Условия работы: Требуется возможность доступа и анализа DOM tree страницы.

Пошаговый алгоритм

Алгоритм состоит из двух основных фаз: подготовка данных (копирование DOM) и анализ данных (обнаружение boilerplate).

Фаза 1: Подготовка данных (DOM Tree Analysis/Copying) (Выполняется в основном потоке UI с квантованием времени)

Инициализация копирования: Запуск процесса копирования DOM tree, созданного Layout Engine.
Квантование времени (Time Slicing): В течение отведенного временного интервала копируется часть узлов DOM (например, дюжина).
Приостановка: По истечении интервала копирование приостанавливается, чтобы основной поток мог обработать другие события пользовательского интерфейса.
Возобновление: Процесс повторяет шаги 2-3 до тех пор, пока не будет создана полная копия DOM tree.

Фаза 2: Анализ данных (Boilerplate Detection) (Выполняется в фоновом потоке)

Обход дерева: Система итеративно обходит копию DOM tree (например, в глубину или в ширину).
Выбор узлов: Выбирается узел или группа узлов (например, узел и его дочерние элементы) для анализа.
Применение тестов (Detection Tests): К выбранным узлам применяется набор тестов для разных типов boilerplate (Anchor Block, Anchor List, Footer, Ad). Каждый тест проверяет наличие специфических Predefined Traits.
Расчет оценки (Score Calculation): Для каждого типа boilerplate рассчитывается Likelihood Score. Оценка увеличивается в зависимости от степени соответствия признакам.
- Пример для Anchor Block: +20 за блочный элемент, +20 за соотношение сторон > 3:1, +20 за >5 дочерних элементов, +20 за >80% текста в ссылках.
Определение типа (Classification): (Опционально) Если Likelihood Score превышает порог (например, 80), контент классифицируется как boilerplate. Может быть выбран тип с наивысшей оценкой.
Корректировка оценки (Score Adjustment): Финальная оценка узла корректируется (повышается как оценка шаблонности).
Предоставление информации: Текст узла и его скорректированная оценка передаются в Query Recommendation Engine.

Какие данные и как использует

Данные на входе

Система анализирует исключительно структурные, иерархические и визуальные (геометрические) данные, доступные через DOM. Она не анализирует семантику текста.

Структурные факторы (DOM):
- Типы элементов (DIV, TABLE, LIST, A, BODY).
- Атрибуты элементов (например, ALIGN, SHAPE, COORDS, CHILDNODE).
Иерархические факторы (DOM Hierarchy):
- Наличие и количество дочерних узлов (Child nodes).
- Типы дочерних узлов (например, наличие дочерних ссылок).
- Родительские узлы (например, является ли родителем BODY).
Визуальные/Геометрические факторы (Layout Data):
- Размер области (количество пикселей, например, < 400x400px).
- Форма области (соотношение высоты к ширине, например, > 3:1).
- Расположение на странице (например, в самом низу страницы).
- Выравнивание элементов (например, выравнивание ссылок по левому краю).
Ссылочные факторы (Link characteristics):
- Процент текста в узле, который является текстом ссылки.
- (Для рекламы): Целевые хосты ссылок (Target host name).
- (Для рекламы): Наличие встроенных URL (Embedded URL).
- (Для рекламы): Ссылки на внешние домены (out-of-domain resources).
- (Для рекламы): Соответствие URL известным рекламным паттернам (например, Google AdSense).

Какие метрики используются и как они считаются

Likelihood Score (Boilerplate Content Score): Основная метрика. Рассчитывается путем суммирования баллов за соответствие различным Predefined Traits.
Пороги (Thresholds): Используются для финальной классификации. Если Likelihood Score превышает порог, контент считается шаблонным.
Метрики признаков: Конкретные числовые значения, используемые в тестах, например:
- Соотношение сторон (Ratio): > 3:1.
- Количество дочерних элементов: > 2 (для блоков) или > 3 (для списков).
- Процент текста в ссылках: > 80%.
- Размер в пикселях: < 400x400.

Структурный анализ для понимания контента: Патент подтверждает, что Google активно использует анализ DOM tree для сегментации страницы. Система способна идентифицировать назначение блоков (навигация, футер, реклама, основной контент) на основе их структуры, иерархии и визуальных характеристик, а не только содержания.
Идентификация Boilerplate без сравнения страниц: Описан метод, позволяющий идентифицировать шаблонный контент на одной странице путем анализа её внутренних признаков (Predefined Traits), таких как форма блока, плотность ссылок в нем, его расположение. Это отличается от методов, требующих сравнения множества страниц сайта.
Детальная классификация шаблонов: Система не просто ищет boilerplate, она классифицирует его по типам: Anchor Blocks (навигация), Anchor Lists (списки ссылок), Footers, Ads. Каждый тип имеет свой набор диагностических признаков.
Цель обнаружения — фильтрация шума: Основная цель, описанная в патенте, — это предотвращение использования boilerplate content для генерации Query Recommendations. Это подразумевает, что контент, классифицированный как boilerplate, значительно понижается в весе или полностью игнорируется при определении основной тематики страницы.
Технические аспекты рендеринга: Патент учитывает производительность рендеринга на стороне клиента, предлагая техники Time Slicing и фоновой обработки для анализа DOM без блокировки интерфейса. Это подчеркивает важность скорости и отзывчивости интерфейса.

Best practices (это мы делаем)

Используйте чистую и семантическую верстку: Применяйте соответствующие HTML5 теги (<nav>, <header>, <main>, <article>, <footer>, <aside>). Хотя система использует эвристики (Predefined Traits), семантическая верстка помогает четко разграничить блоки, уменьшая вероятность ошибки классификации основного контента как boilerplate.
Структурируйте навигацию стандартным образом: Навигационные меню должны выглядеть и вести себя как навигация (блочный элемент, высокая плотность ссылок). Это поможет системе корректно идентифицировать их как Anchor Blocks и не учитывать их текст как основной контент страницы.
Отделяйте основной контент от сквозных блоков: Убедитесь, что блоки с основным контентом имеют достаточно уникального текста и не состоят преимущественно из ссылок. Это защитит основной контент от классификации как Anchor Block или Anchor List.
Оптимизируйте производительность фронтенда: Учитывая упоминание Time Slicing для анализа DOM, важность быстрой загрузки и рендеринга страницы остается высокой. Сложный и медленный DOM может затруднить анализ структуры.

Worst practices (это делать не надо)

Использование нестандартной верстки для ключевых элементов: Использование DIV-структур или таблиц для основного контента без четкой семантики увеличивает риск того, что система не сможет корректно отделить Main Content от boilerplate.
Насыщение основного контента списками сквозных ссылок: Если основной контент содержит длинные списки ссылок, выровненные по левому краю (например, перелинковка, похожая на карту сайта), эти блоки могут быть классифицированы как Anchor Lists и проигнорированы.
Манипуляции с расположением футера: Попытки скрыть футер или разместить ключевой контент в области, которая структурно и визуально выглядит как футер (в самом низу, родитель BODY), приведет к игнорированию этого контента.
Избыточная перелинковка в шаблонных блоках: Размещение огромного количества ссылок в навигации или футере в надежде передать вес. Патент показывает, что Google имеет точные механизмы для идентификации таких блоков и, как следствие, может игнорировать или девальвировать ссылки в них.

Стратегическое значение

Этот патент имеет важное стратегическое значение, подтверждая переход от анализа "плоского текста" к анализу структуры документа (DOM). Понимание контента Google напрямую зависит от качества верстки и архитектуры сайта. Стратегия SEO должна включать тесное взаимодействие с фронтенд-разработчиками для обеспечения семантической чистоты и структурной логичности шаблонов. Это гарантирует, что поисковая система фокусируется на основном контенте при оценке релевантности и качества страницы, и корректно интерпретирует служебные блоки (навигация, реклама).

Практические примеры

Сценарий: Оптимизация шаблона новостной статьи для корректного определения Main Content

Анализ текущего шаблона: В шаблоне статьи блок "Читайте также" реализован как длинный список из 15 ссылок, выровненных по левому краю, сразу после основного текста статьи.
Идентификация риска (по патенту): Этот блок соответствует признакам Anchor List (более 3 ссылок, выравнивание по левому краю). Есть риск, что система классифицирует его как boilerplate и проигнорирует эти ссылки или понизит их вес.
Применение Best Practice: Чтобы гарантировать, что перелинковка учитывается, но не мешает определению основного контента:
- Ограничить количество ссылок в блоке (например, до 5).
- Использовать более визуально богатый формат (например, карточки с изображениями и сниппетами), чтобы блок не выглядел как простой список ссылок.
- Разместить блок внутри семантического тега <aside> или четко отделить его от <article>.
Ожидаемый результат: Система корректно идентифицирует основной текст статьи, а блок перелинковки не классифицируется как низкокачественный boilerplate.

Означает ли этот патент, что Google игнорирует текст в навигации и футере при ранжировании?

Да, это весьма вероятно. Цель обнаружения boilerplate content — отфильтровать шум и сфокусироваться на основном содержании страницы. Если система классифицирует блок как навигацию (Anchor Block) или Footer, его содержимое (включая текст ссылок) будет значительно понижено в весе или полностью проигнорировано при определении тематической релевантности страницы.

Как система определяет, является ли блок шаблонным (boilerplate)?

Патент описывает метод, основанный на анализе предопределенных признаков (Predefined Traits) узла в DOM tree. Анализируются размер блока, его форма (соотношение сторон), расположение на странице, количество дочерних элементов (особенно ссылок) и процент текста, который является ссылкой. Система не сравнивает страницу с другими страницами сайта; анализ происходит изолированно.

Какие признаки указывают на навигационный блок (Anchor Block)?

Ключевые признаки: это блочный элемент (DIV, TABLE, LIST); он часто длинный и узкий (например, соотношение сторон > 3:1); содержит мало текста, кроме текста самих ссылок (например, >80% текста внутри ссылок); содержит несколько дочерних элементов. Сочетание этих факторов дает высокую оценку вероятности (Likelihood Score).

Может ли основной контент быть ошибочно принят за boilerplate?

Да, если он обладает признаками boilerplate. Например, если статья состоит в основном из списка ссылок, выровненных по левому краю (признаки Anchor List), или если основной контент размещен в блоке, который структурно и визуально похож на футер. Важно использовать чистую верстку и следить за тем, чтобы основной контент имел достаточно уникального текста.

Влияет ли этот патент на передачу ссылочного веса через меню и футер?

Хотя патент фокусируется на генерации Query Recommendations, технология идентификации boilerplate напрямую влияет на SEO. Ссылки, расположенные в блоках, идентифицированных как boilerplate (особенно футеры и обширные навигационные меню), с высокой вероятностью передают значительно меньше веса (или не передают его вовсе) по сравнению со ссылками в основном контенте.

Патент описывает работу на стороне клиента (Client-side). Применяет ли Google это в своем основном поиске?

Патент действительно описывает реализацию на клиенте (например, для тулбаров). Однако технология идентификации boilerplate по структурным признакам является фундаментальной. Логично предположить, что аналогичные или более продвинутые механизмы используются Googlebot во время рендеринга и индексирования (Server-side) для анализа структуры страниц в основном индексе.

Как использование семантических тегов HTML5 (<nav>, <footer>) влияет на этот алгоритм?

Патент не упоминает конкретные HTML5 теги, полагаясь на эвристические признаки (размер, форма, структура). Однако использование семантических тегов является лучшей практикой, так как это предоставляет явные сигналы о назначении блока, что упрощает работу алгоритмов сегментации и снижает вероятность ошибок при отделении основного контента от boilerplate.

Как система обнаруживает рекламу (Ads)?

Для рекламы используются специфические признаки: ссылки ведут на внешние домены; URL ссылок содержат встроенные URL (embedded URL); URL соответствуют паттернам известных рекламных сетей (например, AdSense); несколько рекламных блоков имеют одинаковый целевой хост. Это позволяет идентифицировать рекламу и исключить её из анализа основного контента.

Что такое "Time Slicing" и зачем это нужно?

Time Slicing (Квантование времени) — это техника, используемая для анализа DOM tree без зависания интерфейса браузера. Поскольку анализ большого DOM может быть ресурсоемким, система копирует DOM по частям в небольшие промежутки времени, позволяя браузеру оставаться отзывчивым. Это подчеркивает важность производительности фронтенда.

Влияет ли язык контента на обнаружение boilerplate?

Нет. Согласно патенту, процесс обнаружения boilerplate основан на структурных, иерархических и геометрических признаках DOM tree, а не на анализе самого текста. Система может одинаково эффективно идентифицировать шаблоны на страницах на английском, китайском или русском языках.

Как Google идентифицирует и игнорирует шаблонный контент (Boilerplate) для фокусировки на основном содержании страницы

Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент как шаблонный (boilerplate) и исключает его из индексации или значительно понижает его вес.

US8041713B2
2011-10-18

Индексация
Техническое SEO
Структура сайта

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга

Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.

US9753901B1
2017-09-05

Индексация
Техническое SEO
Структура сайта

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя

Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.

US9235626B2
2016-01-12

Персонализация
SERP
Семантика и интент

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов

Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.

US9268820B2
2016-02-23

Knowledge Graph
SERP
Семантика и интент

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

US20140280133A1
2014-09-18

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки