Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

DETERMINING SEMANTICALLY DISTINCT REGIONS OF A DOCUMENT (Определение семантически различных областей документа)

US7913163B1
Google LLC
2004-09-22
2011-03-22

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

Какую проблему решает

Патент решает фундаментальную проблему интерпретации веб-документов: несоответствие между синтаксической структурой HTML-кода и визуальной (семантической) структурой отображаемой страницы. HTML-код определяет элементы, но не группирует их явным образом в семантические блоки (например, "основной контент", "боковая панель", "реклама"). Это затрудняет для поисковых систем автоматическое определение важности различных частей страницы и корректную оценку веса контента и ссылок в зависимости от их контекста.

Что запатентовано

Запатентована система и метод для автоматического разделения структурированного документа (например, HTML) на семантически различные области (semantically distinct regions). Суть изобретения заключается в использовании "псевдо-рендеринга" (pseudo-rendering) для получения геометрических параметров элементов страницы (расположение, размер) и последующей перестройке структуры документа из синтаксической иерархии (Quasi-DOM Tree) в семантическую иерархию (Chunk Tree) на основе этих геометрических данных и эвристических правил.

Как это работает

Система работает следующим образом:

Псевдо-рендеринг: Документ обрабатывается для определения приблизительного расположения и размера каждого элемента без полного визуального отображения.
Создание Quasi-DOM Tree: Создается начальная иерархическая структура на основе синтаксиса HTML, и каждый узел аннотируется полученными геометрическими параметрами.
Анализ геометрии: Система анализирует расположение элементов, в частности, используя Row & Grid Analysis для выявления периодических или полупериодических структур (списки, сетки товаров).
Слияние и разметка: Узлы сливаются, группируются и размечаются на основе их геометрической близости, совместимости атрибутов и расположения (например, верхняя часть помечается как Header).
Генерация Chunk Tree: На выходе получается Chunk Tree, где каждый узел (чанк) представляет собой отдельную семантическую область страницы.

Актуальность для SEO

Высокая. Понимание структуры страницы и выделение основного контента (Main Content) из шаблонных элементов (boilerplate), навигации и рекламы является критически важной задачей для современных поисковых систем. Хотя патент подан в 2004 году, описанные в нем принципы геометрического анализа лежат в основе того, как Google интерпретирует макет страницы, что напрямую влияет на оценку качества контента и релевантности.

Важность для SEO

Патент имеет критическое значение для SEO (9/10). Он описывает базовый механизм, с помощью которого Google определяет контекст и потенциальную важность контента и ссылок на основе их визуального расположения на странице. Это напрямую влияет на стратегии проектирования макетов страниц (UX/UI), внутренней перелинковки и размещения ключевого контента. Понимание этого механизма необходимо для оптимизации структуры сайта и обеспечения корректной интерпретации назначения различных блоков на странице.

Термины и определения

Chunk Tree (Дерево чанков): Итоговая иерархическая структура данных. Представляет собой семантическую структуру документа, где каждый узел (чанк) соответствует семантически различной области (semantically distinct region) на отображаемой странице (например, хедер, футер, основной контент).
Geometric Parameters (Геометрические параметры): Атрибуты, описывающие визуальное представление элемента на странице. Включают координаты (X_Pos, Y_Pos), размеры (Width, Height), а также могут включать размер шрифта (Font Size) и цвет (Color).
Geometric Token List (Список геометрических токенов): Список всех отдельных элементов (слов, изображений) на странице, аннотированных их геометрическими параметрами и ссылками на соответствующие узлы в Quasi-DOM Tree и Chunk Tree.
Pseudo-rendering (Псевдо-рендеринг): Процесс определения приблизительного положения и размера каждого элемента документа без выполнения полного и точного визуального отображения. Используется для быстрого получения геометрической информации.
Pseudo-title (Псевдо-заголовок): Текст внутри чанка, который идентифицируется как вероятный заголовок данной семантической области на основе критериев визуальной заметности (например, размер шрифта, расположение).
Quasi-DOM Tree (Квази-DOM дерево): Начальная иерархическая структура данных, основанная на синтаксических элементах документа (HTML-тегах), но упрощенная и аннотированная геометрическими параметрами, полученными в ходе pseudo-rendering.
Row and Grid Analysis (Анализ рядов и сеток): Эвристический метод для выявления групп элементов, которые расположены в периодическом или полупериодическом порядке (например, сетка товаров, список статей). Использует сравнение хэш-кодов структурных элементов и их геометрического расположения.
Semantic Element (Семантический элемент): Компонент отображаемого документа, имеющий смысловое значение (текст, изображение, ссылка).
Syntactic Element (Синтаксический элемент): Элемент разметки исходного документа (например, HTML-теги <TABLE>, <TR>, <TD>).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод разделения структурированного документа.

Трансляция документа в начальную иерархическую структуру данных (Quasi-DOM Tree) на основе синтаксических элементов (тегов).
Аннотирование каждого узла набором атрибутов, включающих геометрические параметры. Эти параметры определяются в ходе pseudo-rendering документа.
Слияние узлов начальной структуры в итоговое дерево узлов (Chunk Tree) в соответствии с их атрибутами (включая геометрические параметры) и набором предопределенных правил. Правила включают слияние узлов, имеющих близкое расположение в псевдо-рендеринге и/или совместимые атрибуты.

Claim 9 (Зависимый): Детализирует процесс слияния узлов (шаг 3 из Claim 1), указывая конкретные действия:

Слияние дочернего узла с родительским, если это единственный дочерний узел (упрощение структуры).
Разделение (расширение) одного узла на несколько, если он связан с несколькими семантическими элементами (например, разделение текста большими вертикальными пробелами).
Идентификация группы узлов с совместимыми атрибутами, включая схожие геометрические параметры и периодическое или полупериодическое расположение (Row and Grid Analysis).
Присвоение предварительных тегов узлам, определяющих функцию и расположение.
Слияние соседних узлов (siblings) с совместимыми предварительными тегами.
Присвоение финальных тегов.

Claims 11, 12, 15, 16 (Зависимые): Описывают применение результата сегментации.

Система присваивает ссылкам (Claims 11, 15) или тексту (Claims 12, 16) в одной семантической области вес, отличный от веса ссылок или текста в другой семантической области, и использует эти веса для дальнейших вычислений (например, ранжирования).

Claim 17 (Независимый пункт, система): Описывает систему (Geometry Detector) для разделения документа, включающую модули для выполнения pseudo-rendering, генерации Quasi-DOM Tree и преобразования его в Chunk Tree.

Где и как применяется

Изобретение применяется на этапе анализа контента после его получения и рендеринга.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает исходный HTML документ.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. После того как краулер загрузил контент, система выполняет рендеринг (или pseudo-rendering, как описано в патенте). Описанный механизм (Geometry Detector) анализирует результат рендеринга, чтобы понять структуру страницы.

Рендеринг/Псевдо-рендеринг: Вычисляются геометрические параметры всех элементов.
Feature Extraction (Извлечение признаков): Вместо анализа сырого HTML, система анализирует структурированный Chunk Tree. Это позволяет извлекать более точные признаки: определение основного контента, классификация ссылок (навигационные, рекламные), идентификация Pseudo-titles и шаблонных элементов (boilerplate).

RANKING – Ранжирование
Сам патент не описывает алгоритмы ранжирования, но предоставляет критически важные данные для них. Как указано в Claims 11-16, система использует сегментацию для присвоения различных весов тексту и ссылкам в зависимости от их семантической области. Это напрямую используется алгоритмами ранжирования.

Входные данные:

Структурированный документ (например, HTML файл).
Данные pseudo-rendering (геометрические параметры элементов).

Выходные данные:

Chunk Tree – семантическая структура документа.
Geometric Token List – список всех токенов с их расположением и принадлежностью к чанкам.

На что влияет

Конкретные типы контента: Влияет на все типы контента. Особенно важен для страниц со сложной структурой, где необходимо отделить основной контент от вспомогательного.
Определенные форматы контента: Критичен для анализа списков и сеток (например, категории в e-commerce, списки статей в блогах), так как Row and Grid Analysis специально предназначен для их идентификации.
Конкретные ниши или тематики: Важен для e-commerce (идентификация карточек товаров), контентных проектов (выделение статьи), новостных сайтов (разделение новостных блоков, навигации и рекламы).

Когда применяется

Алгоритм применяется во время индексирования для каждой страницы, которая проходит процесс рендеринга. Цель – преобразовать синтаксическую структуру в семантическую перед тем, как извлекать факторы ранжирования.

Пошаговый алгоритм

Процесс работы Geometry Detector по преобразованию документа в Chunk Tree.

Псевдо-рендеринг (Pseudo-rendering): Система обрабатывает HTML файл для вычисления Geometric Parameters (координаты, размеры, шрифты) для каждого элемента.
Генерация Quasi-DOM Tree: Создается начальная иерархическая структура на основе HTML. Узлы аннотируются геометрическими параметрами.
Конвертация в Chunk Tree (Начальный этап):
- Упрощение структуры: Узлы, не несущие семантической нагрузки, удаляются. Дочерние узлы без соседей сливаются с родителями.
- Разделение узлов: Узлы, содержащие несколько визуально разделенных семантических элементов (например, текст с большими пробелами), разделяются на несколько узлов.
Анализ рядов и сеток (Row & Grid Analysis):
- Хеширование структуры: Для групп узлов вычисляются хэш-коды, отражающие их внутреннюю структуру (например, H("CELL"+H("Image")+H("Text"))).
- Анализ периодичности: Система сравнивает хэш-коды и геометрическое расположение узлов для выявления периодических или полупериодических паттернов по горизонтали и вертикали.
- Группировка: Элементы, соответствующие паттерну, группируются под общим родительским узлом (например, Grid Root).
Предварительная разметка (Preliminary Tagging): Узлам присваиваются теги на основе их геометрического расположения и содержимого (например, Header, LHS_Sidebar, Footer, On-Site Links). На этом этапе также могут идентифицироваться Pseudo-titles.
Слияние соседних узлов (Sibling Merging): Семантически связанные соседние узлы с совместимыми тегами и геометрией сливаются для дальнейшего упрощения Chunk Tree.
Финальная разметка (Final Tagging): Узлам присваиваются финальные теги, формируя итоговый Chunk Tree.
Генерация Geometric Token List: Создается список всех токенов (слов, изображений) с указанием их точного расположения и принадлежности к финальным чанкам.

Какие данные и как использует

Данные на входе

Система использует комбинацию структурных, геометрических и контентных данных.

Структурные факторы (Синтаксис): Исходная структура документа (HTML теги: TABLE, ROW, CELL и т.д.). Используется для построения Quasi-DOM Tree.
Геометрические факторы (Визуальное представление):
- Координаты (X_Pos, Y_Pos).
- Размеры (Width, Height).
Эти данные критически важны для всех этапов: слияния узлов, Row & Grid Analysis и разметки (Tagging).
Контентные факторы (Типы данных): Типы семантических элементов (Image, Text, Link). Используются при анализе и разметке.
Визуальные атрибуты: Размер шрифта (Font Size) и цвет (Color). Упоминаются как часть атрибутов узла и могут использоваться для определения Pseudo-titles и оценки заметности элемента.

Какие метрики используются и как они считаются

Геометрическое расстояние: Расстояние между элементами по горизонтали и вертикали. Используется для определения близости и выявления пробелов (gaps) при разделении узлов.
Периодичность / Полупериодичность: Метрика, используемая в Row & Grid Analysis. Рассчитывается как процент совпадающих пар элементов на определенном расстоянии. Пороговые значения используются для определения, формируют ли элементы сетку или список.
Хэш-коды структуры (Hash Codes): Используются для сравнения внутренней структуры различных узлов. Если два узла имеют одинаковый хэш-код и расположены периодически, они считаются элементами одной сетки.
Визуальная заметность (Prominence): Критерии для идентификации Pseudo-title. Основываются на размере шрифта, типе шрифта или расположении текста в начале блока.

Приоритет визуальной структуры над HTML-кодом: Google полагается на геометрический анализ отображаемой страницы (через pseudo-rendering), чтобы понять её семантическую структуру. Структура HTML (Quasi-DOM) является лишь отправной точкой и активно перестраивается в Chunk Tree.
Геометрия определяет функцию: Расположение элемента на странице (вверху, в центре, сбоку, внизу) является ключевым фактором для определения его функции (Header, Main Content, Sidebar, Footer).
Идентификация повторяющихся структур: Система активно ищет списки и сетки с помощью Row & Grid Analysis. Этот метод устойчив к шуму (полупериодичность) и позволяет группировать схожие элементы (например, товары в категории), даже если HTML-разметка не идеальна.
Сегментация для взвешивания: Основная цель создания Chunk Tree – это возможность применять различные веса к контенту и ссылкам в зависимости от семантической области, в которой они находятся (явно указано в Claims 11, 12, 15, 16 патента).
Идентификация заголовков блоков (Pseudo-titles): Система пытается найти заголовок для каждой семантической области, анализируя визуально заметный текст внутри чанка.

Best practices (это мы делаем)

Обеспечивать четкое визуальное разделение блоков: Проектировать макет так, чтобы основное содержимое (Main Content) было визуально отделено от навигации, рекламы и футера. Это помогает Geometry Detector корректно сегментировать страницу на чанки.
Размещать основной контент централизованно: Так как система использует геометрическое расположение для определения функции блока, основной контент должен занимать центральное и наиболее заметное место на странице.
Использовать стандартные и предсказуемые макеты для списков и сеток: Для страниц категорий e-commerce или списков статей следует использовать чистую, периодическую верстку. Это гарантирует, что Row & Grid Analysis корректно идентифицирует все элементы как часть единой структуры (Grid Root).
Использовать визуально заметные заголовки для секций: Убедитесь, что ключевые разделы страницы имеют четкие, визуально выделяющиеся (размер шрифта, расположение) заголовки. Это повышает вероятность их идентификации как Pseudo-titles, что помогает понять тему чанка.
Оптимизировать внутренние ссылки в основном контенте: Поскольку ссылки в разных семантических областях получают разный вес, наиболее важные внутренние ссылки должны располагаться в основном контенте, а не только в футере или боковой панели.

Worst practices (это делать не надо)

Использовать запутанную и неконсистентную верстку: Сложные макеты, где элементы не имеют четкой периодичности или визуального разделения, могут привести к ошибкам в Row & Grid Analysis и некорректной сегментации страницы.
Смешивать контент и рекламу без визуального разделения: Если рекламные блоки визуально неотличимы от основного контента и интегрированы в него, система может ошибочно классифицировать их или понизить вес всего блока контента.
Прятать важный контент внизу или сбоку: Размещение ключевой информации в областях, которые обычно классифицируются как Footer или Sidebar, приведет к тому, что этот контент получит меньший вес.
Игнорирование визуального представления: Оценка SEO только по исходному коду неэффективна. Важно анализировать, как страница выглядит после рендеринга, так как именно геометрия рендеринга используется для сегментации.

Стратегическое значение

Этот патент подтверждает, что пользовательский опыт (UX) и дизайн интерфейса (UI) являются факторами, напрямую влияющими на SEO. Google анализирует страницу так, как её видит пользователь (или аппроксимирует это через pseudo-rendering). Стратегия SEO должна включать тесное взаимодействие с дизайнерами и разработчиками для создания макетов, которые не только удобны для пользователей, но и легко интерпретируются алгоритмами геометрического анализа. Приоритет отдается чистоте структуры и четкому выделению основного контента.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

Задача: Убедиться, что Google корректно идентифицирует сетку товаров и придает ссылкам на карточки товаров максимальный вес.
Действия (Верстка): Разработчики используют чистую сетку (Grid/Flexbox) для отображения товаров. Каждая карточка товара имеет идентичную внутреннюю структуру (Изображение, Название, Цена). Между карточками соблюдаются одинаковые отступы.
Анализ Google (Row & Grid Analysis):
- Система выполняет pseudo-rendering и определяет геометрические параметры.
- Row & Grid Analysis вычисляет хэш-коды для каждой карточки. Хэш-коды совпадают.
- Система фиксирует высокую степень периодичности расположения карточек.
Результат: Система успешно группирует все карточки под одним узлом Grid Root в Chunk Tree и классифицирует этот блок как основной контент страницы категории. Ссылки внутри этого блока получают соответствующий вес.
Ошибка (Антипаттерн): Если разработчики вставят рекламный баннер или блок "Популярные статьи" прямо в середину сетки товаров, нарушив периодичность, Row & Grid Analysis может не сработать или разбить сетку на несколько отдельных чанков, что усложнит интерпретацию страницы.

Google анализирует только HTML-код или визуальное отображение страницы?

Патент четко указывает, что Google анализирует визуальное отображение, используя pseudo-rendering для получения геометрических параметров элементов. HTML-код (Quasi-DOM Tree) используется как отправная точка, но затем он перестраивается в семантическую структуру (Chunk Tree) на основе того, как элементы расположены на странице визуально.

Что такое "Pseudo-rendering" и чем он отличается от обычного рендеринга?

Pseudo-rendering – это упрощенный процесс определения приблизительного расположения и размеров элементов без полного визуального отображения. Он быстрее и менее ресурсоемок, чем полный рендеринг, выполняемый браузером. Для целей сегментации страницы абсолютная точность не требуется, достаточно приблизительной геометрии.

Как этот патент влияет на вес ссылок и внутреннюю перелинковку?

Влияние критическое. В патенте (Claims 11, 15) прямо говорится, что ссылки в разных семантических областях могут получать разный вес. Это означает, что ссылка в основном контенте (идентифицированном как центральный и важный чанк) передаст больше веса, чем ссылка в футере или боковой панели (идентифицированных как вспомогательные или шаблонные чанки).

Как работает "Row & Grid Analysis" и зачем он нужен?

Это механизм для идентификации списков и сеток (например, товаров в категории). Он сравнивает внутреннюю структуру (через хэш-коды) и геометрическое расположение элементов. Если элементы похожи и расположены периодически или полупериодически, система группирует их в единый семантический блок (Grid Root). Это позволяет Google понять, что эти элементы являются частью одного списка.

Что делать, если JavaScript динамически меняет макет страницы?

Поскольку анализ происходит после рендеринга (или pseudo-rendering), система анализирует финальное состояние страницы после выполнения JavaScript. Важно, чтобы итоговый макет был чистым, структурированным и быстро формировался, чтобы Geometry Detector мог корректно его интерпретировать.

Как система определяет, какой блок является Основным Контентом?

Патент описывает механизм разметки блоков на основе их расположения (Header, Footer, Sidebar). Логично предположить, что блоки, расположенные центрально, занимающие большую площадь и не являющиеся навигацией или рекламой, классифицируются как основной контент. Блоки типа Grid Root часто являются основным контентом.

Что такое "Pseudo-title" и почему это важно?

Pseudo-title – это текст, который система идентифицирует как заголовок для определенного семантического блока (chunk) на основе его визуальной заметности (например, крупный шрифт). Это помогает системе понять тему конкретного блока и может использоваться для генерации сниппетов. Для SEO это подчеркивает важность использования четких и визуально выделенных заголовков.

Как этот патент связан с алгоритмом Page Layout (Above the Fold)?

Этот патент предоставляет необходимую инфраструктуру для работы алгоритма Page Layout. Чтобы оценить, сколько рекламы находится "над сгибом" и насколько доступен основной контент, система сначала должна идентифицировать, где находится основной контент, где реклама, и каковы их геометрические параметры. Chunk Tree предоставляет эти данные.

Связан ли этот патент с обнаружением шаблонного (boilerplate) контента?

Да, напрямую. Одной из основных целей сегментации страницы является отделение уникального контента от повторяющихся шаблонных элементов. Блоки, идентифицированные как футеры, хедеры и боковые панели, часто содержат boilerplate-контент, которому присваивается меньший вес при ранжировании.

Как я могу использовать этот патент для улучшения индексации изображений?

Патент упоминает использование геометрического анализа для Image captioning (создания подписей к изображениям). Система ищет текст, который находится геометрически близко к изображению. Для улучшения индексации изображений размещайте релевантные описания или заголовки в непосредственной визуальной близости от картинки.

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга

Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.

US9753901B1
2017-09-05

Индексация
Техническое SEO
Структура сайта

Как Google использует анализ визуального макета страницы для сегментации контента и понимания его иерархии

Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.

US7421651B2
2008-09-02

Индексация
Local SEO
Структура сайта

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента

Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.

US8898296B2
2014-11-25

Структура сайта
Семантика и интент
Техническое SEO

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок

Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.

US8392823B1
2013-03-05

Антиспам
Структура сайта
Индексация

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента

Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.

US9268880B2
2016-02-23

Персонализация
Семантика и интент
Мультимедиа

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню

Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.

US9053177B1
2015-06-09

SERP
Ссылки
Структура сайта

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP