Как Google использует анализ визуального макета страницы для сегментации контента и понимания его иерархии

DOCUMENT SEGMENTATION BASED ON VISUAL GAPS (Сегментация документа на основе визуальных разрывов)

US7421651B2
Google LLC
2004-12-30
2008-09-02

Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.

Какую проблему решает

Патент решает проблему неточности анализа структуры документа при использовании методов, основанных только на объектной модели документа (DOM). DOM не всегда соответствует визуальному представлению страницы, которое видит пользователь. Это затрудняет точное сопоставление описательного контента с конкретными объектами на странице, особенно в локальном поиске, где одна страница может содержать отзывы о нескольких разных компаниях (Business Listings). Изобретение направлено на повышение точности сегментации контента для корректного индексирования.

Что запатентовано

Запатентована система автоматической сегментации документов, основанная на их визуальном макете (Visual Layout), а не на структуре кода. Система анализирует визуальные разрывы (Visual Gaps или белое пространство) на отображаемой странице, чтобы определить иерархическую структуру контента. Это позволяет точно связывать блоки текста (например, заголовки, описания) с конкретными сигналами (например, Geographic Signals).

Как это работает

Система функционирует следующим образом:

Идентификация сигналов: В документе определяются ключевые сигналы (например, адреса компаний).
Генерация визуальной модели: Система анализирует элементы документа (например, HTML-теги) и присваивает им числовые веса (Weights). Эти веса количественно оценивают размер визуального разрыва, который элемент создает на странице.
Определение иерархии: На основе весов строится Hierarchical Structure. Большие веса (большие разрывы) указывают на более высокие уровни иерархии (например, разделение основных разделов).
Сегментация и Ассоциация: Документ сегментируется в соответствии с этой иерархией. Текст внутри сегмента, окружающего сигнал, а также текст на более высоких иерархических уровнях (например, заголовки категорий), ассоциируется с этим сигналом.

Актуальность для SEO

Высокая. Несмотря на дату подачи (2004 год), принципы визуальной сегментации (иногда называемые VIPS) и анализа отображаемой страницы (рендеринга) являются фундаментальными для современных поисковых систем. Понимание того, как Google интерпретирует визуальную структуру, особенно в эпоху сложных JavaScript и CSS макетов, критически важно для технического SEO и UX.

Важность для SEO

Патент имеет значительное влияние на SEO (7/10). Он подчеркивает, что визуальное представление и структура контента напрямую влияют на то, как Google понимает и индексирует страницу. Если визуальная структура неоднозначна, Google может некорректно ассоциировать контент. Это критически важно для локального SEO, страниц-агрегаторов, каталогов и любых страниц, перечисляющих несколько сущностей (например, обзоры товаров, списки компаний).

Термины и определения

Business Listings (Списки компаний / Бизнес-листинги): Информация о компании, идентифицированная на основе географических сигналов, часто включающая название и адрес.
Geographic Signals (Географические сигналы): Информация в документе, связанная с местоположением: полный или частичный адрес, номер телефона или название компании, связанной с местоположением.
Hierarchical Structure (Иерархическая структура): Структура документа, выведенная из визуальной модели. Определяет отношения между различными блоками контента (заголовки, разделы, подразделы).
Segmentation Component (Компонент сегментации): Система, которая автоматически сегментирует документы на основе их визуального макета.
Visual Gaps (Визуальные разрывы / Промежутки): Белое пространство или другие визуальные разделители на отображаемой странице, которые отделяют блоки контента друг от друга.
Visual Layout (Визуальный макет): То, как документ отображается визуально для пользователя после рендеринга.
Visual Model (Визуальная модель): Представление документа, основанное на визуальных разрывах. Строится путем присвоения весов элементам документа.
Weights (Веса): Числовые значения, присваиваемые элементам документа (например, HTML-тегам). Они количественно оценивают величину визуального разрыва, который вносит элемент. Большие веса соответствуют большим разрывам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод сегментации документа.

Система идентифицирует Geographic Signal в документе.
Генерируется Visual Model документа.
На основе визуальной модели идентифицируется Hierarchical Structure документа.
Документ сегментируется на основе этой иерархической структуры и визуальной модели.
Текст в документе ассоциируется с географическим сигналом, при условии, что сам текст не содержит географического сигнала И находится на более высоком иерархическом уровне, чем сигнал.

Ключевой аспект — использование визуального макета для определения иерархии и возможность связывать обобщающий контент (например, заголовки разделов) с конкретными объектами, расположенными ниже по иерархии.

Claim 2 (Зависимый от 1): Уточняет процесс генерации визуальной модели.

Генерация включает присвоение значений (Weights) элементам документа (например, HTML-тегам), которые контролируют его внешний вид. Эти значения количественно определяют степень, в которой элементы создают визуальные разрывы (Visual Gaps) в отображаемой версии документа.

Claim 4 (Зависимый от 2): Уточняет процесс идентификации иерархической структуры.

Более высокие иерархические уровни документа соответствуют более крупным присвоенным значениям (большим весам/разрывам).

Claim 10 (Независимый пункт): Описывает метод индексирования документа с использованием визуальной сегментации.

Идентификация Geographic Signals в документе.
Сегментация документа на несколько разделов, соответствующих различным сигналам, на основе Visual Layout. Процесс сегментации включает генерацию Visual Model, идентификацию Hierarchical Structure и ассоциацию текста более высокого уровня (header text).
Индексирование текста в разделах как соответствующего бизнес-информации, связанной с географическими сигналами.

Где и как применяется

Изобретение применяется на этапе анализа и обработки контента для подготовки его к индексации.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Segmentation Component анализирует документ после его рендеринга (или симуляции рендеринга), чтобы понять его структуру.

Рендеринг и Анализ Структуры: Вместо того чтобы полагаться исключительно на DOM, система строит Visual Model, анализируя Visual Gaps в отображаемой версии документа.
Извлечение признаков (Feature Extraction): Система использует выведенную Hierarchical Structure для точного извлечения и ассоциации описательного текста с соответствующими Business Listings. Это гарантирует, что отзыв о Ресторане А не будет ошибочно приписан Ресторану Б на той же странице.

Входные данные:

Кандидатный документ (HTML/CSS).
Список идентифицированных Geographic Signals в документе.
Набор правил и Weights для элементов разметки (HTML-тегов).

Выходные данные:

Сегментированный документ с определенной Hierarchical Structure.
Ассоциации между блоками текста (отзывы, заголовки категорий) и конкретными Business Listings.
Обогащенные данные для индекса локального поиска.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы, содержащие списки сущностей: каталоги, агрегаторы, страницы с обзорами нескольких продуктов или компаний, директории.
Локальный поиск (Local Search): Патент напрямую ориентирован на улучшение локального поиска путем более точного анализа страниц с Business Listings.
Специфические запросы: Влияет на запросы, где важен контекст описания (например, "ресторан с тирамису"). Система должна знать, к какому именно ресторану на странице относится упоминание тирамису.

Когда применяется

Триггеры активации: Наличие в документе одного или нескольких Geographic Signals, указывающих на Business Listings.
Условия работы: Когда необходимо определить, какой текст относится к какому объекту на странице, и когда структура DOM не дает однозначного ответа или может вводить в заблуждение. Патент также упоминает возможность применения к другим сигналам, например, изображениям (для ассоциации текста с картинкой).

Пошаговый алгоритм

Процесс сегментации документа на основе визуальных разрывов:

Идентификация кандидата: Выбор документа для сегментации, обычно содержащего Geographic Signals.
Идентификация Business Listings: Определение списков компаний в документе на основе географических сигналов (адреса, телефоны, названия).
Генерация визуальной модели:
1. Анализ элементов документа (HTML-тегов).
2. Присвоение числовых Weights этим элементам. Веса отражают размер визуального разрыва, создаваемого элементом. Веса могут быть асимметричными. Например, тегу <h2> может быть присвоен вес 50 перед ним и 30 после него, отражая идею, что заголовок сильнее связан с последующим текстом.
3. Создание модели, представляющей последовательность текстовых блоков и весов разрывов между ними.
Идентификация иерархической структуры:
1. Анализ распределения весов в визуальной модели.
2. Определение иерархических уровней: большие веса определяют более высокие уровни разделения (основные разделы), меньшие веса — более низкие уровни.
3. Определение самого низкого уровня как минимального веса, который разделяет текстовые элементы, содержащие географические сигналы.
Ассоциация контента:
1. Текст, связанный с наименьшим иерархическим уровнем, окружающим Business Listing, ассоциируется с ним.
2. Текст на более высоких уровнях (например, заголовок категории), который не связан с другим Business Listing, также ассоциируется с данным списком.
Индексирование: Контент индексируется таким образом, чтобы сохранить его ассоциацию с соответствующим Business Listing (например, как единый комбинированный документ или через специальные поля в индексе).

Какие данные и как использует

Данные на входе

Технические и Структурные факторы (HTML/Layout): Ключевые данные для этого патента. Используются элементы документа (HTML-теги, такие как <h1>-<h6>, <hr>, <br>) и то, как они влияют на визуальный макет. Система анализирует отображаемую версию документа.
Контентные факторы: Текстовые блоки документа, которые необходимо сегментировать и ассоциировать.
Географические факторы: Geographic Signals (адреса, названия компаний, номера телефонов), которые служат анкорями для сегментации.

Какие метрики используются и как они считаются

Weights (Веса): Основная метрика патента. Это числовые значения, количественно оценивающие Visual Gaps.
Методы расчета весов: Патент предлагает несколько методов определения весов:
1. Субъективный анализ и ручная настройка весов.
2. Анализ поведения или исходного кода веб-браузеров.
3. Машинное обучение с использованием корпуса размеченных вручную веб-страниц для автоматической установки весов.
Примеры весов (из патента):
- <hr> (горизонтальная линия): вес 20 до и после элемента.
- <h2>: вес 50 до и 30 после элемента.
Hierarchical Levels (Иерархические уровни): Метрика, производная от весов. Уровни определяются путем сравнения весов: большие веса создают более высокие уровни разделения.

Приоритет визуальной структуры над структурой кода (DOM): Патент явно указывает, что Google может отдавать предпочтение визуальному макету перед DOM, если структура кода не соответствует визуальному представлению. Система стремится понять страницу так, как её видит пользователь.
Визуальные разрывы как семантические разделители: Белое пространство (Visual Gaps) и дизайн являются техническими факторами, влияющими на индексацию. Они используются для определения семантических связей и границ между блоками контента.
Вывод иерархии из макета: Система способна выводить сложную Hierarchical Structure (заголовки, разделы, подразделы) на основе анализа визуальных разрывов и их "веса".
Точная атрибуция контекста: Механизм позволяет корректно атрибутировать текст более высокого уровня (например, заголовок категории "Итальянская кухня") к конкретным компаниям, расположенным визуально ниже, предотвращая смешивание контекста между разными разделами.
Критичность для локального SEO и агрегаторов: Точность индексации страниц со списками компаний или товаров напрямую зависит от четкости их визуального разделения. Неоднозначный дизайн может привести к некорректной индексации и потере релевантности в локальном поиске.

Best practices (это мы делаем)

Обеспечивать логичный и чистый визуальный макет: Дизайн страницы должен визуально отражать иерархию контента. Необходимо использовать стандартные элементы разметки (заголовки H1-H6) и достаточное белое пространство (whitespace) для четкого разделения различных сущностей или тем.
Использовать явные визуальные разделители для списков: При публикации списков (например, "Топ-10 ресторанов", сравнение товаров, каталог компаний) убедитесь, что блоки, относящиеся к разным элементам списка, четко визуально отделены друг от друга (с помощью заголовков, значительных отступов или разделителей типа <hr>).
Проверять корректность рендеринга: Убедитесь, что страница корректно отображается в инструментах рендеринга Google (например, Google Search Console URL Inspection). Визуальная структура должна быть очевидной и логичной.
Соблюдать визуальную иерархию заголовков: Заголовки должны визуально выделяться и четко обозначать начало нового раздела. Патент указывает на асимметрию весов: система ожидает больший промежуток перед заголовком, чем после него, что подчеркивает связь заголовка с последующим текстом.

Worst practices (это делать не надо)

Создавать неоднозначные визуальные макеты: Избегайте дизайнов, где визуально неясно, к какому заголовку относится блок текста или к какой компании относится отзыв. Перегруженные макеты без четких отступов ("стена текста") затрудняют сегментацию.
Полагаться только на DOM для структурирования: Не предполагайте, что чистый код гарантирует правильное понимание структуры. Если визуальное представление запутано, система может использовать его в качестве основного источника для определения иерархии.
Использовать нестандартные методы для создания визуальных разрывов: Использование нестандартных CSS-трюков, множественных <br> вместо параграфов или сложных скриптов для управления макетом может привести к непредсказуемым результатам при построении Visual Model.

Стратегическое значение

Патент подтверждает стратегическое направление Google на понимание веб-страниц с точки зрения пользователя (UX). Дизайн и качество фронтенд-реализации являются неотъемлемой частью технического SEO, поскольку они напрямую влияют на то, как контент сегментируется и индексируется. Для сайтов в локальном поиске, электронной коммерции и агрегаторов стратегически важно инвестировать в четкую, логичную и визуально понятную структуру страниц.

Практические примеры

Сценарий: Оптимизация страницы "Лучшие кафе в районе"

Необходимо структурировать страницу так, чтобы Google точно связал отзывы и категории с каждым кафе.

Исходная структура (Плохо): Все кафе перечислены подряд с минимальными отступами. Категории указаны в тексте отзыва. Визуально блоки сливаются.
```
Кафе А: Отличный кофе, есть веганские опции. Адрес А. Кафе Б: Хорошие завтраки. Адрес Б.
```
Проблема: Google может затрудниться понять границы сегментов и ошибочно связать "веганские опции" с Кафе Б.

Оптимизированная структура (Хорошо - согласно патенту):

<h1>Лучшие кафе в районе X</h1>  <h2>Кафе с завтраками</h2>    <h3>Кафе Б</h3>    <p>Отзыв о завтраках... Адрес Б</p>      <!-- Большой визуальный разрыв -->    <h2>Специализированные кофейни</h2>    <h3>Кафе А</h3>    <p>Отличный кофе, есть веганские опции... Адрес А</p>

Реализация: Заголовки (H2, H3) и абзацы (P) создают значительные визуальные разрывы (Visual Gaps).

Результат: Система строит Visual Model. Разрывы вокруг H2 самые большие (высокие Weights), создавая верхний уровень иерархии. Разрывы вокруг H3 меньше, создавая подуровни. Google корректно ассоциирует заголовок "Кафе с завтраками" (верхний уровень) с Кафе Б, а "веганские опции" — только с Кафе А.

Означает ли этот патент, что Google полностью игнорирует HTML DOM при анализе структуры?

Нет, не полностью. Однако патент подчеркивает, что Visual Layout может иметь приоритет над DOM, особенно когда структура кода не соответствует визуальному представлению или является неоднозначной. Система использует анализ визуальных разрывов как надежный метод для определения реальной иерархии контента, видимой пользователю.

Как определяются "веса" (Weights) для визуальных разрывов?

Патент предлагает три метода: ручная настройка на основе субъективного анализа, анализ того, как браузеры отображают элементы, или использование машинного обучения на размеченных данных. На практике это означает, что стандартные HTML-элементы (заголовки, абзацы, списки) имеют предопределенные ожидания относительно того, сколько пространства они создают.

Актуален ли этот патент, учитывая современные JavaScript-фреймворки и сложный CSS?

Да, он даже более актуален. Современные фреймворки часто генерируют сложный DOM, который слабо отражает семантическую структуру. В таких случаях анализ финального визуального представления (после рендеринга) становится ключевым способом понять иерархию контента. Это подчеркивает важность корректного рендеринга страницы.

Какова основная область применения этого патента?

Основное применение, описанное в патенте, — это локальный поиск (Local Search). Цель состоит в том, чтобы точно ассоциировать описания и отзывы с конкретными Business Listings на страницах, где перечислено несколько компаний (например, в каталогах или обзорах).

Что значит, что веса могут быть асимметричными (например, для <h2>)?

Это означает, что элемент создает разный размер отступа до и после себя. В патенте приводится пример: <h2> может иметь вес 50 до начала тега и вес 30 после закрытия. Это отражает визуальную логику, что заголовок сильнее отделен от предыдущего контента и теснее связан с текстом, который следует непосредственно за ним.

Как я могу использовать это знание для улучшения структуры моего сайта?

Сосредоточьтесь на визуальной ясности и UX. Используйте достаточное белое пространство и четкую иерархию заголовков для разделения различных тем или сущностей. Убедитесь, что визуально очевидно, какой текст к какому заголовку или объекту относится. Дизайн должен направлять не только пользователя, но и поискового робота.

Влияет ли использование CSS (margin/padding) на эту систему?

Патент фокусируется на HTML-элементах в примерах, но поскольку система анализирует результат рендеринга (Visual Layout), любые средства, создающие визуальные разрывы (включая CSS-отступы), должны учитываться при построении Visual Model. Важен конечный результат – наличие визуального пробела.

Может ли этот механизм использоваться не только для локального поиска?

Да. Хотя патент фокусируется на Geographic Signals, в нем упоминается, что эта техника может применяться к любым типам сигналов. Например, ее можно использовать для определения того, какой текст относится к какому изображению (используя изображения как сигналы).

Может ли этот механизм помочь в идентификации шаблонного (boilerplate) контента?

Да. В патенте упоминается, что идентифицированные иерархические сегменты могут использоваться для определения того, какие части документа более или менее релевантны. Например, навигационный шаблонный текст обычно менее релевантен, чем центральный контент страницы, и визуальная сегментация может помочь их разделить.

Если мой код чистый и семантически верный, но дизайн перегружен и запутан, что произойдет?

Согласно патенту, система может предпочесть запутанный визуальный макет чистому коду для определения структуры. Если дизайн не позволяет четко разделить блоки контента из-за отсутствия визуальных разрывов, система может некорректно сегментировать страницу, что приведет к ошибкам в индексации и потере релевантности.

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google генерирует визуальные превью страниц в выдаче, используя "разрывы страницы" и масштабирование релевантного контента

Google использует систему для создания визуальных превью страниц (Page Previews) в результатах поиска. Система оценивает релевантность контента, учитывая близость ключевых слов и тип контента (например, пессимизируя сноски). Для показа наиболее важных, но разрозненных участков используются "разрывы страницы" (Page Tears). Ключевой контент также может отображаться в увеличенном масштабе для читаемости, помогая пользователю оценить формат страницы до клика.

US8954427B2
2015-02-10

SERP
Семантика и интент

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок

Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.

US8392823B1
2013-03-05

Антиспам
Структура сайта
Индексация

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования

Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.

US9436742B1
2016-09-06

Персонализация
Поведенческие сигналы
SERP

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки