Как Google использует структурные шаблоны сайта для идентификации «Визуальных Конечных Страниц» (Visual Leaf Pages) и повышает их в поиске по картинкам

VISUAL LEAF PAGE IDENTIFICATION AND PROCESSING (Идентификация и обработка визуальных конечных страниц)

US11086961B2
Google LLC
2017-04-05
2021-08-10

Google анализирует структуру сайтов для автоматического определения «Visual Leaf Pages» (например, карточек товаров или рецептов), где изображение является основным контентом. Система находит «Hub Pages» (например, категории), которые ссылаются на них, и выявляет общие структурные признаки (шаблоны верстки, URL). Эти шаблоны используются для классификации страниц и повышения их ранжирования в поиске по картинкам для соответствующих запросов.

Какую проблему решает

Патент решает проблему масштабной и точной идентификации Visual Leaf Pages (Визуальных Конечных Страниц) без необходимости ручной разметки обучающих данных (unsupervised learning). VLP — это страницы, где визуальный контент (изображение или видео) является доминирующим и критически важным (например, карточки товаров, рецепты). Цель — улучшить релевантность результатов в поиске по картинкам, особенно для запросов, связанных с конкретными действиями (шопинг, готовка), путем повышения таких страниц в выдаче.

Что запатентовано

Запатентована система для автоматической идентификации Visual Leaf Pages на основе анализа структуры сайта и шаблонов страниц. Система идентифицирует Hub Pages (например, страницы категорий) и анализирует страницы, на которые они ссылаются через ссылки, основанные на изображениях (image-based links). На основе общих характеристик (структурных, визуальных, URL) этих конечных страниц система создает статистические модели (Cluster Models), специфичные для каждого хоста. Эти модели затем используются для классификации новых страниц и повышения их search score в релевантных сценариях поиска.

Как это работает

Система работает в два этапа: построение моделей (офлайн) и применение (онлайн).

Построение моделей (Офлайн):

Идентификация потенциальных Visual Leaf Pages (с доминирующим изображением) и Hub Pages, которые ссылаются на них через image-based links.
Извлечение признаков (Feature Values) из конечных страниц (например, глубина URL, метаданные, особенности верстки/layout).
Генерация Cluster Data для каждого хаба путем вычисления «центральной тенденции» (Central Tendency, например, среднего значения и стандартного отклонения) признаков связанных страниц.
Объединение похожих кластеров в общие Cluster Models для всего хоста.

Применение (Онлайн):

При получении запроса система определяет его интент (например, поиск картинок для шопинга).
Система применяет специфичные для хоста Cluster Models к страницам-кандидатам.
Если страница классифицирована как Visual Leaf Page и интент запроса соответствует, её search score повышается.

Актуальность для SEO

Высокая. Визуальный поиск и электронная коммерция продолжают расти. Способность Google автоматически понимать структуру страниц, типы шаблонов и намерения пользователей без ручного обучения (unsupervised learning) является ключевым элементом современных поисковых систем. Этот патент описывает конкретный механизм для улучшения качества поиска по картинкам.

Важность для SEO

Патент имеет высокое значение (8/10), особенно для E-commerce, сайтов с рецептами и любых ресурсов, где трафик из поиска по картинкам критичен. Он подчеркивает важность консистентной структуры сайта, унифицированных шаблонов для однотипных страниц, использования внутренних ссылок на основе изображений и внедрения структурированных данных. Несоблюдение этих практик может привести к неправильной классификации страниц и потере видимости в визуальном поиске.

Термины и определения

Visual Leaf Page (VLP) (Визуальная Конечная Страница): Терминальная веб-страница, основное назначение которой сосредоточено вокруг одного или нескольких значимых (salient) изображений или видео, которые отображаются на видном месте (prominently displayed). Удаление этих изображений сделает страницу значительно менее информативной. Примеры: карточка товара, страница рецепта.
Hub Page (Хаб-страница): Страница на хосте, которая ссылается на одну или несколько VLP, часто через image-based links. Примеры: страница категории товаров, листинг.
Salient Image (Значимое изображение): Доминирующее изображение или видео на VLP. Определяется по размеру (больше других элементов), расположению (например, в центральной части) или функциональности (например, настраиваемый выбор изображений).
Image-based link (Ссылка на основе изображения): Ссылка с Hub Page на VLP, представленная в виде изображения (например, кликабельное превью товара).
Feature Values (Значения признаков): Набор предопределенных характеристик, извлекаемых из VLP. Включают структурные признаки (верстка/layout, URL depth), контентные признаки и метаданные (og:image, Product/Recipe metadata).
Central Tendency (Центральная тенденция): Статистическая мера, представляющая центр распределения Feature Values для группы страниц (например, среднее значение и стандартное отклонение). Используется для описания типичных характеристик VLP, связанных с конкретным хабом.
Cluster Data (Данные кластера): Набор Central Feature Values, представляющий группу VLP, связанных с одной Hub Page.
Cluster Model (Модель кластера / Чанк): Модель, созданная путем объединения (merging) схожих Cluster Data с одного хоста. Представляет собой обобщенный шаблон для определенного типа VLP на сайте.
URL Depth (Глубина URL): Количество уровней в пути URL. Используется как один из признаков для кластеризации.
Model Score (Оценка модели): Оценка, генерируемая при применении Cluster Model к веб-странице. Отражает степень соответствия страницы данному шаблону.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл работы системы — от идентификации структуры до влияния на ранжирование.

Идентификация и Кластеризация (Офлайн): Для множества хостов система выполняет:
- Идентификацию Visual Leaf Pages (VLP) и Hub Pages, которые ссылаются на них через image-based links.
- Генерацию Cluster Data для каждой Hub Page. Это включает определение Feature Values (включая признаки верстки контента - layout of content) для связанных VLP и вычисление Central Tendency этих признаков.
Классификация и Ранжирование (Онлайн):
- Получение данных о веб-странице в ответ на поисковый запрос.
- Использование классификатора (Visual Leaf Page Classifier), обученного на базовом наборе данных (включающем сгенерированные Cluster Data), для классификации этой страницы как VLP.
- Определение, что поисковый запрос запрашивает результаты поиска по картинкам для определенного типа активности (particular type of activity, например, шопинг).
- Увеличение (increasing) search score веб-страницы на основании её классификации как VLP и соответствия интенту запроса.

Claim 2 (Зависимый от 1): Детализирует процесс объединения (оптимизации) кластеров.

Система объединяет Cluster Data в Cluster Models. Процесс включает определение различий между кластерами. Если различие меньше порогового значения, кластеры объединяются в Cluster Model, который затем уникально ассоциируется с хостом. Это позволяет обобщить шаблоны на уровне сайта.

Claim 3 (Зависимый от 2): Детализирует процесс классификации с использованием объединенных моделей.

При обработке страницы система идентифицирует Cluster Models, ассоциированные с хостом этой страницы. Каждая модель применяется для генерации Model Score. Если наивысший Model Score превышает пороговое значение, страница классифицируется как Visual Leaf Page.

Где и как применяется

Изобретение охватывает этапы индексирования (для построения моделей) и ранжирования (для применения моделей и бустинга).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная работа по анализу структуры и построению моделей (офлайн-компонент, Model Builder).

Извлечение признаков (Feature Extraction): Система извлекает Feature Values: глубина URL, наличие метаданных (Product, Recipe), og:image, характеристики изображений, особенности верстки (layout features).
Анализ структуры сайта: Идентификация связей между Hub Pages и потенциальными Visual Leaf Pages через image-based links.
Построение моделей: Генерация Cluster Data и их объединение в Cluster Models. Эти модели сохраняются и ассоциируются с хостом.

RANKING – Ранжирование / RERANKING – Переранжирование
На этом этапе происходит применение моделей в реальном времени (онлайн-компонент, Page Analyzer).

Понимание интента запроса: Система определяет, относится ли запрос к поиску изображений для определенной активности (Claim 1).
Классификация кандидатов: Для страниц-кандидатов система применяет специфичные для хоста Cluster Models для расчета Model Score и классификации страницы как VLP.
Корректировка ранжирования: Если страница классифицирована как VLP и интент запроса соответствует, система увеличивает её search score.

Входные данные:

Структура сайта и внутренние ссылки (особенно image-based links).
Feature Values страниц (URL, верстка, метаданные, характеристики изображений).
Поисковый запрос и его интент.

Выходные данные:

Cluster Models, ассоциированные с хостом (офлайн).
Классификация страницы (VLP или нет) (онлайн).
Модифицированный search score (онлайн).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на E-commerce (карточки товаров), сайты рецептов, моду, DIY, портфолио — везде, где изображение является основным объектом интереса.
Специфические запросы: Влияет на запросы с транзакционным или визуальным интентом в поиске по картинкам («купить красное платье», «рецепт пасты карбонара»).
Структура сайта: Повышает важность четкой иерархии (Категория -> Товар) и использования консистентных шаблонов.

Когда применяется

Построение моделей: Применяется периодически в процессе индексирования и анализа данных хоста.
Классификация и Бустинг: Применяется в реальном времени при обработке поискового запроса, но только при выполнении двух условий (Триггер активации бустинга):
- Страница соответствует одной из Cluster Models хоста с высоким Model Score (т.е. классифицирована как VLP).
- Запрос идентифицирован как «поиск изображений для определенного типа активности» (Claim 1).

Пошаговый алгоритм

Фаза 1: Построение моделей (Офлайн, Model Builder)

Итерация по хостам: Процесс выполняется для множества хостов.
Идентификация кандидатов VLP: Определение страниц на хосте, где изображение или видео отображается на видном месте (по размеру, расположению).
Идентификация Hub Pages: Поиск страниц на хосте, которые ссылаются на кандидатов VLP через image-based links.
Извлечение признаков: Для каждой VLP, связанной с Hub Page, извлекается набор Feature Values (глубина URL, метаданные, верстка и т.д.).
Генерация Cluster Data (Кластеризация): Для каждой Hub Page вычисляется Central Tendency (среднее, стандартное отклонение) признаков связанных VLP. Это формирует исходные Cluster Data.
Объединение кластеров (Merging): Система сравнивает Cluster Data разных хабов. Если расстояние (различие) между ними меньше порога, они объединяются.
Генерация Cluster Models: Формирование финального набора Cluster Models для хоста.
Сохранение: Ассоциация Cluster Models с хостом в индексе.

Фаза 2: Классификация и Ранжирование (Онлайн, Page Analyzer)

Получение запроса и кандидатов: Система получает запрос и набор релевантных страниц.
Анализ интента запроса: Определение, ищет ли пользователь изображения для активности (шопинг, рецепты и т.д.).
Получение моделей хоста: Для каждой страницы-кандидата извлекаются её признаки и загружаются соответствующие Cluster Models хоста.
Применение моделей: Модели применяются к признакам страницы-кандидата для расчета Model Score.
Классификация: Если наивысший Model Score превышает порог, страница классифицируется как Visual Leaf Page.
Корректировка ранжирования: Если страница классифицирована как VLP И интент запроса соответствует, её search score увеличивается.
Формирование выдачи: Предоставление результатов с учетом скорректированных оценок.

Какие данные и как использует

Данные на входе

Система использует комбинацию признаков для построения моделей и классификации.

Структурные и Технические факторы:
- URL Depth (Глубина URL). Консистентность глубины важна для кластеризации.
- Признаки верстки контента (layout of content) (Claim 1).
- Наличие сетчатой структуры (Grid-like structure) (используется для исключения SERP-подобных страниц из VLP).
Мультимедиа и Визуальные факторы:
- Значимость (Prominence) изображения/видео: размер (больше остального контента), расположение (в центральной части страницы - central portion).
- Функциональность: Настраиваемый выбор изображений (Customizable selection of images), например, галерея товара.
- Количество достаточно больших изображений и уникальных видимых видео на странице.
Структурированные данные и Разметка:
- Наличие разметки og:image.
- Наличие метаданных продукта (Product metadata).
- Наличие метаданных рецепта (Recipe metadata).
Ссылочные факторы (Внутренние):
- Наличие image-based link с Hub Page на Leaf Page (ключевой сигнал для бутстрэппинга).
Контентные и Семантические факторы:
- Количество параграфов/секций/глав на странице.
- Семантический анализ изображения/видео в сравнении с остальным контентом страницы (должны быть связаны).

Какие метрики используются и как они считаются

Feature Values Vector: Векторное представление признаков страницы, где каждый элемент соответствует определенному признаку.
Central Tendency (Центральная тенденция): Статистическое описание кластера. Патент указывает, что Cluster Data и Cluster Model могут быть векторами, содержащими элементы среднего значения (mean) и стандартного отклонения (standard deviation) для каждого Feature Value в кластере.
Cluster Difference (Различие кластеров): Метрика для определения схожести кластеров при их объединении (например, Евклидово расстояние между векторами Central Tendency).
Model Score (Оценка модели): Метрика схожести между вектором признаков новой страницы и Cluster Model.
Пороговые значения:
- Порог размера/пропорции для определения Salient Image.
- Порог различия для объединения кластеров.
- Пороговый Model Score для классификации страницы как VLP.

Автоматическое определение типа страницы через структурный анализ: Google активно использует структуру сайта и шаблоны верстки (layout) для классификации страниц (в данном случае, Visual Leaf Pages) без ручного обучения (unsupervised learning). Система ищет паттерны в организации контента.
Hub Pages как ключ к пониманию структуры: Hub Pages (категории, листинги) используются как отправная точка для идентификации конечных страниц. То, как хаб ссылается на дочерние страницы (через image-based links), является сильным сигналом для бутстрэппинга.
Критичность консистентности (Consistency is Key): Механизм основан на вычислении Central Tendency. Это означает, что Visual Leaf Pages одного типа должны иметь схожие признаки (одинаковый шаблон верстки, схожую глубину URL, одинаковый набор метаданных). Неконсистентность затрудняет формирование точных Cluster Models.
Специфичный бустинг для визуального поиска: Классификация как VLP не дает автоматического повышения в стандартном веб-поиске. Бустинг применяется целенаправленно, когда система определяет, что пользователь выполняет поиск по картинкам для конкретной активности (шопинг, рецепты).
Специфичность моделей для хоста: Модели строятся и применяются индивидуально для каждого хоста. Google не использует универсальный шаблон VLP, а адаптируется к структуре конкретного сайта.

Best practices (это мы делаем)

Обеспечение максимальной консистентности шаблонов: Страницы одного типа (например, все карточки товаров) должны использовать идентичный шаблон верстки, иметь одинаковый набор функциональных блоков и структурированных данных. Это позволит системе сформировать надежные Cluster Models.
Использование четкой и логичной архитектуры сайта: Необходимо четко разделять Hub Pages (категории/листинги) и Visual Leaf Pages (товары/рецепты). Hub Pages должны преимущественно ссылаться на однотипные Leaf Pages.
Активное использование Image-based Internal Linking: Ссылки с Hub Pages на Visual Leaf Pages должны быть реализованы через кликабельные изображения (превью товаров). Это ключевой триггер для анализа, описанного в патенте.
Оптимизация основного изображения (Salient Image): На Visual Leaf Page главное изображение должно быть самым крупным элементом, располагаться в центральной или верхней части экрана. Если есть галерея, она должна поддерживать функционал «настраиваемого выбора» (customizable selection).
Внедрение релевантных структурированных данных: Использование Schema.org (Product, Recipe) и Open Graph (og:image) критически важно, так как они явно указаны как используемые Feature Values для кластеризации.
Поддержание консистентной глубины URL (URL Depth): Страницы одного типа должны иметь схожую глубину URL, так как это также используется как признак для кластеризации.

Worst practices (это делать не надо)

Использование разных шаблонов для однотипного контента: Если карточки товаров в разных категориях имеют разную верстку или функционал, это размывает Central Tendency и мешает построению моделей.
Смешивание типов контента в листингах: Если Hub Page ссылается и на товары, и на информационные статьи вперемешку, это затрудняет идентификацию паттерна VLP.
Использование только текстовых ссылок в листингах: Отсутствие image-based links на Hub Pages может исключить сайт из этого механизма анализа.
Маленькие или неоптимизированные основные изображения: Если главное изображение товара теряется среди баннеров или другого контента, страница может не быть идентифицирована как VLP.
Игнорирование структурированных данных: Отсутствие Product/Recipe schema снижает количество доступных признаков для точной кластеризации.

Стратегическое значение

Патент подтверждает, что Google анализирует не только контент страницы, но и её роль в общей структуре сайта, а также используемые шаблоны (layout). Это часть стратегии Google по переходу от анализа ключевых слов к пониманию структуры и интента. Для SEO-специалистов это означает, что техническая оптимизация, архитектура сайта и UX (в части консистентности шаблонов) напрямую влияют на способность Google классифицировать контент и, как следствие, на ранжирование в специфических сценариях, таких как поиск по картинкам.

Практические примеры

Сценарий: Оптимизация E-commerce сайта для VLP-классификации

Анализ структуры: Проверяем, что страницы категорий (Hub Pages) ссылаются на карточки товаров (Visual Leaf Pages) преимущественно через кликабельные изображения товаров.
Аудит шаблонов PDP (Product Detail Pages): Убеждаемся, что все PDP используют единый шаблон. Проверяем Feature Values:
- Изображение товара крупное и расположено в центре/слева вверху (Salient Image).
- Внедрена разметка Schema.org/Product и og:image.
- Глубина URL консистентна (например, /catalog/category/product-slug).
Аудит шаблонов PLP (Product Listing Pages): Убеждаемся, что листинг не выглядит как бесконечная сетка результатов (чтобы не быть принятым за SERP), а является курируемым набором ссылок на VLP (Hub Page).
Ожидаемый результат: Google формирует точные Cluster Models для карточек товаров. При запросах с интентом покупки в Google Images эти страницы получают бустинг в ранжировании, что увеличивает визуальную видимость и трафик.

Что такое Visual Leaf Page (VLP) в контексте этого патента?

Это конечная страница, где основное содержание представлено одним или несколькими доминирующими изображениями или видео. Это не просто страница с картинками, а страница, где визуальный контент критически важен для выполнения задачи пользователя, например, карточка товара или страница рецепта. Удаление этого контента сделает страницу значительно менее информативной.

Что такое Hub Page и какова её роль?

Hub Page — это узловая страница, например, страница категории или галерея, которая ссылается на Visual Leaf Pages. Её роль критична для работы алгоритма: система использует Hub Pages как отправную точку для поиска и группировки VLP. Важно, чтобы ссылки с хаба на VLP были основаны на изображениях (image-based links).

Почему консистентность (одинаковость) шаблонов так важна для этого алгоритма?

Алгоритм работает путем вычисления «Центральной тенденции» (Central Tendency) признаков страниц, принадлежащих к одной группе. Если страницы используют разные шаблоны (layout) или имеют разную структуру URL, их признаки сильно различаются. Это делает статистическую модель неточной и мешает надежному определению общего паттерна для данного типа контента на сайте.

Влияет ли этот патент на ранжирование в обычном веб-поиске?

Патент фокусируется на улучшении поиска по картинкам. В Claim 1 явно указано, что повышение search score происходит, когда система определяет, что запрос запрашивает «результаты поиска по картинкам для определенного типа активности» (например, шопинг). Прямого влияния на стандартный веб-поиск не описано, но точная классификация страниц всегда полезна для поисковой системы.

Насколько важна глубина URL (URL Depth)?

URL Depth явно указана как один из признаков (Feature Values), используемых для кластеризации. Это означает, что для успешного формирования модели желательно, чтобы однотипные страницы (например, все товары) имели схожую глубину вложенности URL. Консистентность структуры URL помогает алгоритму группировать страницы.

Какие типы структурированных данных помогают в классификации VLP?

Патент явно упоминает использование метаданных продукта (Product metadata) и метаданных рецепта (Recipe metadata) в качестве признаков для кластеризации. Также упоминается использование разметки og:image. Внедрение соответствующей разметки Schema.org и Open Graph является прямой рекомендацией для улучшения классификации.

Что делает изображение «значимым» (Salient Image) по мнению Google?

Значимость определяется несколькими факторами. Изображение должно быть «prominently displayed». Патент уточняет, что это может означать отображение в центральной части страницы (central portion), размер, пропорционально больший, чем у остального контента, или наличие функционала настраиваемого выбора изображений (например, галерея товара).

Является ли этот процесс обучения контролируемым (supervised)?

Нет. Патент подчеркивает, что система разработана для работы в неконтролируемом (unsupervised) режиме, минимизируя необходимость в ручной аннотации данных. Система самостоятельно обучается распознавать паттерны VLP, используя структуру самого сайта (связи Hub-Leaf) как отправную точку для бутстраппинга процесса классификации.

Модели VLP универсальны для всех сайтов?

Нет, модели специфичны для каждого хоста. Система строит Cluster Models на основе анализа конкретного сайта и затем ассоциирует эти модели с этим хостом (Claim 2). Это означает, что система адаптируется к уникальной структуре и дизайну каждого сайта, а не применяет универсальные правила.

Что делать, если структура моего сайта не соответствует модели Хаб -> VLP?

Если ваш сайт полагается на трафик из поиска по картинкам для транзакционных запросов, рекомендуется привести архитектуру в соответствие с этой моделью. Это включает создание четких страниц категорий (Хабов), использование кликабельных превью (Image-based links) и оптимизацию карточек товаров (VLP) с акцентом на главное изображение и внедрение микроразметки.

Как Google использует анализ визуального макета страницы для сегментации контента и понимания его иерархии

Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.

US7421651B2
2008-09-02

Индексация
Local SEO
Структура сайта

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google выбирает лучшую целевую страницу (Landing Page) для результатов поиска по картинкам

Google использует запатентованный метод для выбора наилучшего контекста для изображения в поиске по картинкам. Когда одно и то же или похожее изображение появляется на нескольких сайтах, система оценивает качество и важность каждой веб-страницы (Web Score). Страница с наивысшей оценкой выбирается в качестве официальной целевой страницы (Landing Page), на которую попадает пользователь при клике на результат.

US9158857B2
2015-10-13

Мультимедиа
EEAT и качество
SERP

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы