Как Google находит и показывает наиболее релевантный фрагмент документа на мобильных устройствах

Google использует систему транскодирования для адаптации веб-страниц под мобильные устройства. Система анализирует документ, находит фрагмент, наиболее релевантный исходному поисковому запросу, и форматирует страницу так, чтобы этот фрагмент отображался вверху экрана. Это минимизирует необходимость прокрутки на маленьких дисплеях.

Описание

Какую задачу решает

Патент решает проблему неудобства просмотра стандартных веб-страниц на устройствах с маленькими экранами (например, мобильных телефонах или КПК). Когда контент слишком велик для дисплея, пользователю приходится выполнять многочисленные навигационные операции (прокрутку, переключение страниц), чтобы найти информацию, релевантную его исходному поисковому запросу. Это снижает эффективность поиска и вызывает неудобство.

Что запатентовано

Запатентована система для автоматического определения наиболее релевантного фрагмента внутри документа по отношению к поисковому запросу. Система форматирует (транскодирует) документ специально для мобильных устройств, разделяя его на подстраницы (sub-pages). Ключевая особенность — форматирование таким образом, чтобы отображение документа начиналось непосредственно с наиболее релевантного фрагмента, помещая его в верхнюю часть экрана.

Как это работает

Система работает как посредник:

Переписывание URL: Когда пользователь выполняет поиск с мобильного устройства, URL в результатах поиска переписываются (Transcoder URL Rewriter) так, чтобы указывать на Transcoder Server. В новый URL кодируются исходный адрес документа и поисковый запрос.
Перехват запроса: Когда пользователь кликает по результату, запрос направляется на Transcoder Server.
Анализ релевантности: Сервер загружает документ. Relevance Scoring Engine анализирует контент по блокам (nodes) и оценивает их релевантность запросу. При этом термины, присутствующие в заголовке или URL страницы (Navigational terms), могут игнорироваться или понижаться в весе.
Форматирование и доставка: Page Formatter делит документ на sub-pages и гарантирует, что первая отображаемая подстраница начнется с блока, получившего наивысшую оценку релевантности.

Актуальность для SEO

Низкая/Средняя. Специфическая технология, описанная в патенте (серверное транскодирование и разделение на sub-pages для мобильных устройств), в значительной степени устарела из-за повсеместного внедрения адаптивного дизайна и Mobile-First Indexing. Однако базовая концепция — идентификация и выделение наиболее релевантного фрагмента (passage) внутри документа — критически важна и получила развитие в современных технологиях, таких как Passage Ranking и Scroll-to-Text.

Важность для SEO

Влияние на SEO умеренное (4/10). Патент не описывает алгоритмы ранжирования в основной выдаче. Он фокусируется на обработке и представлении контента уже после клика пользователя, в контексте устаревшей мобильной инфраструктуры. Тем не менее, он подчеркивает стремление Google анализировать документы на гранулярном уровне. Понимание того, что система оценивает релевантность отдельных блоков (nodes) и может игнорировать «навигационные» термины при этой оценке, остается важным для создания структурированного контента.

Детальный разбор

Термины и определения

Transcoder Server (Сервер транскодирования): Сервер, который перехватывает запросы к веб-страницам, анализирует их контент и форматирует (транскодирует) его для оптимального отображения на устройствах с маленькими экранами.
Relevance Scoring Engine (Механизм оценки релевантности): Компонент, который оценивает релевантность различных частей (nodes или блоков информации) документа по отношению к исходному поисковому запросу.
Page Formatter (Форматировщик страниц): Компонент, который делит транскодированный документ на подстраницы (sub-pages) и определяет, какой фрагмент контента будет отображаться вверху первой подстраницы.
Transcoder URL Rewriter (Модуль переписывания URL для транскодера): Компонент поисковой системы, который изменяет URL в результатах поиска. Новый URL направляет пользователя на Transcoder Server и содержит закодированный исходный URL и поисковый запрос.
Nodes (Узлы): Структурные элементы документа (например, HTML-теги), используемые Document Node Analyzer для разделения контента на анализируемые блоки.
Sub-pages (Подстраницы): Части документа, созданные транскодером для постраничного отображения контента на мобильном устройстве.
Navigational Query Term (Навигационный термин запроса): Термин из поискового запроса, который обнаружен в предопределенных местах документа (например, в теге Title или в URL). В патенте предлагается снижать вес таких терминов при оценке релевантности внутренних фрагментов страницы.
Informational Query Term (Информационный термин запроса): Термин запроса, который не классифицирован как навигационный. Используется как основной для поиска релевантного контента внутри страницы.
Context Settings (Настройки контекста): Параметры, определяющие, как именно отображать релевантный фрагмент. Например, сколько строк показывать до него, подсветка терминов или создание навигации между несколькими релевантными фрагментами.
Matching Engine (Механизм сопоставления): Компонент, который идентифицирует совпадения между терминами запроса и контентом в узлах документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод, выполняемый на стороне сервера.

Получение поискового запроса и возврат списка результатов.
Получение индикации о выборе пользователем первого результата (ссылки на целый документ).
Разделение (Dividing) соответствующего документа на несколько sub-pages.
Определение оценки (Score) для каждой sub-page на основе терминов запроса.
Идентификация первой sub-page как наиболее релевантной.
Предоставление первой sub-page для отображения.
Предоставление кода, который отображает элемент управления (control) для перехода ко второй (следующей наиболее релевантной) sub-page.
При активации элемента управления, идентификация и предоставление второй sub-page вместо первой.

Ядром изобретения является процесс перехвата запроса к документу, его разделение на части, оценка релевантности этих частей на основе исходного запроса, отображение наиболее релевантной части первой и предоставление механизма для навигации к следующей наиболее релевантной части.

Claim 4 (Зависимый от 1): Детализирует процесс определения оценки (Score).

Определение того, что первый термин запроса находится в предопределенном месте (predetermined location) в документе.
В результате, присутствие этого термина в sub-pages оказывает менее значительное влияние (less-significantly influence) на оценки, чем присутствие других терминов запроса.

Это механизм для снижения веса «навигационных» терминов. Если термин запроса совпадает с названием сайта или заголовком страницы (Claims 5 и 6 уточняют, что predetermined location — это Title tag или URL), его вес при оценке релевантности контента внутри страницы снижается. Это позволяет сфокусироваться на «информационной» части запроса.

Claim 9 (Независимый пункт): Описывает процесс с точки зрения клиентского устройства (мобильного телефона).

Отправка запроса и получение списка результатов.
Выбор результата пользователем и отправка индикации на сервер (что запускает процесс разделения и оценки на сервере).
Представление первой (наиболее релевантной) sub-page пользователю.
Отображение элемента управления для перехода ко второй sub-page.
Активация элемента управления пользователем (запрос навигации).
Представление второй sub-page пользователю.

Этот пункт защищает пользовательский интерфейс, позволяющий легко переключаться между наиболее релевантными фрагментами документа.

Где и как применяется

Описанная система функционирует как промежуточный слой между стандартной поисковой системой и конечным пользователем, активируясь преимущественно при мобильном поиске (в контексте патента).

RANKING – Ранжирование
Стандартный Search Engine на Web Server выполняет поиск и генерирует первичный список релевантных документов.

METASEARCH / RERANKING (Обработка SERP)
На этом этапе, перед отправкой SERP пользователю, вмешивается Transcoder URL Rewriter. Он модифицирует ссылки в результатах поиска, направляя их на Transcoder Server и добавляя в них информацию об исходном URL и поисковом запросе.

Слой Доставки и Представления Контента (Post-Click)
Это основной этап работы изобретения, который активируется после клика пользователя по результату в SERP.

Перехват: Transcoder Server получает запрос от пользователя.
Анализ (On-the-fly): Relevance Scoring Engine выполняет гранулярный анализ загруженного документа в реальном времени, используя исходный поисковый запрос.
Форматирование: Page Formatter транскодирует контент и переформатирует его так, чтобы наиболее релевантный фрагмент оказался вверху.

Входные данные:

Переписанный URL, содержащий исходный URL документа и термины поискового запроса.
Контент исходного документа.
Context Settings (параметры отображения).

Выходные данные:

Транскодированный документ, разделенный на sub-pages.
Первая отображаемая sub-page начинается с наиболее релевантного фрагмента.
Элементы управления для навигации к следующему наиболее релевантному фрагменту.

На что влияет

Конкретные типы устройств: Система напрямую нацелена на улучшение пользовательского опыта на устройствах с маленькими экранами («cell phone, PDA, or other similar device»).
Типы контента: В первую очередь HTML документы, но упоминается возможность обработки других форматов (.doc, .txt, .pdf, XML, SGML).
Влияние на представление: Патент влияет не на ранжирование документа в SERP, а на то, какая часть документа будет показана пользователю первой после клика.

Когда применяется

Триггеры активации: Когда пользователь выполняет поиск и кликает на результат с устройства, которое идентифицировано как требующее транскодирования (например, из-за малого размера дисплея).
Условия применения: Когда Transcoder URL Rewriter активен и переписывает ссылки в SERP для данного типа устройств.
Динамическое применение: Патент упоминает, что решение о форматировании может приниматься динамически на основе выделенной области отображения. Если область отображения меньше порогового значения, система может активировать отображение наиболее релевантного фрагмента вверху.

Пошаговый алгоритм

Фаза 1: Подготовка SERP (Web Server)

Получение поискового запроса от мобильного устройства.
Выполнение поиска стандартным Search Engine.
Переписывание URL в результатах поиска с помощью Transcoder URL Rewriter. В URL кодируется адрес Transcoder Server, исходный URL документа и термины запроса.
Отправка модифицированного SERP на мобильное устройство.

Фаза 2: Получение и анализ документа (Transcoder Server)

Получение запроса от пользователя (клик по переписанному URL).
Извлечение исходного URL и терминов запроса. Загрузка контента.
Анализ структуры документа с помощью Document Node Analyzer для идентификации узлов (nodes), содержащих текст.
Сопоставление терминов запроса с текстом в каждом узле с помощью Matching Engine. Составление списка узлов с совпадениями.

Фаза 3: Оценка релевантности (Relevance Scoring Engine)

Классификация терминов запроса с помощью Location Analyzer. Термины, найденные в предопределенных местах (Title, URL), классифицируются как Navigational. Остальные — как Informational.
Статистический анализ совпадений (Statistical Analyzer): частота, расстояние, близость, распределение терминов.
Расчет оценок релевантности для узлов/блоков информации с помощью Scoring Engine. Применяются веса и правила (Scoring Rules). Вес Navigational терминов снижается или обнуляется.
Отсечение (Pruning) низкорелевантных узлов и ранжирование (Ranking) оставшихся.
Идентификация местоположения блока(ов) с наивысшей оценкой.

Фаза 4: Форматирование и доставка (Page Formatter)

Разделение документа на sub-pages, подходящие для маленького экрана.
Применение Decision Logic для форматирования первой отображаемой sub-page так, чтобы она начиналась в месте расположения наиболее релевантного блока, с учетом Context Settings.
Генерация элементов управления для навигации (например, переход к следующему наиболее релевантному фрагменту).
Отправка первой транскодированной sub-page на мобильное устройство.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст, связанный с узлами (Nodes) документа. Система анализирует весь текстовый контент для поиска совпадений.
Структурные факторы: HTML-структура используется для разделения документа на узлы (Nodes). Тег Title является ключевым структурным фактором для идентификации Navigational Query Terms.
Технические факторы: URL документа используется как еще один фактор для идентификации Navigational Query Terms.
Пользовательские факторы: Исходный поисковый запрос является основой для оценки релевантности. Тип устройства и размер экрана (подразумеваются) определяют необходимость транскодирования и влияют на Context Settings.

Какие метрики используются и как они считаются

Классификация терминов запроса: Бинарная классификация на Navigational и Informational. Основана на присутствии термина в Title или URL документа.
Метрики статистического анализа: Упоминаются частота вхождений (frequency), расстояние между вхождениями (distance), близость терминов друг к другу (proximity) и распределение вхождений (distribution).
Relevance Score (Оценка релевантности): Числовая оценка для блока/узла. Рассчитывается на основе весов (weights) и правил (scoring rules).
Корректировка весов (Weight Adjustment): Веса для Navigational терминов снижаются («assigned a lower scoring weight») или полностью игнорируются («discounted entirely»). Веса Informational терминов имеют больший приоритет.
Система оценки: В патенте упоминается возможность использования системы на основе штрафов (penalty-based system). Узлы начинают с предопределенной оценки, которая снижается (штрафуется) в зависимости от соблюдения или несоблюдения правил. Например, узел может быть оштрафован, если термин встречается слишком часто.

Выводы

Фокус на релевантности фрагмента (Passage Relevance): Патент демонстрирует ранние усилия Google по идентификации конкретного, наиболее релевантного фрагмента внутри документа, а не только оценке документа в целом. Цель — немедленно доставить пользователю ответ на его запрос.
Разделение навигационных и информационных интентов внутри запроса: Ключевым механизмом является классификация терминов запроса на Navigational и Informational. Система активно снижает вес терминов, совпадающих с Title/URL страницы, при оценке внутренних блоков контента. Это позволяет точнее определить релевантность содержания, игнорируя повторения заголовка.
Гранулярный анализ структуры документа: Система анализирует документ на уровне структурных узлов (Nodes), что подчеркивает важность четкой структуры HTML для машинного понимания контента.
Навигация между релевантными фрагментами: Изобретение включает механизм, позволяющий пользователю легко переходить от одного высокорелевантного фрагмента к другому (следующему по релевантности).
Устаревшая реализация, но актуальные концепции: Хотя техническая реализация через Transcoder Server и разделение на sub-pages устарела, концепции, заложенные в патенте, являются предшественниками современных технологий, таких как Passage Ranking (оценка фрагментов) и Scroll-to-Text (переход к фрагменту на странице).

Практика

Best practices (это мы делаем)

Обеспечение четкой семантической структуры контента: Используйте семантический HTML и логичную иерархию заголовков. Система анализирует страницу на основе nodes (блоков). Четкая структура помогает алгоритмам (как описанному Relevance Scoring Engine, так и современным системам Passage Ranking) идентифицировать и оценивать отдельные фрагменты контента.
Фокус на релевантности на уровне фрагмента (Passage Level): Создавайте контент, где отдельные абзацы или разделы являются самодостаточными и четко отвечают на конкретные вопросы. Поскольку цель Google — идентифицировать и показать наиболее релевантный блок, каждый раздел длинной статьи должен быть информационно насыщенным.
Концентрация на информационном содержании в теле документа: Сосредоточьтесь на предоставлении ценности в основном контенте. Патент показывает, что Google стремится отделить информационные термины от навигационных (совпадающих с Title/URL) и отдает приоритет первым при оценке содержания страницы.

Worst practices (это делать не надо)

Создание «стен текста»: Монолитные блоки текста без четкой структуры (заголовков, списков, абзацев) затрудняют работу Document Node Analyzer по выделению и оценке отдельных информационных блоков.
Избыточное повторение ключевых слов (Keyword Stuffing): Патент явно упоминает Statistical Analyzer и систему на основе штрафов (penalty-based system), которые анализируют частоту терминов и могут штрафовать за их чрезмерное использование.
Ненужное повторение заголовка страницы в контенте: Если термины из заголовка (Title) повторяются в тексте без добавления ценности, они могут быть классифицированы как Navigational и их вес при оценке релевантности этого фрагмента будет снижен.

Стратегическое значение

Этот патент является важным ранним индикатором стратегического движения Google к пониманию контента на гранулярном уровне. Он подтверждает долгосрочную цель Google — не просто найти лучшую страницу, но и найти лучший ответ внутри этой страницы и немедленно направить туда пользователя. Хотя описанная технология транскодирования устарела, лежащая в ее основе логика анализа фрагментов (passages) и разделения интентов запроса получила прямое развитие в современных системах ранжирования (Passage Ranking) и функциях SERP (Featured Snippets, Scroll-to-Text).

Практические примеры

Сценарий: Оптимизация длинного руководства для выделения фрагментов (Применение логики патента к современным реалиям)

Хотя патент описывает устаревшую систему транскодирования, мы можем применить его логику к современным технологиям, таким как Passage Ranking и Scroll-to-Text.

Задача: SEO-специалист оптимизирует длинное руководство по теме «Уход за суккулентами».
Действие (Основанное на патенте): Вместо сплошного текста специалист структурирует контент с четкими заголовками H2/H3: «Частота полива», «Лучший состав почвы», «Решение проблемы желтых листьев». Это создает четкие блоки (nodes).
Механизм: Когда пользователь ищет «почему желтеют листья суккулентов», современный эквивалент Relevance Scoring Engine анализирует страницу. Термины «суккуленты» (вероятно, в Title) могут быть понижены как Navigational, а фокус сместится на «желтеют листья» (Informational). Блок «Решение проблемы желтых листьев» получает наивысшую оценку.
Результат: Google может ранжировать страницу на основе релевантности этого конкретного фрагмента и (используя технологию Scroll-to-Text — современный аналог цели Page Formatter) направить пользователя сразу к этому разделу после клика по результату в SERP.

Вопросы и ответы

Что такое «Навигационные» (Navigational) и «Информационные» (Informational) термины запроса в этом патенте?

Navigational Query Terms — это термины из запроса, которые система обнаруживает в предопределенных местах документа, а именно в теге Title или в URL. Informational Query Terms — это все остальные термины запроса. Система снижает вес навигационных терминов при оценке релевантности внутренних блоков контента, чтобы сфокусироваться на содержании, а не на повторении заголовка страницы.

Как система решает, какая часть страницы наиболее релевантна?

Система разделяет документ на структурные блоки (nodes). Затем она выполняет статистический анализ (частота, близость, распределение) вхождений терминов запроса в каждом блоке. Блоки оцениваются с помощью Scoring Engine, при этом вес информационных терминов выше, чем навигационных. Блок с наивысшей итоговой оценкой считается наиболее релевантным.

Используется ли описанный в патенте «Transcoder Server» сегодня?

В том виде, как описано в патенте (подача заявки 2005 год) — скорее всего, нет. Технология серверного транскодирования для адаптации сайтов под старые мобильные устройства была вытеснена адаптивным дизайном (Responsive Design) и современными мобильными браузерами. Сегодня Google индексирует мобильные версии сайтов напрямую (Mobile-First Indexing).

Как этот патент связан с Passage Ranking?

Патент является ранним предшественником Passage Ranking. Он описывает механизм (Relevance Scoring Engine) для анализа и оценки отдельных фрагментов (passages/nodes) документа независимо друг от друга, чтобы найти наиболее релевантный ответ на запрос. Современная система Passage Ranking использует гораздо более продвинутые NLP-модели для этой же цели, но базовая концепция идентична.

Влияет ли этот патент на ранжирование сайта в поиске?

Напрямую нет. Патент описывает систему, которая работает после того, как ранжирование завершено и пользователь кликнул на результат. Она предназначена для улучшения представления контента на мобильном устройстве. Однако концепции, лежащие в основе оценки релевантности фрагментов, безусловно, используются в современных алгоритмах ранжирования.

Как этот патент влияет на создание длинного контента (long-form content)?

Он подчеркивает необходимость четкой структуры и самодостаточности разделов в длинных статьях. Чтобы система могла эффективно идентифицировать и отображать наиболее релевантные фрагменты, контент должен быть логически разделен на блоки (nodes), каждый из которых сфокусирован на определенном под-вопросе.

Что такое «Context Settings» и как они влияют на отображение?

Context Settings — это параметры, которые управляют тем, как именно будет показан релевантный фрагмент. Они могут определять, сколько строк текста показать перед фрагментом для контекста, нужно ли начинать отображение с начала предложения, как подсвечивать термины запроса, а также как реализовать навигацию к следующим по релевантности фрагментам.

Что подразумевается под «системой на основе штрафов» (penalty-based system) для оценки контента?

Это подход к оценке, при котором блок контента изначально имеет высокую оценку, которая затем снижается (штрафуется) при обнаружении негативных сигналов. В патенте приводится пример штрафа за слишком частое повторение термина в узле. Это указывает на наличие механизмов борьбы с переоптимизацией (Keyword Stuffing) на уровне фрагментов.

Как следует структурировать HTML, исходя из этого патента?

Система использует Document Node Analyzer для разбора страницы на основе ее структуры (nodes). Это подтверждает важность использования чистой, семантической верстки. Использование соответствующих HTML-тегов (div, p, ul/ol, h1-h6) помогает системе корректно разделить контент на логические блоки для последующей оценки релевантности.

Является ли этот патент описанием технологии Scroll-to-Text?

Он описывает предшествующую технологию с той же целью. Патент достигает цели немедленного показа релевантного контента путем переформатирования страницы на сервере (транскодирования) так, чтобы релевантный текст оказался в самом верху новой подстраницы. Scroll-to-Text достигает той же цели в современных браузерах, автоматически прокручивая страницу до нужного фрагмента после загрузки.