Как Google находит, извлекает и ранжирует определения из веб-страниц для показа в результатах поиска

Google использует систему для автоматического поиска и извлечения определений из веб-страниц (глоссариев). Система анализирует HTML-структуру, в частности списки определений (теги

,: ), для разделения термина и его значения. Извлеченные определения ранжируются на основе авторитетности (PageRank) исходного документа и могут быть показаны в результатах поиска (например, в Featured Snippets).

Описание

Какую задачу решает

Патент решает задачу быстрого и эффективного предоставления определений для фраз (слов, словосочетаний или других семантических единиц) путем автоматического использования существующего контента в Интернете, организованного в форме глоссариев или словарей. Система автоматизирует процесс поиска, извлечения, обработки и ранжирования этих определений из распределенных источников.

Что запатентовано

Запатентована система и метод для извлечения определений из распределенных информационных хранилищ (Интернета). Система идентифицирует документы, которые могут содержать определения (например, по наличию слова «glossary» в заголовке), анализирует их HTML-структуру для извлечения пар «термин-определение» и ранжирует найденные определения на основе характеристик исходного документа (например, PageRank).

Как это работает

Система работает в несколько этапов:

Идентификация источников: Система определяет документы, которые, вероятно, содержат определения, ища специфические ключевые слова (например, «glossary», «definition») в заголовках или тексте.
Извлечение (Парсинг): Идентифицированные документы анализируются для извлечения «headwords» (определяемых терминов) и их определений. Система полагается на HTML-структуру, в первую очередь на теги списков определений (<dl>, <dt>, <dd>) или теги форматирования (, ).
Фильтрация и Обработка: Извлеченные данные очищаются (удаляется HTML-разметка, дубликаты). Применяются фильтры качества: например, страницы с менее чем N (например, 5) определениями могут игнорироваться. Система ориентирована на точность (precision), а не на полноту (recall).
Ранжирование и Отображение: Когда пользователь запрашивает определение, система сопоставляет запрос с извлеченными headwords. Найденные определения ранжируются на основе авторитетности (PageRank) исходного документа и предоставляются пользователю.

Актуальность для SEO

Высокая. Хотя патент основан на заявке 2003 года и описывает технологию «Google Glossary», описанные механизмы являются фундаментальными для современных функций поиска, таких как Featured Snippets (Блоки с ответами), предоставляющих определения. Методы извлечения структурированных данных из HTML-контента и ранжирование на основе авторитетности источника остаются критически важными для Google.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO-стратегий, направленных на получение Featured Snippets. Он четко указывает, какие структурные элементы (HTML-теги) Google ищет для идентификации определений, и подтверждает, что авторитетность источника (PageRank) используется для ранжирования этих определений. Понимание этих механизмов позволяет целенаправленно оптимизировать контент для извлечения в качестве прямого ответа.

Детальный разбор

Термины и определения

Definition List Tags (Теги списка определений): HTML-теги <dl> (definition list), <dt> (definition term), <dd> (definition description). Система использует их как основной и наиболее надежный способ извлечения определений.
Formatting Tags (Теги форматирования): HTML-теги , , , <code>, . Система может использовать их для идентификации Headwords, если семантическая разметка <dl> отсутствует.
Headword (Заголовочное слово / Термин): Слово или фраза в глоссарии, которая определяется. Система идентифицирует их с помощью структурного анализа HTML.
PageRank: Метрика авторитетности документа. В патенте упоминается как метод ранжирования извлеченных определений на основе качества их источников.
Phrase (Фраза): Слова или любая другая семантическая единица, для которой ищется определение.
Precision vs Recall (Точность против Полноты): Патент указывает, что парсер ориентирован на точность (precision), предпочитая отбросить сомнительные данные, чтобы не показывать неверные определения.
Separator Tags (Теги-разделители): HTML-теги , <tr>, <li>,  . Система может рассматривать их как разделители между последовательными определениями.
Superstrings (Суперстроки): Строки, которые содержат искомую фразу. Используются системой для предложения связанных фраз или уточнений запроса (related phrases).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс ответа на запрос об определении.

Система получает поисковый запрос, включающий первую строку символов (first character string — фраза для определения) и вторую строку (индикатор запроса определения).
Идентифицируется множество веб-страниц с разных доменов, содержащих определения первой строки.
Определения упорядочиваются на основе порядка, связанного с веб-страницами (т.е. их авторитетности).
Система предоставляет упорядоченные определения и информацию об исходных веб-страницах.

Claim 6 (Зависимый от 1): Уточняет механизм ранжирования. Порядок, используемый для ранжирования определений, не связан с первой строкой символов (запрошенной фразой).

Это критически важное уточнение: ранжирование основано на общих показателях авторитетности исходной страницы (например, PageRank), а не на текстовой релевантности определения запросу.

Claim 12 (Зависимый): Описывает процесс фильтрации результатов.

Система идентифицирует определения, которые дублируют другие определения или начинаются с определенного слова (в описании патента упоминается «see»), и исключает их из результатов.

Claim 13 (Зависимый): Подтверждает основу ранжирования.

Порядок, связанный с множеством веб-страниц, основан на соответствующих ссылках, связанных с этими документами. Это прямое указание на использование PageRank или аналогичных ссылочных метрик авторитетности.

Где и как применяется

Изобретение охватывает несколько этапов поиска, от сбора данных до представления результатов.

CRAWLING – Сканирование и Сбор данных
На этом этапе система идентифицирует потенциальные документы, содержащие определения, путем поиска индикаторов, таких как слова «glossary» или «definition» в контенте или метаданных (например, в Title).

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для офлайн-обработки.

Парсинг: Система выполняет структурный анализ идентифицированных документов для извлечения пар Headword/Определение, используя HTML-разметку (<dl>, <dt>, <dd> и т.д.).
Фильтрация: Извлеченные данные очищаются и фильтруются для повышения precision.
Расчет Метрик: Вычисляется PageRank для исходных документов. Извлеченные определения сохраняются в индексе.

QUNDERSTANDING – Понимание Запросов
Система определяет интент пользователя как поиск определения. Происходит нормализация или канонизация искомой фразы (например, исправление орфографии).

RANKING – Ранжирование / METASEARCH – Метапоиск и Смешивание
При получении запроса система извлекает подходящие определения из индекса.

Ранжирование: Кандидаты ранжируются на основе PageRank документов, из которых они были извлечены.
Смешивание: Лучшее определение форматируется для показа в результатах поиска (например, как Featured Snippet).

Входные данные:

HTML-код веб-документов.
Поисковый запрос пользователя (Phrase).
Метрики авторитетности документов (PageRank).

Выходные данные:

Ранжированный набор определений (сниппетов) со ссылками на источники.
Список связанных фраз (Superstrings).

На что влияет

Типы контента: Наибольшее влияние на информационный контент, структурированный как глоссарии, словари, FAQ и статьи с четкими определениями терминов.
Специфические запросы: Влияет на информационные запросы с интентом поиска определения (например, «что такое X», «define Y»).
Форматы контента: Предпочтение отдается контенту, использующему семантическую HTML-разметку (списки определений) или четкое форматирование (выделение термина жирным).

Когда применяется

Триггеры активации (Онлайн): Когда система распознает, что пользователь ищет определение термина.
Условия работы (Офлайн): Парсинг активируется, если документ идентифицирован как потенциальный глоссарий и если в нем найдено достаточное количество определений.
Пороговые значения: В патенте упоминается порог N: если на странице найдено менее N (например, 5) определений, все определения с этой страницы могут быть отброшены.

Пошаговый алгоритм

Алгоритм разделен на офлайн-индексирование и обработку запроса в реальном времени.

Процесс А: Офлайн-индексирование и извлечение определений

Идентификация глоссариев: Поиск документов, содержащих индикаторы, такие как «glossary», «definition», «dictionary» в заголовке или тексте.
Структурный парсинг: Анализ HTML-структуры для идентификации Headwords и Определений.
1. Приоритет тегам <dl>, <dt>, <dd>.
2. Идентификация Headwords по тегам форматирования (,  и т.д.).
3. Использование разделителей (,   и т.д.).
Фильтрация контента: Проверка порога N (например, 5). Если найдено меньше N определений, документ отбрасывается.
Очистка данных: Удаление HTML-разметки, пробелов, пунктуации из извлеченных пар.
Индексирование: Сохранение очищенных пар Headword/Определение вместе с URL источника и его PageRank.

Процесс Б: Обработка запроса в реальном времени

Получение и обработка запроса: Получение фразы, исправление орфографии, нормализация.
Поиск соответствий: Сопоставление фразы с Headwords в индексе.
Ранжирование кандидатов: Ранжирование найденных определений на основе PageRank исходных документов.
Пост-обработка и фильтрация:
1. Удаление дубликатов.
2. Удаление определений, начинающихся с «see».
Генерация связанных фраз: Определение Superstrings для показа связанных запросов.
Предоставление результатов: Отображение ранжированных определений и связанных фраз.

Какие данные и как использует

Данные на входе

Структурные факторы (HTML): Наиболее важные данные для извлечения. Система анализирует:
- Списки определений: <dl>, <dt>, <dd>.
- Форматирование (для идентификации Headwords): , , , <code>, .
- Разделители: , <tr>, <li>,  .
Контентные факторы: Наличие ключевых слов («glossary», «definition», «dictionary») в документе или его заголовке (Title) используется для идентификации источников.
Ссылочные факторы: PageRank исходного документа используется для ранжирования извлеченных определений (подтверждено в Claims).

Какие метрики используются и как они считаются

Порог N (Количество определений на странице): Минимальное количество определений (в примере N=5), необходимое для того, чтобы страница была принята в обработку. Используется для фильтрации шума и «тонкого» контента.
PageRank: Используется как основной фактор ранжирования для определений, извлеченных из разных источников.
Точность (Precision) vs Полнота (Recall): Система смещена в сторону точности. Предпочтительнее отбросить сомнительную запись, чем включить некорректные данные.
Методы анализа текста (NLP): Упоминаются нормализация и канонизация для улучшения сопоставления запросов и терминов.

Выводы

Структура HTML критически важна для извлечения определений: Патент явно указывает на использование семантической HTML-разметки, особенно списков определений (<dl>, <dt>, <dd>), как на предпочтительный способ идентификации терминов и их значений. Теги форматирования (, ) используются как запасной вариант.
Авторитетность источника определяет ранжирование определений: Ключевой вывод — ранжирование извлеченных определений зависит от PageRank исходной страницы, а не только от релевантности текста определения. Авторитетные сайты имеют значительное преимущество.
Требования к объему контента (Порог N): Система применяет пороговые значения (например, минимум 5 определений на странице) для фильтрации источников. Страницы с малым количеством определений могут быть проигнорированы.
Ориентация на точность (Precision): Google предпочитает точность извлечения полноте охвата. Это означает применение строгих правил парсинга и фильтрации (например, удаление дубликатов и определений, начинающихся с «see»).
Основа для Featured Snippets: Описанные механизмы являются фундаментом для того, как Google генерирует блоки с ответами (Featured Snippets) для дефиниционных запросов.

Практика

Best practices (это мы делаем)

Используйте списки определений (Definition Lists) для глоссариев и FAQ: При создании глоссариев строго следуйте семантической HTML-разметке: <dl> для контейнера, <dt> для термина (Headword) и <dd> для определения. Это самый надежный сигнал, описанный в патенте.
Структурируйте определения в статьях: Если определение дается внутри текста, четко выделяйте термин с помощью  или  и обеспечьте четкое отделение от остального текста.
Повышайте авторитетность домена и страницы (PageRank): Поскольку ранжирование определений напрямую зависит от PageRank источника, работа над качественным ссылочным профилем критически важна для того, чтобы именно ваше определение было выбрано Google для показа (например, в Featured Snippet).
Создавайте полные тематические глоссарии: Убедитесь, что на странице присутствует достаточное количество определений (значительно больше 5), чтобы система не отфильтровала страницу как источник низкого качества.
Давайте четкие и прямые определения: Избегайте вводных фраз или отсылок (например, «см. также») в начале определения, так как патент явно указывает на фильтрацию таких ответов. Определение должно быть уникальным и самодостаточным.

Worst practices (это делать не надо)

Использование нестандартной или сложной верстки: Использование DIV и CSS или сложных таблиц для оформления глоссариев вместо семантических тегов <dl>/<dt>/<dd> снижает вероятность корректного парсинга.
Размещение одного определения на страницу: Создание множества страниц с одним определением неэффективно, так как система применяет порог по минимальному количеству определений на странице (Порог N).
Игнорирование авторитетности сайта: Попытки занять блок с определением на низкоавторитетном сайте маловероятны, даже при идеальной структуре, из-за ранжирования на основе PageRank.
Копирование контента: Система активно дедуплицирует определения. Скопированный контент имеет мало шансов быть показанным, если ваш сайт не является значительно более авторитетным.

Стратегическое значение

Этот патент подчеркивает критическую важность семантического HTML и структурирования контента. Он демонстрирует базовые механизмы Google по извлечению конкретных фактов и ответов из веб-страниц для прямого отображения в SERP (предшественник Featured Snippets). Стратегически это подтверждает, что сочетание технически правильной структуры контента и высокой авторитетности источника является ключом к видимости в специализированных блоках поиска.

Практические примеры

Сценарий: Оптимизация глоссария для получения Featured Snippets.

Задача: Добиться показа определений из глоссария компании в блоках с ответами Google.

Действия (Плохая реализация с DIV):

<div class="term">Термин 1</div>
<div class="definition">Определение термина 1.</div>

Результат: Системе сложно надежно извлечь данные из-за отсутствия семантики.

Действия (Оптимальная реализация согласно патенту):

Убедиться, что на странице много терминов (более 5).
Использовать семантическую разметку:

<dl>
  <dt>Термин 1</dt>
  <dd>Определение термина 1.</dd>
  <dt>Термин 2</dt>
  <dd>Определение термина 2.</dd>
</dl>

Работать над повышением PageRank страницы глоссария.

Ожидаемый результат: Система легко извлекает пары термин-определение благодаря тегам <dt>/<dd>. Благодаря высокому PageRank, эти определения получают приоритет и отображаются в Featured Snippets.

Вопросы и ответы

Какие HTML-теги наиболее важны для оптимизации глоссариев согласно патенту?

Критически важными являются теги списков определений: <dl> (Definition List), <dt> (Definition Term) и <dd> (Definition Description). Патент указывает, что система в первую очередь полагается на эту семантическую разметку для надежной идентификации терминов (Headwords) и их определений.

Как Google ранжирует определения, если одно и то же слово определено на разных сайтах?

В патенте прямо указано, что извлеченные определения ранжируются на основе порядка, связанного с исходными веб-страницами, в частности, упоминается PageRank. Если термин определен на Сайте А (высокий PageRank) и Сайте Б (низкий PageRank), система отдаст предпочтение определению с Сайта А.

Имеет ли значение количество определений на одной странице?

Да, имеет. В патенте описан механизм фильтрации: если на странице найдено менее порогового количества N определений (в примере используется N=5), все определения с этой страницы могут быть отброшены. Это означает, что создание полных глоссариев более эффективно, чем разнесение определений по отдельным страницам.

Помогает ли выделение термина жирным шрифтом, если не используются списки определений?

Да, это запасной вариант для системы. Патент перечисляет теги форматирования , , , <code> и  как индикаторы того, что заключенный в них текст может быть определяемым термином (Headword). Однако это менее надежно, чем использование <dl>.

Насколько точно нужно соблюдать структуру определения?

Необходимо соблюдать структуру максимально точно и последовательно. В патенте подчеркивается, что система ориентирована на точность (Precision), а не на полноту (Recall). Если парсер не уверен в правильности извлечения данных из-за сложной или неоднозначной структуры, он скорее отбросит данные.

Как система обрабатывает разные варианты написания одного и того же термина?

Система применяет методы нормализации и канонизации как к запросу пользователя, так и к извлеченным Headwords. Это может включать исправление орфографии, приведение к общей корневой форме и стандартизацию капитализации, чтобы улучшить сопоставление.

Что такое «Superstrings» и как они используются?

Superstrings — это фразы, которые включают в себя исходный запрос (например, если запрос «RDBMS», то «Relational DBMS» является суперстрокой). Система идентифицирует их и предлагает пользователю в качестве связанных фраз или уточнений запроса, помогая исследовать смежные темы.

Какие типы определений система отфильтровывает?

Система отфильтровывает дубликаты определений. Также в патенте явно указано правило отбрасывать определение, если оно начинается со слова «see» (например, «See: Другой термин»). Это указывает на стремление предоставлять прямые ответы, а не перекрестные ссылки.

Актуален ли этот патент для современных Featured Snippets?

Патент абсолютно актуален. Технология, описанная в нем, является основой для современных Featured Snippets (блоков с ответами), которые показывают определения в топе выдачи. Механизмы идентификации источников, извлечения данных на основе структуры и ранжирования по авторитетности используются сегодня повсеместно.

Что важнее для показа моего определения в топе: качество текста или авторитетность сайта?

Согласно этому патенту, авторитетность сайта (PageRank) имеет решающее значение для ранжирования определения среди конкурентов. Качество текста и структура важны для того, чтобы определение было корректно извлечено и не отброшено фильтрами, но именно авторитетность определяет его позицию.