
Google использует систему для автоматического поиска веб-страниц, содержащих глоссарии или словари. Система идентифицирует эти страницы по ключевым словам в заголовке (например, «глоссарий»), анализирует их HTML-структуру (теги
Патент решает задачу автоматизации процесса поиска и предоставления определений для фраз или терминов. Вместо ручного курирования собственного словаря система использует существующий контент в интернете (глоссарии, списки определений), автоматически извлекая из него необходимую информацию. Это позволяет быстро и эффективно предоставлять определения пользователям.
Запатентована система для автоматического извлечения и предоставления определений из распределенных источников (веб-страниц). Система идентифицирует документы, которые вероятно содержат определения (например, по наличию слов "glossary" или "dictionary" в заголовке). Затем она парсит HTML-структуру этих документов (используя теги типа <dt>, <dd>) для извлечения пар "термин-определение". Извлеченные определения ранжируются на основе авторитетности исходного документа.
Система работает в несколько этапов:
predetermined terms (например, "glossary") в заголовке <title>.headword) и его определения. Система полагается на стандартные HTML-теги (например, списки определений <dl>) и форматирование (например, выделение термина тегом <b>).Precision) полноте (Recall).PageRank источника) и очищаются перед показом пользователю. Также могут показываться связанные фразы (superstrings).Высокая. Хотя патент подан в 2003 году, описанные в нем базовые принципы извлечения структурированных данных и определений остаются фундаментальными для работы поиска. Эти механизмы лежат в основе современных функций SERP, таких как блоки с определениями (Definition Blocks) и, в некоторой степени, готовые ответы (Featured Snippets). Понимание того, как Google интерпретирует HTML-структуру для извлечения контента, критически важно.
Влияние на SEO средне-высокое (7/10). Патент критически важен для понимания того, как Google автоматически идентифицирует и извлекает определения с веб-страниц. Он дает прямые и конкретные указания на то, как структурировать контент (особенно глоссарии, словари и FAQ), чтобы поисковая система могла его корректно интерпретировать, извлечь и использовать в поисковой выдаче. Следование этим рекомендациям повышает шансы на попадание в блоки с определениями.
<dl> определяет список, <dt> (definition term) определяет термин, а <dd> (definition description) определяет описание или определение термина. Система активно использует эти теги для парсинга.Claim 1 (Независимый пункт, Система) и Claim 19 (Независимый пункт, Метод): Описывают основной механизм предоставления определений.
phrase) для обработки.predetermined term, указывающий на присутствие определений (например, поиск слова "glossary").ranking) документов-источников.Claim 4 и 22 (Зависимые): Уточняют, что predetermined term включает одно из слов: glossary, definition, или dictionary.
Claim 5 и 23 (Зависимые): Уточняют, что поиск predetermined term выполняется в поле заголовка (title field) документов.
Claim 12 (Зависимый): Указывает, что выбранные документы могут определяться в реальном времени (substantially in real-time) в ответ на получение фразы от пользователя, а не только в офлайн-режиме.
Claim 16 и 34 (Зависимые): Описывают дополнительную функцию: определение суперстрок (superstrings) исходной фразы, присутствующих в документах, и их представление пользователю как связанных фраз или предлагаемых запросов (Claims 17/18 и 35/36).
Изобретение охватывает несколько этапов поисковой архитектуры и направлено на создание специализированного индекса определений или функции поиска по определениям (например, Google Glossary).
CRAWLING – Сканирование и Сбор данных
На этом этапе система ищет документы, которые могут содержать определения. Это делается путем поиска predetermined terms (например, "glossary") в контенте или метаданных (явно указано поле <title>) страниц во время сканирования интернета.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап для данного патента. Система выполняет несколько действий:
headword) – определение". Система использует анализ HTML-структуры (теги <dl>, <dt>, <dd>, теги форматирования <b>, <strong>, теги-разделители <p>, <li>).PageRank).RANKING – Ранжирование / METASEARCH – Метапоиск и Смешивание
Когда пользователь вводит запрос (phrase):
headwords). Может использоваться канонизация.PageRank).Featured Snippet).superstrings запроса.Входные данные:
PageRank).phrase).Выходные данные:
superstrings).Алгоритм можно разделить на два процесса: индексирование (может происходить офлайн или в реальном времени) и обработка запроса.
Процесс А: Идентификация и Индексирование Определений
predetermined terms ("glossary", "definition", "dictionary"), в частности, в заголовке <title>.headwords) и их определений. Используются следующие эвристики: <dl>, <dt>, <dd>).<p>, <tr>, <li>, <br>).<b>, <strong>, <em>, <code>, <span>).PageRank.Процесс Б: Обработка Запроса и Предоставление Определений
headwords).PageRank документов-источников.superstrings запроса, найденных в индексе.Система активно использует структурные, контентные и ссылочные факторы.
<dl>, <dt>, <dd>.<b>, <strong>, <em>, <code>, <span>.<p>, <tr>, <li>, <br>.predetermined terms ("glossary", "dictionary") в <title> используется для идентификации источников.headwords) и текст определений.PageRank: Используется для ранжирования определений, извлеченных из разных источников.<dl>, <dt>, <dd>) для идентификации и извлечения определений. Это подчеркивает важность семантической верстки для SEO.PageRank) исходного документа. Определение с авторитетного сайта будет выше, чем определение с менее авторитетного сайта.<title>.superstrings (фразы, включающие запрос), чтобы предложить пользователю связанные термины и уточнения.<dl> для контейнера, <dt> для термина и <dd> для определения. Это наиболее надежный способ, указанный в патенте.<dl> невозможно, выделяйте термины с помощью тегов форматирования (<b>, <strong>) и используйте четкие разделители (<p>, <li>, <br>) между определениями.<title> присутствуют слова "Глоссарий", "Словарь терминов" или "Определения". Это помогает системе идентифицировать страницу как источник.PageRank), работа над качеством сайта и его ссылочным профилем напрямую влияет на видимость ваших определений в поиске.<div> вместо <dl> или <ul>) для отображения определений может помешать системе корректно извлечь данные.Патент подтверждает стратегическую важность семантической верстки и структурирования контента. Он показывает, что Google стремится извлекать знания напрямую из контента, и предоставляет вебмастерам инструменты (HTML-теги) для облегчения этого процесса. Эти механизмы являются фундаментом для Featured Snippets. Для SEO-специалистов это означает, что техническая оптимизация структуры контента напрямую влияет на видимость в специализированных блоках выдачи. Создание правильно структурированных информационных хабов, таких как глоссарии, может стать важным источником трафика.
Сценарий: Оптимизация глоссария по SEO-терминологии для улучшения видимости в блоках определений.
<p>, где термин выделен жирным <b>, а определение следует через тире. Title страницы: "SEO термины".<title> на "Глоссарий SEO-терминов и определений" (использование predetermined term).<dl>.Было (Не оптимально):
<p><b>PageRank</b> — Алгоритм Google для оценки важности страницы.</p>
<p><b>SERP</b> — Страница результатов поиска.</p> Стало (Оптимально):
<dl>
<dt>PageRank</dt>
<dd>Алгоритм Google для оценки важности страницы.</dd>
<dt>SERP</dt>
<dd>Страница результатов поиска.</dd>
</dl> Featured Snippets при соответствующих запросах.Как Google определяет, какое определение показать, если их найдено много?
Патент явно указывает, что ранжирование определений основано на ранжировании документов-источников. В качестве механизма ранжирования упоминается PageRank. Это означает, что определение с более авторитетного и качественного сайта будет показано выше, чем определение с менее авторитетного ресурса.
Какие HTML-теги наиболее важны для разметки глоссария согласно патенту?
Наиболее важными являются теги списка определений: <dl> (сам список), <dt> (термин) и <dd> (определение). Патент указывает, что система напрямую полагается на эту разметку для идентификации и извлечения данных. Это самый надежный способ структурирования глоссария.
Что делать, если я не могу использовать теги <dl>, <dt>, <dd>?
Патент описывает альтернативные эвристики. Система может идентифицировать термины по тегам форматирования: <b>, <strong>, <em>, <code>, <span>. Также она использует теги-разделители для отделения определений друг от друга: <p>, <tr> (в таблицах), <li> (в списках) и <br>. Используйте эти элементы для четкого и последовательного структурирования.
Влияет ли количество определений на странице на ее обработку Google?
Да, влияет. В патенте указано, что если на странице найдено менее порогового числа N (приводится пример N=5) определений, то все определения на этой странице могут быть отброшены. Это сделано для повышения точности и отсеивания страниц, которые не являются полноценными глоссариями.
Как помочь Google понять, что моя страница является глоссарием?
Согласно патенту (Claims 4 и 5), система ищет источники путем поиска определенных слов в заголовке <title> документа. Эти слова включают "glossary", "definition" и "dictionary". Убедитесь, что <title> вашей страницы содержит эти (или аналогичные русскоязычные, например, "Глоссарий", "Словарь") термины.
Что такое "Superstrings" и как они используются?
Superstrings – это фразы, найденные в глоссариях, которые включают в себя исходный запрос пользователя. Например, если пользователь искал "pc", суперстрокой может быть "Pocket PC". Система собирает эти суперстроки и показывает их как "Связанные фразы" (Related phrases) для уточнения запроса или навигации по смежным терминам.
Связан ли этот патент с Featured Snippets (Готовыми ответами)?
Да, существует прямая концептуальная связь. Этот патент описывает систему извлечения конкретной информации (определений) из веб-страниц на основе анализа структуры и авторитетности источника. Хотя современные системы Featured Snippets используют более сложные NLP-модели, базовые принципы структурирования контента для облегчения извлечения ответов остаются актуальными.
Лучше создать одну большую страницу глоссария или много маленьких страниц для каждого термина?
Исходя из логики патента, предпочтительнее одна большая страница глоссария. Система ищет документы, содержащие списки определений, и может фильтровать страницы с малым их количеством (менее 5). Хорошо структурированный, авторитетный глоссарий имеет больше шансов быть использованным в качестве источника.
Работает ли система только в офлайн-режиме?
Нет. Патент описывает возможность работы как в пакетном режиме (предварительное сканирование и индексирование глоссариев офлайн), так и в реальном времени (поиск и парсинг источников в ответ на запрос пользователя). Вероятно, на практике используется комбинация этих подходов.
Насколько строго система относится к ошибкам парсинга?
Патент подчеркивает, что парсер смещен в сторону точности (Precision), а не полноты (Recall). Это означает, что система предпочтет проигнорировать сомнительное определение, чем показать пользователю некорректные данные. Поэтому важно использовать максимально чистую и стандартную разметку.

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
SERP

Семантика и интент

Local SEO
Поведенческие сигналы
Семантика и интент

Local SEO
Семантика и интент
Поведенческие сигналы

Ссылки
SERP
Индексация

SERP
Поведенческие сигналы
Персонализация

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Ссылки
SERP

Поведенческие сигналы
Ссылки
