Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически распознает цитаты и упоминания и превращает их в гиперссылки с релевантным анкорным текстом

    GENERATING HYPERLINKS AND ANCHOR TEXT IN HTML AND NON-HTML DOCUMENTS (Генерация гиперссылок и анкорного текста в HTML и не-HTML документах)
    • US20050149851A1
    • Google LLC
    • 2005-07-07
    • 2003-12-31
    2003 Knowledge Graph Патенты Google Ссылки

    Google использует механизм для анализа HTML и не-HTML документов (PDF, Word и т.д.) с целью автоматического обнаружения упоминаний и цитат (статьи, компании, продукты). Система определяет контекстуально релевантный анкорный текст, ищет целевой URL в поиске и генерирует гиперссылку. Это позволяет Google учитывать связи между документами, даже если автор не проставил явные ссылки.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему наличия неявной информации о связях (implicit linkage information) в документах. Часто авторы цитируют научные работы, упоминают компании, продукты или другие ресурсы, но не предоставляют явных гиперссылок (HTML-тегов <a>). Это особенно распространено в не-HTML документах (PDF, Word и т.д.), но встречается и в HTML. Изобретение позволяет автоматически извлекать эти связи, улучшая навигацию для пользователя и позволяя поисковой системе полнее строить граф связей между документами и сущностями.

    Что запатентовано

    Запатентована система и метод автоматической генерации гиперссылок и анкорного текста из текстовых упоминаний (text reference) в различных типах документов. Система идентифицирует упоминания, определяет контекстуально подходящий анкорный текст, использует поисковую систему для нахождения целевого документа (target document) и автоматически создает гиперссылку, связывая анкор с целевым URL.

    Как это работает

    Система анализирует исходный документ (source document) для обнаружения упоминаний, используя statistical model, основанный на форматировании текста и лексических признаках (lexical cues). Найденное упоминание парсится (например, выделяются автор, название, дата). Система вычисляет подходящий диапазон анкорного текста, анализируя окружающий текст, часто извлекая longest noun phrase (самую длинную именную группу). Затем она выполняет поиск в поисковой системе, чтобы найти URL целевого документа. Наконец, генерируется и вставляется гиперссылка с вычисленным анкором.

    Актуальность для SEO

    Высокая. Способность Google обрабатывать и понимать контент за пределами стандартного HTML (например, PDF, научные статьи) критически важна для полноты индекса (Google Scholar, Google Books). Кроме того, понимание неявных ссылок (unlinked mentions/citations) играет важную роль в оценке авторитетности и связей между сущностями в современном поиске (E-E-A-T). Этот патент описывает фундаментальный механизм для реализации этих задач.

    Важность для SEO

    Патент имеет высокое значение (85/100) для SEO-стратегии. Он демонстрирует, что Google обладает механизмами для обнаружения, интерпретации и превращения неявных упоминаний в ссылки. Это напрямую влияет на то, как Google может оценивать цитируемость, авторитетность (E-E-A-T) и семантические связи, даже если стандартные HTML-ссылки отсутствуют. SEO-специалисты должны учитывать, что контент в PDF и цитирование авторитетных источников могут генерировать сигналы связи.

    Детальный разбор

    Термины и определения

    Anchor Text (Анкорный текст)
    Текст, с которым ассоциируется гиперссылка. Система вычисляет его на основе текста, окружающего упоминание или метку.
    Detailed Reference (Детальное упоминание)
    Полное описание цитируемого ресурса, часто встречающееся в библиографии, сносках или непосредственно в тексте (например, «Motwani and Prabhakar, Randomized Algorithms, Cambridge University Press, 1995»).
    Label (Метка)
    Краткое обозначение, используемое в тексте для ссылки на Detailed Reference (например, [1], (Motwani, 1995) или (MP95)).
    Lexical Cues (Лексические признаки)
    Слова или фразы, используемые статистической моделью для идентификации и парсинга упоминаний (например, слова «by», «in», капитализация, пунктуация).
    Longest Noun Phrase (Самая длинная именная группа)
    Метод определения анкорного текста. Система извлекает самую длинную именную группу из фразы, прилегающей к упоминанию или метке.
    Shallow Parser (Поверхностный парсер)
    Инструмент NLP, используемый для определения границ фраз (например, начала и конца предложения) без глубокого понимания грамматики, чтобы сгруппировать слова в анкорный текст.
    Source Document (Исходный документ)
    Документ (HTML, PDF, Word, и т.д.), который анализируется на предмет наличия упоминаний для генерации гиперссылок.
    Statistical Model (Статистическая модель)
    Модель, обученная на форматировании текста и lexical cues, используемая для обнаружения упоминаний, их парсинга и поиска меток.
    Target Document (Целевой документ)
    Документ, на который ссылается упоминание. Его URL определяется с помощью поисковой системы.
    Text Reference (Текстовое упоминание)
    Любой текст в документе, который ссылается на другой ресурс (статью, компанию, продукт, локацию и т.д.). Может быть Detailed Reference или Label.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод автоматической генерации гиперссылок.

    1. Обнаружение текстового упоминания (text reference) в исходном документе.
    2. Идентификация целевого документа, связанного с этим упоминанием.
    3. Извлечение анкорного текста, соответствующего целевому документу, используя исходный документ.
    4. Генерация гиперссылки на целевой документ.
    5. Ассоциация гиперссылки с анкорным текстом.

    Claim 2 (Зависимый от 1): Уточняет метод обнаружения упоминаний. Обнаружение текстового упоминания включает его извлечение на основе statistical model, использующей форматирование текста и/или lexical cues.

    Claim 8 (Зависимый от 1): Описывает гранулярность генерации ссылок.

    1. Текстовое упоминание парсится на несколько частей (например, автор, название, издатель).
    2. Для каждой части выполняются шаги идентификации целевого документа, извлечения анкора, генерации и ассоциации гиперссылки.

    Claim 4 (Зависимый от 1): Включает работу с метками.

    1. Обнаружение метки (label), соответствующей текстовому упоминанию.
    2. Ассоциация сгенерированной гиперссылки также и с этой меткой.

    Claim 6 и 7 (Зависимые от 4): Детализируют механизм генерации анкорного текста для меток. Анкорный текст для метки (label anchor text) определяется в зависимости от того, находится ли метка до или после текстовой фразы. В частности, извлекается longest noun phrase из этой фразы.

    Где и как применяется

    Изобретение применяется в основном на этапе обработки контента для извлечения связей.

    CRAWLING – Сканирование и Сбор данных
    Система должна получить доступ и загрузить как HTML, так и не-HTML документы (PDF, Word, Excel, PowerPoint, Postscript и даже текст из close-captioned video), упомянутые в патенте.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Во время анализа и парсинга контента система (Hyperlink and Anchor Text Module) активирует свои компоненты:

    • Text Reference Locator: Идентифицирует упоминания и метки.
    • Anchor Text Computing Engine: Определяет релевантный анкорный текст.
    • Searcher и Hyperlink Generator: Находят целевой URL и создают ссылку.

    На этом этапе неявные ссылки превращаются в явные данные о связях, которые сохраняются в индексе и графе ссылок.

    RANKING – Ранжирование
    Патент не описывает, как именно сгенерированные ссылки используются в алгоритмах ранжирования (например, PageRank). Однако, после того как ссылки извлечены и анкорный текст определен на этапе INDEXING, они становятся доступными для использования системами ранжирования как стандартные сигналы связи, авторитетности и релевантности.

    Входные данные:

    • Исходный документ (Source Document).
    • Предварительно обученные Statistical Models для распознавания форматирования и lexical cues.
    • Доступ к поисковой системе для поиска целевых документов.

    Выходные данные:

    • Модифицированный исходный документ с добавленными гиперссылками (для отображения пользователю, например, в кэше или при просмотре PDF).
    • Извлеченные данные о связях (Исходный URL, Целевой URL, Анкорный текст) для обновления графа ссылок.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние на контент, богатый цитатами и упоминаниями без явных ссылок: научные статьи, техническая документация, юридические брифы, книги, аналитические отчеты в формате PDF, презентации PowerPoint.
    • Конкретные ниши или тематики: Академическая сфера (Google Scholar), юриспруденция, B2B, финансы, правительственные документы. Ниши, где авторитет часто передается через цитирование.
    • Определенные форматы контента: Не-HTML документы (PDF, Word и т.д.).

    Когда применяется

    Алгоритм применяется во время индексации или переиндексации документа, когда система проводит анализ его содержимого и извлечение признаков. Процесс автоматический и не требует действий со стороны пользователя или автора документа.

    Пошаговый алгоритм

    Процесс автоматической генерации гиперссылок и анкорного текста:

    1. Анализ исходного документа: Извлечение метаданных (название, автор, аффилиация) исходного документа с помощью Statistical Model.
    2. Обнаружение детальных упоминаний (Detailed References): Поиск в тексте (включая основное тело, сноски, библиографию) упоминаний других ресурсов, используя Statistical Model, основанный на форматировании и lexical cues.
    3. Парсинг упоминаний: Разбор найденных упоминаний на составные части (автор, название, дата, издатель и т.д.).
    4. Обнаружение и связывание меток (Labels): Поиск меток в тексте (например, [1]) и их связывание с соответствующими детальными упоминаниями.
    5. Вычисление анкорного текста (Anchor Text Computation): Определение подходящего диапазона анкорного текста для каждого упоминания и/или метки. Это может включать анализ окружающего текста и извлечение Longest Noun Phrase с помощью Shallow Parser или Part of Speech Tagger.
    6. Поиск целевого документа (Target Document Search): Выполнение поиска для каждой части упоминания (если применяется гранулярный подход) с использованием поисковой системы. В качестве запроса может использоваться вычисленный анкорный текст. Выбор целевого URL на основе результатов поиска (например, топ-1 результат).
    7. Генерация и вставка гиперссылок: Создание гиперссылок с использованием найденных целевых URL и вычисленных анкорных текстов, и их ассоциация с соответствующим текстом в исходном документе.

    Какие данные и как использует

    Данные на входе

    Система полагается исключительно на данные, доступные в самом документе и результаты поисковой системы.

    • Контентные факторы: Весь текст документа. Критически важны Lexical Cues: капитализация, пунктуация (запятые, точки, скобки, квадратные скобки), специфические слова-индикаторы (например, «by», «in», названия месяцев, формат дат).
    • Структурные факторы: Форматирование текста. Statistical Model анализирует размер шрифта, начертание (жирный, курсив), подчеркивание, выравнивание (центрирование), расположение текста на странице (первая страница, сноски, конец документа).
    • Технические факторы: Тип файла исходного документа (HTML, text, postscript, PDF, PowerPoint, Word, Excel, close-captioned video).

    Какие метрики используются и как они считаются

    • Statistical Models: Используются для классификации и парсинга текста. Модели оценивают вероятность того, что данный фрагмент текста является названием, автором, упоминанием или меткой, основываясь на комбинации признаков форматирования и лексических признаков.
    • NLP и анализ текста:
      • Определение границ фраз: Используется Shallow Parser или Part of Speech Tagger для определения границ предложений или фраз.
      • Longest Noun Phrase Extraction: Алгоритм для извлечения самой длинной именной группы из фразы, прилегающей к метке, для использования в качестве анкорного текста.
    • Результаты поисковой системы: Система использует ранжирование поисковой системы для определения наиболее вероятного целевого документа. Упоминается возможность использования топ-результата (аналог «I’m Feeling Lucky» в Google).

    Выводы

    1. Google активно извлекает ссылки из не-HTML контента: Патент подтверждает, что Google систематически анализирует PDF, документы Word и другие форматы не только для индексации текста, но и для автоматического обнаружения и генерации гиперссылок.
    2. Неявные упоминания (Unlinked Mentions) могут быть преобразованы в ссылки: Упоминания компаний, продуктов, людей или цитирование работ могут быть распознаны как Text Reference и преобразованы в гиперссылки, даже если автор не вставил тег <a>.
    3. Автоматическая генерация контекстного анкорного текста: Google не просто ищет упоминание, но и активно вычисляет наиболее релевантный анкорный текст, анализируя окружающий контекст (например, извлекая Longest Noun Phrase). Это делает сгенерированные ссылки семантически богатыми.
    4. Гранулярность извлечения ссылок: Система может разобрать одно упоминание (например, цитату) на несколько сущностей (автор, работа, организация) и создать отдельные ссылки для каждой из них (например, ссылка на домашнюю страницу автора, ссылка на текст статьи, ссылка на сайт организации).
    5. Использование поиска для определения цели ссылки: Система использует собственную поисковую технологию для определения наиболее авторитетного или релевантного URL для данного упоминания. Это означает, что ресурсы с сильным присутствием в поиске с большей вероятностью станут целевыми документами.

    Практика

    Best practices (это мы делаем)

    • Активно цитируйте авторитетные источники: Даже если вы не ставите явную гиперссылку (например, в PDF-отчете или научной статье), цитирование качественных ресурсов полезно. Google может распознать эти цитаты как сигналы связи, что может улучшить восприятие вашего контента как части авторитетного кластера.
    • Обеспечьте четкое форматирование цитат и упоминаний: Используйте стандартные форматы цитирования и четкую структуру текста. Это облегчает работу Statistical Models для корректного распознавания и парсинга упоминаний. Чем точнее Google распознает цитату, тем выше шанс генерации корректной ссылки.
    • Оптимизируйте не-HTML контент (PDF, Word): Рассматривайте PDF и другие документы как полноценные веб-ресурсы. Убедитесь, что они доступны для сканирования, содержат текст (а не только изображения) и оптимизированы. Они могут генерировать исходящие ссылочные сигналы.
    • Построение авторитетности (E-E-A-T) для того, чтобы быть целью ссылки: Работайте над тем, чтобы ваш сайт/страница/профиль был лучшим результатом в поиске по вашему имени, названию продукта или компании. Поскольку система использует поисковую систему для определения Target Document, сильное присутствие в поиске увеличивает вероятность того, что Google свяжет неявные упоминания именно с вашим ресурсом.
    • Используйте естественный язык вокруг упоминаний: Поскольку система может использовать Longest Noun Phrase вокруг упоминания как анкорный текст, убедитесь, что контекст вокруг упоминаний (ваших или чужих) является описательным и релевантным.

    Worst practices (это делать не надо)

    • Игнорирование потенциала PDF и других форматов: Нельзя предполагать, что ссылки из PDF или документов не учитываются Google. Этот патент прямо указывает на механизмы их извлечения.
    • Предположение, что отсутствие ссылки гарантирует отсутствие связи: Если вы упоминаете ресурс текстом, Google может самостоятельно сгенерировать связь, независимо от наличия HTML-ссылки.
    • Создание нечитаемых или плохо структурированных документов: Документы со сложным, нестандартным форматированием или состоящие из изображений текста затрудняют работу системы по извлечению упоминаний и генерации ссылок.

    Стратегическое значение

    Этот патент является одним из foundational-элементов для понимания перехода Google от анализа явных ссылок к анализу семантических связей и сущностей (Entity-based SEO). Он подтверждает, что связи в вебе могут быть не только явными (гиперссылки), но и подразумеваемыми (цитаты, упоминания). Стратегически это усиливает важность PR, построения репутации и авторитетности (E-E-A-T), поскольку упоминания бренда, авторов или продуктов в авторитетных источниках (даже без ссылок) могут быть преобразованы Google в сигналы связи и доверия.

    Практические примеры

    Сценарий 1: Извлечение ссылок из PDF-исследования

    1. Контент: Компания публикует аналитический отчет в формате PDF. В разделе «Библиография» перечислены 10 авторитетных источников.
    2. Действие Google: Во время индексации PDF система распознает библиографию. Она парсит каждую цитату (Detailed Reference).
    3. Генерация анкоров: Система использует названия работ в качестве анкорного текста.
    4. Поиск целей: Система ищет URL для каждой работы.
    5. Результат: Google генерирует 10 исходящих ссылок из PDF на соответствующие научные статьи или сайты издательств. Эти ссылки учитываются в графе ссылок.

    Сценарий 2: Генерация анкора из контекста упоминания

    1. Контент: В тексте статьи есть фраза: «Последние данные по алгоритмам консенсуса можно найти в работе [5]».
    2. Действие Google: Система идентифицирует метку [5] и связывает ее с детальным упоминанием в библиографии.
    3. Генерация анкора: Система анализирует текст перед меткой. Она извлекает Longest Noun Phrase: «данные по алгоритмам консенсуса».
    4. Результат: Google генерирует ссылку на работу [5], используя анкорный текст «данные по алгоритмам консенсуса», что является более информативным, чем просто номер или название работы.

    Вопросы и ответы

    Означает ли этот патент, что Google учитывает неявные упоминания (unlinked mentions) как ссылки?

    Патент описывает механизм, как технически превратить неявное упоминание в гиперссылку с анкорным текстом. Он не утверждает, что эти сгенерированные ссылки используются в PageRank или других алгоритмах ранжирования, но он показывает, что Google извлекает эти данные и делает их доступными для своих систем. Логично предположить, что если система тратит ресурсы на извлечение этих связей, они используются как сигналы связи и авторитетности.

    Как Google определяет анкорный текст, если упоминание не имеет явной ссылки?

    Система использует несколько методов. Если это детальное упоминание (например, цитата), она может использовать название работы или имя автора. Если это метка (например, [1]), она анализирует окружающий текст и пытается извлечь Longest Noun Phrase (самую длинную именную группу) до или после метки, используя Shallow Parser. Это позволяет создать контекстуально релевантный анкор.

    Учитываются ли ссылки из PDF-файлов?

    Да. Патент явно указывает, что система предназначена для генерации гиперссылок как в HTML, так и в не-HTML документах, включая PDF, Word, Excel, PowerPoint. Если PDF доступен для сканирования и содержит текст, Google может извлечь из него как явные ссылки, так и сгенерировать ссылки из неявных упоминаний и цитат.

    Как система находит правильный URL для упоминания, если его нет в тексте?

    Патент описывает использование поисковой системы (Search Engine) для этой цели. Система берет извлеченную информацию (например, имя автора и название работы или вычисленный анкорный текст) и выполняет поиск. Наиболее релевантный результат поиска (например, топ-1 или результат «I’m Feeling Lucky») выбирается в качестве целевого URL (Target Document).

    Что это значит для построения авторитетности (E-E-A-T) моего сайта или автора?

    Это имеет большое значение. Во-первых, если вас часто цитируют или упоминают в авторитетных источниках (даже без ссылок), Google может распознать эти связи, что положительно влияет на вашу авторитетность. Во-вторых, чтобы Google связал эти упоминания именно с вами, вы должны быть лучшим результатом в поиске по вашему имени или названию бренда. Это подчеркивает важность сильного и однозначного присутствия в поиске.

    Может ли система создать несколько ссылок из одной цитаты?

    Да. Патент описывает возможность парсинга упоминания на несколько частей (Claim 8). Например, из цитаты научной статьи система может сгенерировать одну ссылку на саму статью (используя название как анкор), вторую ссылку на домашнюю страницу автора (используя имя автора как анкор) и третью ссылку на организацию автора (используя аффилиацию как анкор).

    Как повысить вероятность того, что Google правильно распознает цитаты в моем документе?

    Используйте стандартные, общепринятые форматы цитирования и поддерживайте чистое, логичное форматирование документа. Система использует Statistical Models, обученные на форматировании текста (размер шрифта, расположение) и лексических признаках (пунктуация, капитализация). Чем более стандартно выглядит ваша цитата, тем легче ее распознать.

    Влияет ли этот патент на исходящие ссылки с моего сайта?

    Да. Если вы публикуете контент (особенно в PDF или других документах), где цитируете источники без проставления ссылок, Google все равно может интерпретировать это как исходящие связи. Это подчеркивает важность цитирования только качественных и релевантных источников, так как это формирует ваше «ссылочное окружение».

    Что такое «Statistical Model» и «Lexical Cues», упомянутые в патенте?

    Statistical Model – это алгоритм машинного обучения, который анализирует различные признаки, чтобы классифицировать текст. Lexical Cues – это текстовые признаки, такие как наличие определенных слов (например, «by», «in»), использование заглавных букв, пунктуация (скобки, запятые) и формат даты. Модель использует эти признаки вместе с данными о форматировании (шрифт, размер) для распознавания упоминаний.

    Применяется ли этот механизм только к научным статьям?

    Нет. Хотя научные статьи являются основным примером в патенте, система разработана для распознавания широкого спектра упоминаний (Text Reference). В патенте упоминаются ссылки на компании (например, IBM, Microsoft, Intel), продукты (ThinkPad, Windows XP), поисковые системы (Google), сайты (cnn.com), изображения, объекты и географические локации.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.