Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

    METHOD AND SYSTEM FOR DYNAMICALLY GENERATING SEARCH LINKS EMBEDDED IN CONTENT (Метод и система для динамического генерирования поисковых ссылок, встроенных в контент)
    • US7788245B1
    • Google LLC
    • 2010-08-31
    • 2005-06-16
    2005 Патенты Google Ссылки

    Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неудобства пользователя при поиске дополнительной информации по темам, упомянутым на веб-странице. Традиционный процесс требует ручного ввода запроса в поисковую систему, что отвлекает пользователя и может привести к его уходу с исходного сайта. Система предлагает оптимальные поисковые термины и позволяет искать информацию в один клик. Для владельцев сайтов (паблишеров) это создает возможность монетизации через рекламу на страницах результатов поиска, на которые ведут эти ссылки.

    Что запатентовано

    Запатентована система (Search Engine Link Provider), которая динамически анализирует контент документа, идентифицирует темы (Topics) и генерирует релевантные поисковые термины (Search Terms). Эти термины превращаются в гиперссылки, ведущие на страницу результатов поиска (SERP), и автоматически встраиваются в исходный текст. Процесс может происходить как в реальном времени, так и заранее.

    Как это работает

    Механизм включает несколько этапов:

    • Передача контента: Скрипт на стороне клиента или модуль на сервере паблишера отправляет контент (или его обозначенную часть) системе Search Engine Link Provider.
    • Анализ и Генерация: Система анализирует контент, определяет темы и генерирует связанные поисковые термины.
    • Ранжирование терминов: Сгенерированные термины ранжируются на основе двух ключевых критериев: релевантности и потенциального дохода от рекламы (Advertisement Revenue Generation Potential).
    • Встраивание ссылок: Для выбранных терминов создаются ссылки на SERP. Эти ссылки встраиваются обратно в контент, заменяя соответствующие слова гиперссылками.

    Актуальность для SEO

    Средняя. Базовая технология контекстного анализа и генерации связанных запросов активно используется в продуктах Google для паблишеров (например, AdSense Related Search). Однако конкретная реализация в виде автоматического превращения слов основного текста в гиперссылки (in-text linking) сейчас используется реже из-за ее навязчивости. Современные реализации чаще размещают такие ссылки в отдельных блоках.

    Важность для SEO

    Влияние на алгоритмы органического ранжирования низкое (3/10). Это патент, описывающий технологию для паблишеров (аналог AdSense), а не механизм ранжирования в поиске. Он не описывает, как Google ранжирует сайты. Однако он дает ценное понимание того, как Google анализирует контент для идентификации тем и, что критически важно, оценивает их коммерческий потенциал (Advertisement Revenue Generation Potential) для целей монетизации.

    Детальный разбор

    Термины и определения

    Search Engine Link Provider (SELP) (Поставщик поисковых ссылок)
    Центральная система (например, сервис Google), которая принимает контент, анализирует его и предоставляет ссылки на результаты поиска.
    Advertisement Revenue Generation Potential (Потенциал генерации дохода от рекламы)
    Ключевой критерий для ранжирования поисковых терминов. Оценивает коммерческую ценность термина на основе количества доступных объявлений, максимальной цены за клик (CPC) и прошлой эффективности (CTR).
    Document Modification Module (Модуль модификации документа)
    Скрипт (например, JavaScript) на стороне клиента или модуль на стороне сервера паблишера. Отвечает за отправку контента в SELP и встраивание полученных ссылок.
    Search Term Repository (Репозиторий поисковых терминов)
    База данных для хранения предварительно сгенерированных поисковых терминов для конкретных страниц с целью ускорения обработки.
    Crawler Module (Модуль краулера)
    Компонент SELP, используемый для предварительного сканирования (Pre-crawling) сайтов паблишеров для заблаговременной генерации поисковых терминов.
    On-the-fly embedding (Встраивание «на лету»)
    Процесс встраивания ссылок в момент запроса страницы пользователем, обычно через клиентский скрипт.
    In-advance embedding (Предварительное встраивание)
    Процесс встраивания ссылок на стороне сервера паблишера до запроса страницы пользователем.
    Search Engine Link (Поисковая ссылка)
    Гиперссылка (HTML anchor tag), встроенная в текст, ведущая на страницу результатов поиска (SERP) по соответствующему термину.

    Ключевые утверждения (Анализ Claims)

    Патент защищает процесс с разных сторон: со стороны сервиса (SELP) и со стороны системы, внедряющей ссылки (Клиент/Сервер).

    Claim 1 (Независимый пункт): Описывает основной метод работы Search Engine Link Provider (SELP).

    1. Получение контента от удаленного компьютера (клиента или сервера).
    2. Определение поисковых терминов на основе контента.
    3. Генерация поисковых ссылок (search engine links). Ссылка ведет на отдельную поисковую систему и включает термин для выполнения поиска.
    4. Передача сгенерированных ссылок обратно на удаленный компьютер для встраивания. (Здесь SELP генерирует ссылки, но встраивание выполняет получатель).

    Claim 3 (Зависимый от 1 и 2): Описывает альтернативный сценарий, где SELP сам выполняет встраивание.

    1. После генерации ссылок и парсинга контента для поиска совпадений…
    2. SELP встраивает ссылки в контент.
    3. SELP передает модифицированный контент (содержащий ссылки) обратно на удаленный компьютер.

    Claim 10 (Зависимый от 1): Детализирует процесс определения терминов.

    1. Идентификация тем (topics), связанных с контентом.
    2. Генерация поисковых терминов на основе тем.
    3. Ранжирование (ranking) терминов по предопределенным критериям.

    Claims 11 и 12 (Зависимые от 10): Определяют ключевые критерии ранжирования.

    • Claim 11: Критерий включает метрику релевантности (metric of relevancy).
    • Claim 12: Критерий включает Advertisement Revenue Generation Potential. Это подтверждает, что выбор термина зависит не только от релевантности, но и от его монетизационной ценности.

    Claim 15 (Независимый пункт): Описывает процесс со стороны Клиента или Сервера контента.

    1. Вызов процедуры (например, запуск скрипта).
    2. Передача контента в SELP.
    3. Получение поисковых ссылок от SELP.
    4. Вставка (inserting) этих ссылок в документ.

    Где и как применяется

    Этот патент описывает технологию монетизации и аугментации контента на сайтах паблишеров, а не инфраструктуру органического поиска Google. Он не вписывается в стандартную 6-этапную архитектуру ранжирования.

    Однако система использует собственные процессы, схожие с некоторыми этапами поиска:

    CRAWLING – Сканирование и Сбор данных
    Система может использовать Crawler Module для предварительного обхода (Pre-crawling) документов паблишеров. Цель — заранее проанализировать контент и сгенерировать поисковые термины.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе (в контексте данной системы) происходит анализ контента, идентификация тем (topic identification), генерация и ранжирование поисковых терминов. Результаты сохраняются в Search Term Repository.

    Применение (Рендеринг/Доставка контента):
    Основное применение происходит либо в момент рендеринга страницы в браузере клиента (On-the-fly), либо на сервере паблишера при генерации/сохранении страницы (In-advance). Document Modification Module взаимодействует с SELP для модификации контента перед показом пользователю.

    Входные данные:

    • Текстовый контент документа (весь или части, обозначенные специальными тегами паблишера).
    • URL документа (для идентификации в репозитории).
    • Параметры конфигурации от паблишера (исключаемые темы/термины, лимиты на количество ссылок).

    Выходные данные:

    • Вариант 1: Модифицированный контент со встроенными ссылками на SERP.
    • Вариант 2: Набор поисковых ссылок (URL + HTML) для встраивания на стороне клиента/сервера.

    На что влияет

    • Типы контента: В первую очередь влияет на текстовый контент (статьи, блоги) на сайтах паблишеров, использующих эту технологию монетизации. Патент также упоминает PDF, документы Word, email, SMS.
    • Конкретные ниши: Наибольшее влияние в коммерчески привлекательных нишах, где система может идентифицировать термины с высоким Advertisement Revenue Generation Potential.
    • Пользовательский опыт (UX): Напрямую влияет на читабельность и взаимодействие пользователя с контентом.

    Когда применяется

    Алгоритм применяется при следующих условиях:

    • Триггеры активации: Наличие на странице специального кода (скрипта Document Modification Module) или серверной конфигурации, активирующей функцию.
    • Режимы работы:
      • On-the-fly: При каждой загрузке страницы пользователем.
      • In-advance: Периодически или при обновлении контента на сервере паблишера.
    • Ограничения паблишера: Применяется только к тем частям контента, которые паблишер явно обозначил (positively designate) или не исключил (negatively designate). Также учитываются лимиты на количество ссылок и блокировки нежелательных тем (например, конкурентов).

    Пошаговый алгоритм

    Описание процесса «на лету» (On-the-fly) с модификацией контента на стороне SELP (наиболее сложный сценарий):

    1. Запрос и Первичный рендеринг: Клиент запрашивает веб-страницу у Сервера контента. Сервер отправляет исходную страницу. Клиент начинает рендеринг.
    2. Вызов скрипта: В процессе рендеринга вызывается скрипт (Document Modification Module).
    3. Передача контента: Скрипт идентифицирует обозначенный контент и отправляет его в Search Engine Link Provider (SELP).
    4. Поиск в репозитории: SELP проверяет Search Term Repository на наличие актуальных терминов для этой страницы (используя данные Pre-crawling).
      • Если ЕСТЬ: Термины извлекаются.
      • Если НЕТ (или устарели): Переход к шагу 5.
    5. Анализ контента и Идентификация тем: Search Term Generation Module анализирует контент для определения его основных тем (используя, например, извлечение ключевых слов и частотный анализ).
    6. Генерация поисковых терминов: Генерируются поисковые термины, связанные с темами (включая те, что могут отсутствовать в тексте).
    7. Ранжирование терминов: Термины ранжируются по критериям: Metric of Relevancy и Advertisement Revenue Generation Potential. Выбирается Топ-N терминов.
    8. Генерация ссылок: Для выбранных терминов создаются URL, ведущие на SERP.
    9. Парсинг и Модификация: SELP ищет вхождения этих терминов в исходном контенте и модифицирует контент, вставляя сгенерированные ссылки (HTML-тег <A>). Система пропускает термины, которые уже являются ссылками или находятся внутри HTML-тегов.
    10. Передача модифицированного контента: Модифицированный контент отправляется обратно клиенту.
    11. Замена и Финальный рендеринг: Скрипт на клиенте заменяет исходный контент модифицированным. Страница отображается с новыми встроенными ссылками.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Основной массив текста страницы является главным входным сигналом для тематического анализа.
    • Структурные факторы: Используются специальные теги паблишера для определения зон анализа (positive/negative designation). Анализируется HTML-разметка для корректного встраивания ссылок.
    • Технические факторы: URL страницы используется для идентификации контента в Search Term Repository.
    • Временные факторы: Даты модификации документа и генерации терминов используются для проверки актуальности кэша в репозитории.

    Какие метрики используются и как они считаются

    Система вычисляет следующие ключевые метрики для ранжирования поисковых терминов:

    • Metric of Relevancy (Метрика релевантности): Оценка того, насколько тесно поисковый термин связан с темами контента.
    • Advertisement Revenue Generation Potential (Потенциал генерации дохода от рекламы): Комплексная метрика коммерческой ценности термина. Она основывается на:
      • Количестве доступных рекламных объявлений для термина.
      • Максимальной цене за клик (highest cost-per-click) среди доступных объявлений.
      • Прошлой эффективности (past revenue performance): учитывая CTR рекламы на SERP по этому термину и средний CPC.
    • Дополнительные критерии ранжирования: Патент также упоминает возможность учета свежести (наличие свежих новостей по теме) и популярности темы среди пользователей данного паблишера.
    • Агрегация данных: Система использует комбинацию и взвешивание (combination and weighting) этих критериев для финального ранжирования терминов.

    Выводы

    1. Это технология монетизации, а не ранжирования: Патент описывает механизм для монетизации сайтов-партнеров (паблишеров) и улучшения навигации, а не алгоритм органического поиска. Он не влияет на то, как Google ранжирует сайты.
    2. Приоритет коммерческой ценности: Ключевым инсайтом является явное использование Advertisement Revenue Generation Potential как критерия ранжирования терминов. Система может предпочесть коммерчески более выгодный термин менее релевантному.
    3. Сложный контекстный анализ: Патент демонстрирует продвинутые возможности Google в анализе контента, извлечении тем (Topic Identification) и генерации связанных запросов, что является основой NLP и Information Retrieval.
    4. Гибкость инфраструктуры: Технология поддерживает несколько режимов работы: предварительное сканирование (Pre-crawling), обработка заранее на сервере (In-advance) и обработка «на лету» на клиенте (On-the-fly).
    5. Контроль на стороне паблишера: Система предусматривает детальный контроль для владельцев сайтов: выбор областей контента для встраивания ссылок (через теги), блокировка нежелательных тем/терминов и установка лимитов на количество ссылок.

    Практика

    Best practices (это мы делаем)

    Поскольку это патент для паблишеров (Publisher/AdSense), рекомендации применимы для тех, кто использует подобные технологии монетизации или разрабатывает контент-стратегию для информационных сайтов.

    • Понимание коммерческой ценности тем: Патент подтверждает, что Google детально оценивает коммерческий потенциал терминов. SEO-специалистам полезно понимать, какие темы имеют высокий Advertisement Revenue Generation Potential (высокий CPC, много рекламодателей), так как именно они будут приоритетны для систем монетизации.
    • Создание глубокого и структурированного контента: Чем полнее контент раскрывает тему, тем больше релевантных и коммерчески ценных поисковых терминов сможет сгенерировать система. Это повышает потенциал монетизации через подобные блоки.
    • Стратегическое размещение и контроль (для паблишеров): Если используется подобная технология (например, AdSense Related Search), необходимо тщательно контролировать, где появляются ссылки. Используйте теги для исключения (negative designation) чувствительного контента, упоминаний конкурентов или служебных разделов (навигация, футер).

    Worst practices (это делать не надо)

    • Путать эту технологию с факторами ранжирования: Не следует предполагать, что наличие таких автоматически сгенерированных ссылок на странице влияет на ее органическое ранжирование. Это функция монетизации.
    • Рассматривать эти ссылки как передающие вес: Ссылки, генерируемые системами монетизации, не следует рассматривать как органические. Вероятнее всего, они не передают PageRank (например, через атрибуты nofollow или sponsored).
    • Перенасыщение контента ссылками (для паблишеров): Использование максимальных настроек для встраивания ссылок может критически ухудшить читабельность и пользовательский опыт (UX). Патент предусматривает лимиты, и их следует использовать разумно.

    Стратегическое значение

    Патент подтверждает высокий уровень развития технологий Google в области анализа контента и его коммерциализации. Он показывает, что Google рассматривает контент не только с точки зрения ответа на запрос, но и как отправную точку для дальнейшего коммерческого взаимодействия (переход на SERP с рекламой). Стратегически это подчеркивает важность создания контента, который естественным образом ведет к коммерчески ценным запросам, если цель сайта — монетизация через партнерские программы.

    Практические примеры

    Сценарий: Монетизация технологического блога с помощью автоматических контекстных ссылок.

    1. Контент: Статья на тему «Обзор нового ноутбука Модель X».
    2. Анализ системой (SELP): Система анализирует текст и определяет темы: Ноутбуки, Модель X, Технологии, Покупка электроники.
    3. Генерация и Ранжирование: Генерируются термины: «характеристики Модель X», «купить Модель X», «лучшие игровые ноутбуки», «Windows 11 скачать».
    4. Оценка дохода: Система определяет, что термины «купить Модель X» и «лучшие игровые ноутбуки» имеют высокий Advertisement Revenue Generation Potential (высокий CPC). Они получают приоритет.
    5. Встраивание: Система находит эти фразы в тексте и превращает их в гиперссылки, ведущие на SERP Google.
    6. Результат: Пользователь кликает на «купить Модель X», переходит на SERP, видит органические результаты и платные объявления магазинов. Если он кликнет на объявление, паблишер (блог) получит доход.

    Вопросы и ответы

    Является ли этот патент описанием алгоритма ранжирования Google?

    Нет. Этот патент описывает технологию для сайтов-партнеров (паблишеров), которая автоматически встраивает ссылки, ведущие на страницы результатов поиска. Это механизм монетизации и улучшения навигации (UX), а не алгоритм, определяющий позиции сайтов в органической выдаче.

    Что означает «Advertisement Revenue Generation Potential» и почему это важно?

    Это метрика, оценивающая, сколько дохода может принести поисковый термин. Она учитывает количество рекламодателей, цену за клик (CPC) и историческую эффективность (CTR). Это важно, потому что система приоритизирует термины с высоким потенциалом дохода при выборе того, какие слова превратить в ссылки, обеспечивая максимальную монетизацию.

    Как система решает, какие именно слова в тексте превратить в ссылки?

    Система сначала анализирует контент и определяет темы. Затем она генерирует список связанных поисковых терминов. Эти термины ранжируются по двум основным критериям: релевантность контенту и потенциальный доход от рекламы. Лучшие термины из этого списка используются для создания ссылок, если они найдены в тексте.

    Могу ли я контролировать, где появляются эти ссылки на моем сайте?

    Да. Патент описывает использование специальных тегов, с помощью которых паблишер может явно указать (positively designate), какие области контента следует использовать для встраивания ссылок, а какие следует исключить (negatively designate). Также можно устанавливать лимиты на количество ссылок и блокировать нежелательные темы или термины.

    Используется ли эта технология сейчас?

    Да, принципы этого патента лежат в основе современных продуктов, таких как AdSense Related Search. Хотя точная реализация в виде автоматического превращения слов в гиперссылки внутри абзацев (in-text linking) сейчас менее распространена из-за навязчивости, общая механика анализа контента и генерации коммерчески ценных поисковых ссылок очень актуальна.

    Чем отличаются режимы «на лету» (On-the-fly) и предварительное встраивание (In-advance)?

    «На лету» означает, что ссылки генерируются и встраиваются в момент загрузки страницы пользователем с помощью клиентского скрипта (JavaScript). Предварительное встраивание означает, что сервер паблишера заранее обрабатывает контент, встраивает ссылки и сохраняет готовую страницу, которую затем отдает пользователям.

    Что такое предварительное сканирование (Pre-crawling) в этом патенте?

    Это процесс, при котором система заранее сканирует сайт паблишера, анализирует контент и генерирует поисковые термины, сохраняя их в репозитории. Это позволяет ускорить работу в режиме «на лету», так как системе не нужно анализировать контент в реальном времени, а достаточно извлечь готовые данные из репозитория.

    Что этот патент говорит о возможностях Google в области NLP?

    Он демонстрирует продвинутые возможности Google в автоматическом извлечении тем (topic identification) из неструктурированного текста и генерации семантически связанных и коммерчески ценных ключевых фраз. Это показывает глубокое понимание контента за пределами простого совпадения ключевых слов.

    Может ли система встроить ссылку для термина, которого нет в тексте?

    Система может сгенерировать термин, которого нет в тексте, если он релевантен теме. Однако, согласно описанным механизмам встраивания (Claim 2 и FIG 6A/7A), система парсит контент в поисках сгенерированных терминов и заменяет их ссылками. Если термин не найден в тексте, он не будет встроен в виде гиперссылки на существующее слово.

    Какова основная ценность этого патента для SEO-специалиста?

    Хотя прямых рекомендаций по ранжированию нет, патент полезен для понимания того, как Google анализирует контент и оценивает коммерческий потенциал различных тем. Это знание помогает разрабатывать более эффективные контент-стратегии, особенно для информационных сайтов, ориентированных на монетизацию через контекстную рекламу.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.