Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

Описание

Какую задачу решает

Патент решает проблему трудоемкости ручного создания и обновления ссылок на связанные материалы на веб-сайтах. Владельцы сайтов стремятся увеличить вовлеченность и количество просмотров страниц, предлагая релевантный контент (часто внутренний). Ручное управление этим процессом затруднительно, особенно для крупных сайтов или динамически генерируемых страниц, контент которых меняется со временем. Изобретение автоматизирует этот процесс.

Что запатентовано

Запатентована система для динамической генерации связанных ссылок (Related Links) при загрузке веб-страницы. Система автоматически определяет тематику текущей страницы путем извлечения текстовой информации и ранжирования ключевых слов с использованием глобального репозитория. Затем она использует наиболее значимые ключевые слова в качестве запроса к поисковой системе (часто с ограничением по домену) и отображает результаты в специальном виджете (gadget).

Как это работает

Механизм активируется динамически при загрузке страницы:

Сбор данных (Клиент): Встроенный скрипт извлекает текстовую информацию (Title, URL, URL реферера, возможно, основной контент) и отправляет на сервер.
Извлечение и Ранжирование (Сервер): Сервер анализирует текст (NLP-обработка) и извлекает ключевые слова. Их значимость оценивается с помощью Keyword Repository — базы данных глобальных рейтингов ключевых слов.
Поиск: Топовые ключевые слова используются для формирования поискового запроса, который часто ограничивается текущим доменом (например, site:example.com).
Отображение: Лучшие результаты поиска возвращаются клиенту для отображения в виджете. Система также может отображать сами ключевые слова как «Похожие запросы» (Related Searches).

Актуальность для SEO

Средняя. Концепция автоматических блоков рекомендаций контента и динамической перелинковки крайне актуальна. Однако конкретная реализация, описанная в патенте (основанная на сегментации слов и оценке их важности через статистический Keyword Repository), вероятно, уступает место более современным подходам, использующим векторные эмбеддинги и сложные NLP-модели. Патент описывает базовую механику работы подобных виджетов.

Важность для SEO

Патент имеет умеренно-высокое значение для SEO (6/10). Он не описывает алгоритмы ранжирования органической выдачи, а фокусируется на технологии для виджетов (автоматизация перелинковки). Однако он дает ценное представление о методах, которые Google использует для извлечения тем (Topic Extraction) и оценки глобальной значимости терминов (Keyword Repository). Понимание этого механизма критично для оптимизации контента и улучшения внутренней структуры ссылок.

Детальный разбор

Термины и определения

Gadget (Виджет): Миниатюрный компонент или выделенная область на веб-странице (например, блок <div>), предназначенная для отображения динамического контента — связанных ссылок или похожих запросов.
Keyword Extractor (Извлекатель ключевых слов): Серверный компонент, который анализирует текстовую информацию (Title, Body, Referrer). Включает NLP-процессы: определение языка, сегментацию слов и удаление стоп-слов.
Keyword Repository (Репозиторий ключевых слов): Ключевая база данных, хранящая список ключевых слов и их соответствующие рейтинги (rankings) или оценки значимости. Строится офлайн путем статистического анализа индексированных веб-данных и логов поисковых запросов пользователей.
Referrer (Реферер): URL предыдущей страницы. Если пользователь пришел из поиска, система извлекает из URL реферера исходный поисковый запрос и использует его как важный тематический сигнал.
Related Links (Связанные ссылки): Гиперссылки на другие веб-страницы, найденные поисковой системой по автоматически сгенерированному запросу.
Related Searches (Похожие запросы): Отображение ключевых слов, которые система определила как наиболее репрезентативные для страницы. Пользователь может кликнуть на них для инициации нового поиска.
Text Extraction Module (Модуль извлечения текста): Клиентский компонент (часто JavaScript), который собирает текстовую информацию (Title, URL, Referrer) при загрузке страницы и отправляет ее на сервер.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления связанных ссылок.

Система получает текстовую информацию, связанную с веб-страницей, при ее загрузке на клиенте.
Извлекается набор ключевых слов, репрезентативных для контента. Этот процесс включает точные NLP шаги:
- Парсинг текста для определения языка.
- Сегментацию текста на слова или фразы в соответствии с языком.
- Удаление стоп-слов (stop words).
Извлеченные ключевые слова ранжируются с использованием Keyword Repository.
Выбираются одно или несколько репрезентативных ключевых слов с наивысшим рейтингом.
Эти ключевые слова отправляются как поисковый запрос в поисковую систему.
Определенное количество топовых результатов поиска возвращается клиенту для отображения в виде связанных ссылок в назначенной области страницы.

Claim 3 (Зависимый от 1): Уточняет область поиска. Поиск, выполняемый поисковой системой, может быть ограничен тем же веб-доменом, что и исходная веб-страница (автоматическая внутренняя перелинковка).

Claim 4 (Зависимый от 1): Описывает функцию Related Searches. Система возвращает клиенту не только ссылки, но и сами выбранные ключевые слова для отображения. Пользователь может кликнуть по ним для выполнения поиска в той же области покрытия.

Claims 5, 6, 8 (Зависимые от 1): Определяют источники данных. Текстовая информация может включать заголовок (Claim 5), основной текст (Claim 6), и поисковый запрос из предыдущего поиска, если страница была открыта из SERP (Claim 8).

Claim 9 (Зависимый от 1): Описывает создание Keyword Repository. Он строится путем статистического анализа просканированных веб-страниц и/или логов запросов пользователей.

Где и как применяется

Этот патент описывает вспомогательную систему (продукт/виджет), которая взаимодействует с основной поисковой инфраструктурой, но не является частью основного конвейера ранжирования органического поиска.

INDEXING – Индексирование и извлечение признаков
Этот этап обеспечивает данные для работы системы (офлайн):

Создание Keyword Repository: Анализ глобального индекса и логов запросов для вычисления статистической значимости ключевых слов.
Индексирование контента: Страницы должны быть в индексе, чтобы система могла их найти. Также сервер может извлекать основной текст страницы из индекса, а не получать его от клиента.

RANKING / METASEARCH (Динамический специализированный поиск)
Основное применение происходит динамически при загрузке страницы пользователем (онлайн):

Topic Extraction: Сервер анализирует данные страницы (полученные от клиента или из индекса) с помощью Keyword Extractor и Keyword Repository для определения темы в реальном времени.
Выполнение поиска: Related Links Module инициирует поиск по этой теме через стандартную поисковую систему, часто с ограничением по сайту.
Презентация: Результаты форматируются и встраиваются в исходную страницу.

Входные данные:

Текстовая информация со страницы (Title, URL, Referrer URL, Body Text).
Идентификатор конфигурации виджета (relatedlinks_id), определяющий формат и ограничения поиска.
Keyword Repository (внутренние данные сервера).
Индексированные веб-данные (Indexed Web Data).

Выходные данные:

Отформатированный код (HTML/JavaScript) для встраивания в виджет, содержащий Топ-N связанных ссылок и/или Топ-K похожих запросов.

На что влияет

Структура внутренних ссылок: Напрямую влияет на автоматизацию внутренней перелинковки, позволяя динамически связывать контент на основе тематической релевантности.
Поведенческие факторы и UX: Влияет на навигацию пользователя, глубину просмотра и время на сайте за счет предоставления релевантных рекомендаций.
Типы контента: Наиболее полезен для контентных проектов (статьи, новости, блоги) и крупных сайтов, где ручное управление ссылками затруднено.

Когда применяется

Условия работы: Алгоритм работает только на тех страницах, куда владелец сайта встроил соответствующий код (скрипт виджета).
Триггеры активации: Загрузка или обновление веб-страницы пользователем в браузере (upon loading of the web page). Генерация ссылок происходит динамически при каждом просмотре.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

Инициализация (Клиент): Пользователь загружает веб-страницу. Выполняется встроенный скрипт.
Извлечение данных (Клиент): Text Extraction Module собирает URL страницы, Title, URL реферера и идентификатор конфигурации. Данные кодируются и отправляются на сервер.
Получение и Обработка (Сервер): Сервер декодирует данные. Из URL реферера извлекается поисковый запрос (если есть).
Анализ контента (Сервер): Если требуется анализ основного текста (Body Text), он извлекается (от клиента или из индекса). Может применяться удаление шаблонного контента (boilerplate).
Экстракция ключевых слов (Сервер): Keyword Extractor анализирует весь доступный текст (Title, Body, Referrer Query): определяет язык, выполняет сегментацию, удаляет стоп-слова.
Ранжирование и Выбор (Сервер): Система обращается к Keyword Repository для получения глобального рейтинга каждого извлеченного слова. Выбираются одно или несколько слов с наивысшим рейтингом.
Генерация Поискового Запроса (Сервер): Related Links Module формирует запрос из выбранных слов. Применяются ограничения поиска (например, по домену) на основе конфигурации виджета.
Выполнение Поиска (Сервер): Запрос отправляется в поисковую систему, которая возвращает ранжированный список результатов.
Форматирование и Возврат (Сервер): Presentation Module выбирает Топ-N результатов, форматирует их (и, опционально, ключевые слова для Related Searches) и возвращает клиенту.
Отображение (Клиент): Браузер отображает полученные данные в виджете.

Процесс Б: Офлайн-генерация Keyword Repository

Сбор данных: Анализ массива индексированных веб-документов и логов поисковых запросов.
Вычисление рейтингов: Расчет глобального ранга (важности/частотности) для каждого уникального ключевого слова.
Обновление: Периодическое обновление репозитория для отражения изменений в вебе.

Какие данные и как использует

Данные на входе

Система использует комбинацию динамических данных страницы и предварительно вычисленных глобальных данных.

Контентные факторы:
- Title (Заголовок страницы): Ключевой источник для извлечения тематических сигналов.
- Body Text (Основной текст): Может использоваться для более глубокого анализа. Упоминается удаление шаблонного контента (boilerplate contents).
Технические факторы:
- URL страницы: Используется для определения домена при ограничении поиска (site:).
Поведенческие/Контекстные факторы:
- Referrer URL / Search Query: Если пользователь пришел из поиска, предыдущий запрос извлекается из реферера и используется как сильный сигнал о содержании страницы.
Глобальные данные (для Keyword Repository):
- Логи запросов (logged query data): Используются для оценки популярности и актуальности терминов.
- Проиндексированные данные (crawled web data): Используются для статистического анализа частоты и распределения терминов в вебе.

Какие метрики используются и как они считаются

Keyword Ranking (Рейтинг ключевого слова): Метрика глобальной значимости слова, получаемая из Keyword Repository. Может рассчитываться на основе частоты встречаемости в веб-корпусе, свежести (recency) и количества сайтов, где слово встречается.
Search Result Ranking (Рейтинг результата поиска): Стандартная оценка релевантности, вычисляемая поисковой системой в ответ на автоматически сгенерированный запрос.
Методы анализа текста (NLP):
- Language identification (Определение языка).
- Word segmentation (Сегментация слов).
- Stop word removal (Удаление стоп-слов).
- Boilerplate removal (Удаление шаблонного текста).

Выводы

Автоматизация извлечения тем для перелинковки: Патент детально описывает механизм автоматического определения основной тематики страницы в реальном времени с целью генерации связанных ссылок. Это позволяет масштабировать внутреннюю перелинковку без ручного труда.
Глобальная оценка значимости слов (Keyword Repository): Ключевым элементом является Keyword Repository. Система определяет тему не по частоте слов на странице, а по их глобальной значимости, рассчитанной на основе всего веба и логов запросов.
Многофакторный анализ контекста: Для определения темы используется не только контент (Title, Body), но и контекст посещения. Поисковый запрос, который привел пользователя на страницу (из реферера), является сильным сигналом тематики.
NLP как основа анализа: Система полагается на базовые NLP-процессы (определение языка, сегментация, удаление стоп-слов и шаблонного контента) для очистки и структурирования текстовых данных перед анализом.
Гибкость применения (Внутренние и Внешние ссылки): Хотя система часто используется для внутренних ссылок (с ограничением по домену), она технически способна генерировать ссылки на любые домены.

Практика

Best practices (это мы делаем)

Оптимизация заголовков (Title) для максимальной ясности темы: Title является гарантированным и важным источником данных для этой системы. Он должен четко и лаконично отражать основную тему страницы, чтобы автоматизированные системы корректно идентифицировали тематику и генерировали релевантные ссылки.
Четкая тематическая фокусировка контента: Контент должен быть сфокусирован на основной теме. Это поможет системе извлечь правильные ключевые слова. Используйте терминологию, которая является значимой в вашей нише (и, вероятно, имеет высокий рейтинг в Keyword Repository).
Использование семантической верстки для отделения основного контента: Патент упоминает удаление шаблонного контента (boilerplate). Используйте теги (<main>, <article>, <nav>, <aside>), чтобы помочь системам отличить основной контент от служебных элементов, улучшая точность извлечения ключевых слов.
Анализ входящих поисковых запросов: Учитывайте, по каким запросам пользователи попадают на страницу. Патент указывает, что входящий запрос (из реферера) используется как сигнал тематики. Согласованность контента с этими запросами улучшит работу автоматических систем.
Мониторинг автоматической перелинковки: Если вы используете автоматические системы генерации ссылок (подобные описанной), регулярно проверяйте релевантность предлагаемых ссылок. Нерелевантные ссылки могут сигнализировать о проблемах с фокусировкой контента.

Worst practices (это делать не надо)

Размытие тематики (Topic Dilution): Создание страниц, охватывающих слишком много несвязанных тем. Это может привести к тому, что система выберет неверные или слишком общие ключевые слова, снижая качество автоматической перелинковки.
Использование неинформативных или кликбейтных заголовков: Если Title не соответствует содержанию, система может ошибочно определить тему страницы, что приведет к генерации нерелевантных ссылок и ухудшению пользовательского опыта.
Чрезмерное количество шаблонного текста в основном контенте: Если объем навигации, рекламы или другого нерелевантного текста велик по сравнению с уникальным контентом, это может «зашумлять» процесс извлечения ключевых слов.

Стратегическое значение

Патент подтверждает важность автоматизированных систем для управления внутренней перелинковкой, особенно на масштабе. Для SEO-стратегии это подчеркивает необходимость создания контента с четкими тематическими сигналами, понятными для машинных алгоритмов. Понимание того, что Google может оценивать значимость терминов на глобальном уровне (Keyword Repository), указывает на важность использования актуальной и значимой терминологии в вашей нише.

Практические примеры

Сценарий: Оптимизация статьи для улучшения автоматической перелинковки

Предположим, на сайте используется автоматический виджет «Похожие статьи», работающий по принципам патента, и настроенный на поиск внутри домена.

Ситуация: Опубликована статья «Влияние синего света на сон». Виджет предлагает ссылки на статьи о «Синих китах» и «Цветотерапии», игнорируя статьи о здоровье сна.
Анализ (по патенту): Система извлекла слова «синий», «свет», «сон». Вероятно, в Keyword Repository фраза «синий свет» имела более высокий глобальный ранг или была более доминирующей в тексте, чем «здоровье сна». Система выполнила поиск по запросу «синий свет site:example.com».
Действия SEO-специалиста:
- Уточнить Title: «Как улучшить здоровье сна: уменьшение влияния синего света».
- Скорректировать контент: Убедиться, что термины, связанные со «здоровьем сна», используются последовательно и заметно.
Ожидаемый результат: Система извлечения ключевых слов сфокусируется на более релевантной теме («здоровье сна») и сгенерирует ссылки на соответствующие статьи.

Вопросы и ответы

Описывает ли этот патент алгоритм ранжирования органического поиска Google?

Нет. Этот патент не описывает, как Google ранжирует сайты в основной поисковой выдаче (SERP). Он описывает технологию для автоматической генерации виджетов «Связанные ссылки» и «Похожие запросы», которые владельцы сайтов могут встраивать на свои страницы. Это система, которая использует поисковую технологию Google, но работает по собственным правилам для извлечения тем.

Что такое Keyword Repository и почему он важен?

Keyword Repository — это глобальная база данных, которая хранит ключевые слова и их статистическую значимость (рейтинг), основанную на анализе всего интернета и логов запросов. Он важен, потому что позволяет системе определить, какие из слов на странице являются наиболее важными и репрезентативными для ее темы в глобальном контексте, а не просто самыми частыми на этой конкретной странице.

Какие части страницы анализирует система для определения темы?

Система анализирует несколько источников: заголовок страницы (Title), основной текст (Body Text) и URL реферера. Особенно важно, что если пользователь пришел из поиска, система извлекает этот предыдущий поисковый запрос из реферера и считает его очень релевантным сигналом для содержания текущей страницы.

Как система обрабатывает основной текст страницы (Body Text)?

При анализе основного текста система сначала пытается удалить шаблонный контент (boilerplate), такой как навигация или футер. Затем оставшийся текст проходит NLP-обработку: определение языка, сегментацию на слова и фразы, а также очистку от стоп-слов. Это фокусирует анализ на уникальном контенте страницы.

Как этот патент влияет на стратегию внутренней перелинковки?

Он подчеркивает ценность автоматизации для масштабирования внутренних ссылок. Для SEO-специалистов это означает, что контент должен быть написан так, чтобы автоматизированные системы могли легко и точно определить его основную тему. Четкие заголовки и последовательное использование ключевых фраз помогают гарантировать, что генерируемые ссылки будут релевантными.

Может ли эта система генерировать внешние ссылки?

Да, может. Хотя патент часто упоминает сценарий использования для генерации внутренних ссылок (путем ограничения поиска тем же доменом, например, с помощью site:), базовый механизм позволяет искать связанные ссылки в любом наборе доменов или во всем интернете, если ограничения не установлены владельцем сайта.

Что делать, если автоматические блоки ссылок показывают нерелевантный контент?

Это указывает на то, что система неправильно интерпретирует тему страницы. Необходимо проанализировать заголовок и основной контент на предмет ясности и тематического фокуса. Убедитесь, что вы используете значимые термины и что основной контент не «зашумлен» большим количеством шаблонного текста или слишком широкой тематикой.

В чем разница между «Related Links» и «Related Searches» в этом патенте?

Related Links — это прямые ссылки на конкретные веб-страницы, которые система нашла релевантными. Related Searches (Похожие запросы) — это отображение самих ключевых слов, которые система использовала для поиска. Кликнув на них, пользователь может инициировать новый поиск по этому ключевому слову.

Как система определяет, какие ключевые слова использовать для поиска?

Система не использует все слова со страницы. После извлечения всех кандидатов она ранжирует их, используя глобальные данные из Keyword Repository. Для формирования поискового запроса используются только одно или несколько слов с наивысшим рейтингом, которые система считает наиболее репрезентативными для контента.

Использует ли система продвинутые NLP-модели, такие как BERT?

В данном патенте (подан в 2011 году) не упоминаются современные трансформерные модели типа BERT. Описанный механизм основан на более традиционных статистических методах и базовой NLP-обработке (сегментация, стоп-слова). Современные реализации подобных систем рекомендаций, вероятно, используют более продвинутые технологии для понимания контента.

Как Google автоматически генерирует блоки «Связанные ссылки» и «Похожие запросы», анализируя контент страницы при загрузке