
Google создает "гибридный документ" для индексации блогов, объединяя информацию из разных источников: контент поста, данные из RSS/Atom фида, контекст всего блога (например, блогролл) и внешние связанные страницы (например, профиль автора). Это позволяет точнее определять релевантность и использовать контекстные сигналы для ранжирования отдельных постов.
Патент решает задачу повышения качества и точности поиска по блогам. Традиционное индексирование может упускать важный контекст, который находится за пределами основного контента поста (например, информация об авторе или ссылки в сайдбаре). Кроме того, система адресует проблему потенциальных расхождений между контентом в фидах (например, RSS/Atom) и фактическим контентом на веб-странице, что может быть признаком спама или манипуляций (cloaking).
Запатентована система создания обогащенного представления блога или отдельного поста, называемого Hybrid Document (Гибридный документ). Этот документ формируется путем извлечения и объединения данных из нескольких источников: фида блога (RSS или Atom), самой веб-страницы блога, страницы поста и других связанных документов (например, отдельной страницы профиля автора). Этот Hybrid Document затем используется поисковой системой для определения релевантности.
Система функционирует на этапе индексирования:
Hybrid Document, который индексируется поисковой системой.Средняя. Принципы, заложенные в патенте (важность контекста за пределами поста, значимость профиля автора как раннего сигнала E-E-A-T), остаются фундаментальными. Однако методы реализации, описанные в патенте (подача 2005 года), такие как парсинг блогроллов и сильная зависимость от структуры RSS/Atom, вероятно, устарели. Современные системы Google используют значительно более продвинутые NLP и ML модели для извлечения сущностей и понимания контекста, но базовый принцип обогащения индекса остается актуальным.
Патент имеет важное значение для понимания процессов индексирования контента. Он демонстрирует, что информация, отсутствующая в основном контенте страницы (например, местоположение автора, указанное на отдельной странице профиля, или ссылки в сайдбаре), может быть извлечена, связана с постом на этапе индексирования и использована для определения его релевантности. Это подчеркивает важность обеспечения доступности и полноты контекстной информации (особенно данных об авторе) для поисковых систем.
Claim 1 (Независимый пункт): Описывает основной метод создания и использования гибридного документа для отдельного поста.
Hybrid Document путем объединения первой и второй информации.Hybrid Document для определения релевантности поста поисковому запросу.Ядро изобретения заключается в том, что для ранжирования поста используется не только его собственное содержимое (Первая информация), но и контекст, извлеченный из других источников (Вторая информация).
Claim 2, 3, 4 (Зависимые): Уточняют источники и типы Второй информации.
Claim 5, 6 (Зависимые): Уточняют еще один источник Второй информации.
Claim 11 (Независимый пункт): Описывает процесс поиска с использованием индекса, созданного из гибридных документов.
Claim 24 (Независимый пункт): Описывает метод индексации последующих постов на основе данных, полученных с главной страницы.
Этот пункт описывает, как контекстная информация, собранная ранее (например, при сканировании главной страницы), может быть применена к новым постам при их индексации.
Claim 25 (Независимый пункт): Описывает комплексный процесс индексации и поиска.
Изобретение применяется на ранних этапах поискового конвейера, формируя основу для последующего ранжирования.
CRAWLING – Сканирование и Сбор данных
Система активно получает данные из разных источников: принимает или загружает фиды (RSS/Atom), сканирует веб-документы блога и поста, а также переходит по ссылкам на связанные документы (например, профиль автора).
INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит:
Hybrid Document путем синтеза извлеченной информации.Hybrid Document и сохранение его (или индекса на его основе) в базе данных.RANKING – Ранжирование
Алгоритмы ранжирования используют индекс, созданный на основе Hybrid Documents. Оценка релевантности (IR Score) рассчитывается с учетом обогащенной информации, содержащейся в гибридном документе.
Входные данные:
Выходные данные:
Hybrid Documents, представляющие собой обогащенное внутреннее представление блогов и постов.Hybrid Documents.Алгоритм применяется в процессе индексирования (или переиндексирования) контента, идентифицированного как блог или пост блога. Сравнение данных и создание Hybrid Document происходит каждый раз, когда система обрабатывает фид блога или сканирует его веб-страницы.
Процесс создания Гибридного Документа
Hybrid Document может не создаваться или ему присваивается очень низкий рейтинг.Hybrid Document.Hybrid Document (или информация из него) сохраняется в поисковом индексе.Система использует широкий спектр данных, извлеченных из разных источников:
Патент не предоставляет конкретных формул или метрик ранжирования, но описывает следующие механизмы оценки:
Hybrid Documents. Упоминаются стандартные методы расчета IR Score (количество вхождений терминов, местоположение терминов, вес терминов, близость терминов).Hybrid Document).Hybrid Document, а не просто сырого HTML страницы. Это позволяет учитывать все собранные контекстные сигналы при расчете IR Score.Hybrid Document, необходимо предоставлять полные и точные данные об авторах. Убедитесь, что профили легко обнаруживаются и доступны для сканирования, даже если они находятся на отдельных страницах "Об авторе" или "Команда".Hybrid Document и определения релевантности (и оценки E-E-A-T).Hybrid Document.Этот патент демонстрирует ранние усилия Google по выходу за рамки простого анализа контента страницы и переходу к контекстному индексированию. Он подтверждает стратегическую важность сущностей (в данном случае, авторов) и их атрибутов (профили, местоположение) для понимания контента. Для SEO-стратегии это подчеркивает необходимость обеспечения чистого, консистентного и семантически богатого представления данных для поисковых систем, охватывающего как сам контент, так и его контекст.
Сценарий: Улучшение локального ранжирования блога о путешествиях
Hybrid Document, который включает контент обзора кофеен И атрибут автора "Местоположение: Сиэтл".Hybrid Document, пост имеет высокие шансы ранжироваться по запросу "Лучшие кофейни для работы Сиэтл", даже если слово "Сиэтл" не часто упоминается в самом посте.Что такое "Hybrid Document" и могу ли я его увидеть?
Hybrid Document — это внутреннее представление вашего блога или поста, которое Google создает на этапе индексирования. Оно объединяет информацию из разных источников: HTML-страницы, RSS-фида, связанных страниц (например, профиля автора). Вы не можете увидеть его напрямую; это структура данных, используемая Google для более точного расчета релевантности.
Насколько важен RSS/Atom фид для SEO согласно этому патенту?
Фид играет критически важную роль в описанной системе. Он используется как источник для извлечения контента, временных меток и метаданных. Что еще более важно, он используется для верификации: система сравнивает контент в фиде с контентом на веб-странице для обнаружения спама и манипуляций.
Может ли информация на странице "Об авторе" повлиять на ранжирование отдельного поста?
Да, абсолютно. Патент описывает механизм, при котором система переходит по ссылкам на полные профили авторов, извлекает оттуда информацию (например, географическое положение) и включает ее в Hybrid Document поста. Это означает, что атрибуты автора становятся частью индексируемого представления поста и влияют на его релевантность.
Что произойдет, если мой RSS-фид отличается от контента на сайте?
Патент описывает это как потенциальный индикатор нелегитимности или спама (например, клоакинга или наполнения фида ключевыми словами). Если система обнаружит значительные расхождения, Hybrid Document может быть не создан, или посту может быть присвоен очень низкий рейтинг. Критически важно поддерживать консистентность данных.
Учитывает ли Google ссылки в сайдбаре (Blogroll) при ранжировании постов?
Согласно этому патенту, блогролл является одним из типов информации, которая извлекается со страницы блога и включается в Hybrid Document. Это означает, что он используется для формирования контекста блога. Хотя прямое влияние блогроллов на SEO сегодня минимально, патент подтверждает, что Google анализирует элементы за пределами основного контента для понимания контекста.
Применяется ли этот патент только к блогам или ко всем сайтам?
Патент специфически описывает методы для "Индексирования и извлечения блогов", используя характерные для них элементы (посты, фиды, блогроллы). Однако базовый принцип — создание обогащенного внутреннего представления путем синтеза данных из основного контента и связанного контекста — применим ко многим типам контента в современном поиске.
Как этот патент связан с E-E-A-T?
Этот патент можно рассматривать как раннюю реализацию принципов E-E-A-T, особенно в части "Авторства" (Authorship) и "Экспертизы" (Expertise). Акцент на извлечении и использовании профиля автора для обогащения индекса напрямую связан с попыткой понять, кто создал контент и каков его контекст.
Если я использую краткое описание автора на странице поста и ссылку на полный профиль, увидит ли Google полный профиль?
Да. Патент явно описывает сценарий, когда система обнаруживает краткий профиль автора и ссылку на полный профиль, переходит по этой ссылке, извлекает информацию с полной страницы профиля и использует ее для создания Hybrid Document.
Означает ли этот патент, что контент главной страницы влияет на ранжирование всех постов?
Да, в определенной степени. Claim 24 описывает парсинг главной страницы для получения контекстной информации (из источника, отличного от постов) и последующее использование этой информации при индексировании новых постов. Это подчеркивает важность контекста на уровне всего сайта (блога).
Актуален ли этот патент, учитывая, что он подан в 2005 году?
Хотя конкретные технические детали (например, парсинг блогроллов) могли устареть и быть заменены более сложными системами (NLP, Machine Learning), фундаментальные принципы остаются актуальными. Принцип обогащения индекса за счет контекста и информации об авторе является краеугольным камнем современного поиска Google.

Свежесть контента

Персонализация
Поведенческие сигналы
Ссылки

EEAT и качество
Антиспам
Ссылки

Поведенческие сигналы
Персонализация
Семантика и интент

SERP
Индексация
Персонализация

Поведенческие сигналы
Ссылки
SERP

Поведенческие сигналы
Семантика и интент
SERP

Техническое SEO
SERP
Ссылки

Knowledge Graph
Свежесть контента
Семантика и интент

Local SEO
SERP
Ссылки

Персонализация
Семантика и интент
Local SEO

Ссылки
Мультимедиа
Поведенческие сигналы

Ссылки
Антиспам
SERP

Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы
Local SEO
