Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google интегрирует печатные издания (книги, журналы) в основную поисковую выдачу и управляет рекламой в них

    METHOD FOR SEARCHING MEDIA (Метод поиска медиа)
    • US7437351B2
    • Google LLC
    • 2008-10-14
    • 2003-09-30
    2003 EEAT и качество Индексация Краулинг Патенты Google

    Патент описывает инфраструктуру Google для оцифровки, индексирования и интеграции печатных изданий (книги, журналы) в результаты поиска наравне с веб-страницами. Он включает механизмы для получения разрешений от издателей (Permission Protocol), совместного ранжирования (Integrated Ranked Listing) и управления рекламой, включая ее динамическое обновление при показе результатов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему недоступности огромного массива информации, существующего только в офлайн-медиа (книги, журналы, научные статьи), для пользователей стандартного веб-поиска. Традиционные поисковые системы ограничивались индексацией веб-документов. Изобретение призвано устранить этот разрыв, позволяя находить и просматривать оцифрованный печатный контент через единый поисковый интерфейс.

    Что запатентовано

    Запатентована система и метод интеграции разнородных медиаисточников в единую поисковую систему. Суть изобретения заключается в создании отдельной поисковой базы данных, содержащей оцифрованные печатные издания (Published Items/Printed Items). Поисковая система одновременно ищет информацию в стандартном веб-индексе и в этой базе данных, а затем предоставляет пользователю интегрированный ранжированный список результатов (Integrated Ranked Listing), объединяющий веб-страницы и печатные материалы.

    Как это работает

    Система работает в несколько этапов:

    • Сбор данных: Печатные материалы сканируются (например, с помощью OCR) или получаются в электронном виде от издателей.
    • Обработка и хранение: Контент и оригинальная реклама сохраняются как отдельные, но связанные наборы данных (Data Sets). Реклама может быть снабжена ссылками на сайты рекламодателей.
    • Управление правами: Используется Permission Protocol, позволяющий владельцам авторских прав контролировать, какая часть контента будет показана пользователям.
    • Поиск и Ранжирование: При получении запроса система ищет релевантные результаты как в вебе, так и в базе печатных изданий. Результаты объединяются и ранжируются вместе.
    • Динамическая реклама: При показе результатов система может динамически обновлять (update advertisement information) или заменять рекламу, присутствовавшую в оригинальном издании.

    Актуальность для SEO

    Высокая. Этот патент, изобретателем которого является Ларри Пейдж, описывает фундаментальные принципы, лежащие в основе таких продуктов, как Google Books и Google Scholar, а также самой концепции Универсального Поиска (Universal Search) и смешивания вертикалей. Механизмы интеграции офлайн-контента в онлайн-поиск являются ключевой частью стратегии Google.

    Важность для SEO

    Влияние на SEO – среднее (6/10). Патент не описывает новые факторы ранжирования для стандартных веб-страниц. Однако он имеет высокое стратегическое значение для понимания структуры поисковой выдачи (SERP). Он описывает механизм, с помощью которого Google вводит в выдачу новые типы результатов (книги, статьи), которые конкурируют со стандартными «синими ссылками» за пространство и внимание пользователя. Для издателей и авторов, оптимизирующих контент под Google Books или Google Scholar, этот патент имеет первостепенное значение.

    Детальный разбор

    Термины и определения

    Advertisement Data Sets (Наборы данных рекламы)
    Электронное представление рекламы из печатных изданий. Хранятся отдельно от основного контента и содержат данные для связи с информацией о продукте или услуге (например, URL рекламодателя).
    Characterization (Характеристика)
    Представление результата поиска в выдаче (сниппет). Может включать заголовок, краткое изложение, выдержку (excerpt) или графику.
    Content Data Sets (Наборы данных контента)
    Электронное представление основного содержания печатного издания (текст статьи, страницы книги). Отличается от Advertisement Data Sets.
    Electronic Path / Electronic Reference (Электронный путь / Ссылка)
    Гиперссылка, ведущая от характеристики результата поиска к более полному электронному представлению элемента.
    Integrated Ranked Listing (Интегрированный ранжированный список)
    Единая поисковая выдача, в которой результаты из разных источников (веб-страницы и оцифрованные печатные издания) ранжируются совместно (смешанная выдача).
    Permission Protocol (Протокол разрешений)
    Механизм, позволяющий владельцам авторских прав (издателям) контролировать доступ к их оцифрованному контенту: разрешать, блокировать или устанавливать условия (например, оплату) для его отображения.
    Published Items / Printed Items (Опубликованные / Печатные элементы)
    Офлайн-медиа (книги, журналы, газеты), которые оцифровываются для включения в поисковую базу данных.
    Replica (Реплика)
    Точная копия. Электронное представление, сконфигурированное для отображения в виде, максимально близком к оригиналу печатной страницы.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на интеграции печатного контента и связанной с ним рекламы в веб-поиск.

    Claim 1 (Независимый пункт): Описывает основной метод интеграции и монетизации.

    1. Хранение Content Data Sets (печатный контент) и Advertisement Data Sets (реклама из этого контента) в поисковой базе. Рекламные данные отличаются от контента и включают данные для ссылок на продукт/услугу.
    2. Хранение индекса веб-документов.
    3. Получение поискового запроса.
    4. Идентификация релевантных веб-документов и печатных элементов путем поиска по обоим источникам.
    5. Идентификация Advertisement Data Sets, связанных с найденными печатными элементами.
    6. Генерация Integrated Ranked Listing, включающего характеристики как веб-документов, так и печатных элементов.
    7. Ключевой момент монетизации: Характеристика печатного элемента включает данные, предписывающие поисковой системе обновить рекламную информацию (update advertisement information), связанную с этим элементом.
    8. Предоставление электронной ссылки для доступа к дополнительной информации или ссылки на рекламируемый продукт.

    Claim 11 (Зависимый): Уточняет формат отображения.

    • Каждый Content Data Set настраивается для отображения в виде Replica (точной копии) соответствующего печатного элемента.

    Claim 15 (Зависимый): Детализирует контроль доступа.

    • Система блокирует отображение тех частей релевантных печатных элементов, которые не авторизованы для распространения (например, через Permission Protocol).

    Claim 16 (Зависимый): Детализирует альтернативную монетизацию.

    • Система встраивает (новые) рекламные объявления в Characterizations релевантных печатных элементов.

    Где и как применяется

    Изобретение затрагивает почти все этапы поисковой архитектуры, создавая параллельный конвейер для обработки печатных изданий и интегрируя его с веб-поиском.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    На этом этапе происходит не традиционное веб-сканирование, а сбор офлайн-данных. Это включает физическое сканирование (OCR) печатных изданий или получение электронных файлов напрямую от издателей.

    INDEXING – Индексирование и извлечение признаков
    Оцифрованные данные обрабатываются: извлекается текст, идентифицируются и сегментируются контент (Content Data Sets) и реклама (Advertisement Data Sets). Реклама обрабатывается для добавления ссылок. Также на этом этапе записываются данные Permission Protocol.

    RANKING – Ранжирование
    Система рассчитывает оценки релевантности для документов как из веб-индекса, так и из базы данных печатных изданий.

    METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
    Ключевой этап применения патента. Система объединяет результаты из разных источников и формирует Integrated Ranked Listing. Происходит смешивание (Blending) вертикалей (Web и Books/Scholar). Это означает, что оцифрованная книга может быть ранжирована выше, чем релевантная веб-страница (и наоборот).

    RERANKING – Переранжирование (Presentation Layer)
    На финальном этапе применяются правила отображения на основе Permission Protocol. Также может происходить динамическое обновление рекламы (update advertisement information), как указано в Claims, перед показом пользователю.

    Входные данные:

    • Физические печатные издания или их электронные файлы.
    • Данные от издателей о разрешениях (Permission Protocol).
    • Веб-индекс.
    • Пользовательский запрос.

    Выходные данные:

    • Интегрированная поисковая выдача (SERP), содержащая ссылки на веб-страницы и ссылки на оцифрованный печатный контент (например, результаты Google Books).
    • Потенциально обновленная или замененная реклама в рамках оцифрованного контента.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на доступность и видимость книг, журналов, газет, научных статей и других печатных материалов в веб-поиске.
    • Специфические запросы: Наибольшее влияние на исследовательские, академические и информационные запросы, требующие глубоких знаний или доступа к историческим публикациям.
    • Конкретные ниши или тематики: Академическая сфера, издательское дело, история, специализированные исследования.

    Когда применяется

    • Условия применения: Алгоритм применяется при обработке любого поискового запроса, так как система по умолчанию может искать в обоих источниках данных.
    • Триггеры активации: Смешивание результатов (Blending) активируется тогда, когда в базе данных печатных изданий обнаруживаются релевантные элементы, которые имеют достаточно высокий рейтинг для включения в Integrated Ranked Listing. Отображение контента зависит от статуса Permission Protocol.

    Пошаговый алгоритм

    Процесс А: Офлайн (Сбор данных и индексирование)

    1. Сбор данных: Получение печатных материалов путем сканирования (OCR) или через электронные каналы от издателей.
    2. Сегментация: Анализ макета страницы для разделения основного контента и рекламы.
    3. Хранение: Сохранение контента как Content Data Sets и рекламы как Advertisement Data Sets. Установление связи между ними.
    4. Обработка рекламы: Добавление к Advertisement Data Sets данных для связывания с информацией о продукте или URL рекламодателя.
    5. Управление разрешениями: Взаимодействие с издателями через Permission Protocol для определения статуса отображения (разрешено, заблокировано, условно).
    6. Индексирование: Индексирование текстового содержания для последующего поиска.

    Процесс Б: Онлайн (Обработка запроса)

    1. Получение запроса: Система получает запрос от пользователя.
    2. Параллельный поиск: Выполнение поиска одновременно в веб-индексе и в индексе печатных изданий.
    3. Извлечение результатов: Идентификация релевантных веб-документов и печатных элементов (Content Data Sets).
    4. Ассоциация рекламы: Определение Advertisement Data Sets, связанных с найденными печатными элементами.
    5. Ранжирование и Интеграция: Расчет оценок релевантности и создание единого Integrated Ranked Listing путем смешивания и сортировки результатов из всех источников.
    6. Динамическое обновление рекламы: Использование данных в результатах поиска для обновления или замены рекламной информации (как указано в Claim 1).
    7. Применение разрешений: Проверка Permission Protocol и блокировка неавторизованного контента.
    8. Отображение: Предоставление пользователю интегрированной выдачи с характеристиками и гиперссылками.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Полный текст печатных изданий, извлеченный с помощью OCR или полученный в цифровом виде.
    • Структурные факторы: Макет печатной страницы. Используется для сегментации контента и рекламы и для создания Replica.
    • Мультимедиа факторы: Изображения, фотографии и графика из печатных изданий.
    • Внешние данные (Права доступа): Разрешения на использование авторских прав, полученные от издателей через Permission Protocol.
    • Рекламные данные: Информация о рекламодателях и URL продуктов (для связывания рекламы). Данные для обновления рекламы (из рекламных систем).

    Какие метрики используются и как они считаются

    Патент не детализирует конкретные формулы ранжирования, но фокусируется на инфраструктуре интеграции и управления доступом.

    • Integrated Ranking (Интегрированное ранжирование): Ключевая концепция. Система способна сравнивать релевантность и качество веб-страниц и оцифрованных печатных материалов для формирования единого списка (Integrated Ranked Listing).
    • Статус разрешения (Permission Status): Метрика, основанная на Permission Protocol, определяющая возможность и объем отображения контента (можно/нельзя, сниппет/полный текст).
    • Ad Update Directives: Данные, включенные в характеристику результата поиска, которые инструктируют поисковую систему о необходимости обновления рекламной информации при отображении.

    Выводы

    1. Фундамент Универсального Поиска и Вертикалей: Этот патент является одним из основополагающих документов для стратегии Google по интеграции разнородных источников данных (офлайн и онлайн). Он описывает техническую базу для Google Books, Google Scholar и механизма смешивания вертикалей (Vertical Blending).
    2. Интегрированное Ранжирование (Integrated Ranking): Подтверждается, что Google разработал механизмы для прямого сравнения и ранжирования офлайн-контента наравне с веб-страницами. Печатные издания становятся прямыми конкурентами веб-сайтов в SERP.
    3. Управление авторскими правами как часть системы: Permission Protocol является центральным элементом, позволяющим индексировать защищенный авторским правом контент, предоставляя издателям контроль над его отображением и доступом.
    4. Сложные механизмы монетизации: Патент уделяет значительное внимание обработке рекламы. Это не просто оцифровка контента, но и стратегия его монетизации путем оцифровки старой рекламы, связывания ее с веб-сайтами и, что особенно важно, динамического обновления или замены рекламы в архивном контенте.
    5. Сохранение контекста (Replica): Подчеркивается важность отображения контента в виде реплики оригинала для сохранения визуального контекста.

    Практика

    Best practices (это мы делаем)

    Для SEO-специалистов (Общая стратегия):

    • Понимание конкуренции в SERP: Необходимо учитывать, что по многим информационным и исследовательским запросам веб-страницы напрямую конкурируют за видимость и клики с результатами из Google Books и Google Scholar (реализациями этого патента). Анализ выдачи должен включать оценку присутствия этих вертикалей.
    • Создание авторитетного контента (E-E-A-T): Поскольку система интегрирует высокоавторитетные источники (книги, научные статьи) в основную выдачу, это повышает общую планку качества в SERP. Создание контента экспертного уровня, сравнимого по глубине с печатными изданиями, становится критически важным.

    Для издателей и авторов:

    • Оптимизация под Google Books и Scholar: Участие в программах Google Books и Google Scholar критически важно для обеспечения видимости печатного контента. Необходимо предоставлять качественные данные и полные метаданные (автор, название, ISBN/ISSN, аннотация).
    • Управление видимостью через Permission Protocol: Издателям следует активно использовать инструменты управления доступом (аналогичные описанному Permission Protocol), чтобы контролировать, какие части контента видны пользователям, и направлять трафик на свои ресурсы или магазины.

    Worst practices (это делать не надо)

    • Игнорирование вертикальных результатов: Разработка контент-стратегии без учета того, что значительная часть трафика по теме может уходить в Google Books или Scholar.
    • Поверхностный контент по сложным темам: Попытка ранжироваться по исследовательским запросам с помощью поверхностного текста, когда Google имеет доступ к специализированной литературе по этой теме и интегрирует ее в выдачу.
    • Нарушение авторских прав: Массовая публикация сканов защищенного печатного контента на веб-сайтах. Google предпочитает работать напрямую с издателями через Permission Protocol.

    Стратегическое значение

    Патент имеет высокое стратегическое значение, так как описывает реализацию Универсального Поиска (Universal Search). Он демонстрирует, как Google технически подходит к задаче объединения и ранжирования контента из принципиально разных источников. Для SEO-стратегов это подчеркивает, что SERP — это не просто список веб-страниц, а динамическое пространство, где смешиваются различные типы медиа. Стратегия должна учитывать этот мультиформатный подход к поиску.

    Практические примеры

    Сценарий: Конкуренция веб-сайта с Google Books в SERP

    1. Задача: Продвинуть информационный сайт по запросу (например, «принципы работы квантового компьютера»).
    2. Анализ SERP (Применение патента): SEO-специалист видит, что помимо статей из Википедии и научных сайтов, в выдаче присутствует блок Google Books (Integrated Ranked Listing) со ссылками на главы из авторитетных учебников по физике.
    3. Действия SEO-специалиста:
      • Понять, что Google ценит академическую глубину и структурированное изложение по этому запросу.
      • Изучить, какие аспекты темы освещаются в этих книгах (используя доступные сниппеты).
      • Разработать контент-план для создания страницы, которая обеспечивает сравнимую глубину, использует авторитетные источники, но предоставляет более удобный формат (например, с интерактивными схемами или видео), которого нет в статических книгах.
    4. Ожидаемый результат: Создание контента, способного конкурировать по качеству и полноте с печатными источниками в интегрированной выдаче.

    Вопросы и ответы

    Является ли этот патент описанием Google Books?

    Да, этот патент описывает фундаментальные механизмы, которые лежат в основе работы Google Books и, вероятно, Google Scholar. Он охватывает процесс оцифровки печатных материалов, их интеграцию в поисковую выдачу наравне с веб-страницами, а также критически важные аспекты управления авторскими правами и монетизации через рекламу.

    Что такое «Integrated Ranked Listing» (Интегрированный ранжированный список)?

    Это ключевая концепция, означающая, что Google не разделяет результаты поиска на веб-страницы и печатные издания. Вместо этого все результаты объединяются в единый список и ранжируются по релевантности и качеству, независимо от их источника. Это основа Универсального Поиска, где книга может оказаться выше веб-сайта, и наоборот.

    Влияет ли этот патент на ранжирование моего обычного веб-сайта?

    Прямого влияния на алгоритмы ранжирования веб-страниц этот патент не оказывает. Однако он оказывает существенное косвенное влияние, изменяя конкурентную среду. Результаты из Google Books могут занимать высокие позиции по информационным запросам, смещая стандартные веб-результаты вниз и конкурируя с вашим сайтом за внимание пользователей.

    Что такое «Permission Protocol» (Протокол разрешений)?

    Это система, позволяющая издателям контролировать, как Google использует их защищенный авторским правом контент. Издатель может разрешить показ только сниппетов, нескольких страниц (предварительный просмотр), полного текста или полностью заблокировать доступ. Это механизм лежит в основе управления авторскими правами в Google Books.

    Патент много говорит о рекламе в печатных изданиях. Как Google ее использует?

    Google оцифровывает рекламу вместе с контентом и обрабатывает ее отдельно. Патент описывает несколько способов ее использования: показ оригинальной рекламы в виде реплики, связывание рекламы гиперссылкой с сайтом рекламодателя и, что самое важное, динамическое обновление рекламной информации (update advertisement information) в реальном времени при показе пользователю.

    Что означает, что данные хранятся в виде «Реплики» (Replica)?

    Это означает, что система стремится показать пользователю точную цифровую копию оригинальной печатной страницы, сохраняя верстку, шрифты, изображения и расположение элементов. Это обеспечивает аутентичный опыт чтения, как если бы пользователь просматривал физическую книгу или журнал.

    В чем разница между Content Data Sets и Advertisement Data Sets?

    Система анализирует макет страницы и разделяет основной контент (статьи, текст книги) и рекламные объявления. Это разделение позволяет управлять ими независимо: например, индексировать текст для поиска, а рекламу связывать с сайтом рекламодателя, обновлять или блокировать через Permission Protocol.

    Могу ли я оптимизировать свой веб-сайт, чтобы он ранжировался лучше, чем книги в Google Books?

    Да. Хотя книги часто обладают высоким авторитетом, веб-сайты могут иметь преимущества в свежести, интерактивности и удобстве использования. Ключ к успеху — создание контента исключительной глубины и качества (E-E-A-T), который лучше отвечает на запрос пользователя, чем доступные статические печатные источники.

    Кто является изобретателем этого патента и почему это важно?

    Изобретателем является Лоуренс (Ларри) Пейдж. Это подчеркивает стратегическую важность и фундаментальный характер этого изобретения для общей миссии Google по организации всей мировой информации, выходящей далеко за пределы только веб-контента.

    Является ли этот патент актуальным сегодня?

    Патент остается высокоактуальным. Он описывает базовую архитектуру интеграции различных медиаформатов в поиск. Продукты, основанные на этих принципах (Google Books, Universal Search), активно используются и развиваются Google. Кроме того, доступ к этому массиву оцифрованных данных может использоваться для обучения больших языковых моделей (LLM).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.