Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google связывает физические документы с цифровым контентом, индексирует частные сети и анализирует популярность чтения (Read Ranking)

    ADDING INFORMATION OR FUNCTIONALITY TO A RENDERED DOCUMENT VIA ASSOCIATION WITH AN ELECTRONIC COUNTERPART (Добавление информации или функциональности к отображаемому документу через ассоциацию с его электронным аналогом)
    • US20130332464A1
    • Google LLC
    • 2013-12-12
    • 2010-05-05
    2010 Индексация Патенты Google Поведенческие сигналы

    Инфраструктура для взаимодействия с отображаемыми (печатными или экранными) документами. Система использует захват текста (сканирование или голос) для идентификации электронного аналога, позволяя выполнять действия и добавлять аннотации. Патент также детально описывает механизмы индексирования контента в частных сетях, экспорта этих индексов в центральную поисковую систему и анализа популярности документов (Read Ranking) на основе пользовательских взаимодействий.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу интеграции преимуществ электронных документов с удобством использования «отображаемых документов» (rendered documents) – печатных материалов или текста на экране. Основная проблема – как предоставить пользователю доступ к цифровым функциям (поиск, копирование, покупка, аннотирование) при взаимодействии с физическим носителем, не требуя изменения процессов публикации. Также решается задача поиска и доступа к документам, расположенным в частных сетях (private networks), которые недоступны для стандартного веб-сканирования.

    Что запатентовано

    Запатентована система, которая связывает отображаемый документ с его электронным аналогом (electronic counterpart). Это достигается путем захвата (capture) небольшого фрагмента текста (оптически или акустически), использования этого фрагмента как поискового запроса для идентификации цифрового оригинала и последующего выполнения действий (actions) или предоставления дополнительной информации (markup). Ключевым элементом является инфраструктура для индексирования контента (включая частные сети) и анализа потока данных о взаимодействиях пользователей с документами.

    Как это работает

    Система работает в несколько этапов:

    • Захват и Распознавание: Пользователь сканирует или зачитывает фрагмент текста. Захваченные данные преобразуются в текст или сигнатуру (signature).
    • Поиск и Контекстный Анализ: Система формирует запрос и ищет совпадения в индексах. Используется контекст (история пользователя, время, местоположение) для разрешения неоднозначностей.
    • Индексирование и Фильтрация: Система поддерживает агрегированные индексы, которые могут включать экспортированные индексы из частных сетей. Доступ к таким документам может контролироваться на основе заданного порога соответствия (specified level of matching).
    • Анализ Разметки (Markup Analysis): Определяется дополнительная функциональность или данные, связанные с захваченным фрагментом.
    • Действие и Профилирование: Система выполняет действие (например, открывает документ) и агрегирует данные о запросе для анализа популярности (Read Ranking).

    Актуальность для SEO

    Высокая. Технологии, описанные в патенте, лежат в основе современных систем визуального поиска, таких как Google Lens, Google Books и систем корпоративного поиска. Хотя конкретные устройства (например, портативные сканеры) эволюционировали в камеры смартфонов, базовые концепции связи физического и цифрового мира, контекстного поиска, индексирования частного контента и анализа вовлеченности пользователей (Read Ranking) остаются крайне актуальными.

    Важность для SEO

    Влияние на стандартные SEO-стратегии для веба умеренное (5/10). Патент описывает инфраструктуру для специфических сценариев (взаимодействие с печатными документами, корпоративный поиск), а не алгоритмы ранжирования основного веб-поиска. Однако он имеет высокое стратегическое значение, так как раскрывает механизмы индексации контента вне публичного веба и подтверждает концепцию Read Ranking – оценку популярности контента на основе реального взаимодействия пользователей, что косвенно влияет на понимание сигналов качества.

    Детальный разбор

    Термины и определения

    Actions (Действия)
    Операции, выполняемые системой в результате захвата текста (поиск, покупка, аннотирование и т.д.).
    Aggregated Index (Агрегированный индекс)
    Индекс, поддерживаемый центральной поисковой системой, объединяющий данные из публичных источников и экспортированные индексы частных сетей.
    Autocorrelation (Автокорреляция)
    Метод распознавания текста путем сравнения смещенных копий изображения текста для определения смещений (offsets) между повторяющимися токенами. Используется для создания сигнатуры без полного OCR (Section 9.6).
    Capture (Захват)
    Процесс получения информации из отображаемого документа (оптически или акустически).
    Context (Контекст)
    Дополнительная информация (история пользователя, местоположение, время, цифровая активность), используемая для разрешения неоднозначности поиска (Section 13).
    Electronic Counterpart (Электронный аналог)
    Цифровая версия отображаемого документа.
    Exported Index (Экспортированный индекс)
    Индекс документов частной сети, переданный внешней поисковой системе для агрегации.
    Life Library (Библиотека жизни)
    Цифровой архив пользователя, хранящий историю захватов, аннотации и ссылки на сохраненные документы (Section 16.1).
    Markup (Разметка) / Overlay (Оверлей)
    Слой дополнительной функциональности или данных (гиперссылки, реклама, аннотации), ассоциированный с документом или его частью (Section 5).
    P-Commerce (П-Коммерция)
    Коммерческие транзакции, инициированные с бумаги (paper) через систему (Section 10).
    Private Network (Частная сеть)
    Сеть (например, корпоративная), документы в которой защищены и недоступны для публичного сканирования.
    Read Ranking (Ранжирование по чтению)
    Определение популярности документов или их частей на основе анализа данных о том, что и как часто читают (захватывают) пользователи. Аналог PageRank для оценки вовлеченности (Section 14.2).
    Rendered Document (Отображаемый документ)
    Документ, воспринимаемый человеком, будь то в печатной форме или на экране дисплея (Section 1.2).
    Signature (Сигнатура)
    Представление захваченного текста (например, текст после OCR или последовательность смещений токенов), используемое для идентификации документа.
    Specified Level of Matching (Заданный уровень соответствия)
    Пороговое значение, хранимое в индексе. Указывает, насколько сильно запрос должен соответствовать документу, прежде чем его существование будет раскрыто в результатах поиска. Используется для контроля доступа (Claims 21, 49, 55).

    Ключевые утверждения (Анализ Claims)

    Анализ фокусируется на Claims 21-55, присутствующих в данном документе (US20130332464A1), так как Claims 1-20 отменены (это заявка на продолжение).

    Claim 21 (Независимый пункт): Описывает метод работы сервера публикации индексов (Index Publication Server).

    1. Получение полнотекстового индекса электронных документов.
    2. Получение запроса, основанного на захвате текста из отображаемого документа.
    3. Определение уровня соответствия (level of query matching) между запросом и Документом 1 и Документом 2.
    4. Извлечение из индекса требуемого specified level of matching для Документа 1 и Документа 2.
    5. Определение, что фактический уровень соответствия для Документа 1 превышает его требуемый specified level of matching.
    6. В ответ на это – генерация результата поиска, идентифицирующего Документ 1.
    7. Агрегация индикаторов полученных запросов для генерации профиля (profile) запрашиваемых документов.

    Ядром изобретения является механизм контроля раскрытия информации о документе и механизм профилирования популярности. Владелец контента может задать в индексе порог (specified level of matching), который должен быть превышен запросом, чтобы документ появился в выдаче. Это защищает конфиденциальные документы, требуя высокой точности запроса (например, сканирования длинной уникальной фразы). Также защищается механизм агрегации данных о запросах для профилирования популярности документов (Read Ranking).

    Claim 46 (Зависимый от 21): Уточняет процесс исключения.

    1. Определение, что уровень соответствия для Документа 2 меньше, чем его требуемый specified level of matching.
    2. В ответ на это – принятие решения не генерировать результат, идентифицирующий Документ 2.

    Это подтверждает, что если порог не достигнут, документ активно исключается из выдачи.

    Claims 49 и 55 (Независимые пункты, Системные): Описывают систему агрегации индексов.

    1. Система содержит подсистему индексирования с как минимум двумя полнотекстовыми индексами.
    2. Как минимум один индекс сконфигурирован для хранения specified level of matching для документа, определяющего порог для раскрытия его существования.
    3. Подсистема запросов ищет по этим индексам, генерирует результаты на основе specified levels of matching и агрегирует данные запросов для профилирования.
    4. Запросы основаны на захвате текста из отображаемых документов.

    Эти пункты защищают архитектуру, позволяющую поисковой системе управлять несколькими индексами (например, публичным и частными) и применять различные правила доступа и раскрытия информации для каждого из них, основываясь на силе соответствия запроса.

    Где и как применяется

    Изобретение охватывает несколько этапов поисковой архитектуры, с акцентом на индексирование разнообразных источников и обработку запросов из физического мира.

    CRAWLING & INDEXING – Сканирование, Индексирование и Извлечение признаков
    Система описывает альтернативные методы сбора данных, особенно для частных сетей. Используется механизм экспорта индексов (Exported Index) из частной сети в центральную систему. На этапе индексирования сохраняется метаинформация: наличие печатной версии, ее популярность (Section 4.1.1), и критически важный параметр контроля доступа – Specified Level of Matching (Claims 21, 49, 55).

    QUNDERSTANDING – Понимание Запросов
    Запросы поступают как результат захвата (оптического или акустического). Система должна обработать этот ввод, учитывая потенциальные ошибки распознавания (OCR/Speech recognition errors) и используя Context (историю пользователя, время, место) для интерпретации (Section 13).

    RANKING – Ранжирование (и Фильтрация)
    При обработке запроса система использует агрегированный индекс. Ключевым этапом является фильтрация кандидатов: система сравнивает фактический уровень соответствия запроса с требуемым Specified Level of Matching для каждого документа. Документы попадают в выдачу, только если порог превышен (Claims 21, 46). Кроме того, данные о популярности чтения (Read Ranking, Section 14.2, Claims 21, 49, 55) могут использоваться как фактор ранжирования.

    METASEARCH / RERANKING – Метапоиск и Переранжирование
    На финальном этапе система определяет действия (Actions). Происходит анализ разметки (Markup Analysis) для предоставления пользователю дополнительных опций, информации или рекламы, связанных с захваченным фрагментом.

    На что влияет

    • Типы контента: Наибольшее влияние на контент, существующий как в цифровой, так и в печатной форме (книги, журналы, корпоративные документы, каталоги).
    • Специфические запросы: Запросы, инициированные через устройства захвата (например, Google Lens, Google Books search).
    • Ниши: Академические исследования, корпоративный поиск (Enterprise Search), издательское дело, электронная коммерция (P-Commerce).

    Когда применяется

    • Триггер активации: Когда пользователь инициирует захват данных с отображаемого документа.
    • Условия фильтрации: Когда запрос соответствует документу (особенно из частного индекса), для которого задан Specified Level of Matching. Система активирует проверку этого порога перед включением документа в результаты.
    • Сбор статистики: При каждом запросе система собирает данные для анализа популярности (Read Ranking) и профилирования.

    Пошаговый алгоритм

    Процесс А: Обработка захвата в реальном времени

    1. Захват данных: Получение оптических или акустических данных от устройства захвата.
    2. Распознавание и формирование запроса: Преобразование данных в текст или сигнатуру. Использование контекста для уточнения запроса.
    3. Поиск по агрегированному индексу: Отправка запроса в поисковую систему.
    4. Определение уровня соответствия: Поисковая система рассчитывает уровень соответствия (level of query matching) между запросом и документами-кандидатами.
    5. Проверка порогов раскрытия (Фильтрация): Для каждого кандидата система извлекает требуемый Specified Level of Matching из индекса.
      • Если фактический уровень > требуемого уровня: Документ включается в результаты.
      • Если фактический уровень < требуемого уровня: Документ исключается.
    6. Ранжирование и выбор: Ранжирование оставшихся кандидатов. Может использоваться статистика популярности (Read Ranking).
    7. Анализ разметки (Markup): Получение связанных действий, аннотаций или рекламы для идентифицированного местоположения.
    8. Выполнение действия: Предоставление результатов или выполнение действия (например, открытие документа, покупка).
    9. Сбор статистики: Агрегация данных о запросе для обновления профиля документа (Read Ranking) и пользователя (Life Library).

    Процесс Б: Индексирование частной сети (Офлайн)

    1. Идентификация документов: Обнаружение документов в частной сети.
    2. Определение метаданных и ограничений: Определение для каждого документа наличия печатной версии и требуемого Specified Level of Matching.
    3. Построение индекса: Создание локального индекса, включающего текст и метаданные/ограничения.
    4. Экспорт индекса: Передача индекса центральной поисковой системе.
    5. Агрегация: Центральная поисковая система объединяет экспортированный индекс с другими индексами.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа для индексации. Информация о шрифтах, разрывах строк и страниц (Section 4.1.1). Захваченный текст или сигнатура для поиска.
    • Технические факторы: Идентификаторы документов (URL, URI) в экспортированных индексах.
    • Поведенческие факторы (Context): История захватов пользователя (Life Library), недавние действия пользователя (печать, отправка по email), читательские привычки (Section 13).
    • Временные факторы: Время захвата, время дня, недавность печати или изменения документа.
    • Географические факторы: Местоположение пользователя, географическое распределение печатных версий документов (Section 13.2).
    • Пользовательские факторы: Идентификация пользователя, членство в группах (для доступа к частным индексам).
    • Системные данные (Metadata): Specified Level of Matching, индикатор наличия печатной версии, данные о популярности документа (Read Ranking).

    Какие метрики используются и как они считаются

    • Level of Query Matching (Уровень соответствия запроса): Метрика, определяющая, насколько хорошо захваченный текст соответствует документу. Может учитывать ошибки OCR, контекст и уникальность фразы.
    • Specified Level of Matching (Заданный уровень соответствия): Пороговое значение, хранимое в индексе, которое должен превысить Level of Query Matching для раскрытия документа (Claims 21, 46).
    • Read Ranking / Popularity (Рейтинг чтения / Популярность): Метрика, вычисляемая путем агрегации данных о запросах (Claims 21, 49, 55) и анализа потока данных (Section 14.2). Учитывает, кто, когда, где и какие части документа читает/захватывает.
    • Token Offsets (Смещения токенов): Используются в методе автокорреляции для создания сигнатуры текста (расстояние до следующего вхождения того же токена) (Section 9.6).

    Выводы

    1. Инфраструктура для связи физического и цифрового мира: Патент описывает обширную экосистему (устройства, индексы, сервисы) для интеграции отображаемых документов с их электронными аналогами. Это фундамент для сервисов типа Google Lens и Google Books.
    2. Индексирование частного контента и контроль доступа: Детально проработан механизм индексирования контента в частных сетях через экспорт индексов (Exported Index). Критически важным является механизм Specified Level of Matching (Claims 21, 49, 55), который позволяет владельцам контента контролировать, при каком уровне соответствия запроса документ будет показан в выдаче. Это позволяет защищать конфиденциальный контент, требуя высокой точности запроса.
    3. «Read Ranking» – Популярность как сигнал: Патент явно указывает на сбор и агрегацию данных о запросах для профилирования документов (Claims 21, 49, 55) и анализа популярности (Section 14.2). Это подтверждает, что Google может использовать данные о взаимодействии пользователей с контентом (что читают, что сканируют) как сигнал популярности и потенциально как фактор ранжирования для цифровых аналогов.
    4. Критичность контекста для поиска: Контекст (история пользователя, время, местоположение, недавняя активность) играет ключевую роль в разрешении неоднозначностей, особенно при коротких запросах (захваченных фразах).
    5. Markup как слой интерактивности: Концепция Markup позволяет динамически ассоциировать дополнительную информацию (включая рекламу и аннотации) с конкретными фрагментами текста.

    Практика

    Best practices (это мы делаем)

    Хотя патент в основном описывает инфраструктуру, из него можно извлечь несколько стратегических рекомендаций для SEO.

    • Создание контента, достойного вовлечения («ReadRank»): Поскольку патент описывает анализ популярности чтения (Read Ranking) через агрегацию взаимодействий, стратегии, направленные на глубокое вовлечение пользователей и стимулирование цитирования/копирования ключевых фрагментов, могут положительно влиять на оценку популярности документа. Это подтверждает важность создания контента, который пользователи действительно читают и находят ценным.
    • Создание уникальных и запоминающихся фраз: Обеспечьте наличие в тексте уникальных словосочетаний. Это улучшает идентифицируемость документа через системы захвата текста (например, Google Lens) и может быть критичным для доступа к защищенному контенту (преодоление Specified Level of Matching).
    • Оптимизация читаемости для OCR (Visual Search Optimization): Использовать четкие шрифты и контрастный дизайн в любых материалах (печатных или цифровых). Это облегчает распознавание (OCR) и повышает вероятность успешной идентификации контента через камеры устройств.
    • Для корпоративных SEO (Enterprise Search): Если используются системы интеграции внутреннего поиска, важно понимать механизм экспорта индексов и возможность настройки Specified Level of Matching для контроля доступа к конфиденциальным документам через внешние запросы.

    Worst practices (это делать не надо)

    • Использование шаблонного и неуникального текста: Контент, состоящий из клише или часто повторяющихся фраз, будет трудно однозначно идентифицировать с помощью коротких запросов или захвата текста.
    • Фокус только на поверхностном трафике: Игнорирование сигналов вовлеченности. Если контент привлекает трафик, но пользователи его не читают и не взаимодействуют с ним, он будет иметь низкий потенциальный Read Ranking.
    • Распространение контента только в виде изображений: Публикация документов в виде сканов без текстового слоя затрудняет их индексацию и делает невозможным поиск по ним с помощью описанных технологий.

    Стратегическое значение

    Патент демонстрирует долгосрочное видение Google по индексированию всего мирового контента, включая контент за пределами публичного веба (книги, частные сети). Он подчеркивает переход к контекстуальному поиску, основанному на поведении и окружении пользователя. Стратегическое значение для SEO заключается в подтверждении концепции Read Ranking – использовании реального потребления контента как метрики качества или релевантности. Это укрепляет важность создания контента, который действительно вовлекает пользователей.

    Практические примеры

    Сценарий: Применение «ReadRank» для повышения авторитетности статьи

    1. Ситуация: Издательство публикует научную статью в цифровом и печатном виде.
    2. Действия: Студенты и исследователи читают печатную версию и используют Google Lens или аналогичные инструменты для сканирования ключевых цитат и ссылок для сохранения в своих цифровых архивах (Life Library).
    3. Действие системы Google: Система агрегирует эти взаимодействия (Claims 21, 49, 55) и анализирует поток данных (Section 14.2). Система фиксирует высокую популярность (Read Ranking) этой статьи.
    4. Результат: Высокий Read Ranking может быть использован как сигнал авторитетности. Цифровая версия статьи может получить повышение в ранжировании в Google Scholar или основном поиске по релевантным запросам, так как система идентифицирует ее как часто читаемый источник.

    Вопросы и ответы

    Что такое «Read Ranking» и как он влияет на SEO?

    Read Ranking (Ранжирование по чтению) — это концепция определения популярности документов на основе анализа того, что и как часто пользователи читают и захватывают (сканируют) (Section 14.2, Claims 21, 49, 55). Для SEO это означает, что вовлеченность пользователей и реальное потребление контента (даже в печатном виде, если оно фиксируется системой) может служить сигналом популярности и авторитетности, потенциально влияя на ранжирование цифрового аналога документа.

    Что такое «Specified Level of Matching» и зачем он нужен?

    Specified Level of Matching (Заданный уровень соответствия) — это порог, который владелец контента может установить в индексе для своих документов (Claims 21, 49, 55). Поисковая система покажет документ в результатах только в том случае, если уровень соответствия запроса превышает этот порог. Это используется для защиты конфиденциального или частного контента, требуя очень точного запроса (например, сканирования длинной уникальной фразы).

    Как этот патент связан с индексированием контента за пределами публичного интернета?

    Патент детально описывает механизм индексирования частных сетей (Private Networks). Система внутри частной сети сама строит индекс и экспортирует его (Exported Index) в центральную поисковую систему (FIG. 7, 8, 13, 14). Это позволяет Google индексировать корпоративные документы или проприетарные базы данных, сохраняя при этом контроль доступа на стороне владельца контента.

    Какое значение имеет контекст (Context) в этом патенте?

    Контекст имеет решающее значение для разрешения неоднозначностей, особенно когда запрос представляет собой короткую захваченную фразу (Section 13). Система использует историю предыдущих сканирований пользователя, его местоположение, время суток и недавнюю цифровую активность (например, какие документы недавно печатались) для сужения круга поиска и точной идентификации документа.

    Что такое «Life Library» и какова ее роль?

    Life Library (Библиотека жизни) — это персональный цифровой архив пользователя, где хранится история всего, что он прочитал и захватил (Section 6.1, 16.1). Для пользователя это удобный архив. Для системы это ключевой источник данных о предпочтениях пользователя, который используется для улучшения контекстного поиска и для маркетингового анализа (Section 10.6).

    Влияет ли этот патент на ранжирование в обычном веб-поиске Google?

    Прямое влияние ограничено, так как патент фокусируется на поиске, инициированном захватом с отображаемых документов. Однако косвенное влияние возможно через механизм Read Ranking. Если Google применяет данные о популярности чтения (собранные через Google Books, Lens и т.д.) для оценки авторитетности цифровых документов в основном индексе, то этот патент описывает инфраструктуру для сбора этих данных.

    Что означает термин «Rendered Document»?

    Rendered Document (Отображаемый документ) — это любой документ, который может быть воспринят человеком (Section 1.2). Это включает в себя не только документы, напечатанные на бумаге, но и текст, отображаемый на экранах мониторов, телевизоров или киосков (Section 19.6). Система предназначена для работы с любым из этих носителей.

    Как система обрабатывает ошибки распознавания (OCR)?

    Система учитывает ненадежность распознавания (Section 3.4). Она может использовать «нечеткое» OCR, выдавая набор возможных совпадений с весами вероятности (Section 9.2). Также используется итеративное распознавание: предварительный поиск по приблизительному тексту определяет документы-кандидаты, а затем информация из этих кандидатов (например, шрифты, словари) используется для уточнения распознавания (Section 9.3).

    Что такое автокорреляция (Autocorrelation) в контексте патента?

    Это альтернативный метод распознавания, который не требует определения конкретных символов (Section 9.6). Система анализирует изображение текста на предмет повторяющихся элементов (токенов) и определяет расстояние между ними (Token Offsets). Эта последовательность смещений формирует сигнатуру (Signature), которая используется для поиска документа в индексе, минуя традиционный OCR.

    Есть ли в патенте информация о рекламе и монетизации?

    Да, патент активно обсуждает P-Commerce (Section 10). Он описывает контекстную рекламу, основанную на содержании сканируемого текста, истории пользователя и его местоположении. Также обсуждаются модели компенсации издателям и авторам на основе популярности их контента (Popularity-Based Compensation), измеренной через систему.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.