
Патент Google описывает технический механизм доставки обновляемых (потоковых) результатов поиска в реальном времени. Система кодирует идентификаторы уже отправленных результатов в специальную строку состояния (State String) и передает ее клиенту через Polling URL. При запросе обновлений клиент возвращает эту строку, позволяя серверу отфильтровать дубликаты (как по URL, так и по контенту) перед отправкой новых данных.
Патент решает проблему эффективной доставки потоковых (streaming) результатов поиска в реальном времени. Когда пользователь наблюдает за обновляющейся выдачей (например, во время новостного события), система должна постоянно отправлять новый контент по мере его индексации, но избегать повторной отправки результатов, которые пользователь уже видел. Хранение состояния сессии для каждого пользователя на сервере ресурсоемко и плохо масштабируется. Патент предлагает решение, которое переносит задачу хранения состояния на сторону клиента.
Запатентован метод дедупликации потоковых результатов поиска с использованием состояния, управляемого клиентом. Идентификаторы уже отправленных результатов (Doc ID для URL и Content ID для контента) кодируются в строку состояния (State String) и встраиваются в URL для опроса (Polling URL). Когда клиент запрашивает обновления, он использует этот Polling URL, тем самым сообщая серверу, что он уже получил. Сервер использует эту информацию для фильтрации дубликатов перед отправкой новых данных.
Система работает следующим образом:
State String.State String встраивается в Polling URL и отправляется клиенту вместе с результатами и клиентским кодом (например, JavaScript/AJAX) для выполнения периодических запросов.Polling URL.State String, получает новые результаты из индекса, сравнивает их идентификаторы с теми, что в State String, и удаляет дубликаты.Polling URL (с добавленными новыми идентификаторами).Средняя. Технологии потокового поиска и обновления контента в реальном времени (например, в Новостях, блоках «Последние результаты», социальных лентах) остаются актуальными. Описанный механизм дедупликации с управлением состоянием на стороне клиента является надежным инфраструктурным решением для повышения эффективности и масштабируемости подобных систем.
Патент имеет минимальное значение (2/10) для практического SEO. Это чисто технический, инфраструктурный патент. Он не описывает факторы ранжирования или методы оценки качества контента. Он объясняет механизм доставки контента в специфических блоках выдачи (Streaming Search), но не дает SEO-специалистам прямых рычагов влияния на этот процесс, кроме понимания того, как Google технически обрабатывает дубликаты в реальном времени.
Polling URL без перезагрузки всей страницы.State String) и удаления дубликатов по Doc ID или Content ID.State String.Doc IDs и Content IDs всех потоковых результатов, ранее отправленных клиенту в текущей сессии. Позволяет серверу понять, какой контент клиент уже получил.Claim 1 (Независимый пункт): Описывает основной процесс предоставления недублирующихся результатов поиска с фокусом на идентификацию контента.
Polling URL, включающий уникальные идентификаторы для каждого результата из первого списка, причем каждый идентификатор представляет контент результата (Content ID).Polling URL.Polling URL] Система идентифицирует поисковые термины и уникальные идентификаторы из Polling URL.Polling URL (т.е. дубликаты).Polling URL, добавляя идентификаторы оставшихся (новых) результатов.Polling URL.Ядром изобретения является использование Polling URL для передачи состояния (полученного контента) от клиента обратно к серверу, что позволяет серверу эффективно выполнять дедупликацию без хранения состояния сессии у себя (stateless operation).
Claim 4 (Зависимый): Уточняет, что генерация Polling URL также включает кодирование информации, идентифицирующей URL, связанные с первым списком результатов (т.е. Doc IDs). Это обеспечивает дедупликацию не только по контенту, но и по адресу.
Claim 7 (Зависимый от 6): Уточняет, что кодирование информации о контенте (генерация Content ID) включает вычисление хеша (hash) части контента каждого документа.
Claim 9 (Зависимый от 1): Уточняет, что первый ответ также содержит исполняемый код (Client-Side Streaming Code), который инструктирует клиента отправлять периодические запросы обновлений, используя Polling URL.
Патент описывает инфраструктурный механизм доставки контента, который затрагивает несколько этапов поиска.
INDEXING – Индексирование и извлечение признаков
Чтобы механизм потокового поиска работал, новый контент должен быть быстро проиндексирован. На этапе индексирования система должна присваивать временные метки (timestamps) и генерировать Doc ID (хеш URL) и Content ID (хеш контента).
RANKING – Ранжирование
Система использует специфический тип ранжирования для генерации Recent Results (Потоковых результатов). Это ранжирование фокусируется на свежести (recency) и релевантности запросу, отбирая контент, добавленный в индекс недавно (например, за последние 60 секунд).
RERANKING / METASEARCH – Переранжирование / Доставка
Основное применение патента. Механизм работает во время активной сессии пользователя на странице SERP. Он управляет доставкой обновлений внутри специального блока выдачи (Streaming Results block). Система получает свежих кандидатов и фильтрует их (De-Duplication), удаляя те результаты, которые уже были отправлены клиенту, основываясь на State String.
Входные данные:
Polling URL, полученный от клиента (содержит Search Terms и текущий State String).Doc IDs и Content IDs).Выходные данные:
Polling URL (с модифицированным State String).Алгоритм применяется при следующих условиях:
Client-Side Streaming Code.Этап 1: Инициализация сессии
Doc IDs (на основе URL) и Content IDs (на основе хеша контента).State String.Polling URL, включающий поисковые термины и State String.Polling URL и Client-Side Streaming Code.Этап 2: Обновление потока (Цикл)
Polling URL.State String. State String декодируется обратно в список идентификаторов.Doc IDs и Content IDs для новых результатов и сравнивает их с идентификаторами из State String. Если найден дубликат (совпадение по Doc ID ИЛИ Content ID), результат отбрасывается.State String. При этом старые идентификаторы могут удаляться для контроля размера строки.Polling URL с обновленным State String.Polling URL клиенту.Система использует следующие типы данных для обеспечения своей работы:
Doc ID.Content ID.Polling URL.State String, чтобы он не превышал лимиты URL: Doc IDs за последнюю 1 минуту и Content IDs за последние 5 минут, исходя из предполагаемого объема внимания пользователя.Doc IDs и 50 Content IDs).Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO. Он дает понимание технических механизмов, обеспечивающих работу потокового поиска.
State String) на сторону клиента позволяет серверу не хранить данные сессий (stateless operation), что критично при большом количестве пользователей.Doc ID (по URL) и Content ID (по контенту). Это подтверждает способность Google эффективно распознавать и отфильтровывать не только полные дубликаты страниц, но и синдицированный или скопированный контент в реальном времени.State String показывает, как Google балансирует между точностью дедупликации и ограничениями веб-инфраструктуры (длина URL).Патент является инфраструктурным и не дает прямых практических выводов для SEO-ранжирования. Однако он предоставляет важный контекст для работы со свежим контентом и понимания обработки дубликатов.
Content ID для дедупликации означает, что Google активно фильтрует неуникальный контент в потоковой выдаче. Если вы публикуете новость, добавление уникальной ценности (аналитика, комментарии, дополнительные факты) критично, чтобы ваш контент не был сочтен дубликатом синдицированного источника и был показан в потоке.Content ID, скорее всего, идентифицирует его как дубликат. В потоковой выдаче приоритет может быть отдан только одной из копий.Content ID.Патент не меняет фундаментальные принципы SEO, но дает техническое понимание того, как Google управляет потоками данных в реальном времени. Для новостных сайтов, медиа и контент-провайдеров, зависящих от освещения текущих событий (QDF), это подтверждает стратегическую важность скорости и уникальности. Система спроектирована так, чтобы предоставлять пользователю разнообразный и не повторяющийся поток информации.
Сценарий: Дедупликация синдицированной новости
Content ID (например, Hash_R) и отправляет его пользователю в State String.State String, содержащий Hash_R.Content ID и получает Hash_R. Сервер сравнивает его с идентификаторами из State String, находит совпадение и исключает статью CNN из ответа.Влияет ли этот патент на ранжирование сайтов?
Нет, напрямую не влияет. Патент описывает исключительно механизм доставки и дедупликации результатов, которые уже были отобраны и ранжированы системой поиска (вероятно, с сильным уклоном в свежесть). Он не содержит информации о том, как улучшить позиции сайта или повысить качество контента в глазах Google.
Что такое Doc ID и Content ID и в чем разница?
Doc ID — это идентификатор (хеш) URL документа. Он уникален для каждого адреса. Content ID — это идентификатор (хеш) содержимого документа. Если один и тот же текст размещен на разных URL, у них будут разные Doc IDs, но одинаковый Content ID. Google использует оба идентификатора для обеспечения максимальной чистоты потока результатов.
Как Google обрабатывает синдицированный контент согласно патенту?
Синдицированный контент (например, новость от информагентства, опубликованная на нескольких сайтах) будет идентифицирован как дубликат с помощью Content ID. В потоковой выдаче система стремится показать только одну копию такого контента, отфильтровывая остальные. Это подчеркивает важность создания уникальной добавленной ценности при публикации новостей.
Для каких типов поиска этот механизм актуален?
Он актуален для запросов, где важна свежесть информации (QDF) и где выдача обновляется в реальном времени. Это касается блоков «Последние результаты», новостного поиска, освещения живых событий (спортивные матчи, выборы, конференции) и мониторинга социальных сетей (патент упоминает Twitter, Facebook, Google+).
Что означает управление состоянием на стороне клиента (Client State)?
Это означает, что информация о том, какие результаты пользователь уже получил, хранится не на сервере Google, а передается клиенту (браузеру) в виде закодированной строки (State String) внутри Polling URL. Это позволяет Google экономить ресурсы и масштабировать систему, так как серверу не нужно отслеживать сессию каждого пользователя (stateless operation).
Почему Google ограничивает размер строки состояния (State String)?
Поскольку State String передается как часть URL, она ограничена максимальной длиной URL, поддерживаемой браузерами и серверами. Для контроля размера Google использует оптимизации: хранит только частичные хеши (например, 21 бит вместо 64) и удаляет старые идентификаторы (например, старше 5 минут для Content ID).
Поможет ли этот патент лучше оптимизировать сайт под Google Новости или QDF?
Косвенно. Патент не дает советов по оптимизации, но он показывает, как строго Google относится к дубликатам контента в потоках реального времени. Для успеха в Google Новостях и подобных блоках необходимо фокусироваться на скорости индексации и уникальности публикуемого материала, чтобы избежать дедупликации по Content ID.
Может ли дубликат все же быть показан пользователю?
Да, в двух случаях, описанных в патенте. Во-первых, если идентификатор был удален из State String из-за ограничений по времени или размеру (например, старше 5 минут). Во-вторых, если системе не хватает новых уникальных результатов для поддержания потока, она может «ослабить» дедупликацию и отправить дубликат.
Как быстро контент должен быть проиндексирован, чтобы попасть в этот поток?
Чрезвычайно быстро. Механизм работает с результатами, которые были добавлены в индекс совсем недавно. В патенте упоминаются примеры запроса результатов, добавленных за последние 60 секунд. Это требует использования самых быстрых методов индексации.
Используется ли этот механизм дедупликации в стандартной веб-выдаче?
Патент фокусируется именно на потоковых (Streaming) результатах, которые обновляются динамически. Стандартная статическая веб-выдача («10 синих ссылок») использует другие механизмы дедупликации и кластеризации, которые происходят на этапах индексирования и ранжирования, а не во время доставки контента пользователю в реальном времени.

Свежесть контента
SERP
Антиспам

SERP
Техническое SEO
Индексация

Свежесть контента
Мультимедиа

Персонализация
Мультимедиа

Индексация
SERP
Краулинг

Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы

Ссылки
SERP
Индексация

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

EEAT и качество
Антиспам
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
Краулинг
Ссылки
