Как интернет-провайдер (на примере патента AT&T) может использовать данные о сетевом трафике для ранжирования результатов поиска

Анализ патента (Правообладатель: AT&T), описывающего систему поиска, которая ранжирует результаты на основе реальных данных о посещаемости и использовании веб-ресурсов (сетевого трафика). Система предполагает сбор данных на уровне интернет-провайдера с явного согласия пользователей (opt-in) для определения реальной популярности и релевантности ресурсов.

Описание

Какую задачу решает

Патент решает проблему ограниченности и неточности традиционных методов ранжирования, основанных на анализе гиперссылок (явно критикуется PageRank). Утверждается, что ссылки отражают мнение веб-дизайнеров, а не фактическую релевантность для конечных пользователей (user relevance), и подвержены манипуляциям. Изобретение предлагает альтернативу: ранжирование на основе реального сетевого трафика и вовлеченности пользователей.

Что запатентовано

ВАЖНО: Правообладателем патента является AT&T (AT&T Intellectual Property I, L.P.), а не Google. Запатентована система поиска, взвешенного по пользовательскому трафику (User Traffic Weighted Search), предназначенная для реализации на уровне сетевой инфраструктуры (например, Интернет-провайдера, ISP). Система осуществляет мониторинг фактического сетевого трафика (Traffic Data Monitoring) для сбора данных об использовании ресурсов (user usage data). Ключевым элементом является политика конфиденциальности, требующая явного согласия пользователей (opt-in) на мониторинг.

Как это работает

Система функционирует на уровне сетевого провайдера:

Согласие (Opt-in): Пользователи должны явно согласиться на мониторинг трафика. Взамен они получают результаты, взвешенные по трафику, или другие стимулы (incentives), например, скидки или лучший сервис.
Сбор данных (ISP-уровень): Специальный модуль (Usage Analysis Module) отслеживает сетевую активность на разных уровнях: пакетном (например, NetFlow), транспортном (TCP-соединения) и прикладном (HTTP-запросы).
Анализ использования: Собранные данные анализируются для расчета метрик использования (usage statistics), таких как время на сайте, количество посетителей, и сохраняются в Usage Data Repository.
Ранжирование: При обработке запроса система использует эти метрики для приоритизации результатов. Патент также описывает уникальную возможность для пользователя указывать в запросе, какие метрики использования для него важнее (Usage Criterion Weightings).

Актуальность для SEO

Низкая для Google SEO. Патент подан AT&T в 2007 году. Описанная модель поиска, управляемая ISP и основанная на глубоком анализе трафика, не получила распространения. Повсеместное внедрение HTTPS шифрования сделало мониторинг активности на прикладном уровне (конкретных URL) технически сложным для ISP. Кроме того, модель сталкивается с серьезными проблемами конфиденциальности. Google использует поведенческие сигналы, но собирает их иначе (Chrome, Android, SERP interactions), а не путем анализа пакетов на уровне ISP.

Важность для SEO

Минимальное прямое влияние (3/10). Этот патент AT&T описывает альтернативную архитектуру поиска, которая не используется Google. Он не дает практических рекомендаций по оптимизации для Google Search. Однако он имеет высокое концептуальное значение, подтверждая, что фактическое использование ресурса (вовлеченность, время на сайте) является мощным сигналом релевантности, потенциально более сильным, чем ссылки.

Детальный разбор

Термины и определения

Incentive (Стимул): Преимущество (финансовое, производительности или сервисное), предоставляемое пользователям, которые соглашаются (Opt-in) на мониторинг трафика.
NetFlow: Сетевой протокол, упомянутый как пример технологии для сбора информации об IP-трафике на пакетном уровне.
Opt-in / Opt-out (Согласие / Отказ): Механизм, позволяющий пользователям или поставщикам контента явно разрешить (Opt-in) или запретить (Opt-out) мониторинг своего трафика.
Traffic Data Monitoring (Мониторинг данных о трафике): Процесс сбора данных о сетевой активности пользователей на уровне сети (ISP), включая посещаемые ресурсы, частоту и продолжительность сессий.
Usage Analysis Module (Модуль анализа использования): Компонент системы (монитор данных о трафике), который отслеживает фактический сетевой трафик.
Usage Data Repository (Репозиторий данных об использовании): База данных, хранящая собранные статистические данные о трафике (например, количество посетителей, среднее время на странице).
Usage Parameter / Usage Criterion Weightings (Параметр использования / Веса критериев использования): Метрика использования (например, «среднее время на сайте»), которую пользователь может опционально указать и взвесить в своем запросе для уточнения критериев ранжирования.
User Traffic Weighted Search (Поиск, взвешенный по пользовательскому трафику): Метод ранжирования, при котором вес ресурса определяется на основе фактических данных о его использовании (трафике), а не на основе ссылочных связей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления результата поиска для клиентов, давших согласие.

Система получает запрос от клиента. Запрос включает указанный клиентом usage parameter (конкретно упоминается параметр, связанный с количеством времени, проведенным другим посетителем на веб-сайте).
Система определяет, дал ли клиент согласие (opted-in) на услугу мониторинга трафика. Упоминается, что сетевой провайдер предоставляет стимул (incentive) тем, кто дал согласие.
Если согласие дано, система предоставляет результат поиска, приоритезированный в соответствии с собранными данными об использовании (collected user usage data) И указанным клиентом usage parameter.

Ключевым аспектом является сочетание трех элементов: обязательное согласие пользователя на мониторинг, использование агрегированных данных о трафике и возможность пользователя явно указывать веса поведенческих метрик при ранжировании.

Claim 2 (Зависимый): Уточняет действия при отказе.

Если клиент отказался (opted-out) от мониторинга трафика, система предоставляет результат поиска, который НЕ приоритезирован в соответствии с собранными данными об использовании.

Это устанавливает два уровня качества поиска в зависимости от согласия на мониторинг.

Claim 13 (Независимый пункт): Описывает более общий метод использования агрегированных данных для любого пользователя.

Система получает запрос от пользователя (не обязательно клиента, давшего согласие). Запрос также включает usage parameter (о времени на сайте).
Система предоставляет результат поиска, приоритезированный в соответствии с collected user usage data, полученными от множества ДРУГИХ пользователей, которые ранее дали согласие на мониторинг (и получили за это стимул), и указанным usage parameter.

Этот пункт описывает, как данные, собранные от группы пользователей (opt-in), могут быть использованы для улучшения результатов поиска для всех пользователей системы.

Где и как применяется

Изобретение предполагает интеграцию поисковой системы с сетевой инфраструктурой Интернет-провайдера (ISP) или корпоративной сети (Intranet).

CRAWLING (Data Acquisition) – Сбор данных
Ключевую роль играет сбор данных о сетевом трафике. Usage Analysis Module постоянно мониторит активность пользователей, согласившихся на это, собирая данные на уровне сети доступа (Access Network). Это сбор поведенческих данных на инфраструктурном уровне.

INDEXING – Индексирование и извлечение признаков
На этом этапе данные о трафике анализируются и агрегируются. Usage Analysis Module генерирует статистику использования (usage statistics) и сохраняет ее в Usage Data Repository. Эти поведенческие признаки связываются с URL ресурсов. Система может поддерживать два индекса: один с учетом трафика (Repository for Search Data with Traffic Data Monitoring), другой – без.

QUNDERSTANDING – Понимание Запросов
Система должна интерпретировать не только ключевые слова, но и указанные пользователем веса для метрик использования (Usage Criterion Weightings), если они присутствуют в запросе.

RANKING / RERANKING – Ранжирование
Процесс ранжирования напрямую зависит от собранных данных о трафике. Система проверяет статус пользователя (opt-in/opt-out). Веса, основанные на использовании (например, время на сайте), являются основными факторами сортировки. Также применяются Usage Parameters, указанные пользователем.

Входные данные:

Данные сетевого трафика (пакеты, потоки, TCP соединения, HTTP запросы).
Настройки конфиденциальности пользователей (opt-in/opt-out список).
Поисковый запрос (ключевые слова + опциональные веса для Usage Parameters).

Выходные данные:

Ранжированный список результатов, взвешенный по данным о фактическом использовании ресурсов (при выполнении условий).

На что влияет

Типы контента и сети: Метод универсален, но применим только в рамках инфраструктуры, где он развернут (поисковый портал ISP, корпоративный интранет). Не влияет на механизмы ранжирования Google Search.
Популярность vs. Ссылки: Система явно отдает предпочтение ресурсам с высоким объемом трафика и высокими показателями вовлеченности, игнорируя ссылочный профиль.

Когда применяется

Условие реализации: Алгоритм может быть применен только организацией, имеющей возможность мониторинга всего сетевого трафика пользователя (ISP или Intranet).
Триггеры активации: Ранжирование на основе трафика активируется при обработке запроса, если:
1. Пользователь явно дал согласие (opted-in) на мониторинг (Claim 1).
2. ИЛИ система настроена на использование агрегированных данных для всех (Claim 13).

Пошаговый алгоритм

Этап 1: Настройка и сбор данных (Постоянный процесс)

Получение запроса на услугу: Система получает запрос от клиента на подключение услуги поиска, взвешенного по трафику.
Запись предпочтений: Система регистрирует предпочтения клиента (Opt-in или Opt-out). Предоставляются стимулы за Opt-in.
Активация мониторинга (Если Opt-in): Для клиентов, давших согласие, начинается мониторинг данных о трафике и сбор данных об использовании сети (network usage data).
Сбор сетевых данных: Сбор информации на уровне пакетов (NetFlow), транспортном (TCP) и прикладном (HTTP/FTP) уровнях.
Анализ трафика и обновление индекса: Система анализирует данные, рассчитывает статистику использования (время на сайте, количество посетителей и т.д.). Может применяться взвешивание по свежести (freshness parameter). Обновляется Usage Data Repository и индекс с данными о трафике.

Этап 2: Обработка запроса (В реальном времени)

Получение запроса: Система получает запрос. Запрос может включать ключевые слова и опциональные Usage Parameters с весами.
Идентификация клиента и проверка статуса: Система определяет статус согласия клиента (Opt-in/Opt-out).
Ранжирование (Вариант А): Если клиент дал согласие (или система использует агрегированные данные согласно Claim 13), система предоставляет результаты, приоритезированные в соответствии с данными мониторинга трафика и указанными Usage Parameters.
Ранжирование (Вариант Б): Если клиент не дал согласие (и система настроена согласно Claim 2), система предоставляет результаты без учета данных мониторинга трафика (используя стандартные методы).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных, собранных на сетевом уровне.

Технические факторы (Сетевой уровень):
- Информация о потоках пакетов (packet flow information): IP-адреса источника и назначения, количество пакетов. Упоминается технология NetFlow.
Технические факторы (Транспортный уровень):
- Информация транспортного уровня: Установка/завершение TCP соединения, порты источника и назначения.
Технические факторы (Прикладной уровень):
- Информация прикладного уровня: HTTP GET запросы, FTP RETRIEVE операции, запрошенные URL, размер полученного ресурса.
Пользовательские факторы:
- Явные предпочтения конфиденциальности (Opt-in/Opt-out).
- Указанные в запросе Usage Parameters (например, веса для метрик).
Временные факторы: Упоминается возможность взвешивания данных по свежести (freshness parameter), где недавние данные имеют больший вес.

Какие метрики используются и как они считаются

Система вычисляет конкретные метрики использования (usage statistics) на основе собранных данных о трафике. Примеры метрик:

#VISITORS (Количество посетителей): Количество уникальных пользователей (Number Unique Visitors).
AVG TIME (SECS) (Среднее время): Время, проведенное на странице (amount of time spent reviewing a page) или на сайте. Может использоваться время TCP-соединения (TCP Connection Time).
PAGE VIEWS/HOUR (Просмотры страниц в час).
Frequency of access (Частота доступа).
Объем трафика: Количество переданных пакетов.

Пользовательские веса (Usage Criterion Weightings):

Патент описывает уникальную возможность для пользователя указывать желаемые веса для метрик прямо в запросе. Пример из патента: «KEYWORDS: patent, USAGE CRITERION WEIGHTINGS: (TCP Connection Time: 70%), (Number Unique Visitors, 30%)». Это означает, что пользователь хочет, чтобы при ранжировании 70% веса приходилось на время соединения, а 30% – на количество уникальных посетителей.

Выводы

Правообладатель и контекст: Это патент AT&T, а не Google. Он описывает модель поисковой системы, управляемой Интернет-провайдером (ISP), которая предполагает полный доступ к сетевому трафику пользователей.
Приоритет использования над ссылками: Основная идея – заменить ссылочную авторитетность (PageRank) на авторитетность, основанную на фактическом использовании (User Traffic Weighted Search). Релевантность определяется популярностью и вовлеченностью.
Зависимость от Opt-in и мониторинга: Система критически зависит от явного согласия пользователей на глубокий мониторинг их трафика. Пользователям предлагаются стимулы (incentives) для получения этого согласия.
Пользовательский контроль над ранжированием: Патент предлагает функцию, не реализованную в массовых поисковых системах: возможность для пользователя указывать веса для различных метрик использования (Usage Criterion Weightings) прямо в запросе.
Технические и этические ограничения: Описанные методы сбора данных на прикладном уровне в значительной степени ограничены HTTPS шифрованием и вопросами приватности.
Отсутствие связи с алгоритмами Google: Патент не описывает, как Google собирает или использует поведенческие факторы. Google использует другие источники данных (Chrome, Android, SERP interactions), а не анализ пакетов на уровне ISP.

Практика

Практических рекомендаций для продвижения в Google на основе этого патента нет, так как он описывает систему, отличную от Google Search, и принадлежит AT&T.

Best practices (это мы делаем)

Хотя мы не можем влиять на механизмы этого патента, он подтверждает общую стратегическую важность оптимизации пользовательского опыта и вовлеченности.

Оптимизация вовлеченности (Engagement): Метрики, которые патент стремится измерить напрямую (Time on Site, Unique Visitors, глубина просмотра), являются универсальными индикаторами релевантности. Необходимо продолжать работу над качеством контента и UX для удержания пользователя, снижения отказов и увеличения времени взаимодействия.
Создание контента, привлекающего трафик: Ресурсы, которые действительно популярны и полезны, будут иметь преимущество в любой системе, учитывающей поведенческие факторы.
Поддержание актуальности: Так как патент упоминает freshness parameter для данных о трафике, важно регулярно обновлять контент и привлекать к нему свежий трафик.

Worst practices (это делать не надо)

В контексте описанной системы неэффективными будут:

Фокус только на ссылках: Патент явно критикует ранжирование, основанное исключительно на ссылках, как ненадежное и подверженное манипуляциям.
Игнорирование UX: Сайты с плохим UX будут иметь низкие метрики AVG TIME и, соответственно, низкое ранжирование.
Кликбейт и некачественный трафик: Привлечение трафика, который немедленно покидает сайт, приведет к плохим поведенческим метрикам. Система анализа на сетевом уровне потенциально может фильтровать простой ботовый трафик.

Стратегическое значение

Стратегическое значение этого патента для современного SEO минимально с практической точки зрения, но высоко с концептуальной. Он представляет собой пример альтернативного подхода к ранжированию, основанного на данных ISP. Он подтверждает, что идея использования поведенческих данных для ранжирования рассматривалась давно (2007 год) и подчеркивает важность работы над качеством продукта и контента (User-Centric SEO).

Практические примеры

Практических примеров применения данного патента в работе по SEO продвижению сайтов в Google нет. Приведем гипотетический пример работы описанной системы:

Сценарий: Поиск с указанием параметров использования в системе AT&T

Пользователь: Дал согласие (Opt-in) на мониторинг трафика.
Запрос: Пользователь ищет информацию по теме «patent» и хочет найти ресурсы, где люди проводят много времени. Он формирует запрос (как описано в патенте): KEYWORDS: patent, USAGE CRITERION WEIGHTINGS: (TCP Connection Time: 70%), (Number Unique Visitors, 30%).
Обработка: Поисковая система использует данные из Usage Data Repository. Она находит Сайт А (много посетителей, но низкое время пребывания) и Сайт Б (меньше посетителей, но высокое среднее время TCP-соединения).
Результат: Благодаря указанным весам (70% за время соединения), Сайт Б будет ранжироваться выше Сайта А, так как он лучше соответствует критериям использования, указанным пользователем.

Вопросы и ответы

Это патент Google?

Нет. Правообладателем (Assignee) является AT&T Intellectual Property. Патент описывает систему, которую мог бы реализовать Интернет-провайдер (ISP), имеющий доступ к сетевому трафику пользователей, а не то, как работает Google.

Использует ли Google описанный в патенте метод сбора данных о трафике?

Нет. Google не осуществляет мониторинг сетевого трафика на уровне пакетов или TCP соединений через сторонних ISP, как описано в патенте. Google собирает поведенческие данные через свои сервисы (Chrome, Android, Analytics, взаимодействие с SERP), а не через анализ сетевых пакетов на уровне провайдера.

В чем основная идея патента?

Основная идея – ранжировать результаты поиска на основе фактического использования веб-ресурсов (трафика, времени на сайте, количества посетителей), а не на основе ссылок. Это предлагается как более точный показатель релевантности по сравнению с PageRank.

Какие поведенческие метрики в патенте названы ключевыми для ранжирования?

Патент выделяет несколько ключевых метрик: количество уникальных посетителей (Unique Visitors), среднее время, проведенное на ресурсе (Avg Time или TCP Connection Time), количество просмотров страниц в час (Page Views/Hour) и общая частота доступа.

Что такое «Usage Criterion Weightings», упоминаемые в патенте?

Это уникальная функция, позволяющая пользователю явно указать в запросе, какие метрики использования для него важны и с каким весом. Например, пользователь может попросить систему учитывать время на сайте с весом 70%, а количество уникальных посетителей с весом 30%. Эта функция не реализована в современных массовых поисковых системах.

Что такое «Opt-in» в контексте этого патента?

Это явное согласие пользователя на то, чтобы Интернет-провайдер отслеживал всю его сетевую активность для использования этих данных в ранжировании. Взамен пользователь получает более качественные результаты поиска или другие бонусы (incentives), например, скидки на услуги.

Почему этот метод не используется повсеместно сегодня?

Есть несколько причин. Во-первых, повсеместное внедрение HTTPS шифрования скрывает большую часть данных прикладного уровня (например, конкретные URL) от Интернет-провайдеров. Во-вторых, глубокий мониторинг трафика вызывает серьезные вопросы конфиденциальности. В-третьих, доминирующая поисковая система (Google) не контролирует сетевую инфраструктуру (ISP) большинства пользователей.

Какова практическая польза этого патента для SEO-специалиста?

Практическая польза минимальна, так как он не описывает алгоритмы Google. Он полезен для понимания истории развития поиска и подтверждения того, что фокус на удовлетворении интента пользователя и обеспечении высокого качества взаимодействия (UX и вовлеченность) является универсальной долгосрочной стратегией.

Учитывает ли система свежесть поведенческих данных?

Да, в патенте упоминается возможность использования параметра свежести (freshness parameter). Система может придавать больший вес недавним данным об использовании по сравнению со старыми данными, что подчеркивает важность постоянного привлечения трафика.

Могут ли пользователи, не давшие согласие (opt-out), получить выгоду от этой системы?

Да, согласно Claim 13, система может использовать агрегированные данные, собранные от пользователей, давших согласие (opt-in), для улучшения ранжирования для всех пользователей. Таким образом, даже те, кто отказался от мониторинга, могут получить более релевантные результаты.