Как Google оптимизирует сканирование социальных сетей, разделяя посты и комментарии

GENERIC SCHEDULING (Универсальное планирование)

US10216694B2
Google LLC
2015-08-24
2019-02-26

Краулинг

Патент описывает инфраструктурную систему для эффективного сканирования социальных сетей. Контент разделяется на «Посты» (основной контент) и «Вовлеченность» (комментарии, ответы). Система адаптивно планирует сканирование: проверяет комментарии реже, если API социальной сети уведомляет об обновлениях, и чаще (по расписанию), если уведомлений нет. Это позволяет оптимизировать ресурсы и соблюдать лимиты API.

Какую проблему решает

Патент решает задачу эффективного и гибкого планирования сканирования (crawling) контента из внешних API, в частности социальных сетей (managed account-type sources). Он направлен на оптимизацию использования ресурсов и соблюдение ограничений скорости запросов (API rate limits) при работе с контентом, который обновляется с разной частотой (например, посты и комментарии к ним).

Что запатентовано

Запатентована система универсального планирования для сбора данных из социальных сетей. Ключевая особенность — разделение контента источника на две категории: Posts (контент верхнего уровня) и Engagements (производный контент, например, комментарии и ответы). Система использует адаптивные стратегии планирования, отдельные очереди и рабочие процессы для каждой категории, чтобы оптимизировать сбор данных.

Как это работает

Система использует планировщик (Scheduler), который запускает отдельные потоки для Posts и Engagements. Задачи на сканирование помещаются в очередь (Scheduling Queue). Рабочие процессы (Managed Account Worker) извлекают задачи, запрашивают данные у API социальной сети (согласовывая это с Throttling Manager для контроля квот) и сохраняют их. Ключевой механизм — адаптация: если API уведомляет о новых комментариях, система ждет уведомления (оптимизируя запросы); если нет — проверяет обновления периодически на основе частоты (check rate).

Актуальность для SEO

Средняя. Патент описывает базовые инфраструктурные принципы управления краулингом через API. Эти принципы остаются актуальными для эффективного сбора свежих данных и управления нагрузкой на внешние сервисы. Однако это сугубо технический патент, не связанный с алгоритмами ранжирования.

Важность для SEO

Влияние на SEO минимальное (Инфраструктура). Патент описывает внутренние механизмы сбора данных из социальных сетей (CRAWLING), а не алгоритмы ранжирования веб-поиска. Он не содержит информации о факторах ранжирования или оценке качества контента. Он дает общее представление о том, как технически организован сбор социальных данных, но не предлагает прямых действий для SEO-специалистов.

Термины и определения

Managed Account-type source (Источник типа управляемого аккаунта): Внешний источник контента из социальной сети (упоминаются Google+, LinkedIn), данные из которого собирает система.
Posts (Посты): Контент верхнего уровня.
Engagements (Вовлеченность): Производный контент, связанный с постом верхнего уровня (комментарии, ответы).
Scheduler (Планировщик): Компонент, управляющий временем и частотой сканирования внешних сущностей.
Scheduling Queue (Очередь планирования): Хранилище (например, Redis Queue) для задач на сканирование. Используются отдельные очереди для Posts и Engagements.
Managed Account Worker (Рабочий процесс управляемого аккаунта): Процесс, который берет задачи из очереди, запрашивает контент у API социальной сети, парсит ответ и сохраняет данные.
Throttling Manager (Менеджер регулирования нагрузки): Централизованный компонент, управляющий квотами API и ограничениями скорости запросов (rate limits).
Check Rate (Частота проверки): Интервал для периодического сканирования Engagements, если API социальной сети не поддерживает уведомления об обновлениях.
ADS LookUp Service (Служба поиска ADS): Служба, управляющая информацией об аккаунтах, авторизацией (access tokens) и рассчитывающая ограничения скорости на уровне пользователя.
Actual User Limit (Фактический лимит пользователя): Рассчитанная метрика для управления троттлингом, основанная на общей квоте приложения и количестве пользователей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод планирования сканирования (crawl) контента из социальной сети.

Контент разделяется на категорию «пост» (основной контент) и категорию «вовлеченность» (ответный контент).
Запускаются два потока: первый получает объект для сканирования постов, второй — для сканирования вовлеченности.
Определяется тип социальной сети (Тип 1 или Тип 2).
Если Тип 1:
- Запись для постов обновляется следующим временем выборки (next fetch time).
- Таблица активной вовлеченности обновляется значением, которое заставляет процессор *воздержаться* от выборки контента вовлеченности до тех пор, пока не будет определено наличие нового контента.
Если Тип 2:
- Сканирование контента перепланируется в соответствии с частотой проверки (check rate).
Расписание сканирования устанавливается в зависимости от типа социальной сети.

Ядро изобретения — это адаптивный механизм планирования, который оптимизирует ресурсы краулера в зависимости от возможностей API социальной сети. Тип 1 подразумевает, что API уведомляет систему о наличии новых комментариев (например, через счетчик комментариев). Система экономит ресурсы, не проверяя комментарии без необходимости. Тип 2 подразумевает, что API не предоставляет таких уведомлений, вынуждая систему регулярно опрашивать источник с использованием check rate.

Claim 16 (Зависимый от 1): Уточняет, что если социальная сеть (Типа 2) поддерживает ограничения скорости на основе пользователя (user-based rate limit), то расписание сканирования корректируется на основе этого ограничения.

Система динамически адаптирует частоту сканирования, чтобы избежать превышения квот API, выделенных социальной сетью для конкретного пользователя или аккаунта.

Где и как применяется

Патент полностью сосредоточен на этапе CRAWLING – Сканирование и Сбор данных (Crawling & Data Acquisition).

Он описывает инфраструктуру для планирования и выполнения запросов с целью получения контента через API социальных сетей, а не стандартное сканирование веб-страниц.

Взаимодействие компонентов:

Scheduler: Определяет расписание и наполняет Scheduling Queue.
Managed Account Worker: Извлекает задачи из очереди и выполняет запросы к API.
Throttling Manager: Контролирует частоту запросов к API, предотвращая превышение квот.
ADS LookUp Service: Предоставляет данные авторизации и рассчитывает rate limits.

Входные данные:

Список управляемых аккаунтов (Managed Accounts).
Временные метки (next fetch time) и частота проверок (Check Rate).
Конфигурация API социальных сетей (поддержка уведомлений).
Данные об ограничениях скорости (Rate Limits) и токены авторизации.

Выходные данные:

Собранный контент из социальных сетей (посты и данные о вовлеченности), сохраненный в базе данных системы через Batch Insert process.

На что влияет

Конкретные типы контента: Влияет исключительно на процесс сбора данных из социальных сетей (в патенте упоминаются Google+ и LinkedIn как примеры).
Патент не описывает влияние на ранжирование веб-страниц, товаров или любого другого контента в основном поиске Google.

Когда применяется

При каких условиях работает алгоритм: Алгоритм применяется постоянно для управления расписанием сканирования запланированных социальных аккаунтов.
Триггеры активации: Истечение запланированного времени сканирования (next fetch time).
Адаптация: Логика планирования адаптируется в зависимости от типа API (наличие уведомлений) и при приближении к пороговым значениям Rate Limits.

Пошаговый алгоритм

Процесс планирования и сбора данных

Инициализация Планировщика: Система запускает Scheduler для определенного типа источника (социальной сети).
Разделение Контента: Контент источника разделяется на Posts (верхний уровень) и Engagements (комментарии, ответы).
Запуск Потоков: Планировщик запускает два отдельных потока: один для постов, другой для вовлеченности.
Выборка Записей для Сканирования:
- Поток постов ищет аккаунты, которые пора сканировать, основываясь на next fetch time.
- Поток вовлеченности ищет объекты вовлеченности (active engagement objects), которые пора проверить на обновления.
Проверка Очереди: Планировщик проверяет, нет ли уже такой задачи в Scheduling Queue, чтобы избежать дублирования.
Добавление в Очередь: Задачи помещаются в соответствующую очередь (отдельные очереди для постов и вовлеченности).
Обработка Рабочим Процессом: Managed Account Worker подключается к очереди и извлекает задачу.
Согласование Квоты API: Рабочий процесс связывается с Throttling Manager для проверки доступной квоты API.
Выполнение Запроса и Сохранение: Рабочий процесс выполняет запрос к API, парсит ответ (например, с помощью Blog Parsing Adapter) и отправляет данные в Batch Insert process.
Адаптивное Перепланирование (Ключевой этап):
- Для постов: Обновляется next fetch time.
- Для вовлеченности:
  - Если API поддерживает уведомления (Тип 1): next fetch time устанавливается в null. Проверка приостанавливается до обнаружения нового контента.
  - Если API не поддерживает уведомления (Тип 2): Пост перепланируется с использованием стандартной частоты (check rate).
Корректировка по Rate Limits: Если предполагаемая нагрузка на API превышает квоту пользователя (для user-based rate limits), планировщик снижает частоту проверок (check rate), чтобы избежать блокировок.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на технических и системных факторах, необходимых для управления краулингом.

Технические факторы:
- Тип социальной сети (Managed Account Type).
- Конечные точки API (Endpoints).
- Значение курсора (Cursor Value) для пагинации ответов API.
- Идентификатор частоты проверки (Check Rate ID).
- Данные об ограничениях скорости (Rate Limits).
- Данные авторизации (access tokens).
Временные факторы:
- Время следующей выборки (Next Fetch Time).
- Интервалы выборки (Fetch Interval).

Какие метрики используются и как они считаются

Check Rate (Частота проверки): Интервал, используемый для планирования сканирования вовлеченности для источников Типа 2.
Оценка нагрузки API: Система рассчитывает предполагаемое общее количество вызовов API. Эта оценка сравнивается с доступными квотами.
Actual User Limit (Фактический лимит пользователя): Метрика для адаптации расписания и регулирования запросов для API с пользовательскими лимитами. В патенте приводится формула расчета:
$\text{Actual User Limit} = \text{Application Daily Quota} / \text{Number of Current Users}$

Патент описывает исключительно инфраструктурные процессы управления краулингом социальных сетей и не дает практических выводов для SEO-специалистов.

Инфраструктура Сбора Данных: Патент описывает систему, разработанную для эффективного сбора данных с учетом ограничений и особенностей API различных социальных платформ.
Разделение Контента: Ключевая особенность архитектуры — раздельная обработка основного контента (Posts) и производного (Engagements), так как они имеют разные характеристики обновления и требуют разных стратегий сканирования.
Адаптивное Планирование: Система адаптивно управляет частотой сканирования. Она снижает нагрузку, если API предоставляет уведомления о новом контенте (Тип 1), и использует регулярные проверки (Check Rate), если уведомлений нет (Тип 2).
Управление Нагрузкой (Throttling): Реализован сложный механизм защиты от превышения лимитов API через централизованное регулирование (Throttling Manager) и динамическую корректировку расписания.
Отсутствие связи с SEO: Патент не затрагивает аспекты ранжирования, индексирования или оценки качества контента в веб-поиске.

Патент является инфраструктурным и не дает практических выводов для SEO.

Best practices (это мы делаем)

Не применимо. Патент не содержит рекомендаций для SEO.

Worst practices (это делать не надо)

Не применимо. Патент не описывает борьбу с SEO-манипуляциями.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает, что у Google есть сложные технические решения для масштабного и эффективного сбора данных из социальных сетей. Это косвенно указывает на важность мониторинга социального контента. Однако патент не раскрывает, как именно эти собранные данные используются в алгоритмах ранжирования основного поиска.

Практические примеры

Практических примеров для SEO нет, так как патент описывает внутреннюю работу краулера социальных сетей.

Описывает ли этот патент использование социальных сигналов в ранжировании?

Нет. Патент сосредоточен исключительно на этапе CRAWLING — как система планирует и технически осуществляет сбор данных (постов и комментариев) из социальных сетей через API. Он не содержит информации о том, как эти данные используются для ранжирования результатов веб-поиска.

В чем разница между "Posts" и "Engagements" в контексте патента?

Posts — это основной контент верхнего уровня (например, статус в социальной сети). Engagements (вовлеченность) — это производный контент, такой как комментарии, ответы, лайки к этому посту. Система планирует их сканирование и обрабатывает раздельно для повышения эффективности.

В чем заключается основная оптимизация краулинга, описанная в патенте?

Основная оптимизация заключается в адаптивном планировании сканирования комментариев (Engagements). Если API социальной сети уведомляет о новых комментариях (Тип 1), система ждет уведомления, экономя ресурсы. Если API не уведомляет (Тип 2), система будет регулярно проверять пост по расписанию (check rate). Это значительно экономит квоты API.

Какое значение этот патент имеет для SEO-специалиста?

Практическое значение минимально. Патент является сугубо инфраструктурным и не дает actionable-инсайтов для улучшения ранжирования сайтов. Он полезен для общего понимания сложности процессов сканирования данных из API, но не применим в повседневной SEO-практике.

Что такое "Throttling Manager" и зачем он нужен?

Throttling Manager — это централизованная система управления ограничениями скорости запросов (API rate limits). Он необходим, чтобы предотвратить блокировку приложения социальной сетью из-за слишком частых запросов. Все рабочие процессы должны получить разрешение от него перед выполнением запроса к API.

Может ли система изменить частоту сканирования автоматически?

Да. Если система определяет, что объем запланированных запросов приближается к исчерпанию квоты API (особенно при user-based rate limits), она может автоматически снизить частоту проверок (check rate), чтобы распределить нагрузку и избежать превышения лимитов.

Имеет ли этот патент отношение к стандартному веб-краулеру (Googlebot)?

Нет. Патент описывает систему для выборки данных через API для Managed Accounts (управляемых аккаунтов в социальных сетях). Это отличается от механизмов работы стандартного Googlebot, сканирующего общедоступный веб.

Что означает формула Actual User Limit?

Формула Actual User Limit = Application Daily Quota / Number of Current Users используется для динамического расчета допустимого количества запросов на одного пользователя. Это позволяет системе адаптировать частоту сканирования, чтобы не превысить лимиты, если общая квота приложения недостаточна для текущего числа пользователей.

Почему этот патент приписан Google, если изначально его подавала Salesforce?

На титульном листе патента заявителем (Applicant) указана Salesforce.com, Inc., а правопреемником (Assignee) — GOOGLE LLC. Это означает, что права на патент были переданы Google (вероятно, в результате приобретения технологии или компании) после подачи заявки.

Актуален ли этот патент, если он упоминает Google+?

Хотя Google+ как социальная сеть прекратила существование, описанные в патенте инженерные принципы универсальны. Адаптивное планирование и управление квотами API являются стандартными практиками при интеграции с любыми внешними платформами (например, LinkedIn, Twitter/X, Facebook).

Как Google встраивает ленту социальных обсуждений в реальном времени прямо в результаты поиска по трендовым запросам

Google использует механизм для идентификации трендовых запросов ("active keywords"), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, и отображает их в виде специальной встроенной ленты ("discussion stream") прямо на странице результатов поиска, отделяя их от более старых социальных постов.

US9984155B2
2018-05-29

SERP
Свежесть контента
Персонализация

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google генерирует, ранжирует и отображает результаты поиска в реальном времени (Real-Time Search)

Патент Google описывает комплексную систему для поиска в реальном времени. Он включает механизмы прогнозирования актуальных запросов, предварительного кэширования свежего контента (например, статусов из соцсетей), оценки качества этого контента и авторов. Также описана технология непрерывного обновления выдачи у пользователя с помощью "Time Token" и процесс обработки сокращенных URL.

US9043319B1
2015-05-26

Свежесть контента
SERP
Антиспам

Как Google оптимизирует скорость генерации поисковой выдачи с помощью адаптивного планирования внутренних задач

Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических данных и контекста (например, времени суток). Это позволяет оптимально распределить нагрузку на процессоры и минимизировать общее время генерации SERP.

US8555281B1
2013-10-08

SERP

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы

Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.

US8392435B1
2013-03-05

Персонализация
Поведенческие сигналы
SERP

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования

Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.

US9858295B2
2018-01-02

Мультимедиа
Поведенческие сигналы
SERP

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы