Google анализирует взаимодействие пользователей (клики, время пребывания, вовлеченность) с контентом в Поиске, Соцсетях и Новостных лентах, чтобы определить, в каких темах конкретный источник (сайт или автор) является экспертным. Если источник признан авторитетным, его новые публикации по этим темам получают повышение в ранжировании, даже до сбора статистики по ним (решение проблемы «холодного старта»).
Описание
Какую задачу решает
Патент решает проблему определения источников (Sources) — таких как сайты, авторы, RSS-каналы — которые стабильно производят высококачественный контент по конкретным темам (Topics). Ключевая задача — решить проблему «холодного старта» (cold start problem) для оценки качества нового контента. Система позволяет предположить высокое качество свежего документа, даже если для него еще не накоплено достаточно поведенческих данных, основываясь на установленной тематической авторитетности его источника.
Что запатентовано
Запатентована система для определения тематической авторитетности источников путем анализа агрегированных данных о взаимодействии пользователей (user interaction data), собранных из различных сервисов (Поиск, Социальные сети, Email, Новостные ленты). Ядром системы является анализ пар «документ-текст» (document-text pairs). Система рассчитывает веса на основе взаимодействий (например, CTR, Dwell Time) и использует тематическое моделирование (Topic Modeling) для определения тем, в которых источник является экспертным.
Как это работает
Система работает следующим образом:
- Сбор данных и формирование пар: Собираются данные о взаимодействиях (показы и клики) для пар document-text pair. «Текст» зависит от сервиса: в Поиске это запрос; в Соцсетях или Новостях это ключевые термины (например, TF-IDF).
- Расчет весов: Для каждой пары рассчитывается вес на основе соотношения кликов к показам. Патент явно упоминает возможность учета времени пребывания (dwell time) для фильтрации низкокачественных кликов.
- Агрегация по источнику: Веса агрегируются на уровне источника (сайта или автора).
- Тематическое моделирование: Агрегированные тексты и их веса передаются в Topic Modeler (например, используя LDA или LSA), который определяет темы, по которым источник производит высококачественный контент.
- Применение: Новые документы от этого источника, соответствующие установленным темам, получают повышение (boost) в ранжировании.
Актуальность для SEO
Высокая. Определение тематической авторитетности (Topical Authority) и экспертизы источника (E-E-A-T) является краеугольным камнем современных алгоритмов ранжирования. Механизм, использующий поведенческие сигналы для оценки качества и позволяющий быстро продвигать свежий контент от авторитетных источников, критически важен и соответствует целям Google по предоставлению надежной информации.
Важность для SEO
Патент имеет критическое значение (90/100) для SEO. Он описывает конкретный механизм, как поведенческие факторы (CTR, Dwell Time, вовлеченность) используются для алгоритмического определения авторитетности источника в разрезе тем. Это напрямую влияет на стратегии построения Topical Authority. Если сайт или автор признан экспертным источником в теме, он получает значительное преимущество, особенно при публикации свежих материалов (Freshness Boost).
Детальный разбор
Термины и определения
- Source (Источник)
- Автор контента или местоположение в сети, откуда можно получить контент. Примеры: имя автора, доменное имя, URL новостной ленты, email-адрес, аккаунт в социальной сети. Один автор может рассматриваться как разные источники в зависимости от платформы публикации.
- Document (Документ)
- Контент, опубликованный источником (веб-страница, пост в блоге, сообщение в соцсети, email).
- Document-Text Pair (Пара Документ-Текст)
- Связка документа и текста, который был выбран на основе сервиса, через который документ был идентифицирован. «Текст» определяет контекст взаимодействия пользователя с документом.
- Text (Текст в составе пары)
- Контекст взаимодействия. В Поиске это обычно запрос. В Соцсетях/Email/Новостях – термин с высоким IDF (Inverse Document Frequency) или TF-IDF (Term Frequency-Inverse Document Frequency) из документа, или текст сниппета.
- User Interaction Data (Данные о взаимодействии пользователей)
- Агрегированные данные, собранные для Document-Text Pair из соответствующего сервиса. Включают показы и клики/выборы.
- Impression Count (Счетчик показов)
- Количество раз, когда сниппет документа был представлен пользователям в определенном текстовом контексте.
- Selection Count (Счетчик кликов/выборов)
- Количество раз, когда сниппет документа был выбран пользователями. Выбор может включать клик, касание, голосовую команду, лайк (одобрение), раскрытие поста, оценку или комментирование.
- Dwell Time (Время пребывания)
- Время, которое пользователь проводит за просмотром документа после клика. В патенте упоминается возможность ведения нескольких Selection Counts для разных диапазонов времени пребывания (например, <30с, 30-60с, >60с).
- Weight (Вес)
- Метрика, рассчитанная для Document-Text Pair на основе данных взаимодействия. Обычно это соотношение кликов к показам (CTR) или сглаженная формула.
- Topic Modeler (Модель тематического анализа)
- Компонент, который использует агрегированные тексты и их веса для определения тем (Topics), по которым источник производит высококачественный контент. Может использовать методы типа LSA, pLSA или LDA.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения тематики источника.
- Система связывает текст с документом, формируя Document-Text Pair. Выбор текста зависит от сервиса (Поиск, Соцсеть и т.д.), через который документ найден.
- Система собирает User Interaction Data для этих пар из соответствующего сервиса.
- Система рассчитывает вес (Weight) для каждой пары на основе собранных данных взаимодействия.
- Система ассоциирует одну или несколько тем с источником на основе весов пар, связанных с документами, опубликованными этим источником.
Claim 2 и 3 (Зависимые): Детализируют работу в контексте Поиска.
Если сервис – поисковая система, то «Текст» в паре – это поисковый запрос (query). Данные взаимодействия – это клики (selections) по результатам поиска.
Claim 4, 5 и 6 (Зависимые): Детализируют работу в контексте Соцсетей, Email, Новостных лент.
«Текст» в паре – это один или несколько терминов из документа (с высоким IDF или TF-IDF). Данные взаимодействия – это выбор (клики, лайки, раскрытие) постов, писем или новостей, которые идентифицируют этот документ.
Claim 9 (Зависимый): Описывает применение механизма для ранжирования.
- Система получает результаты поиска, каждый результат имеет оценку (score).
- Система определяет, относится ли документ к теме, ассоциированной с источником этого документа.
- Если ДА, система корректирует (повышает) оценку этого документа. Это ключевой механизм для бустинга контента от авторитетных источников.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные, собранные из различных сервисов, и влияя на индексирование и ранжирование.
CRAWLING & Data Acquisition (Сбор данных)
Система собирает User Interaction Data не только из поисковой выдачи, но и из социальных сетей, почтовых систем и новостных лент. Эти данные передаются для анализа.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная офлайн-обработка собранных данных взаимодействия.
- Расчет и агрегация метрик: Система рассчитывает веса для Document-Text Pairs и агрегирует их по источникам.
- Тематическое моделирование: Topic Modeler определяет темы для источников.
- Аннотирование источников: Ассоциации Источник-Тема (Source/Topic Associations) сохраняются в базе данных и становятся сигналом качества источника в разрезе тем.
RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение результатов (согласно Claim 9).
- Бустинг авторитетных источников: При ранжировании система проверяет, соответствует ли документ теме, в которой его источник авторитетен. Если да, оценка документа повышается.
- Оценка нового контента (Freshness/QDF): Особенно актуально для новых документов. Если новый документ опубликован авторитетным источником и соответствует его темам экспертизы, он получает преимущество (решение проблемы «холодного старта»).
Входные данные:
- Документы и их источники (Авторы, Домены).
- Сервисы взаимодействия (Поиск, Соцсети, Email, Новости).
- User Interaction Data (Показы, Клики, Время пребывания).
- Контекст взаимодействия (Запросы, Термины IDF/TF-IDF).
Выходные данные:
- База данных ассоциаций Источник-Тема (Source/Topic Associations).
- Скорректированные оценки ранжирования для документов.
На что влияет
- Конкретные типы контента: Наибольшее влияние на информационный контент, новости, блоги, экспертный контент — там, где важна экспертиза источника.
- Конкретные ниши или тематики: Критично для YMYL-тематик, где определение надежных источников жизненно важно.
- Авторы и Бренды (Entities): Механизм позволяет идентифицировать экспертизу не только доменов, но и конкретных авторов (если они идентифицированы как Source).
- Свежий контент: Система напрямую влияет на ранжирование свежего контента, позволяя авторитетным источникам быстрее занимать высокие позиции.
Когда применяется
- Триггеры активации (Офлайн): Расчет авторитетности активируется, когда для источника накоплено достаточное количество User Interaction Data (патент упоминает использование статистической модели для определения достаточности).
- Временные рамки: Анализ проводится за определенный период времени для определения текущей авторитетности. Бустинг особенно актуален для нового контента (в патенте упоминается пример «в течение последних десяти дней»).
- Применение в ранжировании (Онлайн): Применяется при обработке запросов в реальном времени для корректировки оценок документов.
Пошаговый алгоритм
Процесс А: Определение тематической авторитетности источника (Офлайн/Фоновый режим)
- Сбор данных взаимодействия: User Interaction Data Collector собирает данные о показах и кликах из различных сервисов.
- Формирование контекста (Text Selection): Для каждого взаимодействия определяется контекст («Текст»).
- В Поиске: Используется поисковый запрос.
- В Соцсетях/Email/Новостях: Извлекаются ключевые термины (например, с высоким TF-IDF) из документа.
- Создание и обновление записей: Создаются или обновляются Document-Text Pair Records. Фиксируются Impression Count и Selection Count.
- Расчет весов (Weight Calculation): Data Aggregator рассчитывает вес для каждой пары. Например, по формуле (Клики+a)/(Показы+b). При расчете могут учитываться только клики с длительным временем пребывания (Dwell Time выше порога).
- Агрегация по источнику: Веса для одинаковых «Текстов» агрегируются для всех документов одного Источника (например, Сумма Кликов / Сумма Показов).
- Тематическое моделирование: Topic Modeler анализирует набор Текстов и их агрегированные веса для Источника и определяет темы, в которых источник демонстрирует высокое качество (высокую вовлеченность).
- Сохранение ассоциаций: Ассоциации Источник-Тема сохраняются в базе данных Source/Topic Associations.
Процесс Б: Применение в ранжировании (Реальное время)
- Получение запроса и кандидатов: Система генерирует набор результатов поиска.
- Определение темы документа и источника: Для документа-кандидата определяется его тема и идентифицируется его источник.
- Проверка авторитетности: Система проверяет базу Source/Topic Associations, чтобы определить, является ли источник авторитетным в теме документа.
- Корректировка оценки (Boosting): Если источник авторитетен в теме, оценка ранжирования документа повышается.
- Финальное ранжирование: Результаты сортируются с учетом скорректированных оценок.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих факторов и идентификации источника.
- Поведенческие факторы (User Interaction Data): Критически важные данные.
- Impression Count (Показы).
- Selection Count (Клики, лайки, комментарии, раскрытие контента).
- Dwell Time (Время пребывания на документе после клика). В патенте явно упоминается возможность сегментации Selection Counts по диапазонам времени просмотра.
- Контекстные факторы (Text):
- Поисковые запросы (в контексте Поиска).
- Ключевые термины документа (IDF, TF-IDF) (в контексте Соцсетей, Email, Новостей).
- Факторы источника (Source Identification):
- Идентификатор источника (Домен, URL, Автор, Аккаунт в соцсети).
Какие метрики используются и как они считаются
- Weight (Вес пары Документ-Текст): Основная метрика качества взаимодействия. Рассчитывается на основе соотношения кликов к показам.
- Простая формула: C/I (Selection Count / Impression Count).
- Сглаженная формула (упомянута в патенте): (C+a)/(I+b), где C – клики, I – показы, a и b – константы (которые могут зависеть от других сигналов уровня сайта/страницы).
- Фильтрация по Dwell Time: При расчете веса могут учитываться только те клики (Selections), время пребывания по которым превышает определенный порог (например, >60 секунд).
- Агрегированный вес Текста для Источника: Сумма кликов / Сумма показов для всех пар, содержащих одинаковый Текст и относящихся к одному Источнику.
- Topics (Темы): Определяются с помощью алгоритмов тематического моделирования. Упоминаются LSA, pLSA, LDA.
- Нормализация (Normalization): Упоминается возможность нормализации весов для адаптации к особенностям Topic Modeler.
Выводы
- Поведенческие факторы как основа тематической авторитетности: Патент демонстрирует механизм, где агрегированные поведенческие данные (CTR, Dwell Time) напрямую конвертируются в оценку тематической авторитетности источника. Высокая вовлеченность пользователей в определенном контексте приравнивается к высокому качеству.
- Авторитетность является тематической и контекстуальной: Система анализирует вовлеченность в разрезе конкретных контекстов (Document-Text Pair). Авторитетность присваивается именно в разрезе этих контекстов (тем), а не источнику в целом.
- Перенос качества и решение проблемы «холодного старта»: Система позволяет переносить установленную авторитетность источника на его новые документы. Если источник доказал свою экспертность в теме, его свежий контент по этой теме получает преимущество в ранжировании (Freshness Boost) авансом.
- Кросс-сервисный анализ качества: Google учитывает взаимодействие с контентом не только в Поиске, но и в Социальных сетях, Новостных фидах и Email. Вовлеченность на разных платформах формирует единую оценку авторитетности.
- Важность удовлетворенности пользователя и борьба с кликбейтом: Использование времени просмотра (dwell time) для фильтрации кликов указывает на то, что система учитывает качественные взаимодействия («длинные клики»), отсеивая кликбейт.
- Источник – это не только домен: Источником может быть автор (сущность), что подтверждает важность сигналов авторства в оценке контента (E-E-A-T).
Практика
Best practices (это мы делаем)
- Фокус на построении Тематической Авторитетности (Topical Authority): Необходимо добиваться высокого уровня вовлеченности пользователей по ключевым темам кластера. Это напрямую влияет на то, будет ли система считать ваш источник экспертным в этой теме.
- Оптимизация вовлеченности (Engagement Optimization): Работайте над повышением CTR в поиске и на других платформах, а также над увеличением Dwell Time. Патент подтверждает, что «длинные клики» могут использоваться для фильтрации качественных взаимодействий. Контент должен полностью удовлетворять интент пользователя.
- Идентификация Источника (Авторство и Бренд): Убедитесь, что Google может четко идентифицировать ваш бренд и ваших ключевых авторов как Source. Используйте микроразметку (Schema.org/Person, Organization), поддерживайте авторские профили.
- Дистрибуция контента на разных платформах: Активно распространяйте контент через социальные сети, email-рассылки и новостные агрегаторы (включая Google Discover). Вовлеченность пользователей в этих каналах учитывается при определении авторитетности источника.
- Тематическая консистентность: Сосредоточьтесь на глубоком раскрытии конкретной ниши. Система лучше идентифицирует темы для источников, которые последовательно публикуют высококачественный контент в одной области.
Worst practices (это делать не надо)
- Использование кликбейта: Генерация заголовков, которые обеспечивают высокий CTR, но приводят к коротким сессиям (низкий Dwell Time). Если система фильтрует короткие клики (как описано в патенте), это повредит авторитетности источника.
- Стратегия «обо всем понемногу»: Создание широкого, но поверхностного контента затрудняет для Topic Modeler идентификацию ключевых тем экспертизы, так как сигналы будут размыты.
- Накрутка поведенческих факторов: Попытки манипулировать Selection Counts будут неэффективны, если они не сопровождаются качественным Dwell Time. Также патент упоминает, что данные должны исходить от множества пользователей и разных IP-подсетей для статистической значимости.
- Игнорирование поведенческих метрик: Фокус только на ключевых словах и ссылках без анализа того, как пользователи взаимодействуют с контентом в выдаче и на сайте, является проигрышной стратегией.
Стратегическое значение
Этот патент подтверждает стратегию Google по переходу к оценке экспертизы Источников (сайтов и авторов) и предоставляет конкретный механизм вычисления аспектов E-E-A-T на основе поведения пользователей. Он демонстрирует, как поведенческие сигналы напрямую конвертируются в метрики авторитетности, которые затем используются как фактор ранжирования, особенно для свежего контента. Долгосрочная SEO-стратегия должна фокусироваться на построении реальной экспертизы и оптимизации пользовательского опыта на разных платформах.
Практические примеры
Сценарий 1: Бустинг свежего контента от авторитетного источника
- Источник: Известный медицинский портал (например, WebMD).
- Прошлая активность: Пользователи часто ищут симптомы и кликают на WebMD, проводя там много времени (высокий Dwell Time). Система фиксирует высокие веса для document-text pairs, связанных с медициной.
- Результат моделирования: Topic Modeler определяет, что WebMD авторитетен в теме «Диагностика заболеваний».
- Новый контент: WebMD публикует статью о новом вирусе.
- Ранжирование («Холодный старт»): Несмотря на то, что статья новая и не имеет собственных поведенческих данных, система определяет, что она соответствует теме экспертизы авторитетного источника. Статья получает буст в ранжировании (Claim 9) сразу после публикации.
Сценарий 2: Учет взаимодействий в Социальной сети (Кросс-платформенная авторитетность)
- Источник: Известный техноблогер (Автор как Source).
- Активность в Соцсети: Блогер публикует пост со ссылкой на обзор нового смартфона. Многие пользователи открывают пост, комментируют (Selection) и переходят по ссылке.
- Формирование пары: Система анализирует обзор и выделяет ключевые термины с высоким TF-IDF (например, «Snapdragon 8 Gen 4»). Формируются document-text pairs с этими терминами.
- Расчет весов: Высокий уровень взаимодействия приводит к высоким весам для этих пар.
- Результат: Система укрепляет авторитетность блогера в теме «Обзоры смартфонов». Его будущие обзоры будут ранжироваться выше в Поиске.
Вопросы и ответы
Является ли этот патент доказательством того, что CTR и Dwell Time являются факторами ранжирования?
Да, в контексте этого патента. Он явно описывает механизм, где соотношение кликов к показам (CTR) и время пребывания (Dwell Time) используются для расчета веса (Weight) взаимодействия. Эти веса определяют тематическую авторитетность источника, которая, в свою очередь, используется для корректировки оценки ранжирования документа (Claim 9).
Что такое «пара документ-текст» (document-text pair) и почему это важно?
Это связка документа и контекста, в котором произошло взаимодействие. В Поиске «текст» — это запрос пользователя. В Соцсетях это ключевые термины (TF-IDF). Это важно, потому что система оценивает качество не абстрактно, а в разрезе конкретных контекстов. Анализируя, какие тексты приводят к успешным взаимодействиям, Google понимает, в каких темах источник действительно силен.
Как именно учитывается Dwell Time (Время пребывания)?
Патент предлагает вести несколько счетчиков кликов (Selection Counts) для разных диапазонов времени пребывания (например, короткие, средние, длинные клики). При расчете веса (показателя качества) система может использовать только те клики, время пребывания по которым превышает определенный порог (например, учитывать только «длинные клики»), что помогает бороться с кликбейтом.
Что именно понимается под «Источником» (Source)?
Источник определяется широко: это может быть доменное имя, конкретный URL, имя автора, адрес электронной почты или аккаунт в социальной сети. Система может даже рассматривать одного автора как разные источники в зависимости от платформы публикации. Это подчеркивает важность сигналов авторства (E-E-A-T).
Как этот патент помогает Google ранжировать свежий контент?
Он решает проблему «холодного старта». Вместо того чтобы ждать накопления данных по новому документу, система проверяет его источник. Если источник уже зарекомендовал себя как авторитетный в теме этого документа (на основе прошлых взаимодействий), новый документ получает повышение (boost) в ранжировании авансом.
Влияет ли активность в социальных сетях или Google Discover на ранжирование в Поиске согласно этому патенту?
Да, косвенно влияет. Патент явно указывает, что данные о взаимодействии пользователей (клики, лайки, комментарии) в социальных сетях и новостных лентах (к которым относится Discover) собираются и используются для определения авторитетности источника. Высокая вовлеченность на этих платформах может повысить авторитетность источника, что приведет к бустингу его контента в Поиске.
Как система определяет темы из набора запросов и терминов?
Система использует Topic Modeler (например, алгоритм LDA). Он получает на вход все тексты (запросы и термины), по которым у источника была высокая вовлеченность, и их веса. Алгоритм группирует эти тексты в общие темы (например, разные запросы про кофемашины группируются в тему «Бытовая техника»).
Что важнее для построения авторитетности: качество контента или оптимизация CTR?
Оба фактора критически важны и взаимосвязаны. Оптимизация CTR необходима для получения кликов (Selection Count). Однако, если качество контента низкое, это приведет к коротким сессиям. Если система использует Dwell Time для фильтрации кликов, то только CTR будет недостаточно. Необходимо сочетание привлекательного представления и высокого качества контента.
Как это влияет на сайты, которые пишут на множество разных тем?
Многопрофильным сайтам будет сложнее. Если контент источника слишком разнообразен, и вовлеченность сильно варьируется от темы к теме, Topic Modeler будет трудно идентифицировать конкретные области авторитетности. Это снижает вероятность получения бустинга для нового контента по сравнению со специализированными источниками.
Как рассчитывается вес (Weight) взаимодействия?
Патент предлагает несколько вариантов. Самый простой — это CTR (клики/показы). Также приводится сглаженная формула (C+a)/(I+b), где C – клики, I – показы, а a и b – константы. Эта формула помогает стабилизировать расчеты при малом количестве данных. Также вес может рассчитываться только на основе «длинных кликов».