
Google анализирует, какие ресурсы пользователи посещают в рамках одной сессии (поисковой или браузерной). Если пользователь посещает известный ресурс по теме А, а затем в той же сессии посещает новый ресурс Б (даже в ответ на другой запрос), система предполагает, что ресурс Б также связан с темой А. Этот механизм позволяет автоматически классифицировать контент на основе реального поведения пользователей.
Патент решает проблему масштабируемой и автоматизированной классификации веб-ресурсов (сайтов, страниц, медиафайлов) по тематическим категориям. Ручная категоризация трудоемка. Изобретение предлагает метод автоматического определения тематики ресурса на основе анализа поведения пользователей (совместное посещение или co-visitation), что позволяет группировать похожие ресурсы, например, для целей фильтрации контента (упоминается фильтрация "adult-oriented" контента).
Запатентована система, которая использует данные пользовательских сессий (User Sessions) для выявления тематических связей между ресурсами. Система использует существующий набор «Известных ресурсов» (Known Resources), уже связанных с темой, для обнаружения новых «Ресурсов-кандидатов» (Candidate Resources). Если пользователи часто взаимодействуют с известным и новым ресурсом в рамках одной сессии, система усиливает тематическую связь нового ресурса с этой темой, даже если ресурсы были найдены по разным запросам.
Система анализирует логи поисковых сессий и данные браузерных тулбаров (Toolbar Sessions).
Known Resources для определенной темы (например, "Спорт").Known Resource, сессия ассоциируется с его темой.Candidate Resources.Relevance Score) к этой теме.Relevance Score превышает порог (за счет агрегации данных многих сессий), кандидат классифицируется по данной теме.Высокая. Хотя патент подан в 2008 году и упоминает устаревшие технологии сбора данных (например, тулбары), анализ поведения пользователей в рамках сессий для понимания контекста и тематических связей остается фундаментальным компонентом современных поисковых систем. Концепция использования совместного посещения (co-visitation) для тематической классификации и кластеризации ресурсов актуальна.
Патент имеет значительное влияние на SEO (7.5/10). Он не описывает алгоритм ранжирования напрямую, но критически важен для понимания того, как Google автоматически классифицирует тематику сайта (Topical Authority). Патент показывает, что "поведенческое соседство" (сайты, которые ваши пользователи посещают в рамках той же сессии) влияет на восприятие вашего ресурса системой. Правильная классификация влияет на применение алгоритмов качества (например, YMYL) и фильтров (например, SafeSearch).
Known Resource и рассчитывается как среднее значение Relevance Scores связанных с ним кандидатов. Показывает, насколько хорошо данный ресурс "прогнозирует" тему своих соседей по сессии.Candidate Resource в итеративном методе. Рассчитывается как среднее значение Prediction Scores всех известных ресурсов, с которыми он встречался в сессиях.Анализ основан на Claim 1, который является независимым и описывает конкретную реализацию метода классификации на основе поведения в рамках сессии с использованием разных запросов.
Claim 1 (Независимый пункт): Описывает метод использования совместных кликов в рамках одной сессии, но по разным запросам, для классификации ресурсов.
Topic).Topic Relevance Score для этих Вторых ресурсов.Topic Relevance Score превышает пороговое значение, и они ассоциируются с Темой.Ядро изобретения (согласно Claim 1) — это выявление тематической связи через поведение пользователя, решающего задачу с помощью нескольких разных запросов. Если пользователь кликает на авторитетный сайт по Теме А из Запроса 1, а затем в той же сессии кликает на Сайт Б из Запроса 2, это является сильным сигналом, что Сайт Б также относится к Теме А, даже если Запросы 1 и 2 текстово различаются. Это механизм связи на уровне задачи пользователя.
Изобретение в основном применяется в офлайн-процессах обработки данных для улучшения классификации контента.
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Система требует сбора и хранения больших объемов данных о поведении пользователей (Logs), включая поисковые логи и данные с браузерных тулбаров. Эти данные структурируются в User Sessions.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Session Processing Module анализирует собранные логи для выявления связей между ресурсами. Результатом является присвоение ресурсам тематической классификации (ассоциации с Topic) и расчет метрик (Relevance Score). Эти данные сохраняются и прикрепляются к документам в индексе как признаки (features).
QUNDERSTANDING – Понимание Запросов
Патент также описывает вычисление весов тем (Topic Weights) для терминов запроса. Если запрос постоянно приводит к результатам из набора Known Resources, термины этого запроса ассоциируются с темой.
RANKING / RERANKING (Косвенно)
Результаты классификации могут использоваться на этапах ранжирования как сигнал релевантности или на этапе переранжирования для фильтрации выдачи (например, SafeSearch).
Входные данные:
Known Resources (Seed Set) для разных тем.External Classifiers.Выходные данные:
Known Resources.Relevance Scores для ресурсов по отношению к темам."adult-oriented" контента и общих тем, например, "Спорт". Также важно для определения авторитетности в YMYL-тематиках.Known Resource. Это делает всю сессию релевантной для анализа по этой теме.Known Resource, и был найден по запросу, отличающемуся от запроса, по которому был найден Known Resource.Патент описывает два основных варианта алгоритма: простой (на основе подсчета совместной встречаемости) и сложный итеративный (с использованием классификаторов).
Вариант А: Простой метод (на основе совместной встречаемости, Claim 1)
Logs и разделение их на User Sessions.Known Resources для Темы X.Candidate Resources для Темы X. (В Claim 1 добавляется условие, что ресурсы должны быть найдены по разным запросам).Relevance Score к Теме X на предопределенную величину (например, +0.1).Relevance Score кандидата установленный порог.Known Resources для Темы X.Вариант Б: Итеративный метод (Label Propagation)
Этот метод комбинирует поведенческие связи и анализ контента.
Candidate Resource C генерируется начальный Relevance Score (RS) с помощью External Classifiers (анализ текста, изображений и т.д.).Known Resource K рассчитывается Prediction Score (PS). Это среднее значение RS всех кандидатов C, которые встречались вместе с K. .Candidate Resource C рассчитывается Average Prediction Score (APS). Это среднее значение PS всех известных ресурсов K, которые встречались вместе с C. .Система в первую очередь полагается на поведенческие данные.
User Sessions): Ключевые данные. Включают последовательность действий пользователя.Known Resources (Seed Sets): Предварительно классифицированные наборы ресурсов по темам.External Classifiers, которые анализируют контент кандидатов: текст, изображения, ссылки, HTML-теги, шрифты, цвета, заголовки, URL.Relevance Score: Оценка релевантности ресурса теме. В простом методе увеличивается инкрементально при совместной встречаемости. В сложном методе генерируется External Classifiers.Prediction Score: Метрика для Known Resource (см. формулу в Алгоритме Б).Average Prediction Score: Финальная метрика для Candidate Resource (см. формулу в Алгоритме Б).Known Resources.User Session является ключевой единицей анализа. Присутствие в сессии Known Resource задает тематический контекст для всех остальных взаимодействий в этой сессии.Known Resources.External Classifiers (в Варианте Б), так и поведенческим алгоритмам правильно классифицировать сайт.User Sessions и затруднять классификацию.External Classifiers могут сработать на UGC, а поведенческие сигналы распространят эту классификацию.Патент подтверждает, что Google интерпретирует тематику и назначение сайта не только через контент и ссылки, но и через то, как реальные пользователи его используют в контексте своих сессий. Стратегически важно сместить фокус с оптимизации под ключевые слова на оптимизацию под тематические сессии и задачи пользователя (User Journey). Построение авторитетного ресурса, который естественно вписывается в поисковый путь пользователя наряду с другими качественными сайтами по теме, является ключом к правильной тематической классификации.
Сценарий: Классификация нового блога о походах (Hiking)
Known Resource по теме "Hiking/Outdoors". Новый сайт NewHiker.com является Candidate Resource.Session Processing Module фиксирует совместный выбор R1 и R2 в рамках сессии "Hiking" по разным запросам (условие Claim 1 выполнено).Topic Relevance Score для NewHiker.com по теме "Hiking" увеличивается. После накопления достаточного количества таких сессий, NewHiker.com будет классифицирован как ресурс по теме "Hiking".Влияет ли описанный механизм напрямую на ранжирование?
Патент описывает механизм классификации, а не ранжирования. Однако точная тематическая классификация является критически важным входным сигналом для систем ранжирования. Если ваш сайт не классифицирован как релевантный определенной теме, ему будет сложно ранжироваться по запросам в этой теме. Также классификация используется для фильтрации (например, SafeSearch) и применения специфических алгоритмов качества (например, для YMYL).
Что такое "Known Resource" и как им стать?
Known Resource — это ресурс, который система уже уверенно классифицировала по определенной теме. Он служит эталоном (seed set). Чтобы стать таким эталоном, необходимо долгосрочно работать над созданием качественного контента, полностью раскрывать тему (Topical Authority) и привлекать целевую аудиторию, формируя устойчивые положительные сигналы ранжирования и поведения.
Как Google определяет границы пользовательской сессии (User Session)?
Патент предлагает несколько методов. Сессия может быть определена как последовательность запросов, которая прекращается после периода бездействия (например, 5-10 минут). Также сессия может быть ограничена фиксированным временным интервалом (например, данные за 5 минут или за день) или определяться входом и выходом пользователя из системы.
В Claim 1 указано, что запросы должны быть разными (Q1 ≠ Q2). Это обязательно?
Claim 1 защищает именно этот конкретный механизм — связь через последовательные, но разные запросы. Это считается сильным сигналом тематической связи на уровне задачи пользователя. Однако в общем описании патента (Description) рассматриваются и другие сценарии, например, когда ресурсы появляются в одной выдаче или просто посещаются в рамках одного временного окна (Toolbar Session).
Что произойдет, если мой сайт посещают в сессиях, связанных с разными темами?
Патент предусматривает механизмы разрешения конфликтов. Если ресурс является кандидатом для нескольких несвязанных тем (например, "Бейсбол" и "Атланта"), он может быть исключен из всех, если система не может однозначно определить основную тему. Для SEO это подчеркивает важность четкого тематического позиционирования.
Использует ли этот алгоритм анализ контента на странице?
Основной механизм (Claim 1) базируется на поведении пользователей. Однако в альтернативном варианте (Вариант Б) патент описывает использование External Classifiers (анализ текста, изображений, ссылок) для получения начальных оценок релевантности, которые затем уточняются через анализ сессий. Таким образом, контент используется для валидации.
Что означает, если мой сайт часто посещают вместе с авторитетными сайтами по моей теме?
Это очень позитивный сигнал (co-visitation). Согласно патенту, это приводит к увеличению Topic Relevance Score вашего сайта для данной темы. Если ваш сайт регулярно появляется в сессиях, где присутствуют авторитетные Known Resources, система классифицирует ваш сайт как тематически релевантный.
Что такое «Toolbar Session» и актуально ли это сейчас?
Toolbar Session — это сессия, данные для которой собирались через плагин (например, Google Toolbar). Хотя тулбары сейчас менее популярны, Google имеет другие источники аналогичных данных, такие как браузер Chrome, данные Android и данные аккаунтов Google, которые могут использоваться для формирования подобных сессий и понимания поведения пользователей вне поисковой выдачи.
Как SEO-специалист может повлиять на этот механизм?
Опосредованно. Вы можете повлиять на него, создавая контент, который естественным образом вписывается в поисковый путь целевой аудитории. Это означает полное покрытие темы, ответ на смежные вопросы и обеспечение высокого уровня удовлетворенности пользователя, чтобы он продолжал свою тематическую сессию, включая ваш сайт.
Как работает итеративный метод классификации (Вариант Б)?
Это метод повышения точности (Label Propagation). Сначала внешние классификаторы (текст, картинки) дают начальную оценку кандидатам. Затем эти оценки усредняются и присваиваются известным ресурсам (Prediction Score), показывая качество их окружения. Наконец, эти оценки известных ресурсов усредняются и присваиваются обратно кандидатам (Average Prediction Score). Это позволяет учесть не только контент, но и качество связей в поведенческом графе.

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
Персонализация
SERP

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Семантика и интент
Мультимедиа

Поведенческие сигналы
Персонализация

Поведенческие сигналы
Семантика и интент
SERP

Индексация
Ссылки
SERP

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Ссылки
Структура сайта
Семантика и интент

EEAT и качество
Ссылки
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Персонализация

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
SERP
Поведенческие сигналы
