
Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.
Патент решает проблему масштабируемой и точной классификации огромного количества информационных элементов (information items, например, веб-страниц) в интернете. Многие страницы не классифицированы или классифицированы неверно, а традиционные методы, основанные на анализе контента, могут быть ресурсоемкими. Отсутствие точной классификации мешает предоставлять релевантные результаты и персонализированные сервисы (customized services).
Запатентована система для генерации классификационных данных (classification data) для изначально неклассифицированных документов путем использования исторических данных поиска (historical query information) и классификационных данных уже известных документов (seed classification data). Суть изобретения заключается в итеративном процессе "распространения" (spreading) классификации: от известных документов к запросам, а затем от запросов к неизвестным документам, основываясь на их совместном появлении в результатах поиска и поведении пользователей.
Система работает в два основных этапа распространения классификации:
Query Profile). Агрегация взвешивается на основе релевантности документа запросу (IR score, позиция в выдаче) и поведения пользователей (click data, navigation rate).Этот процесс может повторяться итеративно. Полученные данные используются для построения профилей пользователей (User Profiles) и персонализации поисковой выдачи.
Высокая. Тематическая классификация документов и понимание сущностей лежат в основе современного поиска, Topical Authority и персонализации. Описанный механизм, использующий логи запросов и поведенческие сигналы для классификации контента без прямого анализа его содержимого, остается крайне актуальным для понимания того, как Google масштабно определяет тематику ресурсов.
Патент имеет высокое стратегическое значение (8/10). Он описывает механизм, позволяющий Google определять тематику страницы на основе того, по каким запросам она ранжируется и как пользователи с ней взаимодействуют, а не только на основе анализа текста. Это подчеркивает критическую важность ранжирования по релевантным запросам и получения положительных поведенческих сигналов (кликов) для корректной тематической классификации сайта системой.
sparse vector) или списка категорий (Category list), состоящего из пар "Идентификатор Категории" и "Вес" (Category ID, Weight).User ID, термины запроса, список результатов (URL IDs), данные о показе (Impression Data) и данные о кликах (Click Data).IR Score (оценку релевантности) и Position Data (позицию результата в выдаче).Патент описывает итеративный процесс распространения классификации. Ключевые независимые пункты (Claims 1 и 11) описывают два этапа этого процесса.
Claim 1 (Независимый пункт): Этап 1 - От документов к запросам.
Описывает метод генерации классификационных данных для неклассифицированных элементов (вторые элементы) на основе классифицированных (первые элементы) и исторических логов запросов, с фокусом на генерацию классификации запросов:
seed data).IR scores, позиций в выдаче (search results' positions) и взаимодействия с пользователем (user interaction).Query Profile).Claim 11 (Независимый пункт): Этап 2 - От запросов к документам.
Описывает тот же общий процесс, что и Claim 1, но фокусируется на деталях генерации классификации документов на основе классификации запросов:
Query Profile) взвешивается на основе релевантности документа этому запросу: IR score документа, его позиция в выдаче и взаимодействие пользователя с этим документом.Claim 12 (Зависимый от 11): Уточняет, что при взвешивании классификации запроса может учитываться количество слов в запросе. (Длинные, более специфичные запросы могут получать больший вес).
Изобретение затрагивает несколько этапов поиска, работая преимущественно в офлайн-режиме для генерации данных и в онлайн-режиме для их применения.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Это процесс, происходящий офлайн (batch processing), который анализирует исторические данные для генерации новых признаков (тегов классификации) для документов и запросов.
Information Classification Seed Database как отправную точку и обрабатывает Query Log Database.Information Classification Database (профили документов) и, опционально, в Query Profile Database. Эти данные становятся частью индекса.User Profiles на основе классифицированных документов, которые пользователи посещали.RANKING / RERANKING – Ранжирование и Переранжирование
Сгенерированные данные используются на этапе ранжирования или переранжирования для персонализации выдачи (customized services).
User Profile пользователя.User Profile пользователя.re-ordered) для повышения позиций тех документов, чья классификация наиболее близка интересам пользователя.Входные данные:
Historical Query Information (Логи запросов).Information Classification Seed Database (Исходные данные классификации).Выходные данные:
Information Classification Database (Расширенные профили документов).Query Profile Database (Профили запросов).User Profile Database (Профили пользователей).information items), которые появляются в результатах поиска, включая веб-страницы и целые веб-сайты.User Profile.Процесс генерации классификационных данных является итеративным и состоит из двух фаз распространения.
Фаза 1: Распространение классификации от Документов к Запросам (URL → Query)
IR score, позицию в выдаче, Navigation Rate и Click Data. Высокорелевантные и кликабельные URL получают больший вес.Query Profile).Фаза 2: Распространение классификации от Запросов к Документам (Query → URL)
Query Profile взвешивается. Вес определяется: IR score, позицию, клики).average pairwise cosine similarities) результатов).Итерация: Фазы 1 и 2 могут повторяться, при этом результаты предыдущей итерации используются в качестве исходных данных для следующей.
(Дополнительно) Фаза 3: Генерация Профилей Пользователей
User Profile. При агрегации может учитываться частота и давность кликов.Система полагается в первую очередь на поведенческие и системные данные, а не на анализ контента.
Click Data: Информация о том, был ли выбран результат пользователем.Navigation Rate: Относительная частота выбора URL по сравнению с другими результатами по тому же запросу.Historical Query Information): Используются для определения совместного появления документов и запросов.IR Score (Information Retrieval Score): Предварительно рассчитанная оценка релевантности документа запросу.Position Data: Позиция документа в результатах поиска.Information Classification Seed Database: Предварительная классификация начального набора документов.IR Score, Position Data, Click Data и Navigation Rate. Документы на верхних позициях с высокими показателями кликабельности получают больший вес.average cosine similarity) классификационных векторов результатов поиска. Более специфичные запросы получают больший вес.User Profile и URL Profile. Патент упоминает использование косинусного расстояния (cosine) или скалярного произведения (dot product) векторов.Classification Data), не анализируя их содержимое напрямую. Система опирается на структуру связей между документами и запросами в исторических логах поиска.IR Score, позиция) и поведение пользователей (Click Data, Navigation Rate) являются определяющими факторами (весами) в процессе классификации. То, на что кликают пользователи, определяет тематику контента в глазах системы.Seed Data), система может быстро классифицировать огромный массив документов и запросов, улучшая точность с каждой итерацией и по мере поступления новых данных поиска.User Profiles) и адаптировать выдачу под них.Query Profiles запросов, по которым они ранжируются.IR Score и Position Data) по релевантным запросам. Кроме того, так как специфичные запросы (long-tail) могут иметь больший вес, фокус на них помогает укрепить тематическую классификацию.Click Data и Navigation Rate напрямую используются для взвешивания при распространении классификации, критически важно оптимизировать сниппеты (Title, Description) для повышения CTR по целевым запросам. Получение кликов подтверждает и усиливает связь между запросом и документом.Navigation Rate) при высоких позициях может снизить вес связи между запросом и документом. Это означает, что профиль запроса будет слабее влиять на профиль документа, замедляя или искажая его классификацию.Этот патент подтверждает, что тематическая классификация в Google не ограничивается анализом текста на странице. Поисковая система активно использует данные о том, как пользователи ищут и что они выбирают, чтобы понять, о чем контент на самом деле. Это подчеркивает переход от чисто текстовой релевантности к поведенческой и тематической релевантности. Долгосрочная SEO-стратегия должна быть направлена на создание устойчивой ассоциации между сайтом и его целевой тематикой в экосистеме поиска, что достигается через стабильное ранжирование и вовлечение пользователей по профильным запросам.
Сценарий: Классификация новой страницы о породе собак "Сиба-ину".
Query Profile для запроса "уход за сиба-ину", наследуя категории "Домашние животные", "Собаки".Click Data).Query Profile запроса "уход за сиба-ину". Вес этого профиля при переносе зависит от позиции (8) и CTR вашей страницы.Означает ли этот патент, что анализ контента (ключевых слов) больше не важен?
Нет, анализ контента по-прежнему критически важен. Контент и ключевые слова помогают поисковой системе рассчитать начальный IR Score и определить, по каким запросам страница должна ранжироваться. Однако этот патент показывает, что для тематической классификации (определения категории страницы) Google может полагаться на поведенческие данные и совместное появление в выдаче, а не только на текст.
Какова роль кликов (CTR) и поведенческих факторов в этом патенте?
Клики (Click Data) и Navigation Rate играют центральную роль в качестве критерия взвешивания на обоих этапах. На Этапе 1 клики на документ усиливают влияние его профиля на профиль запроса. На Этапе 2 клики на документ по определенному запросу усиливают влияние профиля этого запроса на профиль документа. Высокий CTR подтверждает и усиливает тематическую связь между запросом и документом.
Как этот механизм влияет на новые сайты или страницы?
Новые страницы изначально не классифицированы. Чтобы система их классифицировала по этому методу, они должны начать появляться в результатах поиска по определенным запросам и получать клики. Это подчеркивает важность начальной SEO-оптимизации для получения первых показов и трафика, что запустит процесс поведенческой классификации.
Что такое исходные данные классификации (Seed Data) и откуда они берутся?
Seed Data — это набор документов, которые уже имеют надежную классификацию. Патент не уточняет их источник, но на практике это могут быть авторитетные ресурсы (например, Википедия), данные из Knowledge Graph, результаты других алгоритмов классификации или ручная разметка. Они служат отправной точкой для всего процесса распространения.
Как система определяет специфичность запроса и зачем это нужно?
Специфичность может определяться длиной запроса (длинные запросы обычно более специфичны) или сходством результатов поиска (если все результаты об одном, запрос специфичен). Профили более специфичных запросов могут получать больший вес при классификации документов, так как они дают более точный тематический сигнал по сравнению с общими или неоднозначными запросами.
Может ли этот механизм привести к неверной классификации?
Да. Если страница начнет ранжироваться высоко и получать клики по запросам, не соответствующим её основной тематике (например, из-за временного тренда или кликбейта), система может присвоить ей неверную классификацию. Однако итеративный характер процесса и использование данных от множества пользователей направлены на коррекцию таких ошибок со временем.
Как этот патент связан с Topical Authority?
Он напрямую связан. Topical Authority подразумевает глубокое покрытие темы. Этот патент предоставляет механизм, с помощью которого Google может оценить и присвоить тематические категории всему контенту сайта. Если большинство страниц сайта стабильно классифицируются в рамках одной тематики через этот поведенческий механизм, авторитет сайта в этой теме усиливается.
Влияет ли этот механизм на классификацию целых сайтов?
Да. Патент упоминает, что information item может быть веб-сайтом. Классификация сайта может быть сгенерирована путем агрегации классификационных данных его страниц. При этом могут учитываться популярность страниц (клики) и их положение в иерархии сайта (например, количество уровней от главной страницы).
Какова конечная цель этой системы классификации?
Конечная цель, указанная в патенте, — предоставление customized services, в первую очередь персонализированного поиска. Для этого система использует сгенерированную классификацию документов для построения профилей пользователей (User Profiles) на основе того, контент каких категорий они потребляют, и затем повышает в выдаче результаты, соответствующие этим категориям.
Что важнее для взвешивания: позиция в выдаче или CTR?
Патент перечисляет IR Score, позицию и взаимодействие пользователя (клики/CTR) как критерии взвешивания, не указывая их относительную важность. Вероятно, используется комбинация. Патент отмечает, что результаты, выбранные пользователем, могут быть назначены с наивысшим возможным весом или получить предопределенное повышение (boost) к весу, основанному на позиции.

Персонализация
Поведенческие сигналы
Свежесть контента

Персонализация
Поведенческие сигналы
Local SEO

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Антиспам
SERP

Мультимедиа
Поведенческие сигналы
SERP

Индексация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Local SEO
SERP
Ссылки

Мультиязычность
Поведенческие сигналы
SERP

SERP
Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы
