Как Google использует историю поиска и поведение пользователей для классификации документов и персонализации выдачи

Google использует механизм для классификации веб-страниц, основанный на анализе исторических поисковых логов. Система «распространяет» тематическую классификацию с известных сайтов на неизвестные через анализ запросов, по которым они совместно ранжируются, и поведение пользователей (клики, позиция в выдаче). Эта классификация затем используется для построения профилей пользователей и персонализации результатов поиска.

Описание

Какую задачу решает

Патент решает проблему масштабной и точной классификации информации в интернете (information items, например, веб-страниц). Многие документы не классифицированы или классифицированы неверно, что затрудняет понимание их тематики. Это снижает эффективность предоставления персонализированных сервисов (customized services), таких как персонализированный поиск, которые зависят от точного сопоставления контента с интересами пользователя.

Что запатентовано

Запатентована система и метод для генерации и улучшения классификационных данных документов путем использования исторических данных поиска (historical query information). Метод основан на механизме «распространения» (spreading) классификации: система берет известные классификационные данные (seed classification data) для части документов и распространяет их на неклассифицированные документы через анализ запросов, по которым эти документы совместно появляются в результатах поиска.

Как это работает

Система работает по итеративному двухэтапному процессу:

Этап 1: Классификация Запросов (URL -> Query). Система анализирует запросы в логах. Для каждого запроса она агрегирует классификационные данные уже классифицированных результатов (seed data). Эта агрегация взвешивается: чем релевантнее результат запросу (выше позиция, выше IR Score, больше кликов), тем больший вес имеет его классификация при формировании профиля запроса (Query Profile).
Этап 2: Классификация Документов (Query -> URL). Система анализирует конкретный URL и агрегирует профили всех запросов (Query Profiles), по которым этот URL появлялся в выдаче. Агрегация снова взвешивается по релевантности URL этим запросам. Так формируется классификация URL.

Полученные данные используются для построения профилей пользователей (User Profiles) на основе классификации кликнутых ими ссылок и последующей персонализации выдачи.

Актуальность для SEO

Высокая. Понимание тематики контента и персонализация результатов поиска являются фундаментальными задачами современных поисковых систем. Описанный механизм, использующий поведенческие данные и ассоциативные связи (co-occurrence в выдаче) для классификации контента, остается крайне актуальным для понимания того, как Google определяет тематическую релевантность и интересы пользователя.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он описывает инфраструктурный механизм, который напрямую связывает поведение пользователей (клики, Navigation Rate) и сигналы ранжирования (позиция, IR Score) с тем, как Google классифицирует (понимает тематику) веб-страницы. Это подчеркивает, что получение релевантного трафика и высокое взаимодействие с пользователем не только приносят посетителей, но и обучают систему тематике страницы, что критически важно для видимости в персонализированном поиске.

Детальный разбор

Термины и определения

Classification Data (Классификационные данные): Данные, описывающие тематику или категорию информационного элемента, запроса или пользователя. Часто представляются в виде разреженного вектора (sparse vector) категорий и их весов. Также упоминаются как Profile или Category List.
Click Data (Данные о кликах): Информация о том, был ли выбран пользователем конкретный результат поиска.
Historical Query Information (Историческая информация о запросах): Данные, хранящиеся в Query Log Database, включающие текст запросов, полученные результаты, Impression Data и взаимодействие пользователей с результатами.
Impression Data (Данные о показе): Информация о результатах, показанных пользователю. Включает IR Score и Position Data (позицию результата в выдаче).
Information Item (Информационный элемент): Любая единица информации, доступная по URL (веб-страница, документ, сайт).
IR Score (Information Retrieval Score): Оценка релевантности результата поисковому запросу, вычисляемая поисковой системой.
Navigation Rate (Коэффициент навигации): Метрика популярности URL. Определяется как отношение числа выборов данного URL к общему числу выборов всех URL в результатах поиска по одному и тому же запросу за определенный период.
Query Profile (Профиль запроса): Классификационные данные, сгенерированные для конкретного запроса путем агрегации классификаций его результатов поиска.
Seed Classification Data (Исходные классификационные данные): Предварительно определенные классификационные данные для начального набора информационных элементов (хранятся в Information Classification Seed Database). Используются как основа для классификации других элементов.
User Profile (Профиль пользователя): Данные, описывающие интересы пользователя, генерируемые путем агрегации классификационных данных элементов, с которыми взаимодействовал пользователь.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации и улучшения классификации.

Система получает доступ к исторической информации о запросах, результаты которых содержат как «первые» (изначально классифицированные), так и «вторые» (изначально неклассифицированные) информационные элементы.
Система получает доступ к классификационным данным «первых» элементов (Seed Data).
Генерируются классификационные данные для «вторых» элементов на основе классификации «первых» элементов И исторической информации о запросах.
Сгенерированные данные сохраняются.
Система предоставляет персонализированные сервисы, используя сгенерированную классификацию.
Итеративность: Система обновляет классификационные данные «первых» (изначально классифицированных) элементов на основе исторической информации и сгенерированных данных для «вторых» элементов. Процесс является самосовершенствующимся.

Claim 4 (Зависимый от 1): Детализирует процесс генерации классификации (двухэтапный процесс).

Идентифицируется набор запросов, связанных с элементом.
Генерируется классификация для этого набора запросов (Query Profiles) (Этап 1).
Генерируется классификация для элемента путем комбинирования классификаций связанных с ним запросов (Этап 2).

Claim 5 (Зависимый от 4): Детализирует Этап 1 (генерация Query Profile) и механизм взвешивания.

Классификация исходных элементов взвешивается на основе одного или нескольких факторов: IR Score, позиция в результатах поиска (Position Data) и взаимодействие пользователя (Click Data). Взвешенные классификации агрегируются.

Claim 6 (Зависимый от 4): Детализирует Этап 2 (генерация классификации элемента из Query Profiles) и механизм взвешивания.

Query Profiles взвешиваются на основе одного или нескольких факторов: IR Score элемента для этого запроса, позиция элемента в выдаче по этому запросу и взаимодействие пользователя с элементом. Взвешенные профили агрегируются.

Где и как применяется

Изобретение описывает инфраструктурный механизм классификации, который затрагивает несколько этапов поиска, преимущественно в офлайн-режиме, но с прямым влиянием на онлайн-ранжирование.

INDEXING – Индексирование и извлечение признаков (Офлайн/Пакетная обработка)
Основная работа алгоритма происходит здесь. Information Classifier использует данные из Query Log Database и Seed Database для выполнения двухэтапного процесса распространения. Результаты (URL Profiles) сохраняются в Information Classification Database и становятся частью индекса. Также на этом этапе генерируются User Profiles.

QUNDERSTANDING – Понимание Запросов (Офлайн)
В процессе генерируются Query Profiles, которые отражают тематику запроса на основе тематики результатов поиска. Они могут сохраняться в Query Profile Database.

RERANKING – Переранжирование (В реальном времени)
Применение в онлайне — персонализация поиска. Когда пользователь с известным User Profile отправляет запрос, система использует User Profile и Information Classification Database для пересчета оценок и переупорядочивания результатов (персонализации) перед показом пользователю (Ordering).

Входные данные (для классификации):

Seed Classification Data.
Historical Query Information (Query Terms, URL IDs, IR Scores, Position Data, Navigation Rate, Click Data).

Выходные данные (результат классификации):

URL Profiles (обновленная классификация документов).
Query Profiles (классификация запросов).
User Profiles (профили интересов пользователей).

На что влияет

Все типы контента и запросов: Механизм универсален и может применяться к любым информационным элементам, которые появляются в результатах поиска и по которым собирается статистика взаимодействий.
Персонализация: Алгоритм напрямую влияет на то, как результаты поиска будут переупорядочены для конкретного пользователя на основе его истории интересов. Наибольшее влияние оказывается на неоднозначные или широкие запросы, где интент неясен из текста запроса.

Когда применяется

Генерация классификации: Происходит в офлайн-режиме или в виде пакетной обработки, периодически обновляясь по мере поступления новых данных в Query Log Database. Это итеративный процесс.
Применение (Персонализация): Происходит в реальном времени при обработке запроса, при условии, что у пользователя есть User Profile и для результатов поиска есть Classification Data.

Пошаговый алгоритм

Процесс А: Генерация Классификации Документов (Офлайн, Итеративный)

Фаза 1: Обработка логов и генерация промежуточных данных (URL -> Query -> Intermediate Table)

Получение данных: Система извлекает Historical Query Information и Seed Classification Data.
Обработка записи лога: Для каждой записи в логе запросов:
1. Идентификация и взвешивание Seed Data: Для URL, имеющих Seed Data, эти данные взвешиваются в соответствии с их релевантностью запросу (позиция, клики, IR Score, Navigation Rate).
2. Генерация профиля запроса (Query Profile): Взвешенные Seed Data агрегируются для создания Query Profile.
3. Взвешивание профиля запроса для URL: Для каждого URL в результатах (включая неклассифицированные) рассчитывается вес Query Profile. Вес определяется релевантностью URL данному запросу (позиция, клики и т.д.) и, возможно, специфичностью самого запроса.
4. Сохранение в промежуточную таблицу: Взвешенная версия Query Profile сохраняется в Intermediate Result Table с привязкой к URL.

Фаза 2: Агрегация данных для URL (Intermediate Table -> URL Profile)

Агрегация профилей: Для каждого уникального URL в промежуточной таблице система агрегирует все соответствующие ему взвешенные Query Profiles.
Нормализация и Фильтрация: Агрегированные данные нормализуются для создания финальных классификационных данных URL. Данные могут фильтроваться (например, если список категорий слишком длинный или достоверность низкая).
Сохранение и Итерация: Сгенерированные данные сохраняются. Процесс может быть повторен, используя обновленную базу классификации в качестве нового Seed Data.

Процесс Б: Генерация Профилей Пользователей (Офлайн)

Анализ логов пользователя: Идентификация всех URL, выбранных пользователем.
Получение классификаций: Загрузка URL Profiles для выбранных URL.
Агрегация: Объединение URL Profiles (возможно с взвешиванием по частоте/свежести) для создания User Profile.

Процесс В: Персонализация Поиска (Онлайн)

Получение запроса и профиля: Получение запроса и User Profile.
Генерация результатов и получение классификаций: Получение начального набора результатов и их URL Profiles.
Вычисление персонализированной оценки: Сравнение User Profile с каждым URL Profile (например, через косинусное сходство или скалярное произведение векторов).
Переранжирование: Изменение порядка результатов с учетом персонализированной оценки.

Какие данные и как использует

Данные на входе

Система использует преимущественно поведенческие и системные данные из логов поиска.

Поведенческие факторы:
- Click Data: Факт выбора результата пользователем. Критически важен для взвешивания при распространении классификации и для генерации User Profile.
- Navigation Rate: Относительная популярность URL по конкретному запросу. Используется как сильный сигнал релевантности для взвешивания.
Системные/Технические факторы:
- IR Score: Базовая оценка релевантности документа запросу от поисковой системы. Используется для взвешивания.
- Position Data: Позиция документа в выдаче. Используется для взвешивания (результаты выше считаются более релевантными).
Данные Классификации:
- Seed Classification Data: Исходные данные о тематике части документов.

Какие метрики используются и как они считаются

Вес релевантности (URL-Query Relevance): Ключевой механизм. Функция от (IR Score, Position Data, Click Data, Navigation Rate). Используется для определения степени, в которой классификация URL должна влиять на Query Profile, и наоборот.
Специфичность запроса (Query Specificity) (Опционально): Метрика для взвешивания вклада Query Profile. Может рассчитываться на основе:
- Длины запроса (более длинные = более специфичные).
- Среднего косинусного сходства (average cosine similarity) между классификационными данными результатов (высокое сходство = высокая специфичность).
Агрегация: Процесс объединения взвешенных классификационных данных (разреженных векторов).
Нормализация: Процесс приведения весов в профилях к сопоставимому виду, чтобы частота появления URL не завышала его оценки.
Оценка персонализации: Метрика сходства между User Profile и URL Profile (например, скалярное произведение или косинусное сходство).

Выводы

Классификация через ассоциации и поведение: Патент описывает механизм определения тематики страницы без необходимости глубокого анализа ее контента. Тематика выводится из контекста: по каким запросам страница ранжируется, какие другие страницы ранжируются рядом (co-occurrence) и как пользователи взаимодействуют с ней (клики).
Поведение пользователей формирует понимание контента: Click Data и Navigation Rate являются прямыми факторами, определяющими, как система классифицирует страницу. Если пользователи часто переходят на страницу по определенному запросу, система связывает тематику этого запроса со страницей.
Двухэтапное распространение (Spreading): Ключевым механизмом является итеративное распространение классификации: от известных URL к запросам (создавая Query Profile), а затем от этих запросов к неизвестным URL.
Фундамент персонализации: Описанный механизм является основой для персонализированного поиска. Система строит профиль интересов пользователя (User Profile) на основе тематик (URL Profiles) контента, который он потребляет, и затем сопоставляет одно с другим.
Итеративное улучшение: Система не статична. Она постоянно пересчитывает классификации на основе новых данных из логов и может уточнять даже исходные Seed Data, делая классификацию точнее со временем.

Практика

Best practices (это мы делаем)

Оптимизация под релевантные запросы и высокий CTR: Необходимо не просто ранжироваться, но и добиваться высокого CTR по релевантным запросам. Это напрямую влияет на то, как система классифицирует страницу. Чем больше кликов по целевым запросам (высокий Navigation Rate), тем сильнее система связывает тематику этих запросов с вашим URL (увеличивается вес при распространении классификации).
Анализ тематического окружения (Search Neighborhood): Анализируйте, какие сайты ранжируются рядом с вами по ключевым запросам. Ранжирование в окружении авторитетных сайтов с четкой тематикой помогает системе правильно классифицировать ваш контент через механизм «распространения» (co-occurrence).
Построение Topical Authority и четкая структура: Создание кластеров контента, покрывающих разные интенты в рамках одной темы, увеличивает количество связанных запросов, по которым показывается сайт. Это предоставляет системе больше данных для точной классификации всего тематического узла.
Оптимизация под специфичные запросы (Long-Tail): Патент предполагает, что более специфичные (менее двусмысленные) запросы могут иметь больший вес при распространении классификации. Таргетинг на четкие, конкретные запросы может помочь быстрее и точнее установить тематику страницы.

Worst practices (это делать не надо)

Привлечение нерелевантного трафика (Clickbait): Использование заголовков, вводящих в заблуждение, для привлечения кликов по нерелевантным запросам может привести к «размыванию» или неверной классификации страницы. Система начнет ассоциировать страницу с темами, которым она не соответствует.
Создание страниц со смешанным интентом: Страницы, пытающиеся охватить слишком много разных тем, рискуют получить противоречивые классификационные данные от разных групп запросов. Это может ухудшить их видимость в персонализированном поиске.
Игнорирование низкого CTR при высоких позициях: Если страница ранжируется высоко, но имеет низкий Navigation Rate по сравнению с конкурентами, ее влияние на Query Profile будет минимальным, и система может посчитать ее менее релевантной теме запроса.

Стратегическое значение

Этот патент подтверждает стратегическую важность интеграции анализа поведения пользователей в ядро алгоритмов определения тематики. Для SEO это означает, что оптимизация не заканчивается на контенте и ссылках; управление тем, как пользователи находят контент и взаимодействуют с ним в выдаче, является критически важным для обучения поисковой системы. Долгосрочная стратегия должна фокусироваться на точном соответствии интенту и максимизации удовлетворенности пользователя для формирования правильной тематической классификации в глазах Google.

Практические примеры

Сценарий: Классификация новой страницы через ассоциацию с авторитетным сайтом.

Ситуация: Вы опубликовали новую страницу «Симптомы дефицита витамина B12». У Google пока нет данных для ее классификации.
Ранжирование: Страница начинает ранжироваться по запросу [дефицит b12]. В выдаче также присутствует статья из WebMD (авторитетный сайт, уже классифицированный Google как «Медицина»).
Поведение пользователей: Пользователи ищут [дефицит b12] и кликают как на WebMD, так и на вашу новую страницу.
Этап 1 (Spreading to Query): Google генерирует Query Profile для [дефицит b12]. Так как WebMD имеет большой вес (высокая позиция, много кликов), классификация «Медицина» доминирует в этом Query Profile.
Этап 2 (Spreading to URL): Google генерирует URL Profile для вашей новой страницы. Так как она получает клики по запросу [дефицит b12], классификация «Медицина» из Query Profile переносится на ваш URL (с учетом веса, основанного на ваших позициях и кликах).
Результат: Ваша страница классифицирована как «Медицина» благодаря совместному ранжированию и кликам пользователей.

Вопросы и ответы

Заменяет ли этот механизм анализ контента страницы?

Нет, не заменяет, но существенно дополняет. Патент описывает способ классификации, который не требует анализа содержания (content) страницы. Он полагается исключительно на исторические данные поиска: по каким запросам страница появляется, какие страницы ранжируются рядом и как пользователи реагируют на нее. Это позволяет уточнить классификацию, основанную на тексте, или классифицировать контент, который сложно понять алгоритмически.

Как именно клики пользователя (Click Data) влияют на классификацию моей страницы?

Клики играют ключевую роль в механизме взвешивания на обоих этапах. Если ваша страница получает много кликов (имеет высокий Navigation Rate) по запросу, ее классификация сильнее влияет на профиль этого запроса. И наоборот, профиль этого запроса сильнее влияет на итоговую классификацию вашей страницы. Это создает петлю обратной связи, где вовлеченность усиливает тематическую связь.

Что такое профиль запроса (Query Profile) и зачем он нужен?

Query Profile — это тематическая классификация самого поискового запроса, сформированная путем агрегации тематик его топовых результатов. Он выступает посредником (мостом) для переноса классификации между разными URL, которые ранжируются по этому запросу. Например, если по запросу ранжируются только медицинские сайты, профиль запроса будет «Медицина».

Как этот патент связан с персонализацией поиска?

Это фундамент персонализации. Система использует сгенерированную классификацию страниц (URL Profiles) для построения профиля интересов пользователя (User Profile) на основе его кликов. При последующих поисках система сравнивает User Profile с URL Profiles кандидатов в выдаче и повышает те результаты, тематика которых соответствует интересам пользователя.

Что произойдет, если моя страница начнет получать много нерелевантного трафика?

Это может привести к неверной классификации или «размыванию» тематики. Если пользователи переходят на вашу страницу по запросам, не соответствующим ее содержанию (например, из-за кликбейта), система начнет ассоциировать вашу страницу с тематикой этих нерелевантных запросов. Это может ухудшить ранжирование по целевым запросам и привести к некорректной персонализации.

Что важнее для взвешивания: позиция в выдаче или количество кликов?

Патент указывает, что используются оба фактора (Position Data и Click Data/Navigation Rate). Высокая позиция дает исходный высокий вес, так как система считает результат релевантным. Однако патент также описывает возможность повышения веса результатов, которые были выбраны пользователем. Высокий CTR может компенсировать более низкую позицию при определении веса для классификации.

Как бороться с неправильной классификацией страницы?

Необходимо проанализировать, по каким запросам страница получает трафик. Нужно сосредоточиться на оптимизации (контент, заголовки, сниппеты) для привлечения кликов по максимально релевантным, целевым запросам и постараться исключить показы и клики по нерелевантным запросам. Со временем, по мере накопления новых данных в логах, система пересчитает классификацию на основе нового поведения пользователей.

Влияет ли двусмысленность запроса на классификацию?

Да. Патент упоминает, что специфичность запроса (например, его длина или тематическая однородность результатов) может учитываться при взвешивании. Классификация, полученная от более специфичных запросов (long-tail), может иметь больший вес, чем от общих, двусмысленных запросов, так как она более точно отражает тематику контента.

Что такое Seed Classification Data и откуда они берутся?

Это исходный набор данных, где часть URL уже классифицирована. Они могут быть получены с помощью других алгоритмов (например, анализа контента, ссылок, ручной модерации) или из авторитетных источников. Этот механизм использует эти исходные данные для масштабирования классификации на весь остальной веб.

Является ли этот процесс однократным?

Нет. Патент явно указывает (Claim 1), что процесс итеративный. Сгенерированная классификация используется для обновления исходных данных, и процесс повторяется. Кроме того, система постоянно обрабатывает новые исторические данные поиска, что позволяет классификации эволюционировать вместе с изменением контента и поведения пользователей.