Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет тематику страницы, анализируя, какие ресурсы пользователи посещают до и после нее (Распространение контекста через Co-selection)

    CONTEXT BASED RESOURCE RELEVANCE (Определение релевантности ресурса на основе контекста)
    • US8620929B2
    • Google LLC
    • 2013-12-31
    • 2009-08-14
    2009 Патенты Google Персонализация Поведенческие сигналы Семантика и интент

    Google анализирует сессии пользователей для выявления ресурсов, которые часто посещаются последовательно (co-selected). Система строит граф этих связей и распространяет известные тематики (Contextual Profile) авторитетных ресурсов на связанные с ними страницы. Это позволяет определять контекст ресурса на основе поведения пользователей, даже если на странице мало текста.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему определения тематики (контекста) для ресурсов, которые содержат недостаточно данных для стандартного анализа контента. Это актуально для страниц с минимальным количеством текста, изображений, видео или динамического контента (например, Flash). Система использует поведение пользователей — последовательный выбор ресурсов в рамках одной сессии (co-selection) — как сильный сигнал тематической связанности, позволяя улучшить ранжирование и таргетинг рекламы для таких ресурсов.

    Что запатентовано

    Запатентована система (Resource Context System), которая вычисляет Contextual Profile (вектор оценок релевантности различным темам) для ресурса. Ключевой механизм — это распространение контекста от известных, проверенных ресурсов (Reference Resources) к неизвестным или непроверенным ресурсам. Связь между ресурсами устанавливается на основе анализа исторических данных о сессиях пользователей (Historical Data), где выявляются часто совместно выбираемые ресурсы (co-selected resources).

    Как это работает

    Механизм работает в несколько этапов:

    • Валидация эталонов: Идентифицируются Reference Resources с высокой достоверностью Contextual Profiles, подтвержденной данными обратной связи (Relevance Feedback Data).
    • Анализ поведения и Построение графа: Анализируются логи сессий для выявления последовательных выборов. Строится Weighted Graph, где узлы — это ресурсы, а вес ребра (Edge Weight) отражает частоту их совместного выбора.
    • Итеративное вычисление контекста: Контекст распространяется от эталонных ресурсов к связанным ресурсам по графу. Профиль вычисляется как взвешенная функция профилей соседей. Процесс повторяется итеративно до сходимости (Stop Condition).
    • Фильтрация шума: В процессе итераций профили нормализуются, низкие оценки тематик отсекаются по порогу (thresholding), и профили повторно нормализуются для уточнения ключевых тем.

    Актуальность для SEO

    Высокая. Понимание контекста за пределами текстового анализа является критически важным для современных поисковых систем. Поведение пользователей и анализ пути пользователя (User Journey) остаются мощными сигналами для определения связанности и релевантности контента. Хотя конкретные алгоритмы могли эволюционировать (например, в сторону векторных эмбеддингов), фундаментальный принцип использования данных о совместном посещении (co-visitation) остается крайне актуальным.

    Важность для SEO

    Влияние на SEO значительно (85/100). Патент описывает механизм, который напрямую влияет на то, как Google понимает тематику страницы, опираясь на поведение пользователей. Это означает, что контекст сайтов, которые пользователи посещают в одной сессии с вашим сайтом, имеет значение. Это подчеркивает стратегическую важность оптимизации всего пути пользователя, логичной архитектуры сайта и обеспечения тематической когерентности навигации.

    Детальный разбор

    Термины и определения

    Contextual Profile (Контекстуальный профиль)
    Вектор значений (topic values или topic scores), которые определяют меру релевантности ресурса множеству соответствующих тем. Используется поисковыми и рекламными системами.
    Co-selected Resources (Совместно выбранные ресурсы)
    Ресурсы, которые были выбраны (посещены) последовательно (sequentially selected) в течение одной пользовательской сессии.
    Reference Resource (Эталонный ресурс)
    Ресурс, имеющий Contextual Profile с высокой степенью достоверности (удовлетворяющий confidence threshold). Служит надежным источником контекста для других ресурсов.
    Reference Weight (Эталонный вес / Вес достоверности)
    Фактор, присваиваемый ресурсу, который представляет вероятность того, что его Contextual Profile является точным. Используется для взвешивания влияния профиля при расчетах.
    Relevance Feedback Data (Данные обратной связи по релевантности)
    Данные, основанные на обратной связи от пользователей (например, клики в выдаче, явные оценки), указывающие на релевантность ресурса определенным темам. Используются для валидации Contextual Profiles и расчета Reference Weight.
    Resource Context System (Система контекста ресурсов)
    Система, которая вычисляет Contextual Profile для ресурса на основе данных о его выборе и профилей других релевантных ресурсов.
    Selection Data (Данные о выборе)
    Данные, фиксирующие действия пользователя по выбору ресурсов, включая факт выбора, временные метки и, возможно, время пребывания (dwell time).
    User Session (Пользовательская сессия)
    Период времени или последовательность действий, в течение которого данные о действиях пользователя ассоциируются с одним и тем же идентификатором сессии.
    Weighted Graph (Взвешенный граф)
    Структура данных, моделирующая поведенческие связи между ресурсами. Узлы представляют ресурсы, а ребра соединяют последовательно выбранные ресурсы. Вес ребра (Edge Weight) отражает частоту совместного выбора.

    Ключевые утверждения (Анализ Claims)

    Патент содержит несколько ключевых пунктов, защищающих валидацию контекста, построение поведенческого графа и итеративное уточнение профилей.

    Claim 1 (Независимый): Описывает базовый процесс с акцентом на валидацию источника.

    1. Идентификация эталонного ресурса (Reference Resource) и его Contextual Profile.
    2. Критический шаг (Валидация): Определение того, что Relevance Feedback Data для эталонного ресурса имеет пороговый уровень сходства с его Contextual Profile. Это подтверждает точность профиля эталона.
    3. В ответ на успешную валидацию, вычисление первого Contextual Profile для другого ресурса на основе профиля эталонного ресурса.
    4. Предоставление нового профиля обрабатывающей системе (поиск или реклама).

    Claim 5 (Независимый): Описывает реализацию через поведение пользователей и взвешенный граф.

    1. Идентификация и валидация эталонного ресурса (как в Claim 1).
    2. Эталонный ресурс идентифицируется как ресурс, который был последовательно выбран (sequentially selected) относительно другого ресурса.
    3. Вычисление профиля другого ресурса включает:
      • Представление обоих ресурсов как узлов в Weighted Graph.
      • Соединение узлов взвешенным ребром (Weighted Edge), представляющим эти последовательные выборы.
      • Вычисление профиля на основе функции от веса ребра и профиля эталонного ресурса.

    Ядро этого пункта — использование данных о поведении пользователей для построения графа и распространения контекста по нему.

    Claim 7 (Независимый): Описывает процесс итеративного уточнения и фильтрации.

    1. Идентификация, валидация и вычисление первого профиля (как в Claim 1).
    2. Нормализация значений тем (topic values) вычисленного профиля.
    3. Фильтрация (Thresholding): Присвоение базового значения (например, 0) значениям, которые ниже определенного порога (first topic value threshold).
    4. Повторная нормализация оставшихся значений.
    5. Повторное вычисление (итерация) Contextual Profile на основе повторно нормализованных значений и профиля эталонного ресурса.

    Ядро этого пункта — итеративный процесс очистки для уточнения контекстного профиля и удаления шума.

    Где и как применяется

    Изобретение в основном применяется на этапе обработки данных и извлечения признаков, используя поведенческие данные для обогащения понимания контента.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап работы системы. Resource Context System функционирует как модуль извлечения признаков. Основной процесс (построение Weighted Graph, анализ Historical Data, итеративное вычисление профилей) является пакетным офлайн-процессом. Вычисленные Contextual Profiles сохраняются в индексе (Indexed Cache) как статические признаки ресурсов.

    RANKING – Ранжирование
    На этапе ранжирования система использует предварительно вычисленные Contextual Profiles. При получении запроса эти профили используются для определения релевантности ресурса темам, связанным с запросом, даже если ключевые слова запроса отсутствуют на странице.

    Примечание: Патент также указывает на применение в Advertisement Management System для таргетинга рекламы.

    Входные данные:

    • Historical Data (логи пользовательских сессий, Selection Data).
    • Исходные Contextual Profiles (например, от системы кластеризации).
    • Relevance Feedback Data (используется для валидации профилей и расчета Reference Weights).

    Выходные данные:

    • Обновленные и нормализованные Contextual Profiles (векторы оценок тем) для ресурсов.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на ресурсы, которые сложно анализировать напрямую: изображения, видео, страницы с динамическим контентом или минимальным количеством текста (например, некоторые карточки товаров в E-commerce).
    • Структура сайта и навигация: Влияет на интерпретацию внутренней структуры сайта, поскольку она направляет пути пользователей и формирует данные о co-selection.

    Когда применяется

    • Условия применения: Алгоритм используется для вычисления или уточнения профилей ресурсов, основываясь на предположении, что последовательный выбор указывает на тематическую схожесть.
    • Временные рамки: Построение графа и вычисление профилей происходит в офлайн-режиме и периодически обновляется (при выполнении update condition). Использование профилей происходит в реальном времени при ранжировании или показе рекламы.

    Пошаговый алгоритм

    Процесс можно разделить на два основных этапа: генерация взвешенного графа и итеративное вычисление контекста.

    Этап А: Генерация Взвешенного Графа (Weighted Graph Generation)

    1. Сбор данных: Извлечение Selection Data из Historical Data (идентификаторы сессий, ресурсов, временные метки).
    2. Идентификация совместного выбора (Co-selection): Анализ сессий для выявления последовательно выбранных пар ресурсов (Source Node -> Destination Node). Может применяться временное окно (threshold time period).
    3. Построение графа: Представление ресурсов как узлов. Создание направленного ребра между совместно выбранными ресурсами.
    4. Взвешивание ребер: Инкрементация веса ребра (Edge Weight) при каждом наблюдении последовательного выбора. Вес агрегирует данные по множеству сессий.
    5. Расчет эталонных весов: Вычисление Reference Weight для узлов на основе сравнения их профилей с Relevance Feedback Data. Это определяет достоверность профиля.

    Этап Б: Итеративное Вычисление Контекста (Iterative Context Computation)

    1. Инициализация профилей: Выбор исходных Contextual Profiles. Для ресурсов без профиля значения инициализируются (например, нулями).
    2. Вычисление результата профиля: Обновление профиля целевого ресурса на основе функции (например, взвешенной суммы) от его текущего профиля и профилей его соседей по графу. Вклад соседа взвешивается на основе Edge Weight и Reference Weight.
    3. Нормализация: Оценки тем (topic scores) в полученном профиле нормализуются (например, сумма равна 1.0).
    4. Применение порога (Thresholding): Оценки ниже порога (topic score threshold) сбрасываются до референсного значения (например, 0.0). Это фильтрует шум.
    5. Повторная нормализация: Оставшиеся оценки тем повторно нормализуются.
    6. Проверка сходимости: Проверяется условие остановки (Stop Condition). Например, изменение профилей минимально (конвергенция) или достигнуто число итераций.
      • Если НЕТ: Возврат к шагу 2.
      • Если ДА: Процесс завершается.
    7. Предоставление результатов: Обновленные Contextual Profiles предоставляются обрабатывающим системам (поиск, реклама).

    Какие данные и как использует

    Данные на входе

    Система в первую очередь полагается на поведенческие данные.

    • Поведенческие факторы (Ключевые): Это ядро патента. Используются User Session Data и Selection Data. Ключевым сигналом является последовательность выбора ресурсов (sequential selection) в рамках одной сессии. Упоминается возможность использования dwell time.
    • Пользовательские факторы (Обратная связь): Relevance Feedback Data используется для валидации точности профилей и расчета Reference Weights.
    • Контентные факторы (Косвенно): Исходные Contextual Profiles могут быть сгенерированы на основе контента ресурсов внешней системой кластеризации (clustering system), но сам запатентованный механизм их не анализирует.

    Какие метрики используются и как они считаются

    • Edge Weight (Вес ребра): Метрика частоты совместного выбора двух ресурсов. Рассчитывается путем подсчета последовательных выборов в логах сессий.
    • Reference Weight (Эталонный вес): Метрика уверенности (Confidence) в точности Contextual Profile. Рассчитывается на основе схожести профиля с Relevance Feedback Data.
    • Topic Score / Topic Value (Оценка темы): Значение в Contextual Profile, указывающее на релевантность теме. Рассчитывается итеративно как взвешенная функция оценок связанных ресурсов.
    • Topic Score Threshold (Порог оценки темы): Минимальная оценка для сохранения темы в профиле. Используется для фильтрации шума.
    • Методы вычислений: Используются взвешенные суммы (для агрегации профилей), нормализация (для масштабирования) и применение пороговых значений (для фильтрации).

    Выводы

    1. Поведение пользователя как определяющий сигнал тематики: Патент подтверждает, что Google может определять тематику страницы, анализируя паттерны навигации пользователей. Последовательное посещение двух страниц (co-selection) интерпретируется как сильный сигнал их тематической связанности.
    2. Определение контекста без анализа контента: Описан механизм для понимания ресурсов, которые невозможно проанализировать стандартными методами (например, изображения, видео). Контекст определяется по тому, с какими другими ресурсами взаимодействует пользователь в той же сессии.
    3. Граф совместных посещений (Weighted Graph): Система строит граф не на основе ссылок (PageRank), а на основе последовательных кликов пользователей. Это альтернативный, поведенческий способ моделирования связей в интернете.
    4. Важность достоверности источника (Confidence): Контекст распространяется преимущественно от ресурсов с высокой достоверностью профиля (высокий Reference Weight), подтвержденной Relevance Feedback Data. Это предотвращает распространение неверной информации.
    5. Итеративное уточнение тематики: Contextual Profiles вычисляются итеративно. Процессы нормализации и отсечения по порогу используются для уточнения профиля и выделения наиболее значимых тем, устраняя шум.

    Практика

    Best practices (это мы делаем)

    • Оптимизация пути пользователя (User Journey) и тематической связности: Проектируйте сайт так, чтобы поощрять последовательную навигацию между тематически связанными страницами. Пользователь, изучающий тему, должен легко находить следующий логический шаг. Это укрепляет тематические связи в Weighted Graph.
    • Улучшение внутренней перелинковки для навигации: Используйте внутренние ссылки как инструмент навигации, направляющий пользователя к релевантному контенту. Блоки «Читать далее», «Похожие товары», контекстные ссылки способствуют созданию сильных сигналов co-selection внутри тематического кластера.
    • Построение тематического авторитета (Topical Authority и E-E-A-T): Стремитесь к тому, чтобы ваш сайт стал Reference Resource. Создание экспертного контента, который полно отвечает на запросы пользователей, повышает вероятность того, что профиль сайта будет иметь высокий Reference Weight и положительно влиять на связанные ресурсы.
    • Анализ навигации и поведенческого окружения: Изучайте аналитику, чтобы понять, как пользователи перемещаются по сайту, а также откуда они приходят и куда уходят. Если ваш сайт постоянно посещают в связке с авторитетными ресурсами по определенной теме (включая переходы между доменами), ваш сайт унаследует этот контекст.

    Worst practices (это делать не надо)

    • Использование кликбейта и обманчивой навигации: Привлечение трафика с помощью нерелевантных заголовков или ссылок приводит к хаотичным паттернам навигации. Если пользователь быстро покидает страницу и переходит к несвязанным ресурсам, это создает нерелевантные связи в графе и может размыть ваш Contextual Profile.
    • Тупиковые страницы (Dead Ends): Создание страниц, которые не предлагают пользователю логического продолжения пути, уменьшает количество данных о co-selection, что затрудняет определение контекста страницы системой.
    • Смешивание несвязанных тем в навигации: Попытки агрессивно перелинковать несвязанные разделы (например, рекомендовать совершенно нерелевантные товары) могут привести к тому, что система попытается найти общие темы там, где их нет, ухудшая профили обеих страниц.

    Стратегическое значение

    Этот патент подчеркивает стратегическую важность поведенческих факторов в определении тематической релевантности. Он показывает, что релевантность — это не только совпадение ключевых слов, но и то, как контент вписывается в общую картину пользовательского исследования темы (User Journey). Для SEO это означает переход от оптимизации отдельных страниц к оптимизации всего пути пользователя и обеспечению синергии между SEO (архитектура) и UX (навигация).

    Практические примеры

    Сценарий 1: Определение тематики страницы с фотогалереей (Визуальный контент)

    1. Ситуация: На сайте есть страница фотогалереи «Идеи дизайна синей кухни» без текста. Google не может определить ее тематику по контенту.
    2. Поведение пользователей: Пользователи часто переходят на эту фотогалерею сразу после прочтения статьи о дизайне кухонь на том же или другом сайте (Reference Resource).
    3. Действие системы: Google фиксирует эти последовательные переходы и создает взвешенное ребро в Weighted Graph между статьей о дизайне и фотогалереей.
    4. Результат: Contextual Profile статьи (например, [Дизайн: 0.8, Кухня: 0.6]) итеративно переносится на фотогалерею. Фотогалерея получает релевантный профиль и начинает ранжироваться по соответствующим запросам.

    Сценарий 2: Уточнение контекста страницы товара в E-commerce

    1. Ситуация: Страница товара «Кроссовки Модель X» содержит мало текста. Сложно понять ее точный контекст (бег, баскетбол, повседневная носка?).
    2. Поведение пользователей: Большинство пользователей переходят на эту страницу со страницы категории «Обувь для трейлраннинга».
    3. Действие системы: Система фиксирует высокую частоту co-selection между страницей категории (с ясным профилем «Трейлраннинг») и страницей товара.
    4. Результат: Система распространяет контекст «Трейлраннинг» на страницу товара «Модель X», улучшая ее ранжирование по соответствующим запросам, даже если этот термин редко встречается на самой странице.

    Вопросы и ответы

    Что такое «Weighted Graph» (Взвешенный граф) в этом патенте и чем он отличается от ссылочного графа (PageRank)?

    Weighted Graph в данном патенте — это модель связей, основанная на поведении пользователей, а не на гиперссылках. Узлы — это страницы, а ребра возникают, если пользователи часто посещают эти страницы последовательно в рамках одной сессии (co-selection). Вес ребра зависит от частоты таких переходов. В отличие от ссылочного графа, который строится на явных ссылках вебмастеров, этот граф строится на фактической навигации пользователей и используется для распространения тематики.

    Как система определяет тематику страницы, если на ней нет текста?

    Система определяет тематику, анализируя, какие другие страницы пользователи посещали до или сразу после нее. Если пользователи часто посещают страницу без текста сразу после прочтения авторитетной статьи на определенную тему (Reference Resource), система переносит тематический профиль (Contextual Profile) этой статьи на страницу без текста. Это позволяет понять контекст изображений или видео.

    Что такое «Reference Resource» (Эталонный ресурс) и как им стать?

    Reference Resource — это страница с высокой степенью достоверности ее тематического профиля, подтвержденной данными обратной связи (Relevance Feedback Data). Чтобы стать таким ресурсом, необходимо создавать высококачественный, экспертный контент, который точно соответствует заявленной теме и удовлетворяет интент пользователя, что на практике соответствует принципам E-E-A-T и повышает Reference Weight.

    Влияет ли внутренняя перелинковка на работу этого алгоритма?

    Да, напрямую. Внутренняя перелинковка — основной инструмент для направления навигации пользователя по сайту. Если перелинковка логична и тематически связана, она способствует созданию последовательных выборов (sequential selections) между релевантными страницами. Это усиливает связи в графе поведения пользователей и помогает системе точнее определить Contextual Profile этих страниц.

    Может ли этот алгоритм навредить сайту?

    Да, если паттерны навигации хаотичны или обманчивы. Например, если вы используете кликбейт, и пользователи быстро покидают страницу, переходя к не связанным темам, система может сформировать неверный или размытый Contextual Profile. Также, если ваша страница часто посещается в связке с низкокачественным контентом, это может негативно повлиять на ее контекст.

    Что означает итеративное вычисление профилей?

    Это означает, что процесс определения тематики происходит циклически. На первом этапе контекст передается от эталонных ресурсов к их ближайшим соседям по графу. На втором этапе эти соседи, получив новый контекст, передают его дальше своим соседям. Процесс повторяется многократно, пока тематические профили всех ресурсов в графе не стабилизируются (конвергенция).

    Зачем нужен процесс нормализации и отсечения по порогу (Thresholding)?

    Этот процесс помогает уточнить Contextual Profile и избавиться от шума. Нормализация приводит все оценки к единой шкале. Отсечение по порогу (Topic Score Threshold) удаляет темы, которым страница слабо релевантна. Повторная нормализация усиливает вес оставшихся, наиболее значимых тем. Это гарантирует, что итоговый профиль отражает основную тематику ресурса.

    Учитывает ли система переходы между разными доменами?

    Да. Патент описывает анализ Selection Data в рамках пользовательских сессий, которые могут охватывать посещение разных сайтов (например, возврат к результатам поиска и выбор другого ресурса). Если пользователь перешел с сайта А на сайт Б в рамках одной сессии, это может считаться последовательным выбором, указывающим на тематическую связь между ними.

    Как этот патент связан с современными концепциями, такими как эмбеддинги?

    Этот патент можно рассматривать как ранний метод генерации эмбеддингов (векторных представлений) для ресурсов. Contextual Profile — это, по сути, вектор в пространстве тем. Принцип, что значение объекта определяется его окружением (в данном случае — ресурсами, посещаемыми в той же сессии), лежит в основе современных методов создания эмбеддингов.

    Как использовать инсайты из этого патента для оптимизации интернет-магазина?

    В интернет-магазине критически важно оптимизировать блоки рекомендаций («Похожие товары», «С этим товаром покупают») и навигацию. Если пользователи часто переходят от одного товара к тематически связанному другому (например, от кофемашины к фильтрам), это усиливает Contextual Profile обоих товаров через co-selection. Обеспечение логичной навигации напрямую влияет на то, как Google понимает ассортимент.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.