Google использует эффективный математический метод для распространения характеристик (например, тематик сайтов) по большим графам. Патент описывает, как Google может строить графы сайтов, где связи основаны на поведении пользователей (совместное посещение в одной сессии), и быстро рассчитывать, как тематика одного сайта передается его соседям по этому поведенческому графу, используя технику «предварительной нормализации».
Описание
Какую задачу решает
Патент решает проблему вычислительной эффективности при моделировании распространения информации (меток) в крупномасштабных графовых структурах (например, веб-графе). Традиционные итеративные методы требуют повторной нормализации весов на каждом узле после каждого шага, что медленно и препятствует использованию оптимизированных математических подходов, таких как решения для разреженных матриц (sparse-matrix solutions). Изобретение ускоряет этот процесс.
Что запатентовано
Запатентован метод распространения меток (labels) через графы с использованием техники «предварительной нормализации» (pre-normalization). Система заранее определяет набор линейных ограничений (linear constraints), которые гарантируют, что веса меток остаются нормализованными на протяжении всего процесса вычислений. Это устраняет необходимость повторной нормализации и позволяет эффективно рассчитывать, как характеристики (например, тематики сайтов) передаются от одного узла к другому.
Как это работает
Система строит граф, где узлы представляют сущности (например, сайты), а ребра — связи (например, совместное посещение пользователями). Метки (например, тематики) вводятся в определенные узлы.
- Предварительная нормализация: До начала распространения система нормализует веса всех входящих ребер для каждого узла.
- Факторы влияния (Influence Factors): Для каждого узла определяются факторы (влияние прямых меток, влияние соседей и фактор затухания), сумма которых равна 1.
- Расчет: Используя эти нормализованные веса и факторы влияния как линейные ограничения, система эффективно рассчитывает финальное распределение меток по сети с помощью стандартных математических методов (например, bi-conjugate gradient descent).
Актуальность для SEO
Высокая. Эффективная обработка графов является фундаментальной задачей в информационном поиске. Принципы эффективного распространения сигналов и использования поведенческих графов (co-visitation graphs), явно упомянутые в патенте (Claims 13, 14), остаются крайне актуальными для понимания того, как Google оценивает тематические связи между сайтами, выходя за рамки анализа ссылок.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (7/10). Хотя это инфраструктурный патент, он раскрывает критически важный механизм: как Google может эффективно распространять тематические сигналы между веб-сайтами, используя граф, основанный на поведении пользователей (co-visitation). Это подтверждает, что тематическая релевантность и авторитетность могут передаваться через паттерны трафика, что требует от SEO-специалистов фокусироваться на том, как их сайт вписывается в общий путь пользователя (user journey) в сети.
Детальный разбор
Термины и определения
- Entity Node (Узел сущности)
- Узел в графе, представляющий объект. В патенте это могут быть пользователи, контентные сайты (content sites) или рекламные сайты (advertisement sites).
- Label Node / Injection Node (Узел метки / Узел инъекции)
- Узел, который вводит («инжектирует») метку с определенным весом в узел сущности. Метки представляют атрибуты, такие как темы контента (content topics) или интересы.
- Weighted Edge (Взвешенное ребро)
- Связь между узлами, вес которой отражает силу или значимость этой связи.
- Co-visitation (Совместное посещение)
- Посещение пользователем двух разных сайтов в рамках одной сессии (single user session) или заданного периода времени. В патенте (Claim 14) используется для определения веса ребер между узлами контентных сайтов.
- Pre-normalization (Предварительная нормализация)
- Ключевая техника патента. Процесс нормализации весов входящих ребер до начала итеративного распространения информации. Устраняет необходимость повторной нормализации на каждом шаге.
- Influence Factors (Факторы влияния)
- Набор значений для каждого узла, определяющих баланс влияния различных источников. Сумма факторов равна 1. Включают:
- 1. First Influence Factor (Injection Influence)
- Влияние меток, введенных напрямую (например, тематика, определенная по собственному контенту сайта).
- 2. Second Influence Factor (Neighbor Influence)
- Влияние меток, полученных от соседних узлов сущностей (например, тематика, унаследованная от связанных сайтов).
- 3. Third Influence Factor (Uncertainty Influence)
- Мера затухания (attenuation). Гарантирует, что влияние меток уменьшается по мере удаления от источника в графе.
- Linear Constraints (Линейные ограничения)
- Математические условия, основанные на пре-нормализованных весах и факторах влияния, которые позволяют решить задачу распространения меток с помощью эффективных методов линейной алгебры.
- Sparse-matrix solutions (Решения для разреженных матриц)
- Эффективные математические методы (например, bi-conjugate gradient descent или power iteration) для работы с большими графами.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод подготовки графа для эффективного распространения меток.
- Предоставляется структура данных (граф) с узлами сущностей, узлами меток и взвешенными ребрами.
- Для каждого узла сущности выполняется пре-нормализация:
- Вычисляется агрегированный вес входящих ребер от других сущностей.
- Веса этих входящих ребер нормализуются (делятся на агрегированный вес).
- Вычисляется агрегированный вес входящих ребер от узлов меток.
- Веса этих входящих меток нормализуются.
- Определяются факторы влияния (influence factors), сумма которых равна 1.
- Эти пре-нормализованные веса и факторы влияния используются как набор линейных ограничений (linear constraints) для определения финальных весов меток.
Это ядро изобретения: создание стабильной математической модели, которая не требует повторной нормализации в процессе вычислений.
Claim 3 (Зависимый): Детализирует итеративный процесс расчета финальных весов.
В каждой итерации веса меток распространяются от соседей и инжектируются напрямую. При этом используются веса распространения, которые являются произведением пре-нормализованного веса ребра и соответствующего фактора влияния (Neighbor Influence или Injection Influence) принимающего узла. Затем полученные метки суммируются.
Claims 13 и 14 (Критические для SEO): Определяют применение метода к контентным сайтам.
- Claim 13: Узлы сущностей представляют контентные сайты (content sites), а узлы меток — темы контента (content topics).
- Claim 14: Веса ребер между узлами контентных сайтов определяются на основе количества (number), постоянства (consistency) или новизны (recentness) посещений пользователями этих сайтов в рамках одной пользовательской сессии (single user session) и в течение заданного периода времени.
Это прямое указание на построение графа совместных посещений (co-visitation graph) и его использование для распространения тематических сигналов между сайтами.
Где и как применяется
Этот патент описывает вычислительный движок для анализа графов, который применяется для генерации признаков сущностей.
CRAWLING & Data Acquisition (Сбор данных)
Система должна собирать данные для построения графа. В контексте SEO это включает сбор поведенческих данных пользователей (логи сессий, история посещений) для определения паттернов совместного посещения сайтов (co-visitation).
INDEXING – Индексирование и извлечение признаков
Основное применение. Алгоритм используется для анализа построенного графа (например, графа co-visitation) в офлайн-режиме для вычисления и присвоения признаков (меток) сущностям (сайтам).
- Процесс: Если Сайт А имеет тему X, а Сайт Б часто посещается в одной сессии с Сайтом А, алгоритм эффективно рассчитывает, какая часть темы X должна быть присвоена Сайту Б.
- Результат: Вычисленные финальные веса меток (final label weightings) сохраняются в индексе как атрибуты сайта.
RANKING – Ранжирование
Рассчитанные на этапе индексирования атрибуты (например, тематический профиль сайта, полученный через распространение) могут использоваться как сигналы в моделях ранжирования для определения релевантности и авторитетности.
Входные данные:
- Данные для построения графа (Узлы сущностей, Узлы меток).
- Взвешенные ребра (например, веса на основе co-visitation).
- Начальные веса меток (инъекции).
- Конфигурация Influence Factors.
Выходные данные:
- Нормализованные финальные веса меток для каждого узла сущности.
На что влияет
- Контентные сайты (Content Sites): Патент явно влияет на то, как Google может определять тематику (content topics) сайтов, используя не только контент и ссылки, но и поведенческие связи с другими сайтами (Claim 13, 14).
- Конкретные ниши: Влияние особенно заметно в нишах, где пользователи часто посещают несколько сайтов для решения одной задачи (например, e-commerce, путешествия, финансы, исследования).
- Новые сайты: Механизм позволяет быстрее классифицировать новые сайты с небольшим количеством контента, если они демонстрируют паттерны совместного посещения с уже известными авторитетными ресурсами.
Когда применяется
- Условия работы: Алгоритм применяется для анализа больших графовых структур, когда требуется высокая вычислительная эффективность.
- Частота применения: Применяется периодически в офлайн-режиме или в режиме пакетной обработки для обновления характеристик сущностей в индексе по мере накопления новых данных о структуре графа или поведении пользователей.
Пошаговый алгоритм
Процесс делится на этап подготовки графа (пре-нормализация) и этап расчета (распространение).
Этап А: Подготовка и Предварительная Нормализация
- Построение графа: Загрузка структуры графа. Веса ребер между сайтами устанавливаются на основе данных co-visitation.
- Итерация по узлам сущностей: Для каждого узла сущности (E) выполняются шаги 3-7.
- Агрегация весов от соседей: Вычисление суммы весов всех входящих ребер в узел E от других узлов сущностей.
- Нормализация ребер от соседей: Если агрегированный вес положителен, вес каждого входящего ребра делится на этот агрегированный вес. Получаются pre-normalized between-entity edge weights.
- Агрегация весов от меток: Вычисление суммы весов всех входящих ребер в узел E от узлов меток (прямые инъекции).
- Нормализация меток: Если агрегированный вес положителен, вес каждой входящей метки делится на этот агрегированный вес. Получаются pre-normalized from-label weights.
- Определение факторов влияния: Определение значений для трех факторов влияния (Injection, Neighbor, Uncertainty) для узла E. Их сумма равна 1.
- Формирование линейных ограничений: Полученные данные формируют систему линейных ограничений для расчета.
Этап Б: Расчет финальных весов (Решение)
Система решает набор линейных ограничений. Это может быть сделано итеративно (Power Iteration, Claim 3) или с помощью матричных методов (bi-conjugate gradient descent, Claim 4).
Пример итеративного подхода:
- Начало итерации.
- Распространение от соседей: Веса меток с предыдущей итерации передаются от соседей. Передаваемый вес рассчитывается как произведение веса метки соседа, пре-нормализованного веса ребра и фактора влияния соседей (Neighbor Influence Factor) принимающего узла.
- Введение от меток (Инъекция): Метки вводятся напрямую. Передаваемый вес рассчитывается как произведение пре-нормализованного веса метки и фактора прямого влияния (Injection Influence Factor) принимающего узла.
- Суммирование: Для каждого узла суммируются все полученные веса по каждой метке. (Фактор затухания Uncertainty Influence учитывается неявно, так как сумма первых двух факторов меньше 1).
- Проверка сходимости: Проверяется, стабилизировались ли веса. Если нет, возврат к шагу 1. Повторная нормализация после итерации не требуется.
- Завершение: Получение финальных весов меток (final label weightings).
Какие данные и как использует
Данные на входе
Патент фокусируется на методе расчета, но явно указывает на типы данных, используемые для построения графа и определения весов:
- Поведенческие факторы (User Behavior): Критически важны для определения весов ребер между сайтами.
- Данные о совместном посещении (co-visitation) сайтов пользователями в рамках одной сессии (Claims 12, 14). Учитываются количество (number), постоянство (consistency) и новизна (recentness) таких посещений.
- Контентные факторы (Для определения начальных меток): Данные, используемые для начальной инъекции меток. Например, темы (content topics) или ключевые слова (keywords), извлеченные из контента сайта.
- Структурные факторы (Топология графа): Сами связи между узлами сущностей и узлами меток.
- Социальные данные: В контексте социальных сетей используются данные об обмене сообщениями для определения весов ребер (Claim 10).
Какие метрики используются и как они считаются
- Aggregated Weights: Суммы входящих весов (отдельно от сущностей и от меток). Используются как знаменатель при нормализации.
- Pre-normalized Weights: Результат деления исходного веса ребра/метки на соответствующий Aggregated Weight.
- Influence Factors (I, N, U): Заданные параметры конфигурации для узлов. I (Injection) + N (Neighbor) + U (Uncertainty) = 1.
- Propagation Weighting: Метрика, используемая во время расчета. Рассчитывается как произведение Pre-normalized Weight и соответствующего Influence Factor (I или N).
- Методы вычислений: Патент упоминает bi-conjugate gradient descent (Claim 4) и итеративный подход, схожий с Power Iteration (Claim 3).
Выводы
- Графы совместного посещения (Co-visitation Graphs) как реальность: Критически важный вывод для SEO. Патент явно подтверждает (Claims 13-14), что Google может строить графы сайтов, где связи основаны на поведении пользователей (посещение в рамках одной сессии), а не только на ссылках.
- Механизм распространения тематик через поведение: Патент предоставляет конкретный и эффективный механизм для распространения тематических сигналов (content topics) по этому поведенческому графу. Тематика сайта определяется не только его контентом, но и тематикой сайтов, которые пользователи посещают вместе с ним.
- Эффективность вычислений: Основная техническая цель патента — сделать анализ таких графов вычислительно эффективным в масштабах веба. Техника pre-normalization позволяет использовать быстрые методы решения разреженных матриц.
- Гибкая модель влияния: Использование Influence Factors позволяет Google тонко настраивать, насколько сайт определяется собственным контентом (Injection) по сравнению с влиянием его окружения (Neighbors), а также контролировать скорость затухания сигнала (Uncertainty).
- Важность «соседства» в поведении пользователей: Стратегическое значение имеет то, с какими сайтами ассоциируется ваш ресурс в рамках пользовательских сессий. Ассоциация с авторитетными и релевантными сайтами может улучшить тематический профиль вашего сайта.
Практика
Best practices (это мы делаем)
- Оптимизация под путь пользователя (User Journey Optimization): Проектируйте контент и стратегию так, чтобы ваш сайт естественно вписывался в сессии пользователей, которые также включают посещение авторитетных сайтов в вашей нише. Понимайте, какие задачи решает пользователь до и после посещения вашего сайта.
- Анализ аудитории и Co-visitation паттернов: Изучайте, какие еще ресурсы посещает ваша целевая аудитория. Стремитесь к тому, чтобы ваш сайт находился в одном поведенческом кластере с лидерами тематики. Это укрепит ребра в графе co-visitation и улучшит качество меток, распространяемых на ваш сайт.
- Укрепление тематической идентичности (Topical Identity): Создавайте четкий тематический фокус. Чем сильнее ваша собственная тематика (начальные инжектируемые метки), тем точнее система сможет классифицировать ваш сайт и тем сильнее сигнал, который он будет распространять к соседям.
- Стратегические коллаборации: Развивайте партнерства (не только ссылочные), которые стимулируют естественные переходы пользователей между вашим сайтом и другими качественными ресурсами в нише. Это напрямую влияет на веса ребер в поведенческом графе.
Worst practices (это делать не надо)
- Ассоциация с низкокачественными ресурсами через трафик: Покупка нецелевого или низкокачественного трафика может привести к тому, что ваш сайт будет часто посещаться в одной сессии со спамными или нерелевантными сайтами. Это может привести к наследованию негативных или нерелевантных меток через механизм распространения.
- Игнорирование экосистемы ниши: Фокусироваться исключительно на контенте и ссылках, игнорируя то, как пользователи взаимодействуют с другими сайтами в нише. Изоляция в поведенческом графе может ограничить получение тематических сигналов.
- Манипуляции с Co-visitation: Попытки искусственно создать паттерны совместного посещения (например, с помощью ботов) рискованны и могут быть идентифицированы как неестественное поведение.
Стратегическое значение
Патент имеет высокое стратегическое значение, подтверждая важность графов, основанных на поведении пользователей, как дополнения к ссылочному графу. Он предоставляет математическую основу для того, как Google может оценивать тематическую релевантность и авторитетность на основе того, как пользователи просматривают веб. Долгосрочная SEO-стратегия должна учитывать, что авторитет и тематика передаются не только через ссылки, но и через паттерны трафика и ассоциации в рамках пути пользователя (user journey).
Практические примеры
Сценарий: Усиление тематики нового сайта через Co-visitation
- Ситуация: Запускается новый нишевый сайт о ремонте винтажных кофемашин (Сайт А). У него мало контента и нет ссылок.
- Поведение пользователей: Пользователи, ищущие запчасти или инструкции, часто посещают авторитетный форум бариста (Сайт Б) или сайт известного производителя кофемашин (Сайт В). Некоторые из них также начинают посещать Сайт А в рамках той же сессии.
- Построение графа (Claim 14): Google анализирует данные сессий и устанавливает взвешенные ребра между Сайтом А и Сайтами Б и В в графе co-visitation.
- Инъекция меток (Claim 13): Сайты Б и В имеют сильные метки (Labels): «Ремонт кофемашин» и «Бариста».
- Распространение (Claim 1): Используя описанный эффективный механизм, Google распространяет эти метки с Сайтов Б и В на Сайт А через поведенческие связи.
- Результат: Сайт А быстрее классифицируется как релевантный темам «Ремонт кофемашин», что улучшает его видимость по соответствующим запросам, несмотря на отсутствие ссылочного авторитета.
Вопросы и ответы
Что такое «предварительная нормализация» (Pre-normalization) и почему она важна?
Это процесс нормализации весов всех входящих связей (от соседей и от прямых меток) до начала основного расчета. Это ключевая инновация патента, так как она позволяет сформулировать задачу как систему линейных ограничений. Это устраняет необходимость повторной нормализации на каждом шаге вычислений, что значительно ускоряет процесс и позволяет использовать эффективные математические методы (sparse-matrix solutions) для анализа огромных графов.
Какое основное значение этого патента для SEO?
Основное значение заключается в явном подтверждении (Claims 13-14), что Google может строить графы сайтов, где связи основаны на совместном посещении пользователями (co-visitation), а не только на ссылках. Патент предоставляет эффективный механизм для распространения тематических сигналов (content topics) по этому поведенческому графу.
Что именно понимается под совместным посещением (co-visitation) в патенте?
Это посещение пользователем двух разных сайтов «в рамках одной пользовательской сессии и в течение заранее определенного периода времени» (Claim 14). Сила связи (вес ребра) между сайтами зависит от количества, постоянства и новизны таких совместных посещений.
Как SEO-специалист может повлиять на связи в графе совместных посещений?
Необходимо стремиться к тому, чтобы ваш сайт естественно встраивался в путь пользователя (user journey) рядом с другими авторитетными и релевантными ресурсами. Это достигается через создание контента, удовлетворяющего интент, стратегические партнерства и понимание того, какие еще сайты посещает ваша целевая аудитория. Цель — стать частью качественного поведенческого кластера.
Что такое «Факторы влияния» (Influence Factors)?
Это параметры, которые определяют баланс влияния на узел. Injection Influence определяет, насколько узел полагается на свои собственные метки (например, свой контент). Neighbor Influence определяет, насколько он наследует метки от соседей (например, через co-visitation). Uncertainty Influence контролирует затухание сигнала. Сумма этих факторов равна 1.
Может ли этот механизм навредить сайту?
Да. Если ваш сайт часто посещается в одной сессии с низкокачественными или спамными ресурсами (например, из-за покупки некачественного трафика), он может наследовать негативные или нерелевантные метки через этот механизм распространения. Важно следить за качеством вашего «соседства» в поведенческом графе.
Заменяет ли этот механизм анализ ссылок (PageRank)?
Нет, он его дополняет. Анализ ссылок основан на явных связях, установленных вебмастерами. Этот механизм основан на неявных поведенческих связях, формируемых пользователями. Co-visitation graph предоставляет альтернативный взгляд на взаимосвязи в вебе, позволяя оценивать релевантность и тематику, даже если прямые ссылки отсутствуют.
Как работает фактор затухания (Uncertainty Influence)?
Он гарантирует, что тематические сигналы ослабевают по мере удаления от источника в графе. Сайт, находящийся в двух шагах от авторитетного источника в графе co-visitation, получит более слабый сигнал, чем сайт, посещаемый непосредственно вместе с источником. Это делает модель более реалистичной и предотвращает неконтролируемое распространение меток.
Эти расчеты происходят в реальном времени при запросе?
Скорее всего, нет. Этот тип анализа графов обычно выполняется в офлайн-режиме на этапе индексирования и извлечения признаков. Система рассчитывает стабильные атрибуты сайтов (например, их тематический профиль), которые затем сохраняются в индексе и используются как сигналы во время ранжирования в реальном времени.
Является ли этот алгоритм частью основного алгоритма ранжирования?
Он является частью системы генерации сигналов. Он не ранжирует документы напрямую, но создает характеристики (веса меток) для сайтов на основе их связей в графе (например, поведенческом). Затем эти характеристики используются основным алгоритмом ранжирования в качестве одного из множества факторов.