Google использует машинное обучение для оценки надежности пользователей, предлагающих правки для Графа Знаний. Система анализирует профиль пользователя, историю его предыдущих правок, его интересы, уровень экспертизы и активность в других сервисах Google (subsystems), чтобы решить, принимать ли предложенное обновление автоматически.
Описание
Какую задачу решает
Патент решает проблему верификации точности данных, предоставляемых пользователями для обновления Базы Знаний (Knowledge Base), которая используется, например, в Панелях Знаний (Knowledge Panels). Основная задача — минимизировать риск внесения в базу ошибочных, некорректных или спамных данных, которые могут быть предоставлены пользователями намеренно или случайно, и автоматизировать процесс модерации.
Что запатентовано
Запатентована система, которая прогнозирует вероятность того, что обновление, предложенное пользователем, является точным. Для этого используется модель машинного обучения (user model), которая анализирует данные профиля пользователя (user profile data). Ключевые факторы включают историю предыдущих правок пользователя, его предполагаемый уровень экспертизы, а также его активность в других подсистемах (subsystems) поисковой системы (например, Карты, Почта, Социальные сети).
Как это работает
Система работает в двух режимах: офлайн-обучение и онлайн-применение.
- Обучение модели: Система анализирует историю предыдущих обновлений от разных пользователей, помеченных как точные или неточные. На основе этих данных и характеристик профилей пользователей (история, экспертиза, использование подсистем) обучается user model.
- Оценка обновления: Когда пользователь предлагает правку, система извлекает его user profile data и использует user model для расчета вероятности точности (likelihood that the value is accurate).
- Принятие решения: Если рассчитанная вероятность превышает определенный порог (threshold), обновление автоматически принимается в Knowledge Base. Если порог не достигнут, правка может быть отклонена или отправлена на дополнительную верификацию.
- Проактивный сбор данных: Система также может идентифицировать надежных пользователей и проактивно запрашивать у них информацию по темам их экспертизы.
Актуальность для SEO
Высокая. Хотя это продолжение патента, поданного изначально в 2013 году, поддержание целостности и точности Графа Знаний (Knowledge Graph) является критически важной задачей для Google. Использование машинного обучения для оценки надежности источников информации (в данном случае — пользователей-контрибьюторов) полностью соответствует современным подходам к оценке E-E-A-T и борьбе с дезинформацией.
Важность для SEO
Влияние на SEO — среднее (6/10). Патент не описывает ранжирование веб-страниц. Он посвящен исключительно механизмам поддержания качества Knowledge Base. Однако он крайне важен для понимания того, как Google технологически подходит к оценке экспертизы и надежности (E-E-A-T) источников информации. Принципы оценки контрибьюторов Графа Знаний могут зеркально отражать общие принципы оценки авторов и организаций в веб-поиске. Также патент напрямую влияет на управление репутацией и точностью данных в Панелях Знаний.
Детальный разбор
Термины и определения
- Attribute (Атрибут)
- Характеристика сущности в Базе Знаний (например, «дата рождения» или «местоположение»).
- Entity (Сущность)
- Человек, место, организация, событие или любой другой объект, описанный в Базе Знаний.
- Knowledge Base (База Знаний)
- Хранилище информации о сущностях и их взаимосвязях, часто представленное в виде графа. Используется для ответов на запросы и формирования Панелей Знаний.
- Knowledge Panel (Панель Знаний)
- Элемент пользовательского интерфейса, который предоставляет сводку информации о конкретной сущности в ответ на поисковый запрос. Может служить интерфейсом для внесения правок.
- Level of Expertise (Уровень экспертизы)
- Оценка знаний пользователя в определенной теме (например, новичок или эксперт). Может определяться на основе сложности ресурсов, которые посещает пользователь.
- Subsystems (Подсистемы)
- Другие сервисы поисковой системы, доступные пользователю. В патенте упоминаются: система поиска изображений, карты, электронная почта, социальная сеть, блоговая система, система покупок.
- User Model / User Reliability Model (Модель пользователя / Модель надежности пользователя)
- Модель машинного обучения, обученная прогнозировать вероятность того, что пользователь предоставит точные данные для обновления Базы Знаний.
- User Profile Data (Данные профиля пользователя)
- Информация, хранящаяся о пользователе (вне Базы Знаний), включающая историю его правок, точность этих правок, темы интересов, уровень экспертизы и данные об использовании других подсистем.
Ключевые утверждения (Анализ Claims)
Патент US20230113420A1 является продолжением (continuation) более ранних патентов. Claims в предоставленном документе фокусируются на специфическом аспекте общей системы.
Claims 1, 8, 18 (Независимые пункты): Описывают основной метод и систему валидации обновлений.
- Система поддерживает Knowledge Base, содержащую пары атрибут-значение для сущностей.
- Система получает предложенное значение для атрибута сущности от пользователя, у которого есть User Profile Data (хранящиеся отдельно от KB).
- Система получает User Profile Data пользователя. Ключевое утверждение: эти данные включают информацию о том, какие другие подсистемы (other subsystems) системы использовал пользователь.
- Система вычисляет вероятность (likelihood) того, что предложенное значение является точным, используя информацию об использовании подсистем.
- Если вероятность удовлетворяет порогу (threshold), Knowledge Base обновляется.
Ядро изобретения в этих пунктах — использование факта доступа пользователя к другим сервисам (subsystems) как сигнала для оценки точности его правок в Knowledge Base.
Claim 3 (Зависимый от 2): Уточняет логику User Reliability Model.
Модель настроена так, что пользователи, которые имеют доступ к большему количеству подсистем, считаются более надежными (more reliable), чем пользователи, имеющие доступ к меньшему количеству подсистем. Это сигнал легитимности аккаунта.
Claim 5 и 18 (Зависимые): Перечисляют примеры подсистем.
Подсистемы включают: систему поиска изображений, систему карт, систему электронной почты, систему социальных сетей, блоговую систему или систему покупок.
Claim 7 (Зависимый от 1): Уточняет процесс обновления.
Обновление Knowledge Base происходит автоматически, без вмешательства или проверки администратором базы знаний.
Где и как применяется
Изобретение применяется в инфраструктуре управления данными Google, в частности, для поддержания Knowledge Base.
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Основное применение патента. Система использует пользователей как источник данных для обновления Knowledge Base. Это может происходить пассивно (пользователь сам предлагает правку) или активно (система запрашивает данные у надежного пользователя через Data Request).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обновление Knowledge Base (Графа Знаний) после валидации данных. Также система поддерживает User Database, где индексируются характеристики пользователей (User Profile Data), включая их экспертизу и историю взаимодействия с подсистемами. Machine Learning Module использует эти данные для создания User Model.
METASEARCH – Метапоиск и Смешивание
На этапе формирования SERP система отображает Knowledge Panel. Этот интерфейс используется для взаимодействия с пользователем — получения правок или проактивного запроса информации у экспертов.
Входные данные:
- Предложенное обновление (Сущность, Атрибут, Значение).
- Идентификатор пользователя.
- User Profile Data пользователя (история правок, экспертиза, использование подсистем).
Выходные данные:
- Решение о принятии обновления (Принять / Отклонить / Отправить на верификацию).
- Обновленная запись в Knowledge Base.
На что влияет
- Типы контента: Влияет на фактическую информацию (данные в Knowledge Base), которая отображается в Панелях Знаний, расширенных сниппетах и других сервисах, использующих Граф Знаний (например, Google Maps).
- Конкретные ниши: Влияет на все тематики и типы сущностей, представленные в Knowledge Base, особенно на локальный бизнес, организации и публичных персон.
Когда применяется
Алгоритм применяется в двух основных сценариях:
- Сценарий 1 (Пассивный/Реактивный): Активируется каждый раз, когда пользователь предлагает обновление для Knowledge Base (например, через функцию «Предложить исправление» в Панели Знаний).
- Сценарий 2 (Активный/Проактивный): Система может определить, что пользователь является экспертом в теме его текущего поискового запроса. В этом случае система может проактивно попросить пользователя предоставить или верифицировать информацию по этой теме.
Пошаговый алгоритм
Процесс А: Обучение Модели Пользователя (Офлайн)
- Сбор исторических данных: Получение предыдущих предложений по обновлению Knowledge Base от множества пользователей.
- Разметка данных: Определение точности каждого исторического предложения (например, с помощью администраторов, истории ревизий или экспертов).
- Извлечение признаков: Для каждого пользователя извлекаются User Profile Data:
- Статистика точности предыдущих правок (например, соотношение верных и неверных).
- Темы интересов и рассчитанный Level of Expertise.
- Информация о том, какие Subsystems использовал пользователь.
- Обучение модели: Использование алгоритмов контролируемого обучения (например, SVM или логистическая регрессия) для создания User Model, которая предсказывает точность на основе извлеченных признаков.
Процесс Б: Оценка Предложенного Обновления (Онлайн)
- Получение обновления: Система получает от пользователя обновление атрибута сущности, связанного с определенной темой.
- Получение данных профиля: Извлекаются User Profile Data для данного пользователя.
- Вычисление вероятности точности: Данные профиля (включая данные об использовании Subsystems и экспертизе в теме обновления) подаются на вход User Model. Модель вычисляет вероятность (likelihood) того, что обновление является точным.
- Сравнение с порогом: Вычисленная вероятность сравнивается с предустановленным порогом (threshold). Порог может быть разным для обновления существующих атрибутов и добавления новых.
- Принятие решения:
- Если вероятность > порога: Пользователь признается надежным (reliable) для данной темы. Knowledge Base обновляется (возможно, автоматически).
- Если вероятность < порога: Обновление отклоняется, игнорируется или отправляется на дополнительную верификацию (например, ожидание подтверждения от других пользователей).
Какие данные и как использует
Данные на входе
Система использует исключительно данные, связанные с пользователем и его взаимодействием с системой.
- Пользовательские факторы (User Profile Data):
- История правок: Предыдущие предложения пользователя по обновлению Knowledge Base.
- Статистика точности: Метрики, описывающие точность прошлых правок (например, соотношение принятых и отклоненных правок).
- Темы интересов (Topics of Interest): Темы, которыми интересуется пользователь (определенные пользователем или выведенные системой).
- Уровень экспертизы (Level of Expertise): Оценка знаний пользователя (новичок/эксперт) по темам интересов.
- Использование подсистем (Subsystems Accessed): Информация о том, какие другие сервисы системы использует пользователь (Поиск картинок, Карты, Почта, Социальная сеть, Блоги, Покупки). Это используется как сигнал легитимности пользователя.
- Поведенческие факторы:
- История поиска и посещенные ресурсы: Используются для определения тем интересов и уровня экспертизы. Например, посещение высокотехнических документов может указывать на экспертный уровень.
Какие метрики используются и как они считаются
- Likelihood of Accuracy (Вероятность точности): Основная метрика, вычисляемая User Model. Представляет собой оценку надежности конкретного предложения от конкретного пользователя.
- Threshold (Порог): Предопределенное значение, которое должна превысить вероятность точности для принятия обновления.
- Ratio of correct to incorrect submissions (Соотношение верных и неверных правок): Один из признаков (features), используемых при обучении модели.
- Number of Subsystems Accessed (Количество используемых подсистем): Признак, используемый моделью. Патент явно указывает, что большее количество используемых подсистем коррелирует с более высокой надежностью пользователя.
- Level of Expertise (Уровень экспертизы): Рассчитывается на основе анализа сложности (например, measure of language sophistication) ресурсов, которые посещает пользователь.
Выводы
- Оценка E-E-A-T контрибьюторов: Google активно оценивает надежность и экспертизу пользователей, которые предлагают правки для Графа Знаний. Это не просто оценка контента, а оценка источника (пользователя).
- Машинное обучение для определения надежности: Надежность пользователя прогнозируется с помощью User Model, обученной на исторических данных. Эта модель учитывает прошлую точность пользователя, его заявленные интересы и продемонстрированную экспертизу.
- Активность в экосистеме как сигнал легитимности: Патент (особенно Claims 1 и 3) явно выделяет использование различных сервисов Google (subsystems) как важный сигнал надежности. Чем больше сервисов использует пользователь (Карты, Почта, Социальные сети и т.д.), тем выше его легитимность и надежность в глазах системы. Это защита от спама с одноразовых аккаунтов.
- Автоматизация обновления Графа Знаний: Если пользователь признан высоконадежным (вероятность точности выше порога), его правки могут приниматься автоматически, без ручной модерации.
- Проактивный сбор данных у экспертов: Система способна идентифицировать экспертов во время их обычного поиска и проактивно запрашивать у них информацию для обновления Knowledge Base.
- Дифференцированные пороги: Система может использовать более высокие пороги надежности для добавления новых атрибутов по сравнению с обновлением существующих.
Практика
Best practices (это мы делаем)
Этот патент напрямую не касается ранжирования веб-сайтов, но дает важные инсайты для управления сущностями (Entity Management) и понимания E-E-A-T.
- Подтверждение важности E-E-A-T: Патент подтверждает, что Google имеет сложные механизмы для оценки экспертизы и надежности источников информации (в данном случае, пользователей). Это подкрепляет необходимость демонстрации E-E-A-T для авторов и организаций в веб-поиске.
- Управление сущностями и Панелями Знаний (Local SEO/ORM): Для владельцев бизнеса или представителей сущностей важно использовать верифицированные и активные аккаунты Google для предложения правок в Панели Знаний. Аккаунт с долгой историей и активностью в разных сервисах (например, Google Workspace, Maps, Gmail) будет считаться более надежным, согласно патенту.
- Построение истории надежного контрибьютора: Если вы являетесь признанным экспертом в своей области, внесение точных и полезных правок в Knowledge Base (например, в качестве Локального Эксперта на Картах или через Панели Знаний) может способствовать формированию положительного User Profile Data, что повысит вероятность принятия ваших правок в будущем.
Worst practices (это делать не надо)
- Манипуляции с Графом Знаний: Попытки спамить или манипулировать данными в Knowledge Base с помощью новых, анонимных или низкокачественных аккаунтов неэффективны. User Model специально разработана для фильтрации таких правок на основе отсутствия истории и низкого уровня использования других сервисов (subsystems).
- Игнорирование сигналов профиля: Предложение правок с «пустых» аккаунтов, даже если информация верна. Вероятность автоматического принятия таких правок низка.
Стратегическое значение
Патент демонстрирует технологические возможности Google по оценке надежности источников в масштабе. Он показывает конкретную реализацию того, как Google оценивает «кто» предоставляет информацию, а не только «что» предоставляется. Особое стратегическое значение имеет использование кросс-платформенной активности (subsystem usage) как сигнала легитимности. Это предполагает, что Google рассматривает целостное поведение пользователя в своей экосистеме как показатель его надежности.
Практические примеры
Сценарий: Обновление информации о компании в Панели Знаний
- Ситуация: Компания переехала и хочет обновить адрес в Панели Знаний.
- Действие (Хорошая практика): Маркетолог компании использует свой корпоративный аккаунт Google, который активно используется в течение нескольких лет для Почты (Workspace), Карт и, возможно, других сервисов. Он предлагает правку адреса.
- Обработка системой: Система анализирует профиль. Она видит высокую активность в subsystems и, возможно, признаки экспертизы в локальной информации. User Model рассчитывает высокую вероятность точности.
- Результат: Правка принимается автоматически или с высоким приоритетом.
- Действие (Плохая практика): SEO-специалист создает новый анонимный аккаунт и предлагает ту же правку.
- Обработка системой: Система видит нулевую историю и минимальное использование subsystems. User Model рассчитывает низкую вероятность точности.
- Результат: Правка отклоняется или ставится в очередь на длительную модерацию/верификацию другими пользователями.
Вопросы и ответы
Как Google определяет, является ли пользователь экспертом?
Согласно патенту, Level of Expertise (уровень экспертизы) может определяться автоматически на основе анализа ресурсов, которые посещает пользователь. Например, если пользователь часто просматривает высокотехнические или специализированные документы (оценивается по сложности языка — например, measure of language sophistication), система может классифицировать его как эксперта в данной области. Пользователи, просматривающие только общие документы, классифицируются как новички.
Что такое «подсистемы» (subsystems) и почему они важны для надежности?
Подсистемы — это другие сервисы Google, такие как Поиск Картинок, Карты, Почта, Социальные сети, Блоги, Покупки. Патент утверждает, что использование большего числа подсистем является сигналом легитимности пользователя. Пользователь, активно использующий несколько сервисов, считается более надежным, чем тот, кто использует только один (например, только Поиск).
Может ли моя правка в Панели Знаний быть принята мгновенно?
Да. Если система оценивает вас как высоконадежного пользователя для данной темы (ваша прогнозируемая точность превышает высокий порог), ваша правка может быть принята автоматически, без ручной проверки администратором (Claim 7). Это зависит от истории вашего аккаунта, вашей экспертизы и активности в экосистеме Google.
Что делать, если мои правки в Панели Знаний постоянно отклоняются?
Это означает, что User Model оценивает ваш профиль как недостаточно надежный. Для повышения надежности следует использовать активный, неанонимный аккаунт Google с историей использования различных сервисов. Также важно убедиться, что вы предоставляете точную информацию и имеете подтвержденную экспертизу в данной области. Построение репутации надежного контрибьютора требует времени.
Влияет ли этот патент на ранжирование моего сайта в поиске?
Напрямую нет. Этот патент описывает исключительно механизмы обновления Базы Знаний (Knowledge Base), а не ранжирование веб-документов. Однако он показывает, как Google оценивает E-E-A-T источников информации, что является важным концептуальным знанием для SEO.
Может ли Google попросить меня предоставить информацию?
Да. Патент описывает проактивный механизм (FIG. 5). Если вы выполняете поиск по теме, в которой система считает вас экспертом (на основе вашего профиля), она может предоставить вам запрос на обновление или верификацию информации, например, прямо в Панели Знаний.
Как обрабатываются конфликтующие правки от разных пользователей?
Если система получает конфликтующие обновления, она взвешивает каждый ответ на основе рассчитанной надежности пользователей, предоставивших эти ответы. Правки от пользователей с более высокой прогнозируемой точностью будут иметь больший вес при определении финального значения в Knowledge Base.
Отличается ли процесс добавления новой информации от изменения существующей?
Да. В патенте упоминается, что система может использовать разные пороги (thresholds) для принятия решений. Например, для добавления совершенно нового атрибута сущности может потребоваться более высокий уровень надежности пользователя, чем для изменения значения существующего атрибута.
Использует ли система данные из моего профиля в социальных сетях?
Да, если эта социальная сеть является одной из подсистем (subsystems) Google, к которой у пользователя есть доступ. В патенте явно упоминается «social network system» как одна из подсистем, активность в которой повышает надежность пользователя.
Что важнее для принятия правки: история прошлых правок или использование других сервисов Google?
Патент описывает, что оба фактора используются как признаки (features) для обучения User Model. История точности правок является прямым показателем надежности, в то время как использование других сервисов (subsystems) рассматривается как показатель легитимности аккаунта. Модель машинного обучения определяет итоговый вес каждого фактора.