Google использует единую графовую модель для одновременной оценки качества пользовательского контента (например, комментариев или отзывов) и репутации его авторов. В этой модели репутация автора повышает оценку его контента, а качественный контент улучшает репутацию автора. Также учитываются связи между пользователями (подписки) и между единицами контента. Это позволяет точнее ранжировать UGC и выявлять авторитетных участников.
Описание
Какую задачу решает
Патент решает задачу оценки качества пользовательского контента (UGC), такого как комментарии или отзывы, и одновременно определения репутации авторов этого контента. Традиционные системы часто оценивают авторов и контент раздельно. Изобретение предлагает единую структуру (same framework), где оценка качества контента и репутация автора взаимно влияют друг на друга, обеспечивая более точное ранжирование обоих.
Что запатентовано
Запатентована система и метод для одновременного (simultaneously calculating) расчета оценок ранжирования для группы пользователей (авторов) и оценок ранжирования для группы комментариев (контента), созданных этими пользователями. Процесс основан на построении графа, где пользователи и комментарии являются узлами, а их взаимосвязи (авторство, оценки, подписки) — ребрами. Для расчета финальных оценок используется итеративный графовый алгоритм.
Как это работает
Система функционирует следующим образом:
- Построение графа: Пользователи и их комментарии представляются как узлы в графе.
- Определение связей: Между узлами устанавливаются ребра на основе взаимоотношений: авторство (пользователь написал комментарий), рейтинг (пользователь оценил комментарий), подписка (пользователь подписан на другого пользователя), а также связи между похожими комментариями.
- Назначение начальных оценок: Узлам присваиваются начальные значения (initial values) на основе независимых сигналов (например, возраст аккаунта для пользователя, длина комментария для контента).
- Итеративный расчет: Применяется итеративный графовый алгоритм (подобный PageRank). В ходе итераций репутация пользователя передается его комментариям, качество комментариев передается их автору, а репутация также передается между связанными пользователями (например, через подписки).
- Сходимость: Расчет продолжается до тех пор, пока оценки не стабилизируются (converged) или не будет достигнуто максимальное число итераций.
Актуальность для SEO
Высокая. Оценка авторитетности авторов (часть E-E-A-T) и качества пользовательского контента (UGC) остается критически важной задачей для поисковых систем. Описанный механизм предоставляет надежный метод для оценки репутации участников сообществ, форумов, систем отзывов и блогов, интегрируя сигналы качества контента и социальные взаимодействия в единую модель ранжирования.
Важность для SEO
Патент имеет высокое значение (8/10) для SEO-стратегий, особенно для сайтов, зависящих от UGC (форумы, маркетплейсы, сайты отзывов, блоги с активными комментариями). Он описывает конкретный механизм, как Google может оценивать качество вклада отдельных пользователей и использовать эту репутацию для ранжирования их контента. Понимание этого механизма подчеркивает важность привлечения и удержания авторитетных авторов и модерации качества UGC для улучшения видимости в поиске.
Детальный разбор
Термины и определения
- Comment (Комментарий)
- Единица пользовательского контента (UGC), содержащая мнение или замечание относительно документа (например, веб-страницы, статьи, продукта) или другого комментария. Может включать текст, аудио, видео или изображения.
- Document (Документ)
- Любой машиночитаемый продукт, такой как веб-страница, файл, новостная статья, блог-пост, к которому может быть оставлен комментарий.
- Graph Algorithm (Графовый алгоритм)
- Итеративный алгоритм (в патенте упоминается схожесть с PageRank), используемый для расчета оценок ранжирования узлов в графе путем распространения значений через ребра.
- Initial User Score / Initial Comment Score (Начальная оценка пользователя / комментария)
- Предварительные оценки, присваиваемые узлам до начала работы итеративного алгоритма. Основаны на сигналах, специфичных для пользователя (например, возраст аккаунта) или комментария (например, длина текста).
- Nodes and Edges (Узлы и Ребра)
- Структурные элементы графа. В контексте патента узлы представляют пользователей и комментарии. Ребра представляют взаимосвязи между ними (авторство, рейтинг, подписка, схожесть).
- Ranking Score (Оценка ранжирования)
- Итоговая числовая оценка, рассчитанная после выполнения графового алгоритма. Для пользователей она отражает репутацию (reputation), для комментариев — показатель качества (indication of quality).
- Rating (Рейтинг/Оценка комментария)
- Явная обратная связь от пользователя о комментарии (например, полезно/не полезно, лайк/дизлайк).
- Subscribe (Подписка)
- Действие пользователя, указывающее на желание получать уведомления о новых комментариях другого пользователя. Используется как сигнал связи между пользователями в графе.
Ключевые утверждения (Анализ Claims)
Патент содержит несколько независимых пунктов (Claims 1, 8, 15), описывающих метод, устройство и компьютерный носитель соответственно. Анализ сфокусирован на методе (Claim 1).
Claim 1 (Независимый пункт): Описывает основной метод ранжирования.
- Генерация графа: Система создает граф, где пользователи и комментарии представлены как узлы. Узлы соединяются ребрами на основе трех типов отношений: между пользователями и комментариями, между комментариями, и между пользователями.
- Получение начальных оценок: Система получает первую начальную оценку для пользователя и вторую начальную оценку для комментария, созданного этим пользователем.
- Расчет оценок ранжирования: Система рассчитывает Ranking Score пользователя (отражающий репутацию) и Ranking Score комментария (отражающий качество). Расчет основывается на начальных оценках и отношениях между узлами в графе.
- Итеративный процесс и сходимость: Система запускает итерации графового алгоритма для определения того, сошлись ли (стабилизировались) Ranking Score пользователя и Ranking Score комментария на основе графа.
- Генерация ранжированного списка: В ответ на определение сходимости оценок система генерирует ранжированный список пользователей. Список включает информацию, идентифицирующую пользователя, и упорядочен на основе обоих показателей: Ranking Score пользователя и Ranking Score комментария.
- Предоставление списка: Система предоставляет ранжированный список для отображения.
Зависимые пункты (Детализация механизма):
- Claim 4 и 11: Уточняют, что начальная оценка пользователя рассчитывается путем комбинирования множества различных сигналов, причем разные сигналы могут иметь разный вес.
- Claim 5 и 12: Описывают применение результатов для ранжирования комментариев по запросу к документу и предоставления подмножества лучших комментариев.
- Claim 6 и 13: Описывают применение результатов для создания рейтинга пользователей (user rankings) и предоставления списка топовых пользователей.
Где и как применяется
Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно в процессах, связанных с оценкой контента и авторов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает и анализирует исходные данные для расчета начальных оценок. Для комментариев извлекаются признаки, такие как длина, языковая модель. Для пользователей собираются данные об их активности, возрасте аккаунта, образовании (если известно), а также фиксируются действия, такие как авторство, выставление рейтингов и подписки. Эти данные необходимы для построения графа и расчета Initial Scores.
RANKING – Ранжирование (Оценка Качества)
Основной расчет Ranking Scores (репутации и качества) происходит здесь, вероятно, в офлайн или периодическом режиме, а не в реальном времени при обработке запроса. Система строит граф и запускает итеративный алгоритм для вычисления стабильных оценок для всех пользователей и комментариев в системе. Результаты сохраняются в базе данных (например, в индексных аннотациях авторов и документов).
RERANKING – Переранжирование
Рассчитанные Ranking Scores используются для упорядочивания контента при его отображении. Например, при запросе комментариев к документу (Claim 5), система извлекает комментарии и сортирует их на основе их Ranking Scores (качества). Аналогично, при запросе списка топовых авторов (Claim 6), система сортирует пользователей по их Ranking Scores (репутации).
Входные данные:
- Сигналы о пользователях (возраст аккаунта, образование, демография).
- Сигналы о комментариях (длина, язык).
- Данные о взаимодействиях: авторство, рейтинги комментариев, подписки между пользователями.
- Данные о связях между комментариями (схожесть контента).
Выходные данные:
- User Ranking Scores (оценки репутации авторов).
- Comment Ranking Scores (оценки качества контента).
На что влияет
- Конкретные типы контента: В первую очередь влияет на User Generated Content (UGC) — комментарии, отзывы о продуктах/услугах, посты на форумах, блоги.
- Конкретные ниши или тематики: Особенно значимо в нишах, где важна репутация автора, например, в YMYL-тематиках (медицинские или финансовые форумы), а также в E-commerce для ранжирования отзывов.
Когда применяется
- Условия работы алгоритма: Применяется в системах, где пользователи могут создавать контент, оценивать контент других и/или подписываться на других пользователей.
- Временные рамки и частота применения: Расчет начальных оценок и построение графа, вероятно, происходит непрерывно по мере поступления новых данных. Итеративный расчет ранжирования (графовый алгоритм) выполняется периодически (офлайн) для обновления глобальных оценок репутации и качества. Использование этих оценок для сортировки происходит в реальном времени при запросе контента или списка пользователей.
Пошаговый алгоритм
Процесс работы системы можно разделить на два основных этапа: подготовка данных и расчет ранжирования.
Этап 1: Подготовка и начальные оценки (Может выполняться по отдельности для пользователей и комментариев)
- Сбор сигналов для пользователей: Получение данных о пользователях (например, длительность регистрации, возраст, образование, количество созданных комментариев).
- Расчет Initial User Scores: Вычисление начальных оценок репутации на основе собранных сигналов (с возможным взвешиванием).
- Сбор сигналов для комментариев: Получение данных о комментариях (например, длина, соответствие языковой модели).
- Расчет Initial Comment Scores: Вычисление начальных оценок качества контента на основе собранных сигналов.
Этап 2: Графовый расчет ранжирования (Основной процесс)
- Построение графа: Представление всех пользователей и комментариев как узлов.
- Формирование ребер: Создание направленных ребер между узлами на основе взаимосвязей:
- От пользователя к комментарию (авторство или рейтинг).
- От комментария к пользователю (авторство или рейтинг).
- От Пользователя А к Пользователю Б (если А подписан на Б).
- Между Комментарием А и Комментарием Б (если они связаны/похожи).
- Инициализация узлов: Присвоение узлам рассчитанных ранее Initial User Scores и Initial Comment Scores.
- Итеративный расчет (Graph Algorithm): Запуск цикла пересчета оценок. На каждой итерации оценки узлов обновляются на основе оценок связанных с ними узлов. Происходит взаимное влияние: репутация передается контенту, качество контента — автору, репутация — между пользователями.
- Проверка сходимости: Определение, стабилизировались ли рассчитанные Ranking Scores или достигнуто ли пороговое количество итераций.
- Если НЕТ: Возврат к шагу 4.
- Если ДА: Переход к шагу 6.
- Сохранение результатов: Фиксация итоговых User Ranking Scores и Comment Ranking Scores в базе данных.
Какие данные и как использует
Данные на входе
Патент упоминает следующие типы данных и факторов:
Пользовательские факторы (для расчета Initial User Score):
- Временные факторы: Длительность использования системы или регистрации (length of time that the user has been a user of the system). Предполагается, что более старые аккаунты более надежны.
- Демографические факторы: Возраст пользователя (age of the user). Предполагается, что пользователи в определенном возрастном диапазоне могут предоставлять лучшие комментарии.
- Социальные/Авторитетные факторы: Образовательный бэкграунд (educational background). Предполагается, что пользователи с более высоким уровнем образования могут предоставлять лучшие комментарии.
- Поведенческие факторы: Количество отправленных комментариев (quantity of comments submitted).
Контентные факторы (для расчета Initial Comment Score):
- Количественные показатели: Длина комментария (length of the comment). Более длинные комментарии могут считаться лучше.
- Лингвистические факторы: Языковая модель комментария (language model of the comment). Например, близость языка к стандартному английскому (без сленга и сокращений) может повышать оценку.
Факторы взаимодействия (для построения графа):
- Авторство: Связь между пользователем и созданным им контентом.
- Поведенческие факторы (Рейтинги): Явная обратная связь пользователей о комментариях (rate comments).
- Социальные связи: Подписки пользователей друг на друга (subscribe to comments submitted by other users).
- Связи контента: Отношения между комментариями (relationship between the two comments), например, на основе схожести контента.
Какие метрики используются и как они считаются
- Initial Scores (Начальные оценки): Рассчитываются путем комбинирования различных сигналов. Патент указывает, что при комбинировании могут использоваться весовые коэффициенты (weigh some of the signals more heavily). Конкретные формулы не приводятся.
- Ranking Scores (Оценки ранжирования): Рассчитываются с помощью итеративного графового алгоритма, подобного PageRank. Алгоритм распространяет начальные оценки через структуру графа до достижения сходимости (convergence). Это означает, что итоговая оценка узла зависит не только от его начальной оценки, но и от оценок и структуры связанных с ним узлов.
Выводы
- Единая модель для репутации и качества: Ключевая идея патента — одновременный расчет репутации автора и качества его контента в единой графовой модели. Это означает, что невозможно иметь высокую репутацию, создавая низкокачественный контент, и наоборот.
- Взаимное усиление оценок: Система спроектирована так, что репутация автора напрямую повышает оценку качества его комментариев, а высокое качество комментариев улучшает репутацию автора. Это создает цикл положительной обратной связи для хороших авторов.
- Важность начальных сигналов (Initial Signals): Хотя итеративный алгоритм является ядром системы, качество его работы зависит от начальных оценок. Сигналы, такие как возраст аккаунта, длина текста и качество языка, формируют основу для дальнейшего ранжирования.
- Социальные связи как фактор репутации: Патент явно включает социальные взаимодействия, такие как подписки (subscriptions) и оценки (ratings), в структуру графа. Подписка на автора интерпретируется как сигнал его авторитетности, что позволяет передавать репутацию между пользователями.
- Итеративный подход к оценке UGC: Использование PageRank-подобного алгоритма для ранжирования UGC позволяет выявлять качественный контент и авторитетных авторов на основе анализа всей совокупности взаимодействий в системе, а не только изолированных факторов.
Практика
Best practices (это мы делаем)
Рекомендации касаются сайтов, которые полагаются на User Generated Content (комментарии, отзывы, форумы).
- Стимулирование регистрации и долгосрочного участия: Поскольку длительность регистрации (length of time) является сигналом для Initial User Score, важно удерживать пользователей в системе. Старые, активные аккаунты с большей вероятностью будут считаться авторитетными.
- Поощрение качественного контента: Так как длина комментария (length of the comment) и качество языка (language model) являются сигналами для Initial Comment Score, следует стимулировать пользователей оставлять развернутые и грамотные комментарии/отзывы. Интерфейс и правила площадки должны этому способствовать.
- Внедрение систем рейтинга и подписок: Патент явно использует рейтинги контента и подписки на авторов как связи в графе. Наличие таких функций на сайте позволяет собирать данные о взаимодействиях, которые могут быть использованы поисковой системой для оценки репутации и качества. Поощряйте пользователей оценивать контент и подписываться на интересных авторов.
- Повышение авторитетности авторов (E-E-A-T): Если возможно идентифицировать экспертов (например, через верификацию образования или профессии, которые упомянуты как возможные сигналы), это может положительно влиять на их Initial User Score и, как следствие, на ранжирование их контента.
- Связывание похожего контента: Так как в графе могут учитываться связи между комментариями, обеспечение хорошей внутренней структуры и связности UGC (например, через теги или тематические ветки) может способствовать передаче качества между связанными единицами контента.
Worst practices (это делать не надо)
- Анонимные комментарии и отсутствие профилей: Системы, позволяющие публиковать контент без устойчивой идентификации пользователя, не позволяют построить граф репутации. Это затрудняет оценку качества контента по описанной методике.
- Игнорирование качества языка и спама: Низкое качество языка, короткие неинформативные комментарии («+1», «Ок») негативно влияют на Initial Comment Score и, как следствие, на репутацию автора и общую оценку UGC на сайте.
- Накрутка активности новыми аккаунтами: Создание большого количества контента с новых аккаунтов неэффективно, так как их Initial User Score будет низким из-за малого времени регистрации. Такой контент будет ранжироваться ниже, чем контент от старых авторитетных пользователей.
- Отсутствие инструментов социального взаимодействия: Отсутствие возможности оценивать комментарии или подписываться на авторов лишает систему важных сигналов о взаимодействии, которые используются для расчета репутации.
Стратегическое значение
Патент подтверждает важность анализа User Generated Content и репутации авторов для Google. Он демонстрирует сложный подход, выходящий за рамки простого анализа текста, и интегрирующий поведенческие и социальные сигналы. Для SEO это означает, что качество и авторитетность UGC на сайте могут быть оценены очень точно. Стратегически важно инвестировать в развитие сообщества, модерацию и привлечение экспертов для создания качественного UGC, что может улучшить общую оценку сайта поисковой системой, особенно если UGC составляет значительную часть контента.
Практические примеры
Сценарий: Улучшение ранжирования отзывов на маркетплейсе
- Задача: Обеспечить, чтобы наиболее полезные отзывы отображались выше и лучше учитывались поисковой системой.
- Действия на основе патента:
- Внедрить систему верификации покупателей и отображать информацию о «стаже» пользователя на сайте (сигнал для Initial User Score).
- Добавить функционал оценки полезности отзыва (Rating) и возможность подписки на интересных обзорщиков (Subscribe).
- Установить минимальные требования к длине и содержательности отзыва (сигнал для Initial Comment Score).
- Разработать систему поощрения для «Топ-авторов» на основе их активности и полезности отзывов.
- Ожидаемый результат: Google, используя механизм из патента, сможет точнее идентифицировать авторитетных пользователей и качественные отзывы. Отзывы от старых пользователей с высоким рейтингом полезности получат буст. Это улучшит качество сниппетов в выдаче и может положительно сказаться на ранжировании карточек товаров.
Вопросы и ответы
Как этот патент связан с E-E-A-T и оценкой авторов?
Патент напрямую связан с оценкой авторитетности и надежности (Authority и Trustworthiness) в рамках E-E-A-T. Он описывает конкретный механизм расчета репутации (reputation) автора на основе качества создаваемого им контента и социальных сигналов (подписки, оценки). Если Google применяет эту модель, она позволяет автоматически выявлять авторитетных авторов в любой системе UGC.
Влияет ли этот механизм только на ранжирование комментариев или на ранжирование всей страницы?
Патент в первую очередь описывает ранжирование самих комментариев (UGC) и их авторов. Однако, если UGC составляет значительную часть контента страницы (например, на форумах или в отзывах о товарах), высокое качество этого контента, определенное с помощью данного механизма, может положительно влиять на ранжирование всей страницы в целом, так как улучшает ее общую ценность для пользователя.
Какие сигналы используются для расчета начальной репутации пользователя (Initial User Score)?
Патент перечисляет несколько примеров: длительность регистрации или использования системы, возраст пользователя, образовательный бэкграунд и количество опубликованных комментариев. Важно, что эти сигналы комбинируются и могут иметь разный вес.
Какие сигналы используются для расчета начального качества комментария (Initial Comment Score)?
В качестве примеров патент приводит длину комментария и соответствие языковой модели (например, грамотность, отсутствие сленга). Более длинные и хорошо написанные комментарии получают более высокую начальную оценку.
Как именно репутация передается между пользователями?
Репутация передается через связи в графе, в частности, через подписки (subscriptions). Если Пользователь А подписывается на Пользователя Б, это создает направленное ребро в графе. В ходе итеративного расчета часть оценки может передаваться по этому ребру, интерпретируя подписку как признание авторитетности Пользователя Б.
Что означает «одновременный расчет» оценок авторов и контента?
Это означает, что расчет происходит в рамках одного и того же итеративного процесса (same process). На каждой итерации обновляются оценки и авторов, и контента, и они сразу же влияют друг на друга. Репутация автора влияет на качество его контента, а качество контента обновляет репутацию автора.
Стоит ли внедрять систему подписок на авторов на своем сайте?
Да, если ваш сайт активно использует UGC. Согласно патенту, подписки являются явным сигналом связи между пользователями, который используется для расчета репутации. Наличие таких данных может помочь поисковой системе лучше оценить авторитетность участников вашего сообщества.
Эффективна ли накрутка отзывов с точки зрения этого патента?
Патент описывает механизмы, снижающие эффективность накруток. Массовая публикация коротких или некачественных отзывов (низкий Initial Comment Score) с новых аккаунтов (низкий Initial User Score) не приведет к высокому ранжированию. Система отдает предпочтение контенту от авторов с устоявшейся репутацией.
Учитывается ли негативный рейтинг комментария?
Да, патент упоминает, что рейтинг (Rating) может включать как позитивные, так и негативные индикаторы (например, полезно/не полезно). Эти рейтинги формируют связи в графе между пользователем, поставившим оценку, и комментарием, влияя на итоговый расчет Ranking Scores.
Как система определяет связи между комментариями?
Патент упоминает, что связь может быть установлена на основе схожести контента комментариев (similarity of the content) и/или схожести контента веб-страниц, с которыми эти комментарии связаны. Это позволяет качественным комментариям поддерживать друг друга в ранжировании.