Google использует механизм для автоматического и безопасного наполнения ограниченных индексов (например, YouTube Kids). Система анализирует, что ищут пользователи в ограниченном индексе, находит соответствующие темы в основном индексе, а затем рассчитывает рейтинг доверия (Measurement) для источников (каналов). Рейтинг рассчитывается по формуле, учитывающей среднюю позицию источника в поиске и историю его нарушений. Контент из наиболее надежных источников переносится в ограниченный индекс.
Описание
Какую задачу решает
Патент решает проблему сложности и ресурсоемкости курирования контента для ограниченных или цензурируемых коллекций (Censored Media Corpus), например, контента для детей (YouTube Kids). Традиционные методы, основанные на анализе самого контента (например, с помощью классификаторов машинного обучения), требуют значительных вычислительных ресурсов и уязвимы для манипуляций со стороны создателей, стремящихся обойти ограничения. Изобретение предлагает альтернативный подход: фокусироваться на анализе и измерении репутации источника контента (Media Source), а не только на анализе контента.
Что запатентовано
Запатентована система для автоматического наполнения ограниченного корпуса контента (First Media Corpus) за счет контента из общего корпуса (Second Media Corpus). Система идентифицирует пробелы в контенте на основе анализа поисковых запросов в ограниченном корпусе. Затем она находит релевантные источники в общем корпусе и рассчитывает для них показатель доверия (Measurement). Этот показатель основывается на поисковой эффективности источника (средний ранг) и истории его нарушений правил платформы.
Как это работает
Система работает в несколько этапов:
- Анализ потребностей: Анализируются поисковые события (Search Events) в ограниченном корпусе (Corpus 1) для определения популярных поисковых характеристик (Search Characteristics) — тем, которые интересуют пользователей.
- Поиск в общем корпусе: Идентифицируются поисковые события в общем корпусе (Corpus 2), соответствующие этим характеристикам.
- Извлечение источников: Из результатов поиска в Corpus 2 извлекаются источники контента (Media Sources, например, каналы).
- Расчет доверия (Measurement): Для каждого источника рассчитывается показатель доверия. В патенте приводится формула: Measurement = 1/(r*(pv+1)), где r — средний ранг источника в поиске, а pv — значение нарушений.
- Включение контента: Выбирается источник с наивысшим показателем Measurement, и его контент включается в Corpus 1.
Актуальность для SEO
Высокая. Обеспечение безопасности контента и создание курируемых сред (например, YouTube Kids) являются приоритетными задачами для контент-платформ. Этот патент описывает масштабируемый метод оценки доверия к источнику, который позволяет автоматизировать процесс курирования, снижая зависимость от анализа отдельных единиц контента.
Важность для SEO
Патент имеет значительное влияние на платформенное SEO (например, YouTube SEO), хотя его влияние на общий веб-поиск Google ограничено. Он раскрывает критически важную информацию о том, как платформа количественно оценивает доверие к источнику (каналу). Наличие конкретной формулы Measurement = 1/(r*(pv+1)) подтверждает, что авторитетность источника напрямую зависит как от его поисковой эффективности (ранжирования), так и от соблюдения им правил платформы. Это напрямую влияет на стратегии построения авторитетности каналов.
Детальный разбор
Термины и определения
- Average Rank (r) (Средний ранг)
- Показатель, представляющий среднюю позицию (ранг) источника медиа в результатах поиска по релевантным запросам в Second Media Corpus.
- Censored Media Corpus (Цензурируемый медиа-корпус)
- Синоним First Media Corpus. Ограниченная коллекция контента, требующая тщательного отбора (например, для детей).
- First Media Corpus (Первый медиа-корпус)
- Ограниченная (цензурируемая) коллекция медиа-элементов. Например, YouTube Kids.
- Knowledge Graph Identifier (Идентификатор графа знаний)
- Идентификатор сущности или концепции в графе знаний. Может использоваться как Search Characteristic для определения темы.
- Media Source (Источник медиа)
- Источник контента на платформе. Например, медиа-канал (Media Channel) или создатель контента.
- Measurement (Измерение / Показатель)
- Рассчитанная оценка репутации или доверия (Trust Score) к источнику медиа. Рассчитывается на основе Average Rank (r) и Violation Value (pv).
- Search Characteristic (Поисковая характеристика)
- Тема, концепция или сущность, связанная с поисковым событием.
- Search Events (Поисковые события)
- Данные о поисковых запросах пользователей (логи), включая термины, результаты поиска и взаимодействия (клики).
- Second Media Corpus (Второй медиа-корпус)
- Общая, менее ограниченная коллекция медиа-элементов. Например, основной индекс YouTube.
- Violation Value (pv) (Значение нарушений)
- Числовое значение, представляющее историю нарушений политики платформы источником медиа (например, количество страйков или пенальти).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Определение Search Characteristic (темы) на основе анализа поисковых событий в First Media Corpus (ограниченный индекс).
- Идентификация поисковых событий во Second Media Corpus (общий индекс), которые соответствуют этой характеристике.
- Извлечение набора Media Sources из этих событий.
- Выбор одного Media Source на основе его Measurement (показателя доверия).
- Включение (инкорпорация) контента из выбранного источника в First Media Corpus.
Claim 7 и 8 (Зависимые от 1): Детализируют процесс расчета Measurement и выбора источника.
- Определение позиции (ранга) источника в упорядоченных результатах поиска.
- Расчет Measurement на основе этой позиции и количества релевантных поисковых событий.
- Выбор источника с наибольшим (largest) Measurement.
Claim 9 (Зависимый от 1): Предоставляет конкретную формулу для расчета Measurement.
Формула: Measurement = 1/(r*(pv+1)).
Где r — средний ранг (average rank) источника, а pv — значение нарушений (violation value) источника. Эта формула математически объединяет поисковую эффективность и историю нарушений. Для максимизации Measurement (доверия) необходимо минимизировать знаменатель. Это достигается за счет низкого среднего ранга (высокие позиции в поиске, малое значение r) и низкого значения нарушений (малое значение pv). Если нарушений нет (pv=0), формула упрощается до 1/r.
Где и как применяется
Этот патент описывает механизм управления и наполнения индексов (Corpora Management) на контент-платформе (например, YouTube), а не процесс ранжирования в реальном времени.
INDEXING – Индексирование и извлечение признаков (Offline/Batch процессы)
Основная работа алгоритма происходит в фоновом режиме:
- Анализ логов: Система анализирует логи поисковых событий (Search Event Data) как из ограниченного (Corpus 1), так и из общего (Corpus 2) индексов.
- Извлечение характеристик: Определяются популярные темы (Search Characteristics), часто с использованием Knowledge Graph Identifiers.
- Расчет метрик источников: Для Media Sources рассчитываются Average Rank (r) и агрегируются данные о нарушениях Violation Value (pv). На основе этих данных вычисляется Measurement (рейтинг доверия).
INDEXING (Включение контента)
На заключительном этапе система инициирует включение (Content Incorporation) выбранного контента из Corpus 2 в Corpus 1.
RANKING – Ранжирование
Результаты ранжирования в общем корпусе (Corpus 2) служат источником данных для расчета Average Rank (r).
Входные данные:
- Логи поисковых событий из Corpus 1 и Corpus 2.
- Данные Графа Знаний.
- Данные об источниках медиа, включая историю нарушений (pv).
Выходные данные:
- Новый контент, включенный в First Media Corpus.
На что влияет
- Конкретные платформы и ниши: Наибольшее влияние оказывается на среды с ограниченным доступом: YouTube Kids, режимы безопасного поиска. Влияет на видимость каналов и создателей контента (Media Sources) в этих средах.
Когда применяется
- Условия работы алгоритма: Алгоритм активируется для автоматизации процесса курирования и наполнения First Media Corpus.
- Триггеры активации: Обнаружение популярных поисковых интересов (Search Characteristics) среди пользователей ограниченного корпуса, которые недостаточно полно освещены текущим контентом. Это сигнализирует о необходимости добавить новый контент из надежных источников.
Пошаговый алгоритм
Процесс наполнения ограниченного корпуса контентом.
- Сбор и анализ событий (Corpus 1): Система анализирует логи поисковых событий First Media Corpus. Поисковые события классифицируются и группируются.
- Определение характеристик поиска: Выделяются наиболее популярные группы поисковых событий (превышающие порог). Для этих групп определяются уникальные Search Characteristics (темы/сущности), часто с использованием Knowledge Graph Identifiers.
- Идентификация событий (Corpus 2): Система ищет поисковые события во Second Media Corpus, которые соответствуют выделенным Search Characteristics.
- Извлечение источников медиа: Из результатов поиска, содержащихся в этих событиях, извлекается набор уникальных Media Sources (например, каналов).
- Расчет измерений (Рейтинг доверия): Для каждого источника рассчитывается Measurement.
- Определяется средний ранг (r) источника в релевантных поисковых событиях.
- Получается значение нарушений (pv) источника.
- Применяется формула: Measurement = 1/(r*(pv+1)).
- Выбор источника: Источники сортируются по значению Measurement. Выбирается источник с наибольшим показателем доверия.
- Включение контента: Контент из выбранного Media Source включается в First Media Corpus.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании данных о поведении пользователей и данных о репутации источников.
- Поведенческие факторы: Search Events (логи поисковых событий). Включают поисковые термины, порядок результатов поиска и данные о кликах. Используются для определения популярных тем и расчета среднего ранга (r).
- Факторы качества/Нарушений: Violation Value (pv). Предварительно рассчитанные данные, связанные с Media Source, отражающие историю нарушений политики платформы (страйки, пессимизации за качество, спам и т.д.).
- Семантические факторы: Knowledge Graph Identifiers. Используются для определения и связывания Search Characteristics между разными корпусами.
Какие метрики используются и как они считаются
- Average Rank (r): Средняя позиция источника в результатах поиска по запросам, связанным с определенной Search Characteristic в общем корпусе. Чем ниже значение, тем лучше.
- Violation Value (pv): Агрегированное значение нарушений источника. Чем ниже значение (в идеале 0), тем лучше.
- Measurement (Рейтинг доверия): Основная метрика патента для оценки надежности источника. Рассчитывается по формуле: Measurement = 1/(r*(pv+1)).
Выводы
- Доверие (Trust) является вычисляемой величиной: Патент предоставляет конкретную формулу для количественной оценки доверия к источнику: Measurement = 1/(r*(pv+1)). Это демонстрирует, как сигналы производительности (ранжирование) и сигналы надежности (нарушения) комбинируются в единую метрику.
- Поисковая эффективность как показатель авторитетности: Средний ранг (r) является ключевым компонентом формулы. Способность источника стабильно занимать высокие позиции в основном поиске (низкое значение r) напрямую повышает его рейтинг доверия.
- Прямое влияние нарушений и пессимизаций: Значение нарушений (pv) находится в знаменателе. Любое нарушение (pv > 0) значительно снижает итоговый рейтинг доверия. Например, одно нарушение (pv=1) уменьшает Measurement вдвое по сравнению с источником без нарушений (pv=0) при том же среднем ранге.
- Приоритет источника над контентом в чувствительных средах: Для наполнения безопасных (цензурируемых) индексов система предпочитает полагаться на репутацию источника в целом, а не анализировать каждую единицу контента отдельно, что является более масштабируемым подходом.
- Активное расширение индексов: Система активно ищет пробелы в ограниченных корпусах на основе интересов пользователей и стремится заполнить их контентом из наиболее надежных источников общего корпуса.
Практика
Best practices (это мы делаем)
Рекомендации применимы к SEO на контент-платформах (например, YouTube), особенно для авторов, стремящихся попасть в курируемые коллекции (например, YouTube Kids).
- Максимизация поисковой эффективности (Минимизация r): Ключевая задача — добиваться наивысших позиций в основном поиске платформы. Высокое ранжирование напрямую конвертируется в доверие (Measurement) согласно этому патенту.
- Нулевая терпимость к нарушениям (Поддержание pv=0): Необходимо строго соблюдать все политики платформы. Следует избегать любых тактик, которые могут привести к страйкам или алгоритмическим пессимизациям (повышению pv). Чистая репутация критически важна.
- Построение тематической авторитетности (Topical Authority): Создавайте контент, который четко ассоциируется с конкретными темами и сущностями (Search Characteristics / Knowledge Graph IDs). Это увеличивает вероятность того, что ваш источник будет рассмотрен системой.
Worst practices (это делать не надо)
- Игнорирование предупреждений и нарушений: Рассматривать страйки как временную проблему. Согласно формуле, любое нарушение (pv>0) оказывает значительное негативное влияние на рейтинг доверия источника.
- Погоня за трафиком с помощью пограничного контента или кликбейта: Использование тактик, балансирующих на грани правил. Риск увеличения pv перевешивает потенциальную выгоду от трафика.
- Нестабильная производительность в поиске: Допускать низкое ранжирование контента (высокое значение r). Даже при отсутствии нарушений, источник с плохими позициями в поиске будет иметь низкий рейтинг доверия.
Стратегическое значение
Патент подтверждает стратегическую важность комплексного подхода к авторитетности на платформах. Он показывает, что авторитетность — это сочетание двух факторов: Производительности (демонстрируется через высокое ранжирование в основном поиске) и Надежности (демонстрируется через соблюдение стандартов качества и отсутствие нарушений). Долгосрочная стратегия должна фокусироваться на построении надежного бренда с чистой репутацией.
Практические примеры
Сценарий: Наполнение YouTube Kids (First Media Corpus) контентом про динозавров
- Анализ потребностей: Система обнаруживает, что дети часто ищут «песни про динозавров» (Search Characteristic) в YouTube Kids.
- Поиск в основном YouTube (Second Media Corpus): Система ищет результаты по этой теме в основном индексе.
- Оценка источников: Идентифицируются три популярных канала (Media Sources):
- Канал A: Средний ранг (r)=2, Нарушений (pv)=0. Measurement = 1/(2*(0+1)) = 0.5
- Канал B: Средний ранг (r)=1, Нарушений (pv)=1 (был страйк за кликбейт). Measurement = 1/(1*(1+1)) = 0.5
- Канал C: Средний ранг (r)=5, Нарушений (pv)=0. Measurement = 1/(5*(0+1)) = 0.2
- Выбор и включение: Каналы A и B имеют одинаковый наивысший рейтинг доверия. Система может выбрать оба или использовать дополнительные критерии для выбора между ними для включения их видео в YouTube Kids. Канал C не выбран из-за низкого среднего ранга.
Вопросы и ответы
Что такое «Censored Media Corpus» или «First Media Corpus»?
Это ограниченная коллекция контента, прошедшая строгий отбор для обеспечения соответствия определенным требованиям. Примеры включают YouTube Kids, результаты в режиме Безопасного Поиска или специальные коллекции контента, предназначенные для определенной возрастной группы или чувствительной аудитории.
Что означает формула Measurement = 1/(r*(pv+1)) для SEO-специалиста?
Эта формула является ключевым инсайтом патента. Она показывает, что рейтинг доверия к источнику рассчитывается с использованием двух параметров: среднего ранга (r) и значения нарушений (pv). Чтобы максимизировать доверие, нужно одновременно добиваться высоких позиций в поиске (минимизировать r) и не иметь никаких нарушений или пессимизаций (поддерживать pv=0).
Насколько сильно одно нарушение (pv=1) влияет на рейтинг доверия?
Очень сильно. Если у источника есть одно нарушение (pv=1), его рейтинг доверия (Measurement) будет вдвое ниже, чем у источника с тем же средним рангом, но без нарушений (pv=0). Это происходит из-за множителя (pv+1) в знаменателе формулы, который меняется с 1 на 2.
Что важнее согласно этой формуле: высокое ранжирование или отсутствие нарушений?
Оба фактора критически важны, так как они перемножаются. Отсутствие нарушений (pv=0) является необходимым условием для достижения максимального доверия. Однако, если нарушений нет, решающим фактором становится средний ранг (r). Источник, который ранжируется плохо (высокий r), будет иметь низкое доверие, даже если у него нет нарушений.
Как система определяет «Search Characteristic» (Поисковую характеристику)?
Система анализирует логи поисковых запросов пользователей в ограниченном корпусе, группирует похожие запросы и определяет общую тему или сущность. В патенте упоминается, что часто для этого используются идентификаторы Графа Знаний (Knowledge Graph Identifiers), что позволяет точно определить семантику запросов.
Применяется ли этот механизм в основном поиске Google?
Патент описывает его применение для наполнения ограниченного корпуса контентом из общего корпуса на контент-платформе. Он не описывает ранжирование в основном веб-поиске. Однако методология расчета рейтинга доверия на основе ранга и нарушений является универсальной и может использоваться для оценки авторитетности источников в различных системах.
Что такое «Violation Value (pv)»? Это только ручные меры?
В патенте «Violation Value» описывается как значение, представляющее нарушения политики платформы. Это может включать как ручные меры (например, страйки на YouTube), так и алгоритмические пессимизации (например, за некачественный контент, спам), агрегированные на уровне источника (Media Source).
Как этот патент связан с E-E-A-T?
Он предоставляет конкретный механизм реализации принципов E-E-A-T для оценки источника на платформе. Средний ранг (r) можно рассматривать как показатель Expertise и Authoritativeness, поскольку высокое ранжирование демонстрирует эти качества. Значение нарушений (pv) напрямую связано с Trustworthiness (надежностью).
Как система определяет средний ранг (r) источника?
Система анализирует набор поисковых событий (запросов и результатов) в общем корпусе, связанных с определенной темой (Search Characteristic). Она определяет позицию источника в результатах поиска для каждого события, а затем усредняет эти позиции для получения среднего ранга (r) источника по данной теме.
Почему система фокусируется на источнике, а не анализирует сам контент?
Анализ контента (например, видео) ресурсоемок и уязвим для манипуляций. Фокус на репутации источника позволяет масштабировать процесс курирования. Предполагается, что если источник в целом надежен (хорошо ранжируется и не нарушает правила), его контент с высокой вероятностью подходит для ограниченного корпуса.