Как Google динамически повышает детский контент в безопасном поиске, чтобы компенсировать недостаток данных о популярности

SELECTIVELY MODIFYING SCORES OF YOUTH-ORIENTED CONTENT SEARCH RESULTS (Выборочное изменение оценок результатов поиска контента, ориентированного на молодежь)

US10671616B1
Google LLC
2015-02-22
2020-06-02

Google использует механизм для улучшения видимости детского контента (Youth-Oriented, Y) в безопасной выдаче. Поскольку такой контент часто имеет меньше поведенческих данных, чем общий контент (General Audience, G), система вычисляет динамический повышающий коэффициент (Query-Dependent Factor). Этот коэффициент рассчитывается путем статистического сравнения метрик популярности Y и G контента для конкретного запроса и применяется только к результатам, прошедшим порог релевантности.

Какую проблему решает

Патент решает проблему недостаточной представленности (underrepresentation) контента, специально ориентированного на детей (Youth-oriented content, метка "Y"), в результатах безопасного поиска. Стандартные алгоритмы часто отдают предпочтение контенту для широкой аудитории (General audience content, метка "G"), так как он обычно аккумулирует больший объем поведенческих данных (logged past behavior или logging data). В результате специализированный детский контент теряется в выдаче, делая её менее интересной для целевой аудитории (упоминается диапазон 2-12 лет).

Что запатентовано

Запатентована система для выборочного и динамического повышения оценок ранжирования (Scores) контента, помеченного как "Y", в рамках пула безопасного контента (Y и G). Ключевым элементом является расчет Query-Dependent Factor — коэффициента, который вычисляется для конкретного запроса. Этот коэффициент предназначен для компенсации статистической недооцененности детского контента из-за разницы в доступных сигналах вовлеченности.

Как это работает

Система работает в среде ограниченного поиска (например, Safe Search или YouTube Kids):

Ограничение выборки: Поиск возвращает результаты, ограниченные безопасными категориями (Y и G).
Фильтрация: Контент Y фильтруется по порогу релевантности (Relevance Threshold), чтобы исключить повышение нерелевантного контента.
Расчет Динамического Буста: Система анализирует показатели вовлеченности (Logging Factor) для обеих групп (Y и G). Вычисляется Query-Dependent Factor, основанный на соотношении этих показателей (например, отношение медиан), чтобы определить степень недооцененности группы Y.
Применение Повышения: Оценки ранжирования отобранных результатов Y модифицируются (например, умножаются) на этот фактор.
Переранжирование: Модифицированные результаты Y объединяются с результатами G и сортируются заново.

Актуальность для SEO

Высокая для специализированных продуктов. Учитывая рост платформ для детей (например, YouTube Kids) и регулирование детского контента, способность Google обеспечивать релевантный и вовлекающий поиск в безопасной среде критически важна. Описанный механизм динамической компенсации оценок актуален для управления балансом контента в таких системах и демонстрирует подход к работе с нишами, испытывающими дефицит поведенческих данных (Data Sparsity).

Важность для SEO

Влияние на SEO (6.5/10) сильно зависит от ниши. Патент не влияет на общий поиск Google для взрослой аудитории. Однако он имеет критическое значение для создателей детского контента и платформ, использующих безопасный поиск. Он демонстрирует, что в этих средах контент, явно идентифицированный как детский (Y), получает расчетное повышение для конкуренции с общим контентом (G), при условии соответствия порогу релевантности.

Термины и определения

Boost factor (k) (Повышающий коэффициент): Значение (постоянное или переменное), используемое для модификации Score результата поиска. Может быть аддитивным или мультипликативным.
Content Label (Метка контента): Классификатор, указывающий на пригодность контента для определенной аудитории (например, Y, G, PG, TEEN).
General audience content label (G) (Контент для широкой аудитории): Метка, указывающая на контент, безопасный для всех возрастов, но не ориентированный специально на детей.
Logging factor (S_L) (Фактор логирования): Метрика, предназначенная для изоляции влияния поведенческих данных на оценку. В патенте предлагается рассчитывать его как Score(R) / Trust(R) (Eq. 4).
Query-dependent factor (k_p) (Фактор, зависящий от запроса): Динамический Boost factor, рассчитываемый для конкретного запроса. Основан на статистическом сравнении Logging factors между разными типами контента (Y и G) в текущей выдаче (Eq. 5).
Relevance threshold (T) (Порог релевантности): Минимальное значение Relevance value, необходимое для того, чтобы к результату мог быть применен бустинг. Используется для предотвращения повышения нерелевантного контента.
Relevance value (Значение релевантности): Метрика, оценивающая релевантность результата запросу. Может включать Trust value (вероятность релевантности) и Volume value (объем доказательств релевантности).
Score (Оценка ранжирования): Исходная оценка результата, сгенерированная поисковой системой.
Youth Intent Probability (Y(q)) (Вероятность молодежного интента): Вероятность того, что запрос имеет молодежный интент. Может использоваться для дополнительной модуляции коэффициента повышения (Eq. 6).
Youth-oriented content label (Y) (Контент, ориентированный на молодежь): Метка, указывающая на контент, специально созданный и предназначенный для детей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выборочной модификации оценок с использованием динамического фактора, основанного на статистическом сравнении.

Система идентифицирует множество результатов поиска. Каждый имеет Score и Content Label. Как минимум один результат помечен как Youth-Oriented Content (первая метка).
Система выбирает два подмножества результатов:
- Первое (например, Y): результаты с первой меткой, у которых Relevance Value соответствует первому Relevance Threshold.
- Второе (например, G): результаты со второй меткой, у которых Relevance Value соответствует второму Relevance Threshold.
Система выбирает оценки (Scores), связанные с первым подмножеством.
Вычисляется Первый Фактор на основе оценок и значений релевантности из первого подмножества (соответствует Logging Factor для Y).
Вычисляется Второй Фактор на основе оценок и значений релевантности из второго подмножества (соответствует Logging Factor для G).
Вычисляется Query-Dependent Factor на основе Первого и Второго Факторов. Он является функцией статистической взаимосвязи (statistical relationship), выведенной из оценок первого и второго подмножеств (например, соотношение медианных Logging Factors).
Оценки из первого подмножества (Y) модифицируются с использованием Query-Dependent Factor.

Ядро изобретения заключается в использовании сравнения статистических свойств двух разных типов контента (Y и G) для динамического расчета компенсаторного повышения для одного из них (Y) для данного конкретного запроса, при этом используя пороги релевантности как обязательное условие.

Claim 3 (Зависимый от 1): Уточняет, что модификация оценок в первом подмножестве происходит равномерно (uniformly) с использованием Query-Dependent Factor.

Где и как применяется

Изобретение применяется в системах поиска, где необходимо обеспечить безопасность контента и одновременно повысить его привлекательность для детской аудитории.

INDEXING – Индексирование и извлечение признаков
На этом этапе контенту должны быть присвоены Content Labels (Y, G), а также рассчитаны базовые показатели релевантности (Relevance Values, включая Trust Value).

RANKING – Ранжирование
Поисковая система генерирует первоначальный набор результатов с исходными Scores, ограниченный безопасными метками (Y и G). Также рассчитываются или извлекаются данные для Logging factors (S_L).

RERANKING – Переранжирование
Основной этап применения патента. Система анализирует результаты этапа RANKING:

Фильтрация и Сегментация: Результаты делятся на группы (Y и G) и фильтруются по порогу релевантности (T).
Вычисление Компенсации: Анализируется распределение Logging factors (S_L) в обеих группах. Вычисляется Query-Dependent Factor (k_p).
Модификация Оценок: К оценкам группы Y применяется рассчитанный фактор.
Финальная Сортировка: Происходит пересортировка объединенного набора результатов.

Входные данные:

Набор результатов поиска (ограниченный Y/G контентом).
Content Labels, исходные Scores и Relevance Values (в частности, Trust Value) для каждого результата.

Выходные данные:

Переранжированный список результатов поиска с модифицированными оценками для контента Y.

На что влияет

Конкретные типы контента: В патенте упоминаются мультимедийные элементы (видео, аудио, изображения). Наибольшее влияние на платформах типа YouTube Kids или в режиме Safe Search.
Специфические запросы: Наибольшее влияние на запросы, по которым существует большое количество G-контента, который обычно вытесняет специализированный Y-контент из-за большего объема поведенческих данных.
Конкретные ниши или тематики: Исключительно ниша детского контента (образование, развлечения).

Когда применяется

Условия работы алгоритма: Алгоритм работает в среде ограниченного (безопасного) поиска, где выдача фильтруется по меткам контента (только Y и G).
Триггеры активации: Повышение активируется для конкретного результата, если выполнены два условия:
- Результат имеет метку Youth-Oriented Content (Y).
- Значение релевантности (Relevance Value, например Trust Value) результата соответствует установленному порогу (Relevance Threshold T).
Условие расчета: Наличие в выдаче достаточного количества как Y, так и G контента для проведения статистического сравнения.

Пошаговый алгоритм

Процесс переранжирования результатов безопасного поиска:

Как Google динамически повышает детский контент в безопасном поиске, чтобы компенсировать недостаток данных о популярности

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты