Фундаментальный патент Google, лежащий в основе AdSense. Он описывает, как Google анализирует контент документа (веб-страницы или видео) для определения его тем. Система использует классические методы Information Retrieval: частоту терминов (концепция TF-IDF), анализ анкорных текстов, контент связанных страниц и историю поисковых запросов. Эти темы затем используются для таргетинга релевантной рекламы.
Описание
Какую задачу решает
Патент решает проблему таргетинга рекламы в ситуациях, когда пользователь не выразил свой интерес явным образом через поисковый запрос (например, при просмотре контентных веб-страниц или видео). Цель — повысить эффективность рекламы за счет точного контекстного таргетинга, основанного на содержании потребляемого контента, там, где реклама, основанная на запросах (как в Google Ads), неприменима.
Что запатентовано
Запатентована система и методы для автоматического контекстного таргетинга рекламы (основа Google AdSense). Суть изобретения заключается в анализе содержания target document (целевого документа – веб-страницы или, как указано в Claims этой версии, видео) для генерации list of topics (списка тем). Для этого используются методы Information Retrieval (IR). Затем эти темы сопоставляются с targeting information (например, ключевыми словами) рекламодателей для выбора релевантных объявлений.
Как это работает
Система использует комплексный подход для понимания контента:
- Анализ контента (IR): Анализируется текст (или извлеченный контент из видео). Создается term vector, где терминам присваиваются веса (weights) на основе частоты (frequency). Веса корректируются: редкие слова усиливаются, общие слова ослабляются (концепция, аналогичная TF-IDF).
- Анализ контекста (Links): Учитываются внешние сигналы: anchor text входящих ссылок, а также контент связанных документов (ссылающихся и на которые ссылаются).
- Анализ запросов (Queries): Учитываются поисковые запросы, ведущие на документ, или запросы, выполненные пользователем незадолго до посещения.
- Сопоставление: Сформированный список тем сравнивается с ключевыми словами объявлений. При высоком уровне подобия (similarity) реклама показывается.
Актуальность для SEO
Высокая. Патент описывает фундаментальные принципы Information Retrieval, которые лежат в основе понимания контента системами Google. Несмотря на развитие нейросетевых моделей, эти базовые концепции остаются актуальными. Особое значение имеет тот факт, что Claims в данной версии патента (выданной в 2021 году) сфокусированы на анализе и таргетинге рекламы для видеоконтента, что крайне актуально для таких платформ, как YouTube.
Важность для SEO
Высокое (85/100). Хотя патент описывает рекламную систему (AdSense), а не органический поиск, он критически важен для SEO. Он раскрывает фундаментальные методы, которые Google использует для извлечения тематики из контента. Понимание того, как Google определяет Topics с помощью TF-IDF-подобного анализа, анкорного текста, связанных страниц и запросов, позволяет Senior SEO-специалистам оптимизировать семантику и ссылочный профиль сайта на стратегическом уровне.
Детальный разбор
Термины и определения
- Anchor Text (Анкорный текст)
- Текст ссылки из другого документа на целевой документ. В патенте рассматривается как «brief description» (краткое описание) и используется как внешний источник для определения тем целевого документа.
- List of Topics (Список тем)
- Набор ключевых концепций или терминов, идентифицированных как релевантные содержанию целевого документа.
- Match (Совпадение)
- Индикация высокой или предопределенной степени подобия (similarity) между Targeting Information рекламы и List of Topics документа.
- Target Document (Целевой документ)
- Ресурс (веб-страница, файл, видео), для которого подбирается релевантная реклама.
- Targeting Information (Таргетинговая информация)
- Данные, используемые для таргетинга рекламы (ключевые слова, фразы), предоставленные рекламодателем или определенные алгоритмически.
- Term Vector (Вектор терминов)
- Структура данных, представляющая документ, где терминам присваиваются веса (weights). Веса рассчитываются на основе частоты термина в документе и могут корректироваться на основе его частоты в общей коллекции документов (концепция TF-IDF).
- Statistics Engine (Движок статистики)
- Компонент рекламной системы, который логирует данные о показе рекламы и взаимодействии с ней (упоминается в Claims).
- Tools Component (Компонент инструментов)
- Компонент, предоставляющий рекламодателям инструменты для оценки потенциального количества показов (упоминается в Claims).
Ключевые утверждения (Анализ Claims)
Патент US10991005B2 является патентом-продолжением (continuation). Его описание (Description) содержит широкие принципы анализа веб-страниц. Однако, формула изобретения (Claims), выданная в 2021 году, специфична и фокусируется на применении методов к видеоконтенту и интеграции с инструментами статистики и оценки.
Claim 1 (Независимый пункт): Описывает компьютерный метод таргетинга рекламы на видео.
- Определение того, что видео связано с одной или несколькими темами. Это делается с использованием информации, извлеченной из видео, и основывается на частоте встречаемости (frequency of occurrence) контента в видео, связанного с этими темами.
- Идентификация таргетинговых данных (targeting data) для рекламного контента.
- Определение релевантности: сравнение targeting data с темами видео и установление совпадения (match).
- Предоставление (Serving) рекламы клиентскому устройству, воспроизводящему видео.
- Логирование данных о показе и последующих событиях с помощью statistics engine.
- Предоставление инструмента (tools component) для оценки количества показов на основе ключевых слов и логированных данных.
Claim 2 (Зависимый): Уточняет механизм определения совпадения. Он включает расчет оценки подобия (scoring a similarity) между таргетинговыми данными и темами видео, и определение релевантности, если оценка превышает пороговое значение.
Claim 3 (Зависимый): Детализирует процесс определения тем видео с использованием весов и векторов.
- Получение правил, определяющих веса (weights) для тем. Вес является функцией частоты темы в видео.
- Генерация term vector, представляющего веса тем.
- Определение тем видео на основе того, что веса в векторе соответствуют заданному порогу.
Claims 4-7 (Зависимые): Определяют дополнительные (внешние) источники для определения тем видео:
- Темы из другого ресурса, связанного ссылкой с видео (Claim 4).
- Анкорный текст (Anchor Text) ссылки с другого ресурса на видео (Claim 5).
- Текст поисковых запросов (queries) к поисковой системе, которые вернули результат, идентифицирующий видео (Claims 6, 7).
Где и как применяется
Патент описывает работу Advertising System (AdSense/GDN). Однако методы анализа контента (Information Retrieval), лежащие в его основе, тесно связаны с этапами индексирования и понимания контента в поисковой архитектуре.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения базовой технологии. Система должна проанализировать контент (веб-страницу или видео), чтобы понять его тематику. Процессы, описанные в патенте, являются фундаментальными процессами извлечения признаков (Feature Extraction):
- Анализ контента и IR: Вычисление частоты терминов, генерация term vector, применение концепций, схожих с TF-IDF (взвешивание на основе частоты в документе и коллекции).
- Анализ контекста: Анализ ссылок, anchor text и контента связанных страниц.
- Анализ запросов: Ассоциация исторических поисковых запросов с документом.
Результатом является List of Topics, ассоциированный с документом.
RANKING (Ранжирование Рекламы)
В рекламной системе на этом этапе (внутри Ad Selection Component) происходит сравнение вычисленной тематики документа с Targeting Information доступных объявлений в реальном времени.
Входные данные:
- Содержимое целевого документа (текст страницы; для видео – субтитры, транскрипция, распознанные данные).
- Anchor text входящих ссылок.
- Данные о связанных документах (ссылающихся и на которые ссылаются).
- Логи поисковых запросов, ассоциированных с документом.
Выходные данные:
- List of Topics или Term Vector для документа.
- Список релевантных рекламных объявлений для показа.
На что влияет
- Типы контента: Влияет на все типы контента, где может быть размещена контекстная реклама. Описание патента широко охватывает веб-страницы, но текущие Claims сфокусированы на видеоконтенте. Методы анализа влияют на понимание тематики любого контента.
- Ниши и тематики: Влияет на все тематики, так как определяет точность понимания содержания контента системой.
Когда применяется
- Анализ контента (Офлайн/Индексирование): Происходит периодически при сканировании и индексации ресурса для определения его тем.
- Подбор рекламы (Реальное время): Происходит при каждой загрузке целевого документа пользователем и запросе на показ рекламы (например, при загрузке страницы с AdSense или воспроизведении видео на YouTube).
Пошаговый алгоритм
Алгоритм состоит из двух основных процессов: определение тематики и подбор рекламы.
Процесс А: Определение тематики документа (Индексирование/Анализ)
- Сбор данных: Получение контента целевого документа. Сбор связанных данных: anchor text, контент связанных документов, ассоциированные поисковые запросы.
- Анализ контента и Расчет Term Vector:
- Подсчет частоты терминов (TF) в документе.
- Применение весовых коэффициентов (weights).
- Корректировка весов (IDF-like): веса общих слов (например, «the») уменьшаются, веса редких слов (например, «chianti») увеличиваются.
- Интеграция внешних сигналов: Дополнение анализа терминами из анкорного текста, контента связанных страниц и связанных запросов. (В патенте это описывается как фигуративное «дополнение» или «замена» контента целевого документа).
- Формирование List of Topics: Выбор тем на основе итоговых весов (например, Топ-Z терминов или термины, превышающие порог Y).
- Расширение тем (Опционально): Использование тезауруса для добавления синонимов или концептуально близких тем.
Процесс Б: Выбор рекламы (Реальное время)
- Получение List of Topics для текущего документа.
- Сравнение: Сопоставление тем документа с Targeting Information (ключевыми словами) доступных объявлений.
- Расчет подобия: Вычисление similarity score между темами и таргетингом.
- Выбор (Match): Определение релевантных объявлений, чья оценка подобия превышает установленный порог.
- Показ и Логирование: Предоставление выбранных объявлений для рендеринга и запись данных в Statistics Engine.
Какие данные и как использует
Данные на входе
Патент описывает широкий спектр данных для определения тематики документа:
- Контентные факторы: Текст документа (заголовки, тело). Для видео (согласно Claims) — «информация, извлеченная из видео» и частота встречаемости контента в видео.
- Ссылочные факторы:
- Anchor text входящих ссылок (используется как описание документа).
- Контент связанных страниц (ссылающихся на документ и страниц, на которые ссылается документ).
- Поведенческие и Логовые факторы:
- Связанные поисковые запросы: Топ-N запросов, по которым ресурс показывается в результатах поиска.
- История запросов пользователей: Запросы, которые пользователи вводили незадолго до посещения документа (темпоральная близость).
- Структурные факторы: Документы из той же коллекции, категории или поддиректории на сайте.
Какие метрики используются и как они считаются
- Частота термина (Term Frequency — TF): Подсчет количества появлений термина в документе (или видео).
- Вес термина (Term Weight): Числовая оценка значимости термина в Term Vector. Рассчитывается на основе частоты в документе (TF) и корректируется с учетом частоты в общей коллекции (концепция IDF – повышение веса редких слов, снижение веса частых).
- Similarity Score (Оценка подобия): Метрика для определения соответствия (Match) между Topics документа и Targeting Information рекламы.
- Пороговые значения (Thresholds): Используются для отбора тем (минимальная частота N, Топ-Z терминов, минимальный вес Y) и для определения релевантности рекламы (порог для Similarity Score).
Выводы
- Фундаментальные принципы Information Retrieval: Патент подтверждает, что Google использует классические методы IR (TF-IDF-подобный анализ, векторизация) для понимания тематики контента. Эти методы лежат в основе как рекламных систем (AdSense), так и, вероятно, используются при индексировании в основном поиске.
- Комплексный анализ тематики (Beyond On-Page): Для определения тем (Topics) система агрегирует сигналы из разных источников: контент на странице, ссылочный контекст и поведение пользователей. Тематика не определяется только текстом на странице.
- Критичность внешних сигналов: Anchor text, контент связанных страниц (входящие и исходящие ссылки) и ассоциированные поисковые запросы явно указаны как ключевые источники для определения или уточнения темы целевого документа.
- Применимость к Видео: Актуальная версия патента (Claims 2021 года) явно распространяет эти методы анализа частотности и векторизации на видеоконтент, подтверждая, что Google глубоко анализирует содержание видео для понимания его тематики.
- Связь Рекламы и Поиска: Понимание того, как работает AdSense, дает критическое представление о том, как Google классифицирует контент. Эти механизмы являются основой для оценки релевантности в экосистеме Google.
Практика
Best practices (это мы делаем)
Методы анализа контента, описанные в патенте, имеют прямое применение в SEO-стратегии.
- Семантическая насыщенность и Topical Authority: Создавайте контент, который глубоко раскрывает тему. Используйте релевантную терминологию, синонимы и LSI-слова. Это помогает системе сформировать точный Term Vector.
- Оптимизация на основе TF-IDF принципов: Сосредоточьтесь на использовании терминов, специфичных для вашей ниши (высокий IDF), и обеспечьте их достаточную частоту (высокий TF). Это повысит их вес (weight) при определении тематики.
- Управление анкорным профилем: Активно работайте над получением входящих ссылок с релевантным и описательным Anchor Text. Патент подтверждает, что это прямой сигнал тематики.
- Качественная внутренняя перелинковка: Используйте внутренние ссылки для связи тематически схожих документов. Контент связанных страниц (как по входящим, так и по исходящим ссылкам) используется для уточнения тематики.
- Оптимизация видеоконтента: Учитывая фокус Claims на видео, критически важно предоставлять Google текстовые сигналы о содержании. Добавляйте точные субтитры, транскрипцию и оптимизированные метаданные, чтобы система могла эффективно анализировать «частоту встречаемости контента» в видео.
- Анализ связанных запросов (GSC): Анализируйте, по каким запросам ваша страница получает трафик. Патент подтверждает, что эти данные используются для понимания тематики. Усиливайте эту семантику в контенте.
Worst practices (это делать не надо)
- Переоптимизация (Keyword Stuffing): Чрезмерное увеличение частоты ключевых слов неэффективно, так как система использует механизмы взвешивания (IDF-like), которые нормализуют частоты и могут пессимизировать спам.
- Нерелевантные ссылки и анкоры: Получение ссылок с нетематических ресурсов или использование общих, нерелевантных анкоров размывает тематический профиль документа и ухудшает понимание его содержания системой.
- «Водянистый» или Тонкий контент: Тексты с низкой плотностью тематической лексики затрудняют для системы выделение ключевых тем (List of Topics).
- Изолированная оптимизация текста: Фокусировка только на тексте страницы в отрыве от ее ссылочного окружения и связанных с ней поисковых запросов. Система оценивает тематику комплексно.
- Публикация видео без текстового сопровождения: Размещение видео без субтитров или транскрипции значительно усложняет для Google точное определение его тематики.
Стратегическое значение
Этот патент является одним из фундаментальных документов по Information Retrieval в Google. Он подтверждает, что релевантность — это результат сложного анализа контента, контекста (Web Graph) и поведения пользователей. Для Senior SEO-специалистов это подчеркивает важность построения сильного тематического авторитета через контент, качественные ссылки с правильными анкорами и точное соответствие интенту поисковых запросов. Также он показывает универсальность подходов Google к анализу текста и видео.
Практические примеры
Сценарий: Улучшение тематического профиля статьи о «Винах Кьянти»
- Анализ контента (Term Vector & Weights): Убедиться, что в статье естественно используются специфичные термины: «Кьянти Классико», «Санджовезе» (сорт винограда), «Тоскана». Эти термины получат больший вес (из-за IDF), чем общие слова вроде «вино» или «Италия».
- Внешние сигналы (Anchor Text): Инициировать аутрич-кампанию для получения ссылок с винных блогов с анкорами: «Гид по винам Кьянти» или «Лучшие производители Кьянти Классико».
- Внутренние ссылки (Related Documents): Поставить ссылки на эту статью со страниц о других итальянских винах и сослаться из статьи на релевантные материалы (например, о сорте Санджовезе). Контент связанных страниц усилит тематику.
- Связанные запросы (Queries): Оптимизировать страницу так, чтобы она ранжировалась по запросам «как выбрать Кьянти» и «отличия Кьянти и Кьянти Классико». История этих запросов будет использована для подтверждения тематики.
- Результат: Система агрегирует эти сигналы и формирует точный тематический профиль статьи, что положительно влияет как на контекстную рекламу, так и на органическое ранжирование.
Вопросы и ответы
Этот патент о Google AdSense. Какое он имеет отношение к органическому поиску (SEO)?
Хотя патент описывает систему контекстной рекламы, он раскрывает фундаментальные методы Information Retrieval, которые Google использует для понимания тематики любого контента. Процессы анализа частоты терминов, взвешивания (TF-IDF), использования анкорного текста и связанных запросов являются общими для всей экосистемы Google, включая органический поиск. Понимая AdSense, мы лучше понимаем ядро семантического анализа Google.
Что такое Term Vector и как он влияет на SEO?
Term Vector — это математическое представление контента, где каждому термину присвоен вес, отражающий его важность для темы. В SEO это означает, что необходимо не просто упоминать ключевые слова, но и обеспечивать их достаточную частоту и использовать специфическую лексику. Система отдает предпочтение терминам, которые уникальны для темы и отсеивает общие слова, поэтому семантически богатый контент ранжируется лучше.
Насколько важен анкорный текст согласно этому патенту?
Критически важен. Патент прямо указывает, что anchor text входящих ссылок используется как источник для определения тем целевого документа. Система может использовать анкоры для дополнения или даже замены собственного контента страницы при анализе тематики. Это подтверждает необходимость стратегии построения ссылок с релевантными и качественными анкорами.
Учитывает ли система контент страниц, которые ссылаются на мой сайт (доноров)?
Да. Патент описывает, что ссылка между двумя документами может указывать на их подобие. Контент ссылающегося документа может быть использован для определения тематики целевого документа. Это подчеркивает важность получения ссылок с тематически релевантных ресурсов, а не только с авторитетных.
Как Google использует поисковые запросы для определения тематики страницы?
Патент описывает два метода. Во-первых, анализируются Топ-N запросов, по которым страница находится в поиске. Во-вторых, анализируется история запросов пользователей, которые посещают страницу (например, если пользователь искал «итальянское вино», а затем перешел на страницу, эта страница ассоциируется с темой «итальянское вино»). Это объясняет, почему данные GSC так важны для понимания релевантности.
Текущая версия патента (Claims 2021 года) фокусируется на видео. Что это значит для видео-SEO?
Это означает, что Google активно применяет сложные методы семантического анализа к видеоконтенту. Поскольку анализ основан на «частоте встречаемости контента» в видео, крайне важно предоставлять Google текстовые данные для анализа. SEO-специалистам необходимо фокусироваться на загрузке точных субтитров, создании транскрипций и оптимизации метаданных для улучшения видимости видео.
Описывает ли патент концепцию TF-IDF?
Явно термин TF-IDF не используется, но описанные концепции идентичны. Патент говорит о взвешивании терминов на основе их частоты в документе (TF) и корректировке веса на основе частоты термина в общей коллекции документов (концепция IDF – повышение веса редких слов, снижение веса частых).
Использует ли система синонимы при определении тем?
Да. В описании патента упоминается возможность использования тезауруса для определения других тем (например, синонимов), которые тесно связаны или концептуально похожи на идентифицированные темы. Это подчеркивает важность использования разнообразной лексики и синонимов в контенте для полного охвата темы.
Влияет ли внутренняя перелинковка на определение тематики страницы?
Да, влияет. Патент указывает, что ссылки между документами (включая исходящие из целевого документа) могут указывать на их подобие, и контент этих связанных документов может использоваться для анализа. Таким образом, качественная внутренняя перелинковка (включая анкоры и контекст ссылок) помогает укрепить тематическую связь между страницами сайта.
Кто изобретатели этого патента и почему это важно?
Изобретатели — Джефф Дин (глава Google AI), Жорж Харик и Пол Бухайт (создатель Gmail). Это ключевые фигуры в истории Google, ответственные за разработку базовой инфраструктуры и алгоритмов. Их авторство подчеркивает фундаментальный характер этого изобретения для всей экосистемы Google, включая AdSense и Поиск.