Google использует систему для проверки релевантности предлагаемых ключевых слов (например, в Google Ads), анализируя контент конкретного веб-сайта. Система генерирует семантически связанные термины, но затем проверяет, как часто они фактически встречаются вместе с исходным словом на этом сайте. Это позволяет автоматически отфильтровать нерелевантные предложения и разрешить семантическую неоднозначность, адаптируя подсказки к контексту домена.
Описание
Какую задачу решает
Патент решает проблему предоставления избыточных или контекстуально нерелевантных предложений в инструментах подбора ключевых слов (например, Google Ads Keyword Planner). Цель — повысить точность подсказок, убедившись, что они не только семантически связаны с исходным запросом в общем смысле, но и актуальны для конкретного контента веб-сайта пользователя (Domain Entity). Это также решает проблему семантической неоднозначности (многозначности слов).
Что запатентовано
Запатентована система для автоматической оценки и фильтрации семантической релевантности ключевых слов в контексте конкретного домена. Система генерирует связанные ключевые слова на основе исходного (Seed Keyword) с помощью Semantic Relationship Graph. Ключевым элементом является валидация этих слов путем анализа их совместной встречаемости (co-occurrence) с исходным словом непосредственно на веб-страницах (Information Resources) целевого домена.
Как это работает
Система работает в несколько этапов:
- Генерация и Кластеризация: Принимает Seed Keyword и использует Semantic Relationship Graph для поиска связанных слов (в пределах порога Semantic Distance) и группирует их в Категории (Keyword Categories).
- Анализ Контента Сайта: Система анализирует контент веб-страниц целевого домена (Domain Entity).
- Расчет Affinity Score: Вычисляется Keyword-Seed Affinity Score, основанный на частоте совместного появления связанного и исходного слова на сайте. Оценки агрегируются в Category-Seed Affinity Score.
- Валидация и Фильтрация: Слова/категории помечаются как выбранные (релевантные) или невыбранные (нерелевантные) на основе пороговых значений Affinity Score.
- Разрешение Конфликтов: В случае семантического конфликта (Semantic Conflict, например, многозначность слова) система отдает предпочтение категории с более высоким Affinity Score на данном сайте.
Актуальность для SEO
Высокая. Патент описывает функциональность, критически важную для инструментов Google Ads, обеспечивая релевантность предложений на основе контента посадочных страниц. Для SEO это актуально, так как раскрывает методологию Google по анализу контента сайта для определения его контекста и тематической направленности, основанную на анализе совместной встречаемости терминов.
Важность для SEO
Влияние на органическое ранжирование косвенное (6/10). Патент не описывает алгоритм ранжирования. Однако он демонстрирует четкую методологию того, как Google анализирует контент сайта для определения его тематического контекста. Это подтверждает стратегическую важность совместной встречаемости (co-occurrence) ключевых слов и построения Topical Authority для SEO, показывая, что релевантность для Google определяется контентом конкретного домена.
Детальный разбор
Термины и определения
- Affinity Score (Оценка близости/аффинитивности)
- Общий термин для метрик (Keyword-Seed и Category-Seed), измеряющих частоту совместного появления ключевых слов на информационных ресурсах Domain Entity. Является мерой контекстуальной релевантности.
- Category-Seed Affinity Score
- Агрегированная метрика для Keyword Category, основанная на Keyword-Seed Affinity Scores входящих в нее слов. Используется для валидации категорий и разрешения конфликтов.
- Domain Entity (Доменная сущность/Субъект домена)
- Владелец веб-сайта (например, рекламодатель), для которого генерируются подсказки и чей контент анализируется.
- Information Resource (Информационный ресурс)
- Веб-страница или документ, принадлежащий Domain Entity.
- Keyword Category (Категория ключевых слов)
- Кластер семантически связанных ключевых слов-кандидатов.
- Keyword-Seed Affinity Score
- Метрика для отдельного ключевого слова, основанная на частоте его совместного появления с Seed Keyword на ресурсах Domain Entity. Может быть взвешена и нормализована.
- Seed Keyword (Исходное/Посевное ключевое слово)
- Ключевое слово, предоставленное пользователем в качестве отправной точки.
- Semantic Conflict (Семантический конфликт)
- Ситуация неоднозначности, когда две или более Keyword Categories несовместимы или представляют разные значения одного термина (например, «Java» как кофе или язык программирования).
- Semantic Distance (Семантическое расстояние)
- Мера семантической близости между двумя узлами в Semantic Relationship Graph.
- Semantic Relationship Graph (Граф семантических отношений)
- Структура данных (узлы=ключевые слова, ребра=Semantic Distance), используемая для генерации связанных ключевых слов и выявления конфликтов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод измерения релевантности с акцентом на разрешении семантических конфликтов.
- Система получает Seed Keyword от Domain Entity (с веб-адресом).
- Используя Semantic Relationship Graph, идентифицируются Keyword Categories (Первая и Вторая), близкие к исходному слову.
- Система извлекает Information Resource (веб-страницу) Domain Entity.
- Для каждого слова вычисляется Keyword-Seed Affinity Score на основе частоты его совместного появления с Seed Keyword в основном контенте (Primary Content) ресурса.
- Вычисляются агрегированные Category-Seed Affinity Scores (Первый и Второй).
- Система идентифицирует Semantic Conflict между Первой и Второй категориями (используя данные графа).
- В ответ на конфликт система сравнивает Первый и Второй Category-Seed Affinity Scores.
- Система передает результаты, помечая категорию с более высокой оценкой как selected (релевантную для домена), а с более низкой — как unselected (нерелевантную).
Ядро изобретения — валидация общих семантических связей с помощью контента конкретного сайта и автоматическое разрешение неоднозначности путем выбора интерпретации, которая лучше всего поддерживается этим контентом.
Claim 5 (Зависимый): Детализирует расчет Keyword-Seed Affinity Score.
Расчет включает парсинг ресурса для определения терминов и их расположения (placement). Система определяет семантическое соответствие (semantic match) между терминами на странице и анализируемыми ключевыми словами. Keyword-Seed Affinity Score рассчитывается с учетом расположения (placement) ключевого слова на ресурсе. Это указывает на использование взвешивания по заметности и возможность учета синонимов/близких терминов, а не только точных совпадений.
Claim 6 и 7 (Зависимые): Детализируют корректировки Affinity Score.
Оценка может корректироваться на основе иерархической глубины (hierarchical depth) информационного ресурса (Claim 6) и нормализоваться с помощью фактора (normalization factor), указывающего среднюю частоту слова в общем корпусе текстов (Claim 7, аналог TF-IDF).
Где и как применяется
Этот патент не описывает алгоритмы ранжирования Google Search (Web/SERP). Он описывает систему, предназначенную для инструментов, используемых поставщиками контента (Content Providers), вероятнее всего, Google Ads Keyword Planner.
CRAWLING и INDEXING (Использование инфраструктуры)
Система должна иметь возможность сканировать и индексировать (парсить) информационные ресурсы конкретной Domain Entity для извлечения текста, определения расположения терминов (placement) и иерархической глубины страницы (hierarchical depth).
QUNDERSTANDING (Использование инфраструктуры)
Система использует предварительно созданный Semantic Relationship Graph (продукт глобальных процессов Google по пониманию языка) для генерации кандидатов и определения семантических расстояний и конфликтов.
Входные данные:
- Seed Keyword.
- Идентификатор Domain Entity (URL сайта).
- Semantic Relationship Graph.
- Корпус текстов сайта Domain Entity.
Выходные данные:
- Список сгенерированных Keyword Categories и ключевых слов с индикацией статуса (selected или unselected).
На что влияет
- Инструменты Google Ads: Напрямую влияет на точность и релевантность предложений в Планировщике ключевых слов.
- Специфические запросы: Наибольшее влияние на многозначные запросы (полисемия), где требуется разрешение Semantic Conflict для определения контекста сайта.
Когда применяется
Алгоритм активируется в момент, когда пользователь (Domain Entity) запрашивает генерацию дополнительных ключевых слов на основе Seed Keyword в рамках платформы управления контентом/рекламой и предоставляет свой домен для анализа.
Пошаговый алгоритм
Этап 1: Генерация и Кластеризация Кандидатов
- Получение ввода: Система получает Seed Keyword и идентификатор Domain Entity.
- Обход графа: Доступ к Semantic Relationship Graph. Поиск узлов (кандидатов), чье Semantic Distance от исходного слова не превышает порога.
- Кластеризация: Группировка кандидатов в Keyword Categories с помощью алгоритма кластеризации (например, k-NN).
Этап 2: Анализ Контента и Расчет Оценок
- Сбор и Парсинг Ресурсов: Получение и анализ Information Resources (веб-страниц) Domain Entity.
- Подсчет частоты: Для каждого кандидата подсчитывается частота совместного появления (co-occurrence) с Seed Keyword в контенте.
- Расчет Keyword Affinity: Вычисление Keyword-Seed Affinity Score. Оценка корректируется (взвешивается) на основе:
- Расположения слова на странице (placement).
- Иерархической глубины страницы (hierarchical depth).
- Нормализации (например, TF-IDF) с использованием общего корпуса текстов.
- Расчет Category Affinity: Агрегация оценок слов для расчета Category-Seed Affinity Score.
Этап 3: Фильтрация и Разрешение Конфликтов
- Фильтрация по порогу: Слова и категории, чьи Affinity Scores ниже порогов, помечаются как unselected.
- Идентификация конфликтов: Проверка наличия Semantic Conflict между категориями с помощью графа.
- Разрешение конфликтов: Если конфликт обнаружен, Category-Seed Affinity Scores сравниваются. Категория с наивысшей оценкой помечается как selected, остальные конфликтующие — как unselected.
- Вывод: Генерация интерфейса с результатами.
Какие данные и как использует
Данные на входе
- Контентные факторы: Основной текст (Primary Content) веб-страниц Domain Entity. Система анализирует совместную встречаемость терминов.
- Структурные факторы: Расположение (placement) терминов на странице используется для взвешивания оценок близости. Упоминается возможность учета размера шрифта.
- Технические факторы: URL-структура используется для определения иерархической глубины (hierarchical depth) страницы, что также используется для взвешивания.
- Внешние данные: Semantic Relationship Graph и данные общего корпуса текстов (для нормализации).
Какие метрики используются и как они считаются
- Semantic Distance: Извлекается из графа. Используется для генерации кандидатов и выявления конфликтов.
- Frequency Count (Co-occurrence): Базовый подсчет совместных появлений Seed Keyword и кандидата на домене.
- Keyword-Seed Affinity Score: Вычисляется на основе Frequency Count с применением взвешивания и нормализации.
- Взвешивание: Учитывает placement и hierarchical depth.
- Нормализация (Normalization Factor): Корректировка на основе средней частоты слова в общем корпусе (аналог IDF).
- Category-Seed Affinity Score: Агрегация (например, взвешенное среднее) Keyword-Seed Affinity Scores слов в категории.
Выводы
- Контекст сайта определяет релевантность. Ключевой вывод: Google использует контент конкретного сайта как источник истины для валидации семантических связей. Общая семантическая близость (из графа) вторична по отношению к фактическому использованию терминов на домене.
- Co-occurrence как механизм валидации и разрешения неоднозначности. Анализ совместной встречаемости является центральным элементом для расчета Affinity Score и, что критически важно, для разрешения Semantic Conflicts (многозначности).
- Детализированный анализ контента. Система учитывает не только наличие слов, но и их важность, которая определяется расположением на странице (placement) и иерархией сайта (hierarchical depth).
- Использование нормализации (TF-IDF). Применение Normalization Factor показывает, что система снижает вес общеупотребительных слов, фокусируясь на терминах, специфичных для тематики сайта.
- Инструмент оптимизации, а не ранжирования. Описанные механизмы применяются для улучшения работы инструментов (например, Google Ads), а не для ранжирования в органическом поиске.
Практика
Best practices (это мы делаем)
Хотя патент описывает работу инструментов, он дает важные инсайты для SEO-стратегии контента и понимания Topical Authority:
- Усиление Topical Authority через Co-occurrence: Для установления релевантности сайта по теме необходимо обеспечить частое совместное использование связанных концепций (ключевых слов из одной категории) вместе с основной темой (Seed Keyword) в контенте всего сайта. Это создает сильные сигналы Affinity Score.
- Четкое разрешение неоднозначности в контенте: При работе с многозначными терминами убедитесь, что контент сайта явно отдает предпочтение нужной интерпретации за счет частого использования поддерживающих контекстных терминов. Это позволит выиграть в разрешении Semantic Conflict.
- Оптимизация расположения ключевых терминов: Поскольку placement учитывается при взвешивании, размещайте важные семантические связки в заметных частях контента (заголовки, начало текста).
- Стратегическая структура сайта: Так как патент упоминает взвешивание по hierarchical depth, важно поддерживать логичную иерархию. Ключевой контент, определяющий тематику, должен находиться на оптимальной глубине, ближе к корню сайта.
- Использование специфической лексики (TF-IDF): Используйте термины, специфичные для вашей ниши. Благодаря механизму нормализации, такие термины получат больший вес, что повысит тематическую релевантность.
Worst practices (это делать не надо)
- Размытие тематики (Topic Dilution): Создание контента на разрозненные темы или смешивание контекстов может привести к низким Affinity Scores и затруднить для Google определение основной специализации сайта.
- Изолированное использование ключевых слов (Keyword Stuffing без контекста): Использование основных ключевых слов без поддерживающего семантического окружения (связанных терминов). Система не сможет подтвердить релевантность связанных понятий из-за отсутствия co-occurrence.
- Создание «тонких» контентных силосов: Создание страниц под отдельные ключевые слова без их интеграции в более широкую тематическую структуру, где концепции взаимодействуют, не позволит создать сильную аффинитивность на уровне категорий.
Стратегическое значение
Патент подтверждает способность Google детально анализировать контент конкретного сайта для определения его ключевых тем и контекста. Стратегически это подтверждает необходимость перехода от оптимизации под отдельные запросы к построению Тематического Авторитета (Topical Authority). Сайт должен демонстрировать глубокое покрытие темы через последовательное использование семантически связанного словаря, где основные и вспомогательные темы тесно переплетены и часто употребляются совместно.
Практические примеры
Сценарий: Разрешение неоднозначности для сайта о «Ягуаре» (Jaguar)
- Domain Entity: Сайт автодилера Jaguar.
- Seed Keyword: «Jaguar».
- Генерация и Конфликт: Система генерирует две конфликтующие категории: A (Автомобили: двигатель, модель XF) и B (Животные: джунгли, хищник).
- Анализ сайта: Система анализирует сайт автодилера и обнаруживает высокую частоту совместной встречаемости «Jaguar» со словами из категории A и нулевую с категорией B.
- Расчет Affinity Score: Category-Seed Affinity Score A высокий, B — низкий.
- Результат: Система разрешает Semantic Conflict в пользу категории A («Автомобили»). При предложении ключевых слов категория B будет отклонена.
SEO-действие: SEO-специалист должен убедиться, что контент сайта постоянно подкрепляет автомобильный контекст, используя релевантную лексику совместно с брендом Jaguar, чтобы максимизировать Affinity Score для нужной тематики.
Вопросы и ответы
Описывает ли этот патент алгоритм ранжирования в Google Поиске?
Нет. Патент описывает систему для измерения семантической релевантности ключевых слов, которая, скорее всего, используется во вспомогательных инструментах, таких как Планировщик ключевых слов Google Ads. Он фокусируется на том, как адаптировать предложения ключевых слов к контенту конкретного сайта, а не на том, как ранжировать этот сайт в поиске.
Что такое Affinity Score и почему он важен?
Affinity Score (Оценка близости) — это метрика, которая показывает, насколько сильно предложенное ключевое слово связано с исходным словом в контексте вашего сайта. Она рассчитывается на основе частоты их совместного употребления (co-occurrence) на ваших страницах. Это важно, так как позволяет отфильтровать слова, которые семантически близки в общем смысле, но не используются в контенте вашего сайта.
Как система решает проблему многозначности слов (Semantic Conflict)?
Если слово многозначно (например, «ключ» как инструмент или источник воды), система генерирует категории для обоих значений. Затем она анализирует контент вашего сайта. Та интерпретация, чьи связанные слова чаще встречаются на вашем сайте (имеет более высокий Category-Seed Affinity Score), будет выбрана как релевантная, а другая отклонена.
Учитывает ли система расположение ключевых слов на странице?
Да, патент явно указывает (Claim 5), что расположение (placement) ключевого слова на информационном ресурсе используется при расчете Keyword-Seed Affinity Score. Это подразумевает, что слова, расположенные на более заметных позициях, могут получить больший вес при определении релевантности.
Влияет ли структура моего сайта на этот анализ?
Да, влияет. В патенте упоминается (Claim 6) использование иерархической глубины (hierarchical depth) страницы для корректировки Affinity Score. Это может означать, что контент на страницах, расположенных ближе к корню сайта, может оказывать большее влияние на определение общей тематической релевантности домена.
Используется ли в этом патенте принцип TF-IDF?
Концептуально да. Патент описывает (Claim 7) использование Normalization Factor, основанного на средней частоте слова в общем корпусе текстов. Корректировка Affinity Score этим фактором аналогична компоненту IDF (Inverse Document Frequency), что позволяет снизить вес общеупотребительных слов и выделить специфичные термины.
Что такое Semantic Relationship Graph?
Это база данных или структура, которая хранит информацию о семантических связях между словами. Она позволяет системе понять, какие слова близки по значению (малая Semantic Distance) и какие интерпретации могут конфликтовать. Это основа для генерации релевантных предложений ключевых слов.
Как этот патент влияет на мою SEO-стратегию и Topical Authority?
Он подтверждает важность построения Topical Authority через тематическую согласованность и совместную встречаемость (co-occurrence). Для SEO это означает, что необходимо не просто упоминать ключевые слова, но и окружать их семантически связанным контекстом, чтобы укрепить сигналы релевантности и четко определить тематику сайта для системы.
Должен ли я оптимизировать страницы под точное совпадение ключевых слов?
Не обязательно. Патент указывает (Claim 5), что система может идентифицировать семантические совпадения (semantic match) между терминами на странице и анализируемыми ключевыми словами. Это говорит о том, что использование синонимов и близких по смыслу выражений также эффективно для установления релевантности.
Что делать, если инструменты Google (например, Keyword Planner) предлагают мне нерелевантные ключевые слова для моего сайта?
Это сигнал о том, что контент вашего сайта недостаточно четко сфокусирован или размыт. Согласно этому патенту, система не находит достаточного подтверждения (высокого Affinity Score) для релевантных терминов на вашем сайте. Необходимо пересмотреть контент, усилить тематическую направленность и обеспечить совместную встречаемость ключевых терминов вашей ниши.