Google использует систему для автоматического поиска и ассоциации запросов с релевантными страницами (например, для рекламы). Ключевой механизм — это сравнение двух векторов: «Вектора Намерения» (интент запроса во всем вебе) и «Вектора Предложения» (интент конкретной страницы). Ассоциация происходит, только если эти векторы совпадают, гарантируя точное соответствие интента.
Описание
Какую задачу решает
Патент решает проблему точной идентификации релевантных запросов для конкретных веб-страниц, особенно в контексте онлайн-рекламы. Он автоматизирует обнаружение «упущенных ключевых слов» (missing keywords) и устраняет неэффективность широкого соответствия, которое может приводить к ассоциации запросов со страницами, не соответствующими доминирующему намерению пользователя.
Что запатентовано
Запатентована система для предиктивной идентификации и ассоциации запросов с документами путем генерации Query-Page Tuples. Система анализирует логи запросов, ищет релевантные страницы в специализированном подмножестве индекса (Proper Subset), а затем проводит строгую фильтрацию. Ядром изобретения является механизм фильтрации, который сравнивает интент запроса в контексте всего интернета (Intent Vector) с интентом, отраженным на найденной целевой странице (Suggestion Vector).
Как это работает
Система работает в несколько офлайн-этапов:
- Извлечение (Extraction): Из логов идентифицируются запросы-кандидаты на основе критериев частотности (не слишком редкие и не слишком частые) и тематической релевантности (например, коммерческой).
- Генерация Кандидатов (Candidate Query-Page): Поиск релевантных страниц выполняется только внутри Proper Subset (например, только коммерческие сайты). Формируются предварительные пары (QP Candidate Tuples).
- Фильтрация (Filtering): Ключевой этап валидации. Система проверяет наличие доминирующего интента (Intent Measure), затем определяет интент запроса во всем вебе (Intent Vector) и сравнивает его с интентом найденной страницы (Suggestion Vector). Если мера сходства (Similarity Measure) высока, пара сохраняется.
- Ассоциация (Association): Финальные Query-Page Tuples используются для улучшения рекламных кампаний (Ad Groups) или категоризации запросов.
Актуальность для SEO
Высокая. Понимание интента и его векторное представление являются фундаментальными концепциями современного поиска и рекламы. Хотя конкретные алгоритмы эволюционировали (например, к нейросетевым эмбеддингам), базовая логика сравнения интента запроса и документа для валидации релевантности, описанная здесь, остается центральной.
Важность для SEO
Влияние на SEO высокое (7.5/10). Хотя патент описывает инфраструктуру для Google Ads, он раскрывает критически важные механизмы измерения и сравнения интента. Он демонстрирует, как Google технически подходит к определению Dominant Intent и валидации соответствия страницы этому интенту. Понимание работы Intent Vector и Suggestion Vector необходимо для разработки эффективной SEO-стратегии, ориентированной на интент.
Детальный разбор
Термины и определения
- Candidate Query (Запрос-кандидат)
- Запрос, извлеченный из логов поиска, который соответствует предварительным критериям (частота, тематика) и анализируется для ассоциации со страницами.
- Dominant Intent (Доминирующий интент)
- Основное намерение пользователя при вводе запроса. Определяется, если Intent Measure высока.
- Extraction Criteria (Критерии извлечения)
- Правила для фильтрации запросов из логов. Включают пороги частотности (Min/Max) и тип запроса (например, исключение новостных или образовательных).
- Intent Measure (Мера интента)
- Метрика, определяющая, насколько сфокусирован запрос. Низкое значение указывает на общий или неоднозначный запрос.
- Intent Vector (Вектор намерения)
- Векторное представление интента запроса, основанное на анализе топовых результатов поиска по всему веб-индексу. Формируется из общих терминов, найденных на этих страницах. Отражает общее намерение запроса в вебе.
- Proper Subset (Надлежащее подмножество)
- Ограниченная часть веб-индекса, отобранная по определенным критериям (Proper Subset Criteria). Например, только коммерческие сайты.
- Query-Page (QP) Tuple (Пара Запрос-Страница)
- Финальная, валидированная ассоциация между запросом и страницей после прохождения фильтрации интента.
- Similarity Measure (Мера сходства)
- Метрика, определяющая степень совпадения между Intent Vector и Suggestion Vector.
- Suggestion Vector (Вектор предложения)
- Векторное представление конкретной целевой страницы. Формируется из репрезентативных слов на странице (Title, URL, текст). Отражает интент и содержание этой страницы.
Ключевые утверждения (Анализ Claims)
Патент US8631003B2 является разделением (divisional) более ранней заявки. Claim 1 описывает полный конвейер.
Claim 1 (Независимый пункт): Описывает метод идентификации и ассоциации запросов для рекламы.
- Определение Extraction Criteria для идентификации запросов определенной тематики (subject relevance).
- Идентификация Candidate Query из логов.
- Генерация Relevancy Scores для первого набора документов. Этот набор является Proper Subset, определенным с помощью Proper Subset Criteria.
- Выбор документов, превышающих порог релевантности, и генерация Query-Page Candidate Tuple.
- Генерация первой меры интента (соответствует Suggestion Vector), основанной на терминах из первого набора (целевой страницы).
- Поиск по второму набору документов (более широкому, например, весь индекс) с использованием того же запроса.
- Генерация второй меры интента (соответствует Intent Vector), основанной на терминах из результатов второго поиска.
- Фильтрация кандидатской пары на основе сравнения первой и второй мер интента.
- Сохранение валидированной пары как Query-Page Tuple.
- Сравнение Query-Page Tuple с рекламной группой (Ad Group).
- Ассоциация запроса и документа с Ad Group при условии релевантности.
- Предоставление рекламы в ответ на этот запрос.
Ядро изобретения — это многоэтапная валидация релевантности, которая требует, чтобы интент запроса в специализированном подмножестве индекса совпадал с интентом этого же запроса в общем индексе. Это защищает от нетематических (Off-Topic) ассоциаций.
Где и как применяется
Изобретение описывает офлайн-процесс анализа данных, использующий компоненты основного поиска для улучшения рекламной системы (Advertisement Management System).
INDEXING – Индексирование и извлечение признаков
Система должна классифицировать документы во время индексации, чтобы иметь возможность выделить Proper Subset (например, коммерческий индекс). Также извлекаются термины для последующей генерации Suggestion Vectors.
QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
Основное применение патента. Включает анализ Query Logs, применение Extraction Criteria и генерацию Intent Vectors путем анализа результатов поиска по всему индексу для понимания Dominant Intent.
RANKING – Ранжирование (Внутреннее использование)
Поисковый движок используется дважды: для ранжирования внутри Proper Subset (генерация Relevancy Scores) и для ранжирования по всему индексу (необходимо для генерации Intent Vector). Упоминается, что при поиске в Proper Subset могут использоваться модифицированные алгоритмы ранжирования (например, игнорирование предполагаемого CTR).
Входные данные:
- Query Logs.
- Web Index.
- Extraction Criteria и Proper Subset Criteria.
- Данные рекламных групп (Ad Groups).
Выходные данные:
- Валидированные Query-Page Tuples.
- Предложения для рекламодателей (новые ключевые слова или кампании).
- Карта категорий запросов (Query-Category Map), если используется для категоризации (упомянуто в патенте).
На что влияет
- Конкретные типы контента и ниши: Преимущественно E-commerce и страницы с коммерческими предложениями. Однако система может быть настроена на любую тематику (subject relevance), где можно выделить Proper Subset (например, образовательную или историческую).
- Специфические запросы: Влияет на средне- и низкочастотные запросы (mid-tail, long-tail). Слишком редкие и слишком частые (общие или трендовые) запросы отфильтровываются.
Когда применяется
- Временные рамки: Процесс выполняется офлайн в режиме пакетной обработки для периодического анализа логов и обновления ассоциаций.
- Условия и Пороговые значения:
- Пороги частотности (Min/Max) на этапе извлечения.
- Порог Relevancy Score на этапе генерации кандидатов.
- Порог Intent Measure (для определения наличия Dominant Intent).
- Порог Similarity Measure (для валидации совпадения интентов).
Пошаговый алгоритм
Фаза 1: Извлечение запросов (Extraction)
- Анализ логов: Обработка Query Logs.
- Применение критериев частотности: Отбор запросов в заданном диапазоне частот (например, от 50 до 50,000 в месяц).
- Применение критериев типа и времени: Фильтрация нецелевых запросов (например, новостных, образовательных, запросов типа «how to») для фокусировки на нужном интенте (например, коммерческом). Учет сезонности запросов.
- Выход: Список Candidate Queries.
Фаза 2: Генерация Кандидатских Пар (Candidate Query-Page)
- Определение подмножества: Выделение Proper Subset из индекса (например, только сайты ритейлеров) с помощью Proper Subset Criteria.
- Поиск в подмножестве: Выполнение поиска Candidate Query по Proper Subset.
- Расчет релевантности: Генерация Relevancy Scores для найденных страниц.
- Отбор по порогу: Выбор страниц, превышающих порог релевантности.
- Выход: Список Query-Page (QP) Candidate Tuples.
Фаза 3: Фильтрация (Filtering)
- Генерация Suggestion Vector: Создание векторного представления целевых страниц из QP Candidate Tuples на основе их контента (Title, URL, текст).
- Поиск по всему индексу: Выполнение поиска Candidate Query по полному Web Index.
- Генерация Intent Vector: Создание векторного представления на основе топовых результатов общего поиска.
- Проверка Доминирующего Интента (Dominant Intent Check): Расчет Intent Measure на основе Intent Vector. Если мера низкая (запрос неоднозначный, как пример «red box» в патенте), пара отбрасывается.
- Проверка Совпадения Интента (Off-Topic Filtering): Расчет Similarity Measure между Intent Vector и Suggestion Vector. Если сходство ниже порога (интенты расходятся, как пример «Battle Tactics» в патенте), пара отбрасывается.
- Выход: Валидированный список Query-Page Tuples.
Фаза 4: Ассоциация (Association)
- Сравнение с Ad Groups: Сопоставление финальных пар с существующими рекламными кампаниями.
- Интеграция: Добавление запроса как ключевого слова, создание нового объявления или предложение новой кампании рекламодателю. (Альтернативно: использование для категоризации запросов с помощью Web Directory).
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Query Logs. Используются для анализа частоты подачи запросов (frequency of submission) и времени (сезонности).
- Контентные факторы: Текст, заголовки (Title), URL. Используются двояко: 1) Контент целевых страниц для генерации Suggestion Vector. 2) Контент топовых страниц из общего поиска для генерации Intent Vector. Также контент используется для определения, входит ли страница в Proper Subset (наличие коммерческих признаков типа «shopping cart»).
- Структурные факторы: Упоминается использование веб-каталогов (Web Directory, например, DMOZ, Google Directory) для категоризации страниц и запросов, а также сайтмапов (site map) для определения Proper Subset.
Какие метрики используются и как они считаются
- Частота запросов (Query Frequency): Подсчет отправок запроса за период. Используются Min/Max пороги.
- Relevancy Score: Стандартная оценка релевантности документа запросу, рассчитываемая при поиске в Proper Subset.
- Intent Measure: Метрика, рассчитываемая на основе Intent Vector. Оценивает сфокусированность запроса (наличие Dominant Intent). Если термины в векторе разрознены, мера низкая.
- Similarity Measure: Метрика сходства (например, косинусное расстояние) между Intent Vector и Suggestion Vector.
- Методы анализа текста (NLP): Используются векторные модели для представления интента запросов и содержания документов на основе извлеченных терминов.
Выводы
- Валидация интента через сравнение контекстов: Ключевой механизм — сравнение поведения запроса в узком контексте (Proper Subset или конкретная страница) с его поведением в широком контексте (весь веб). Релевантность подтверждается только при их согласовании (высокая Similarity Measure).
- Векторное представление смысла: Патент демонстрирует использование векторов (Intent Vector, Suggestion Vector) для моделирования интента запроса и темы страницы. Это подтверждает переход от анализа ключевых слов к семантическому анализу.
- Требование Доминирующего Интента: Запросы без четкого, сфокусированного намерения (низкая Intent Measure) считаются менее ценными и отфильтровываются, так как они неэффективны для точного таргетинга.
- Фильтрация «Off-Topic» ассоциаций: Система активно предотвращает ситуации, когда страница формально релевантна по ключевым словам, но не соответствует основному намерению пользователя в общем поиске (Intent Mismatch).
- Сегментация Индекса: Google может создавать и использовать специализированные подмножества индекса (Proper Subsets) для конкретных задач, например, выделяя коммерческий индекс, образовательный индекс и т.д.
Практика
Best practices (это мы делаем)
Хотя патент сфокусирован на рекламе, его механизмы анализа интента критически важны для SEO.
- Строгое соответствие Доминирующему Интенту SERP: Анализируйте выдачу по целевым запросам, чтобы понять Intent Vector, который формирует Google. Убедитесь, что ваш контент (ваш Suggestion Vector) точно соответствует этому интенту. Это максимизирует Similarity Measure.
- Создание сфокусированного контента: Страница должна иметь четкий фокус и однозначный интент. Это помогает сформировать четкий Suggestion Vector. Избегайте смешивания разных тем или интентов на одной странице.
- Использование точной тематической терминологии: Используйте термины и фразы, которые ассоциируются с темой в общем поиске (те, что формируют Intent Vector). Это улучшает семантическое соответствие между вектором вашей страницы и вектором запроса.
- Обеспечение четких тематических сигналов (для E-commerce и др.): Убедитесь, что на страницах присутствуют явные признаки, позволяющие включить их в соответствующий Proper Subset (например, цены и корзина для коммерческого подмножества). Использование корректных сайтмапов также может помочь в этом.
Worst practices (это делать не надо)
- Манипуляция интентом (Intent Mismatch): Попытка ранжировать страницу по запросу, если ее содержание противоречит доминирующему интенту в вебе. Система обнаружит низкую Similarity Measure.
- Таргетинг на неоднозначные запросы: Фокусировка на запросах без Dominant Intent (низкая Intent Measure). Такие запросы система считает некачественными для точного таргетинга, так как интент пользователя неясен.
- Игнорирование общепринятого значения терминов: Использование терминов в узкоспециализированном значении, которое не соответствует общему интенту в вебе, приведет к расхождению векторов.
Стратегическое значение
Патент подтверждает стратегический фокус Google на понимании намерения пользователя и его контекстуализации. Он демонстрирует конкретные технические методы (векторный анализ и сравнение контекстов) для измерения релевантности. Для SEO это означает, что стратегия должна строиться вокруг идеального соответствия контента доминантному интенту, который Google уже определил для данного запроса. Это подчеркивает важность анализа SERP над простым анализом ключевых слов.
Практические примеры
Сценарий 1: Фильтрация из-за расхождения Интентов (Off-Topic)
- Запрос: «Battle Tactics» (Тактика боя). (Пример из патента).
- Анализ страницы (Suggestion Vector): Страница продает видеоигру. Вектор содержит: «Video games», «game controllers», «game cheats».
- Анализ общего поиска (Intent Vector): Доминирующий интент в вебе — военная история. Вектор содержит: «Military tactics», «military history», «Modern warfare».
- Результат: Similarity Measure низкая. Интенты расходятся. Система считает ассоциацию некачественной. SEO-специалисту не стоит продвигать эту страницу по данному общему запросу.
Сценарий 2: Успешная ассоциация интента
- Запрос: «train cake pans» (формы для выпечки в виде поезда). (Пример из патента).
- Анализ страницы (Suggestion Vector): Страница продукта в магазине. Вектор содержит: «train pan», «cake pan», «baking tools».
- Анализ общего поиска (Intent Vector): Доминирующий интент — покупка или рецепты. Вектор содержит: «cake pans», «baking pans», «decorative cakes», «baking».
- Результат: Similarity Measure высокая. Интенты совпадают. Страница считается высокорелевантной запросу.
Вопросы и ответы
Что такое Intent Vector и как он формируется?
Intent Vector представляет доминирующее намерение запроса в контексте всего интернета. Он формируется путем выполнения поиска по всему веб-индексу и анализа общих терминов и фраз, встречающихся в топовых результатах. Это позволяет системе понять, что большинство пользователей ищет по этому запросу.
Что такое Suggestion Vector и чем он отличается от Intent Vector?
Suggestion Vector представляет содержание и интент конкретной посадочной страницы. Он формируется на основе анализа текста, заголовков и URL этой страницы. В отличие от Intent Vector (общий интент запроса), Suggestion Vector отражает тему конкретного документа.
Почему сравнение этих двух векторов так важно для SEO?
Сравнение (Similarity Measure) критически важно, так как Google стремится показывать только те страницы, чей контент (Suggestion Vector) точно соответствует доминирующему намерению пользователя (Intent Vector). Если векторы расходятся, система считает страницу нерелевантной основному интенту, даже если ключевые слова присутствуют на странице.
Что такое Proper Subset и как он используется?
Proper Subset — это специализированное подмножество веб-индекса, например, только коммерческие сайты. Система сначала ищет релевантные страницы только в этом подмножестве, чтобы изолировать нужный тип контента (например, товары) и отсечь информационный шум. Это повышает точность анализа в заданном контексте.
Что такое Dominant Intent и как понять, есть ли он у запроса?
Dominant Intent означает, что у запроса есть четкая, сфокусированная цель. Система определяет это с помощью Intent Measure. На практике SEO-специалист может оценить это, проанализировав выдачу: если ТОП-10 однороден и посвящен одной теме, доминирующий интент есть. Если выдача разнообразна (новости, магазины, блоги на разные темы), интента нет.
Почему система отфильтровывает очень частые и очень редкие запросы?
Очень редкие запросы могут быть нерепрезентативными или слишком специфичными для одного пользователя. Очень частые запросы часто бывают слишком общими или связаны с временными трендами и обычно не имеют четкого интента, подходящего для точной ассоциации с конкретной страницей.
Что делать, если интент моей страницы не совпадает с доминирующим интентом запроса?
Необходимо либо изменить контент страницы, чтобы он соответствовал доминирующему интенту (выровнять Suggestion Vector с Intent Vector), либо сменить целевой запрос на тот, который точно соответствует содержанию вашей страницы. Пытаться ранжироваться при расхождении интентов неэффективно.
Как этот патент связан с современными технологиями, такими как BERT или Векторный Поиск?
Патент описывает раннюю форму использования векторов для представления смысла, основанную на извлечении терминов. Современные системы (BERT, MUM) используют более сложные нейросетевые эмбеддинги для создания этих векторов, но базовая логика — сравнение вектора запроса с вектором документа для определения семантического сходства — остается той же.
Может ли эта система использоваться не только для коммерческих целей?
Да. В патенте указано, что систему можно настроить для любой тематической релевантности (subject relevance) — образовательной, исторической и т.д., изменив критерии извлечения запросов и критерии для определения Proper Subset (например, используя только сайты .edu).
Как я могу улучшить Suggestion Vector моей страницы?
Сфокусируйте контент на одной теме или задаче. Используйте согласованную, тематически релевантную терминологию в Title, URL, заголовках и основном тексте. Избегайте смешивания разных интентов на одной странице. Четкость контента приведет к формированию четкого Suggestion Vector.