Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

Описание

Какую задачу решает

Патент решает проблему точной и своевременной классификации поисковых запросов, особенно коротких, неоднозначных или новых (трендовых). Он устраняет зависимость от традиционных методов, основанных на исторических логах запросов (query logs), которые медленно обновляются и дороги в поддержке. Изобретение позволяет динамически определять интент пользователя, опираясь на актуальное состояние веба, а не на устаревшие данные.

Что запатентовано

Запатентована система классификации запросов, которая определяет класс запроса (тематику или тип контента) путем анализа результатов поиска (SERP), которые этот запрос генерирует. Система заранее создает эталонные векторы признаков (Classification Feature Vectors) для известных классификаций. При поступлении нового запроса система анализирует его выдачу, создает вектор результатов поиска (Search Result Vector) и сравнивает его с эталонными векторами. Ближайший эталон определяет классификацию, которая затем используется для запуска вертикального поиска.

Как это работает

Механизм работает в два этапа:

Обучение (Офлайн): Для каждой классификации (например, ‘Фильмы’ или ‘Новости’) отбираются репрезентативные обучающие запросы (Training Queries). По ним получаются результаты поиска. Из контента этих результатов (URL, заголовки, сниппеты) извлекаются и взвешиваются ключевые термины (например, на основе частоты, позиции в выдаче, CTR). Этот взвешенный набор формирует эталонный Classification Feature Vector.
Классификация (Рантайм): Когда поступает новый запрос, система получает по нему результаты поиска и аналогичным образом формирует Search Result Vector. Этот вектор сравнивается (используя скалярное произведение – dot product) со всеми эталонными векторами. Запросу присваивается классификация, чей вектор оказался наиболее близким.

Актуальность для SEO

Высокая. Понимание интента запроса и динамическое формирование универсальной выдачи (Universal Search) критически важны для Google. Описанный метод позволяет классифицировать запросы на лету, опираясь на «консенсус SERP» (то, какие результаты ранжируются в данный момент), что крайне важно для обработки трендов, новостей и неоднозначных запросов, даже при наличии современных NLP-моделей.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он показывает, что классификация запроса (и, следовательно, активация вертикалей поиска) напрямую зависит от контента страниц, которые уже ранжируются в топе. Это подчеркивает важность анализа терминологии лидеров SERP (особенно в Titles и Snippets) и необходимость соответствия этому семантическому профилю для правильной интерпретации интента поисковой системой.

Детальный разбор

Термины и определения

Classification Feature Vector (Вектор признаков классификации): Эталонное векторное представление определенной классификации (темы или корпуса). Генерируется офлайн путем анализа результатов поиска по Training Queries. Состоит из взвешенных терминов, характерных для данной классификации.
Corpus (Корпус): Определенный набор данных или индекс (например, общий веб-индекс, Новости, Изображения, Видео).
Dot Product (Скалярное произведение): Математическая операция, используемая как мера сходства между Search Result Vector и Classification Feature Vector. Более высокое значение указывает на большее сходство.
Search Result Vector (Вектор результатов поиска): Векторное представление входящего запроса, сгенерированное в реальном времени путем анализа терминов, извлеченных из результатов поиска по этому запросу.
Term Frequency (Частота термина): Количество вхождений термина в анализируемые результаты поиска. Является основой для расчета значений в векторах.
Training Queries (Обучающие запросы): Набор запросов, заранее отобранных как репрезентативные для определенной классификации. Используются на этапе обучения.
Vertical Content Type (Тип вертикального контента): Специализированные результаты поиска, извлекаемые из определенного Corpus (например, блок Новостей).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл работы системы от обучения до применения классификации для запуска вертикального поиска.

Определение набора классификаций.
Выбор обучающих запросов (training queries), репрезентативных для конкретной классификации.
Получение результатов поиска для этих запросов.
Генерация Classification Feature Vector. Значение элемента вектора представляет частоту термина (term frequency) в этих результатах.
Получение нового поискового запроса и его результатов поиска.
Генерация Search Result Vector для нового запроса.
Определение, что Search Result Vector наиболее близок к Classification Feature Vector конкретной классификации.
В ответ на это: получение результатов поиска, имеющих Vertical Content Type в соответствии с этой классификацией из определенного Corpus.
Предоставление этих вертикальных результатов в ответ на новый запрос.

Claim 3 (Зависимый): Уточняет источники извлечения терминов для генерации векторов. Это URL (Uniform Resource Locators), заголовки (titles) или сниппеты (snippets) результатов поиска.

Claims 4, 5, 6 (Зависимые): Описывают методы взвешивания терминов при генерации векторов. Вес термина может зависеть от:

Ранга (позиции) результата поиска, в котором он встречается (Claim 4).
Оценочного CTR (estimated click through rate) результата поиска (Claim 5).
Веса, специфичного для корпуса (corpus-specific weight), из которого был получен результат (Claim 6).

Claim 8 (Зависимый): Уточняет метод определения близости векторов. Используется вычисление скалярного произведения (dot product), и выбирается вектор с наивысшим значением.

Где и как применяется

Изобретение в первую очередь работает на этапах понимания запроса и формирования смешанной выдачи.

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Система использует этот механизм для интерпретации интента и определения категории запроса. Это происходит как офлайн (обучение Feature Vectors), так и в рантайме (классификация нового запроса путем анализа его SERP).

RANKING – Ранжирование
Этот этап предоставляет входные данные для классификатора. Система должна сначала сгенерировать предварительный набор результатов поиска, чтобы проанализировать их и создать Search Result Vector.

METASEARCH – Метапоиск и Смешивание
Результат классификации используется здесь. Как указано в Claim 1, определенная классификация служит триггером для получения результатов vertical content type из соответствующего corpus (например, запуск поиска по Новостям) и последующего смешивания их в универсальную выдачу.

Входные данные (Рантайм):

Новый поисковый запрос.
Результаты поиска (URL, Titles, Snippets) по этому запросу.
Предварительно рассчитанные Classification Feature Vectors.

Выходные данные (Рантайм):

Классификация запроса.
Сигнал для запуска вертикального поиска.
Модифицированная выдача с вертикальным контентом.

На что влияет

Специфические запросы: Наибольшее влияние на неоднозначные (например, «Ягуар»), короткие и новые (трендовые) запросы, где интент неясен из текста запроса или нет исторических данных.
Типы контента и Вертикали: Напрямую влияет на видимость вертикального контента (Изображения, Видео, Новости). Классификация определяет активацию поиска в соответствующем корпусе.

Когда применяется

Условия работы: Алгоритм применяется в реальном времени при обработке запроса для определения его интента.
Динамическое применение: Ключевая особенность — классификация запроса может меняться со временем по мере изменения результатов поиска для этого запроса, даже если эталонные Feature Vectors остаются неизменными.

Пошаговый алгоритм

Алгоритм состоит из двух процессов: Обучение и Классификация.

Процесс А: Обучение классификатора (Офлайн)

Определение классификаций: Формируется список целевых классификаций (например, Фильмы, Новости).
Сбор обучающих запросов: Для каждой классификации подбираются репрезентативные Training Queries.
Получение результатов поиска: Запросы отправляются в поисковую систему.
Извлечение терминов: Из результатов поиска (URL, Titles, Snippets) извлекаются термины (проводится токенизация, фильтрация).
Расчет частот и взвешивание: Подсчитывается Term Frequency. К частотам применяются веса, основанные на:
- Позиции результата в выдаче (Ranking).
- Оценочном CTR результата.
- Типе корпуса результата.
Генерация Feature Vector: Из взвешенных терминов формируется Classification Feature Vector. Веса могут быть нормализованы.
Повторение: Процесс повторяется для всех классификаций.

Процесс Б: Классификация запроса (Рантайм)

Получение запроса и результатов: Система получает новый запрос и его результаты поиска.
Извлечение и взвешивание терминов: Из полученных результатов извлекаются и взвешиваются термины (аналогично Процессу А).
Генерация Search Result Vector: Формируется Search Result Vector для входящего запроса.
Сравнение векторов: Вычисляется скалярное произведение (Dot Product) между Search Result Vector и каждым из предобученных Classification Feature Vectors.
Определение классификации: Выбирается классификация, чей вектор дал наибольшее значение Dot Product.
Применение классификации: Система инициирует поиск в соответствующем вертикальном corpus и подмешивает результаты в выдачу.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные непосредственно из результатов поиска:

Контентные факторы: Термины из Заголовков (Titles) и Сниппетов (Snippets). Также упоминается возможность использования содержимого ресурсов.
Технические факторы: Термины из URL (Uniform Resource Locators).
Поведенческие факторы: Оценочный CTR (estimated click through rate) результатов поиска используется как фактор взвешивания (Claim 5).
Системные данные: Ранг (Ranking) результата в выдаче (Claim 4) и тип корпуса (Corpus type) (Claim 6) используются для взвешивания.

Какие метрики используются и как они считаются

Term Frequency (TF): Частота появления термина в анализируемых частях результатов поиска.
Веса (Weights): Множители, применяемые к TF. Рассчитываются как функция от позиции документа, его CTR и типа корпуса: $Weight = f(Ranking, CTR, Corpus)$ .
Dot Product (Скалярное произведение): Используется как итоговая метрика сходства между вектором запроса и вектором классификации. Вычисляется как сумма произведений соответствующих компонентов двух векторов: $A \cdot B = \sum_{i=1}^{n} A_i B_i$ .

Выводы

Консенсус SERP определяет интент: Ключевой вывод — Google определяет значение и интент запроса, анализируя контент страниц, которые уже ранжируются по этому запросу. Система полагается на «мудрость» своего собственного алгоритма ранжирования для классификации.
Динамическая классификация: Поскольку система анализирует текущие результаты поиска, классификация запроса может меняться со временем по мере изменения SERP. Это позволяет быстро адаптироваться к трендам без ожидания накопления исторических логов.
Приоритет топовых результатов в классификации: Термины из документов, находящихся выше в ранжировании (Claim 4) или имеющих более высокий CTR (Claim 5), вносят больший вклад в классификацию. Контент лидеров выдачи формирует семантический профиль запроса.
Ключевая роль Titles, Snippets и URL: Патент явно выделяет эти элементы как основные источники признаков (Claim 3), что подтверждает их критическую важность для передачи тематических сигналов.
Классификация как триггер вертикалей (Universal Search): Основная цель описанного механизма — принятие решения о запуске поиска в специализированных корпусах (Новости, Картинки и т.д.) и подмешивании вертикальных блоков в основную выдачу (Claim 1).

Практика

Best practices (это мы делаем)

Анализ семантического профиля SERP: Тщательно изучайте терминологию (слова и сущности), используемую в Titles и Snippets топовых конкурентов. Это дает представление о том, как выглядит Search Result Vector для данного запроса. Ваш контент должен соответствовать этому профилю.
Обеспечение четкости сигналов в Title, URL и Description: Поскольку эти элементы являются прямыми источниками данных для классификатора, они должны быть максимально ясными и содержать ключевые термины, которые однозначно определяют тематику и интент страницы.
Усиление сигналов для целевых вертикалей: Если цель — попасть в определенную вертикаль (например, Видео), необходимо использовать термины, характерные для Feature Vector этой вертикали. Например, для видео это могут быть слова «смотреть», «обзор», «онлайн» в заголовках.
Улучшение CTR и авторитетности: Поскольку ранг и оценочный CTR используются для взвешивания терминов, работа над повышением позиций и кликабельности сниппетов усиливает влияние вашего контента на классификацию запросов в нише.

Worst practices (это делать не надо)

Неоднозначные или кликбейтные заголовки: Использование мета-тегов, которые не соответствуют основному интенту страницы. Это вносит «шум» в Search Result Vector и затрудняет правильную классификацию.
Игнорирование доминирующего интента SERP: Попытка ранжироваться с контентом, который радикально отличается от текущего консенсуса ТОПа. Если ТОП-10 генерирует вектор, указывающий на информационный интент, коммерческой странице будет сложно занять высокие позиции.
Фокус только на прямых вхождениях без семантического контекста: Оптимизация под текст запроса без использования связанных терминов, характерных для ниши. Система анализирует общий профиль выдачи, а не только наличие ключевого слова.

Стратегическое значение

Патент подтверждает, что понимание запроса (Query Understanding) — это не только лингвистический анализ, но и анализ экосистемы контента. Стратегически это означает, что SEO-специалисты, занимая позиции в ТОПе, коллективно влияют на то, как Google интерпретирует запрос. Долгосрочная стратегия должна быть направлена на формирование четкого и последовательного тематического сигнала, соответствующего языку лидеров ниши.

Практические примеры

Сценарий: Классификация неоднозначного запроса «Python»

Обучение (Предыстория): У Google есть Feature Vector для «Животные» (термины: змея, рептилия, ареал) и Feature Vector для «Программирование» (термины: язык, код, tutorial, data science).
Запрос пользователя: «Python».
Анализ SERP и генерация Search Result Vector: Система анализирует ТОП-10. В заголовках и сниппетах доминируют термины, связанные с программированием. Search Result Vector будет иметь высокие веса для «tutorial», «data science».
Сравнение: Search Result Vector сравнивается с эталонными векторами. Он оказывается значительно ближе к вектору «Программирование».
Результат (Metasearch): Запрос классифицируется как «Программирование». Google активирует вертикали, связанные с обучением или документацией, и подмешивает их в выдачу.
Динамическое изменение: Если произойдет громкое событие, связанное со змеями (например, «Python escapes zoo»), новостные сайты займут ТОП. Search Result Vector изменится, и классификация может временно сместиться к «Новости» или «Животные».

Вопросы и ответы

Что такое Feature Vector в контексте этого патента?

Feature Vector (Вектор признаков классификации) — это эталонный профиль для определенной категории (например, «Фильмы» или «Новости»). Он представляет собой набор взвешенных терминов, которые часто встречаются в результатах поиска по запросам этой категории. Этот вектор генерируется офлайн в процессе обучения системы.

Как система определяет, к какой категории отнести новый запрос?

Система анализирует результаты поиска (SERP) по новому запросу и генерирует Search Result Vector. Затем она сравнивает этот вектор со всеми эталонными Feature Vectors с помощью скалярного произведения (Dot Product). Запросу присваивается категория, чей эталонный вектор показал наибольшее сходство (наивысший Dot Product).

Откуда система берет данные для анализа при классификации запроса?

Патент явно указывает три основных источника (Claim 3): URL, Заголовки (Titles) и Сниппеты (Snippets) результатов поиска. Это подчеркивает критическую важность оптимизации этих элементов для того, как Google будет классифицировать запросы, ведущие на вашу страницу.

Все ли результаты в SERP одинаково важны для классификации?

Нет. Патент описывает взвешивание (Claims 4 и 5). Термины из результатов, находящихся выше в ранжировании (например, ТОП-3), получают больший вес. Также больший вес могут получать термины из результатов с более высоким оценочным CTR. Это означает, что лидеры выдачи оказывают наибольшее влияние на классификацию запроса.

Может ли классификация запроса измениться со временем?

Да, абсолютно. Поскольку классификация основана на анализе текущих результатов поиска (SERP), она является динамической. Если SERP изменится из-за трендов или обновления алгоритмов, то и Search Result Vector для запроса изменится, что может привести к его переклассификации без необходимости переобучения модели.

Заменяет ли этот механизм анализ исторических логов запросов?

Да, одно из ключевых преимуществ этого метода — устранение зависимости от исторических логов (query logs). Это позволяет системе быстрее адаптироваться к новым событиям и классифицировать запросы, по которым еще нет накопленной истории поведения пользователей.

Как этот патент влияет на работу с неоднозначными запросами (например, «Apple»)?

Этот механизм идеально подходит для таких случаев. Система анализирует текущий SERP. Если в заголовках и сниппетах доминируют термины, связанные с технологиями («iPhone», «MacBook»), запрос будет классифицирован как «Технологии». Если доминируют термины «fruit», «recipe» — как «Еда». Классификация зависит от консенсуса веба.

Какова основная цель этой классификации согласно патенту?

Основная цель, описанная в Claim 1, — это активация вертикального поиска. Если запрос классифицирован, например, как «Новости», система инициирует поиск в новостном корпусе (Corpus) и предоставляет пользователю соответствующие вертикальные результаты (Vertical Content Type), такие как блок «Главные новости».

Что делать SEO-специалисту, если запрос классифицируется неправильно с его точки зрения?

Поскольку классификация определяется консенсусом SERP, единственный способ изменить ее — это изменить сам SERP. Необходимо создавать и продвигать в ТОП контент, который содержит четкие сигналы (в Title, Snippet, URL), соответствующие желаемой классификации. Когда достаточное количество таких страниц займет лидирующие позиции, Search Result Vector изменится.

Заменяет ли этот патент NLP-модели, такие как BERT?

Нет, он их дополняет. NLP-модели фокусируются на лингвистическом анализе текста запроса и контента. Описанный механизм фокусируется на анализе совокупности результатов поиска как мета-сигнала. В реальной системе эти подходы, вероятно, комбинируются для максимально точного понимания интента пользователя.