Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

Описание

Какую задачу решает

Патент решает проблему ограничений стандартного текстового поиска (text matching), который интерпретирует запросы буквально, может упускать релевантный контент и страдает от неоднозначности запросов. Изобретение направлено на улучшение качества (а не только количества) совпадений, особенно для контента, который трудно ранжировать традиционными методами (например, из-за нехватки ссылок, короткого времени жизни или повторяемости), такого как страницы товаров в E-commerce или реклама. Цель — предоставить механизм качественной оценки результатов путем включения взвешенных категорий в процесс ранжирования.

Что запатентовано

Запатентована система и метод определения композитной оценки (Composite Score) для ранжирования документов. Суть изобретения заключается в дополнении стандартной оценки текстового соответствия (Text Match Score) оценкой категориального соответствия (Category Match Score). Эта категориальная оценка вычисляется путем анализа того, насколько сильно документ связан с определенными категориями (Document-Categories Score) и насколько сильно поисковый запрос связан с этими же категориями (Query-Categories Score). Итоговый рейтинг определяется путем смешивания (blending) текстовой и категориальной оценок.

Как это работает

Система работает в два этапа: предварительная обработка и обработка запроса.

Предварительная обработка: Документы классифицируются по категориям, и для каждой пары документ-категория определяется сила связи (Association Strength). Также слова и фразы ассоциируются с категориями с определенной силой связи.
Обработка запроса: При получении запроса система находит документы и вычисляет стандартный Text Match Score. Параллельно она вычисляет Query-Categories Score (насколько запрос релевантен категориям) и извлекает Document-Categories Score (насколько найденные документы релевантны категориям).
Вычисление Category Match Score: Система комбинирует Query-Categories Score и Document-Categories Score (например, через скалярное произведение векторов). Высокий балл получается, только если и запрос, и документ сильно соответствуют одним и тем же категориям.
Смешивание (Blending): Text Match Score и Category Match Score объединяются (например, через взвешенную линейную комбинацию) для получения финального Composite Score.

Актуальность для SEO

Высокая. Хотя патент старый, описанные в нем принципы фундаментальны для поиска в структурированных данных. Механизмы категоризации и совмещения оценок текстовой и тематической (категориальной) релевантности критически важны для Google Shopping, Google News, а также для разрешения неоднозначности запросов в основном поиске. Современные системы используют более сложные модели (например, нейронные сети), но базовая логика совмещения разных типов оценок релевантности остается актуальной.

Важность для SEO

Патент имеет высокое значение (8/10), особенно для E-commerce, новостных сайтов и контентных проектов с четкой структурой. Он подчеркивает, что для успешного ранжирования недостаточно простого совпадения ключевых слов. Необходимо, чтобы контент был корректно классифицирован системой (попадал в нужную категорию) и чтобы эта категория четко соответствовала интенту запроса. Неправильная категоризация может привести к низкому Category Match Score и, как следствие, к потере позиций.

Детальный разбор

Термины и определения

Association Strengths (Conf) (Сила связи): Числовая метрика, отражающая степень соответствия между элементом (документом, словом или фразой) и категорией. Используется для расчета Document-Categories Score и Query-Categories Score.
Blending Function (Функция смешивания): Алгоритм или формула, которая комбинирует Text Match Score и Category Match Score для получения Composite Score.
Category Match Score (Оценка категориального соответствия): Метрика, показывающая, насколько хорошо совпадают категории, релевантные для документа, и категории, релевантные для запроса. Часто вычисляется как скалярное произведение векторов Document-Categories Score и Query-Categories Score.
Category Scorer (Оценщик категорий): Компонент системы, отвечающий за расчет Category Match Score.
Composite Score (Композитная оценка): Итоговая оценка ранжирования документа, полученная после смешивания текстовой и категориальной оценок.
Document-Categories Score (Оценка Документ-Категории): Вектор или набор оценок, указывающий на качество соответствия между конкретным документом и множеством категорий. Основан на Association Strengths.
Document Mappings (Соответствия документов): База данных, хранящая связи между документами и категориями, включая Association Strengths.
Query-Categories Score (Оценка Запрос-Категории): Вектор или набор оценок, указывающий на качество соответствия между поисковым запросом (или критерием поиска) и множеством категорий. Основан на Association Strengths слов в запросе.
Text Match Score (Оценка текстового соответствия): Стандартная оценка релевантности в информационном поиске, основанная на совпадении терминов запроса с текстом документа.
Text Scorer (Текстовый оценщик): Компонент системы, рассчитывающий Text Match Score.
Word and Word Phrase Associations (Ассоциации слов и фраз): База данных, хранящая связи между отдельными словами/фразами и категориями, включая Association Strengths.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему скоринга.

Получение критерия поиска (search criteria).
Выбор категорий, связанных с критерием поиска.
Выбор документов, отвечающих критерию поиска.
Расчет Text Match Score для каждого документа на основе степени соответствия документу и критерию поиска.
Расчет Document-Categories Score для каждой категории на основе степени соответствия между документом и категорией.
Расчет Search Criteria-Categories Score (эквивалент Query-Categories Score) для каждой категории на основе степени соответствия между критерием поиска и категорией.
Расчет Category Match Score для каждого документа путем комбинирования Document-Categories Score и Search Criteria-Categories Score.
Расчет итоговой оценки (Overall Score / Composite Score) для каждого документа на основе его Text Match Score и Category Match Score.
Ранжирование документов по итоговым оценкам.

Claim 11 (Зависимый от 1): Уточняет, что функция смешивания является взвешенной комбинацией Text Match Score и Category Match Score.

Claim 12 (Зависимый от 11): Определяет формулу смешивания как линейную комбинацию: $S = \alpha S_t + \beta S_c$ , где S — итоговая оценка, St — Text Match Score, Sc — Category Match Score, α и β — весовые коэффициенты.

Claim 13 (Зависимый от 11): Определяет альтернативную формулу смешивания с интерактивным членом: $S = \alpha S_t + \beta S_c + \gamma S_t S_c$ . Добавление $\gamma S_t S_c$ работает как функция «мягкого логического И» (soft logical AND), требуя наличия как достаточно высокой текстовой, так и категориальной оценки для получения высокого итогового балла.

Claim 10 (Зависимый от 9, который зависит от 1): Уточняет, что Category Match Score (называемый в Claim 9 aggregate category match score) рассчитывается с использованием скалярного произведения (dot product) Document-Categories Score и Search Criteria-Categories Score.

Где и как применяется

Изобретение затрагивает этапы индексирования и ранжирования поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков

На этом этапе происходит основная предварительная работа. Система должна классифицировать контент:

Определение Категорий: Создается таксономия или набор категорий.
Классификация Документов: Документы (например, страницы товаров) анализируются и ассоциируются с одной или несколькими категориями. Для каждой связи рассчитывается Association Strength, которая сохраняется как Document-Categories Score. Это может делаться вручную, автоматически (например, с помощью классификатора Naïve Bayes) или комбинированным способом.
Ассоциация Терминов: Слова и фразы (из корпуса документов или логов запросов) ассоциируются с категориями, и для них также рассчитывается Association Strength.

RANKING – Ранжирование

На этом этапе система применяется в реальном времени для оценки кандидатов.

Расчет базовой релевантности: Text Scorer вычисляет Text Match Score для документов-кандидатов.
Расчет категориальной релевантности: Category Scorer вычисляет Query-Categories Score для входящего запроса, используя предварительно рассчитанные Association Strengths терминов. Затем он извлекает Document-Categories Score для документов-кандидатов и вычисляет Category Match Score.
Смешивание оценок: Blending Function объединяет Text Match Score и Category Match Score в финальный Composite Score, который используется для сортировки результатов.

Входные данные:

Поисковый запрос (или критерий поиска).
Документы-кандидаты.
Предварительно рассчитанные Document Mappings и Association Strengths (Document-Categories Scores).
Предварительно рассчитанные Word and Word Phrase Associations и Association Strengths.

Выходные данные:

Composite Scores для каждого документа-кандидата.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние патент оказывает на области с четкой категоризацией: E-commerce (товары), новости (статьи по темам), каталоги, рекламные объявления. Патент прямо упоминает, что этот подход полезен для контента, который имеет мало гиперссылок или является краткосрочным.
Специфические запросы: Влияет на запросы, где важно уточнение интента через категорию. Например, для разрешения неоднозначности (запрос «apple» может относиться к категории «Фрукты» или «Техника») или для уточнения коммерческих запросов (запрос «35 mm Camera» лучше обслуживается категорией «Модели камер», а не «Аксессуары»).

Когда применяется

Алгоритм применяется, когда система поиска имеет доступ к базе данных категорий и предварительно рассчитанным связям между документами/терминами и этими категориями. Он может применяться как основной механизм ранжирования для специализированных вертикалей (например, Google Shopping) или как дополнительный сигнал ранжирования в основном веб-поиске для улучшения качества результатов в определенных сценариях.

Пошаговый алгоритм

Этап 1: Предварительные вычисления (Офлайн / Индексирование)

Определение таксономии: Создание набора категорий (например, иерархии товаров).
Ассоциация терминов: Анализ корпуса текстов и/или логов запросов для связи слов и фраз с категориями. Расчет Association Strengths для каждой пары термин-категория.
Классификация документов: Анализ документов и их привязка к одной или нескольким категориям. Расчет Association Strengths (Document-Categories Score) для каждой пары документ-категория.
Сохранение данных: Сохранение Document Mappings и Word/Phrase Associations в хранилище.

Этап 2: Обработка запроса (Онлайн / Ранжирование)

Получение и анализ запроса: Получение поискового запроса от пользователя.
Поиск кандидатов: Indexer выполняет поиск по текстовому корпусу для нахождения релевантных документов.
Расчет текстовой оценки: Text Scorer вычисляет Text Match Score (St) для каждого документа-кандидата.
Расчет оценки Запрос-Категория: Category Scorer определяет Query-Categories Score (C) на основе Association Strengths терминов в запросе.
Извлечение оценки Документ-Категория: Category Scorer извлекает предварительно рассчитанные Document-Categories Score (D) для каждого документа-кандидата.
Расчет категориальной оценки: Category Scorer вычисляет Category Match Score (Sc). В патенте предлагается использовать скалярное произведение векторов D и C: $S_c = D \cdot C$ .
Смешивание оценок: Blending Function комбинирует St и Sc для получения Composite Score (S), используя одну из формул, например: $S = \alpha S_t + \beta S_c + \gamma S_t S_c$ .
Ранжирование: Сортировка документов по Composite Score.

Какие данные и как использует

Данные на входе

Патент не детализирует все возможные факторы, но опирается на следующие типы данных:

Контентные факторы: Текст документов используется для расчета Text Match Score и для предварительной классификации документов (Document Mappings). Слова и фразы из документов используются для создания Word/Phrase Associations.
Структурные факторы: Система использует предопределенную структуру категорий (таксономию), которая может быть представлена в виде списка или иерархии.
Поведенческие факторы (косвенно): В патенте упоминается возможность использования анализа системных логов (system logs) для определения того, какие категории наиболее часто ассоциируются с определенным словом или фразой при формировании Word/Phrase Associations.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик:

Association Strength (Conf): Предварительно рассчитанная сила связи между (а) документом и категорией и (б) термином и категорией. В патенте не указан конкретный метод расчета, но упоминаются автоматические классификаторы (например, Naïve Bayes) или ручное назначение.
Text Match Score (St): Рассчитывается на основе совпадения запроса и документа. Метод расчета не детализирован, предполагается использование стандартных IR-методов.
Document-Categories Score (D): Вектор Association Strengths документа по отношению к разным категориям.
Query-Categories Score (C): Вектор Association Strengths запроса по отношению к разным категориям, основанный на терминах запроса.
Category Match Score (Sc): Рассчитывается путем комбинирования D и C. Предпочтительный метод — скалярное произведение векторов:

$D \cdot C = \sum_{i=1}^{n} d_i c_i$

Где n — количество категорий (или топ-N категорий), di — оценка документа для категории i, ci — оценка запроса для категории i.

Composite Score (S): Финальная оценка, рассчитанная Blending Function. Используются взвешенные комбинации St и Sc (формулы приведены в разборе Claims 12 и 13).

Выводы

Категоризация как ключевой сигнал релевантности: Патент описывает механизм, в котором соответствие общей категории является независимым сигналом ранжирования, дополняющим текстовое соответствие. Это позволяет улучшить качество поиска, особенно в коммерческих тематиках или при неоднозначных запросах.
Необходимость совпадения категорий Запроса и Документа: Ключевым моментом является расчет Category Match Score. Недостаточно, чтобы документ принадлежал к какой-либо категории, и недостаточно, чтобы запрос соответствовал какой-либо категории. Высокий балл получается только тогда, когда и запрос, и документ сильно коррелируют с *одними и теми же* категориями (что достигается через скалярное произведение).
Важность точной классификации контента: Система полагается на предварительную классификацию контента (Document Mappings). Если документ классифицирован неверно или имеет низкую Association Strength с релевантной категорией, его Category Match Score будет низким, что негативно скажется на ранжировании.
Механизм «Мягкого И» (Soft AND) при смешивании: Использование формулы смешивания с интерактивным членом ( $\gamma S_t S_c$ ) означает, что для получения максимального рейтинга документ должен обладать как высокой текстовой релевантностью, так и высокой категориальной согласованностью.

Практика

Best practices (это мы делаем)

Обеспечение четкой структуры и таксономии сайта: Для сайтов E-commerce, новостных порталов и каталогов критически важно иметь логичную, иерархическую структуру категорий. Это помогает поисковым системам правильно классифицировать контент и определить Document-Categories Score.
Использование структурированных данных для категоризации: Активно используйте микроразметку (Schema.org, например, Product с указанием category, или BreadcrumbList) и фиды данных (например, Google Merchant Center с атрибутом google_product_category). Это напрямую предоставляет данные для Document Mappings и помогает установить сильные Association Strengths.
Фокус на тематической релевантности контента категории: Контент на странице (текст, заголовки, изображения) должен однозначно указывать на ее принадлежность к целевой категории. Это повышает вероятность того, что автоматические классификаторы Google присвоят высокий Association Strength.
Согласованность терминологии: Используйте устоявшуюся терминологию в вашей нише. Это поможет системе корректно связать термины на вашей странице и в запросах пользователей с нужными категориями (высокий Word/Phrase Association Strength).

Worst practices (это делать не надо)

Смешивание разнородного контента на одной странице: Создание страниц, которые пытаются охватить несколько слабо связанных категорий, может привести к «размыванию» Document-Categories Score. Система не сможет установить сильную связь ни с одной из категорий.
Игнорирование структуры сайта и «хлебных крошек»: Отсутствие четких сигналов категоризации затрудняет для Google определение основной темы контента, что снижает потенциальный Category Match Score.
Оптимизация под текст запроса без учета категории: Фокусировка исключительно на вхождении ключевых слов (для повышения Text Match Score) без обеспечения соответствия основной категории запроса (для Category Match Score) не даст максимального результата, особенно если используется функция смешивания «Soft AND».

Стратегическое значение

Патент подчеркивает важность перехода от анализа ключевых слов к анализу тематик и категорий. Для Google важно не только то, что текст соответствует запросу, но и то, что документ находится в правильном тематическом контексте (категории), который соответствует контексту запроса. Это фундаментальный принцип для построения качественного поиска в структурированных данных. Стратегия SEO должна включать работу над тем, чтобы помочь Google максимально точно классифицировать контент сайта.

Практические примеры

Сценарий: Ранжирование товаров в E-commerce

Сайт продает Метлу (Broom) и Садовую фигурку Гнома с метлой (Gnome with Broom). Поступает запрос «Метла».

Анализ Запроса: Система определяет, что запрос «Метла» сильно связан с категорией [Хозтовары > Уборка > Метлы] (Высокий Query-Categories Score для этой категории).
Анализ Документов:
- Товар «Метла» сильно связан с категорией [Метлы] (Высокий Document-Categories Score).
- Товар «Гном с метлой» слабо связан с категорией [Метлы], но сильно связан с категорией [Сад > Декор > Фигурки] (Низкий Document-Categories Score для [Метлы]).
Расчет Category Match Score:
- Для товара «Метла»: Высокий * Высокий = Высокий Category Match Score.
- Для товара «Гном с метлой»: Высокий * Низкий = Низкий Category Match Score.
Смешивание: Даже если Text Match Score у обоих товаров одинаковый (оба содержат слово «Метла»), товар «Метла» получит значительно более высокий Composite Score за счет высокого Category Match Score и будет ранжироваться выше.
Действия SEO: Убедиться, что товар «Метла» размещен в правильной категории на сайте, имеет корректные хлебные крошки и микроразметку Product, указывающую на категорию «Метлы».

Вопросы и ответы

Что такое Category Match Score и почему он важен?

Category Match Score — это оценка, которая показывает, насколько хорошо совпадают категории, релевантные для документа, с категориями, релевантными для запроса. Он важен, потому что является независимым сигналом ранжирования, дополняющим стандартную текстовую релевантность. Высокий Category Match Score может значительно повысить итоговый рейтинг документа, особенно в E-commerce или при неоднозначных запросах.

Как рассчитывается Category Match Score согласно патенту?

Патент предлагает использовать скалярное произведение (dot product) двух векторов: Document-Categories Score (насколько документ соответствует разным категориям) и Query-Categories Score (насколько запрос соответствует разным категориям). Это означает, что высокий балл получается только в том случае, если и документ, и запрос имеют высокие оценки для одних и тех же категорий.

Что такое функция смешивания (Blending Function) и как она влияет на ранжирование?

Это формула, которая объединяет Text Match Score (St) и Category Match Score (Sc) в итоговый рейтинг. Патент предлагает два варианта: простую линейную комбинацию или комбинацию с интерактивным членом ( $S_t \cdot S_c$ ). Второй вариант работает как «мягкое И», требуя, чтобы обе оценки были высокими для достижения максимального рейтинга.

Как SEO-специалист может повлиять на Document-Categories Score?

Этот показатель рассчитывается на этапе индексирования и показывает, насколько сильно документ связан с категорией. SEO-специалист может повлиять на него, обеспечивая четкую структуру сайта (таксономию), используя релевантную терминологию в контенте, внедряя «хлебные крошки» и используя структурированные данные (например, Schema.org/Product или фиды Merchant Center) для явного указания категории.

Применяется ли этот патент только для E-commerce?

Хотя E-commerce является основным примером в патенте (из-за четкой таксономии товаров), механизм может применяться в любых областях, где контент можно структурировать по категориям. Это включает новостные сайты (Google News), каталоги, доски объявлений, а также может использоваться в основном поиске для классификации веб-страниц по темам или жанрам.

Что произойдет, если мой контент будет неправильно классифицирован Google?

Если Google ассоциирует ваш документ с неверной категорией, Document-Categories Score для релевантной категории будет низким. При поступлении запроса, соответствующего релевантной категории, итоговый Category Match Score также будет низким (даже при высоком Query-Categories Score). Это значительно снизит шансы документа на высокое ранжирование по этому запросу.

Как Google определяет, какие слова связаны с какими категориями (Word/Phrase Associations)?

Патент упоминает несколько способов. Это может быть сделано путем анализа документов в текстовом корпусе, которые уже принадлежат к определенным категориям, или путем анализа системных логов (вероятно, логов запросов и кликов), чтобы увидеть, какие категории наиболее часто ассоциируются с конкретными словами или фразами пользователей.

Может ли страница ранжироваться высоко только за счет Text Match Score, если Category Match Score низкий?

Это зависит от используемой функции смешивания (Blending Function) и весовых коэффициентов (α, β, γ). Если вес текстовой оценки (α) значительно выше веса категориальной (β), то да. Однако, если используется функция «мягкого И» и вес интерактивного члена (γ) высок, то низкий Category Match Score сильно ограничит максимальный итоговый рейтинг.

Как этот патент помогает бороться с неоднозначностью запросов?

Он помогает через расчет Query-Categories Score. Для неоднозначного запроса (например, «Ягуар») система может определить несколько потенциальных категорий (Автомобили, Животные). Если контекст запроса или другие сигналы указывают на предпочтение одной категории, Query-Categories Score для нее будет выше. В результате документы, принадлежащие к этой предпочтительной категории, получат бустинг.

Что важнее для SEO в контексте этого патента: структура сайта или контент страницы?

Оба элемента критически важны и работают вместе. Контент страницы необходим для достижения высокого Text Match Score и для того, чтобы автоматические классификаторы правильно определили категорию документа. Структура сайта (таксономия, навигация) помогает подтвердить эту классификацию и обеспечить корректный расчет Document-Categories Score.