Google использует механизм «Boost Vectors» для персонализации поиска. Система классифицирует интересы пользователя или тематику сайта-источника, и на основе этих категорий повышает в выдаче результаты, предварительно ассоциированные с этими темами. Это позволяет адаптировать ранжирование под тематический контекст.
Описание
Какую задачу решает
Патент решает задачу повышения релевантности поисковой выдачи путем ее адаптации под контекст. Стандартное ранжирование может не учитывать специфические интересы конкретного пользователя или тематический контекст сайта, с которого инициирован поиск. Изобретение направлено на улучшение выдачи через персонализацию (Personalized Search на основе User Profile) и контекстное ранжирование (Content Site Flavored Search на основе Content Site Profile).
Что запатентовано
Запатентована система генерации и применения Search Boost Vectors (Векторов повышения). Это предварительно вычисленные структуры данных, содержащие идентификаторы контента (например, URL) и соответствующие им веса, привязанные к определенным тематическим категориям. Когда система определяет категорию интересов пользователя или контекст запроса, она активирует соответствующий Boost Vector для модификации стандартных оценок ранжирования (Query Scores) и повышения позиций тематически релевантных документов.
Как это работает
Система работает в двух основных режимах: офлайн-генерация и онлайн-применение.
- Генерация (Офлайн): Система анализирует исходный набор URL (например, историю посещений пользователя). Контент классифицируется для определения ключевых категорий. Затем набор расширяется за счет других URL из этих же категорий. Для полученного набора рассчитываются веса, формируя Boost Vector, который сохраняется.
- Применение (Онлайн): При получении запроса система определяет контекст (профиль пользователя или сайта) и выбирает соответствующие Boost Vectors. Базовый Query Score результата умножается на вес из вектора, что приводит к повышению (boosting) и переранжированию выдачи.
Актуальность для SEO
Высокая. Патент подан в 2004 году. Хотя конкретные технические реализации (например, использование классификаторов Naive Bayes и явных векторов) могли эволюционировать в сторону нейронных сетей и эмбеддингов, фундаментальные концепции тематической классификации, персонализации и контекстного ранжирования остаются критически важными для современного поиска.
Важность для SEO
Патент имеет высокое стратегическое значение (8/10). Он описывает конкретный механизм, как тематическая классификация сайта напрямую влияет на его способность ранжироваться выше для целевой аудитории. Для SEO это подтверждает критическую важность построения четкой тематической авторитетности (Topical Authority). Сайты, сильно ассоциированные с определенной категорией, могут получать систематическое преимущество в персонализированной выдаче.
Детальный разбор
Термины и определения
- Boost Vector / Search Boost Vector (Вектор повышения поиска)
- Структура данных, содержащая набор Content Location Identifiers (например, URL) и соответствующие им веса (Weights). Используется для модификации оценок ранжирования и переупорядочивания результатов.
- Content Location Identifier (Идентификатор местоположения контента)
- Адрес или идентификатор документа, веб-страницы или веб-сайта (например, URL или доменное имя).
- Content Site Flavored Search (Поиск с учетом контекста сайта)
- Изменение ранжирования на основе тематики сайта, с которого был инициирован запрос. Использует Content Site Profile.
- Content Site Profile (Профиль сайта)
- Структура данных, указывающая категории, связанные с веб-сайтом. Может включать профили на основе терминов (term-based), ссылок (link-based) и категорий (category-based).
- First Set / Seed Set (Первый набор / Начальный набор)
- Исходный набор URL, используемый как отправная точка для генерации Boost Vector (например, история посещений пользователя).
- Personalized Search (Персонализированный поиск)
- Изменение ранжирования на основе интересов конкретного пользователя. Использует User Profile.
- Query Score (Оценка запроса)
- Базовая оценка релевантности (information retrieval value) результата поиска. Модифицируется с помощью Boost Vector.
- Text Classifier (Текстовый классификатор)
- Алгоритм (например, Naive Bayes classifier), который анализирует контент и присваивает ему категории с соответствующими весами.
- User Profile (Профиль пользователя)
- Структура данных, описывающая интересы пользователя. Строится на основе предпочтений, истории посещений (User URL Log) и запросов.
Ключевые утверждения (Анализ Claims)
Патент описывает два основных процесса: генерацию векторов повышения (офлайн) и их применение во время поиска (онлайн).
Claim 1 (Независимый пункт): Описывает метод генерации персонализированного Search Boost Vector до получения поискового запроса.
- Системе предоставляется первый набор URL (First Set), соответствующий одной или нескольким категориям.
- Система выбирает второй набор URL (Second Set) на основе этих же категорий. Связь между вторым набором и категориями является предопределенной (predefined).
- Генерируется personalized search boost vector, включающий веса для URL из второго набора.
- Вектор сохраняется в хранилище.
Система берет известные интересы (первый набор), определяет их категории, находит другие релевантные URL в этих категориях (второй набор) и создает вектор повышения для будущей персонализации.
Claim 3 (Зависимый от 1): Уточняет, что категории для первого набора могут быть определены путем выполнения текстовой классификации (text classification) контента этого набора.
Claim 10 (Независимый пункт): Описывает метод применения Boost Vectors во время запроса.
- Система хранит набор предварительно вычисленных Boost Vectors.
- После получения запроса генерируются результаты поиска.
- Система выбирает один или несколько Boost Vectors из хранилища в соответствии с категориями. Эти категории соответствуют запросу или источнику запроса (source of the search query — пользователь или сайт).
- Происходит повышение (boosting) и переупорядочивание (reorder) результатов с использованием выбранных векторов.
- Предоставляются повышенные результаты.
Во время поиска система определяет контекст (интересы пользователя или тематику сайта-источника), находит соответствующий вектор и использует его для переранжирования выдачи в пользу URL, содержащихся в этом векторе.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя предварительно вычисленные данные для влияния на финальное ранжирование.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит классификация контента. Text Classifier анализирует документы и присваивает им категории и веса. Эти данные сохраняются и используются для построения связей между URL и категориями.
Фоновые процессы (Вне основного пайплайна поиска)
Генерация Boost Vectors (описанная в Claim 1) происходит офлайн. Система анализирует логи пользователей (User URL Log), формирует User Profiles и Content Site Profiles, и на основе этих данных и классификаций из этапа индексирования создает и сохраняет набор Boost Vectors.
QUNDERSTANDING – Понимание Запросов (Онлайн)
Во время получения запроса система определяет контекст: идентифицирует пользователя (для доступа к User Profile) или источник запроса (для доступа к Content Site Profile), чтобы определить релевантные категории.
RANKING – Ранжирование
Генерируется стандартный набор результатов поиска с базовыми Query Scores.
RERANKING – Переранжирование
Основное применение патента (описанное в Claim 10). Система выбирает соответствующие Boost Vectors на основе контекста и применяет их к Query Scores, полученным на этапе RANKING. Query Score умножается на вес из вектора, что приводит к финальному переупорядочиванию выдачи.
Входные данные:
- (Офлайн): Логи пользователей, профили, классифицированный контент, структура категорий.
- (Онлайн): Запрос, User Profile, Content Site Profile, стандартные результаты поиска с Query Scores, набор сохраненных Boost Vectors.
Выходные данные:
- Переупорядоченный (персонализированный или контекстуализированный) набор результатов поиска.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на широкие или неоднозначные запросы, где контекст пользователя может значительно уточнить интент (например, запрос [Java] для программиста vs. любителя кофе).
- Персонализация: Влияет на выдачу для пользователей с четко выраженными интересами (ясным User Profile).
- Контекстный поиск: Влияет на поиск, выполняемый со специализированных сайтов (Content Site Flavored Search).
Когда применяется
- Условия активации: Алгоритм активируется, когда система может идентифицировать релевантные категории, связанные с пользователем или источником запроса, и когда для этих категорий существуют предварительно вычисленные Boost Vectors.
- Триггеры: Наличие достаточных данных в User Profile или четко определенного Content Site Profile.
Пошаговый алгоритм
Процесс А: Генерация Boost Vector (Офлайн)
- Определение исходного набора (Seed Set): Получение первого набора URL. Источники: User URL Log, User Profile или Content Site Profile.
- Классификация контента (Опционально): Контент по исходным URL анализируется с помощью Text Classifier для определения весов категорий.
- Определение категорий: Идентификация ключевых категорий, связанных с исходным набором.
- Расширение набора URL (Expansion): Идентификация второго набора URL, которые также связаны с этими категориями, используя предопределенные связи между категориями и URL.
- Расчет весов: Определение весов для URL в первом и/или втором наборе. Веса могут основываться на частоте встречаемости или результатах классификации.
- Нормализация (Опционально): Применение нормализации (например, inverse document frequency) для снижения веса общепопулярных URL, не специфичных для данной категории.
- Генерация и сохранение: Формирование Boost Vector (список URL и весов) и его сохранение.
Процесс Б: Применение Boost Vector (Онлайн)
- Получение запроса и результатов: Генерация стандартного набора результатов с Query Scores.
- Определение контекста: Идентификация User Profile и/или Content Site Profile и связанных с ними категорий.
- Выбор Boost Vector(s): Выбор одного или нескольких сохраненных Boost Vectors, соответствующих этим категориям.
- Применение повышения (Boosting): Если URL результата присутствует в Boost Vector, его Query Score модифицируется (например, умножается на вес из вектора).
- Переранжирование: Результаты сортируются на основе модифицированных оценок.
- Предоставление результатов: Переупорядоченный список отправляется пользователю.
Какие данные и как использует
Данные на входе
- Пользовательские факторы:
- User Profiles: Явные предпочтения, категории интересов, ключевые слова.
- User URL Log: История посещенных URL с временными метками, данные о кликах, время пребывания на URL.
- Cookie или информация о логине для идентификации пользователя.
- Контентные факторы: Текст документов используется Text Classifier (например, Naive Bayes) для определения категорий.
- Системные данные:
- Content Site Profiles: Данные о тематике сайтов-источников запросов.
- Category Definitions: Иерархическая структура категорий.
- Query Scores: Базовые оценки ранжирования.
Какие метрики используются и как они считаются
- Weights (Веса в Boost Vector): Множители для Query Scores. Определяют степень повышения. Могут рассчитываться на основе частоты встречаемости (frequency of occurrence) URL или весов классификации.
- Нормализация весов: Патент упоминает использование inverse document frequency (обратная частотность документа) для снижения веса популярных URL, которые посещаются многими пользователями независимо от категории. Это выделяет URL, специфичные для данной темы.
- Weights (Веса классификации): Метрики, генерируемые Text Classifier, показывающие степень принадлежности документа к категории.
- Метод расчета повышения: Умножение исходного Query Score на соответствующий вес из Boost Vector.
Выводы
- Тематическая классификация как основа персонализации: Патент демонстрирует, как Google использует классификацию контента и интересов пользователя по категориям в качестве основного механизма для адаптации выдачи. Система стремится понять тематику на уровне категорий.
- Предварительные вычисления (Boost Vectors): Для обеспечения скорости система полагается на Boost Vectors, сгенерированные офлайн. Персонализация не рассчитывается полностью на лету, а применяется через предварительно вычисленные векторы.
- Два типа контекстуализации: Четко разделяются персонализация (на основе User Profile) и контекстное ранжирование (Content Site Flavored Search на основе Content Site Profile). Выдача зависит от того, кто ищет и откуда.
- Расширение интересов (URL Set Expansion): Система не просто повышает сайты, которые пользователь посещал. Она использует их как «начальный набор» для определения категорий, а затем расширяет набор за счет других авторитетных сайтов из этих же категорий.
- Авторитетность внутри категории: Попадание в Boost Vector с высоким весом фактически означает признание авторитетности URL в рамках данной категории. Механизмы нормализации (IDF) помогают выделить специализированные ресурсы.
Практика
Best practices (это мы делаем)
- Укрепление тематической авторитетности (Topical Authority): Ключевая стратегия. Необходимо добиться того, чтобы система четко классифицировала сайт в рамках конкретных категорий. Это повышает вероятность попадания в релевантные Boost Vectors с высоким весом.
- Четкая структура и семантика: Используйте последовательную терминологию, семантически связанные сущности и четкую структуру сайта. Это помогает алгоритмам классификации (Text Classifier и их современным аналогам) корректно определить тематику ресурса.
- Фокус на целевую аудиторию и ее интересы: Понимайте долгосрочные интересы вашей аудитории. Контент должен соответствовать общему профилю интересов пользователя (User Profile). Это увеличивает шансы на получение бустинга в их персонализированной выдаче.
- Стимулирование возврата пользователей: Поскольку история посещений (User URL Log) используется для определения интересов, работа над удержанием аудитории помогает закрепить интерес к данной категории в профиле пользователя.
Worst practices (это делать не надо)
- Размытие тематики сайта: Создание сайтов со смешанной тематикой затрудняет классификацию и снижает шансы на получение значимых весов в Boost Vectors для конкретных категорий. Система может не понять, в каком контексте следует повышать такой сайт.
- Игнорирование контекста пользователя: Оптимизация только под текст запроса без учета того, что выдача сильно меняется в зависимости от интересов пользователя. Стандартная релевантность может быть перекрыта персонализированным повышением.
Стратегическое значение
Этот патент подтверждает, что Google рассматривает релевантность как контекстно-зависимую и динамическую величину. Персонализация фрагментирует поисковую выдачу. Стратегия SEO должна фокусироваться на построении авторитета в четко определенной нише, чтобы стать лучшим результатом для категории интересов целевой аудитории. Сайты, которые становятся эталоном в своей категории, будут чаще попадать в Boost Vectors и получать систематическое преимущество.
Практические примеры
Сценарий 1: Персонализация на основе User Profile
- Контекст: Пользователь часто посещает сайты о бейсболе. Google классифицировал его интересы и создал Boost Vector для категории «Спорт/Бейсбол», включающий сайты команд и новостные ресурсы.
- Запрос: Пользователь вводит неоднозначный запрос [Giants].
- Применение механизма: Система идентифицирует профиль пользователя, выбирает Boost Vector «Спорт/Бейсбол».
- Результат: Результаты, связанные с бейсбольной командой San Francisco Giants, получают значительное повышение (Boosting) и занимают топ выдачи, вытесняя информацию о мифологических гигантах или компаниях.
Сценарий 2: Контекстуализация на основе Content Site Profile (Flavored Search)
- Контекст: Пользователь находится на сайте о путешествиях по Европе (Content Site Profile: «Путешествия/Европа») и использует встроенный поиск Google.
- Запрос: Пользователь вводит запрос [дешевые билеты].
- Применение механизма: Система идентифицирует источник запроса и применяет Boost Vector «Путешествия/Европа».
- Результат: В результатах поиска будут повышены сайты, предлагающие билеты в европейские страны, даже если в стандартной выдаче лидировали бы билеты по другим направлениям (например, внутренние рейсы США).
Вопросы и ответы
Что такое «Boost Vector» и как он влияет на ранжирование?
Boost Vector — это предварительно рассчитанный список URL и весов (множителей), связанных с определенной тематической категорией. Во время поиска, если эта категория релевантна контексту (пользователю или сайту), вектор активируется. Если результат поиска есть в векторе, его стандартная оценка (Query Score) умножается на вес из вектора, что повышает его позицию в выдаче.
Как Google определяет интересы пользователя для выбора правильного Boost Vector?
Система анализирует User Profile, который строится на основе истории посещений (User URL Log), предыдущих запросов и явно указанных предпочтений. Контент посещенных страниц классифицируется с помощью Text Classifier для определения устойчивых тематических категорий интересов пользователя.
Означает ли это, что Google повышает только те сайты, которые пользователь уже посещал?
Нет. Посещенные сайты используются как «начальный набор» (Seed Set) для определения категорий интересов. Затем система расширяет этот набор (Expansion), добавляя в Boost Vector другие URL из этих же категорий, даже если пользователь их еще не посещал. Это позволяет показывать новый релевантный контент в рамках интересов пользователя.
В чем разница между персонализацией (User Profile) и контекстуализацией (Content Site Profile)?
Персонализация основана на долгосрочных интересах конкретного пользователя (кто ищет). Контекстуализация (или Content Site Flavored Search) основана на тематике сайта, с которого инициируется поиск (откуда ищут). Оба метода используют Boost Vectors для изменения ранжирования, но опираются на разные контекстные сигналы.
Как SEO-специалист может повлиять на попадание сайта в Boost Vector?
Ключевая задача — построение сильного тематического авторитета (Topical Authority). Необходимо обеспечить, чтобы Google корректно и однозначно классифицировал ваш сайт в нужной категории. Это достигается за счет создания глубокого контента, четкой тематической структуры и использования релевантной терминологии.
Как система борется с повышением общепопулярных сайтов во всех категориях?
Патент упоминает механизм нормализации весов с использованием inverse document frequency (IDF). Это снижает вес URL, которые популярны глобально среди множества категорий (например, Википедия). Это позволяет выделить сайты, которые специфичны и важны именно для данной узкой тематики.
Генерируются ли Boost Vectors в реальном времени при запросе?
Нет. Согласно патенту (Claim 1), Boost Vectors генерируются заранее, в офлайн-режиме, до получения поискового запроса. Это обеспечивает высокую скорость работы поиска. В реальном времени система только выбирает уже сохраненные векторы и применяет их.
Насколько важен этот патент, учитывая его возраст (подача в 2004 году)?
Патент имеет высокую стратегическую важность. Он заложил основу для систем персонализации, основанных на тематической классификации. Хотя современные методы (нейронные сети, эмбеддинги) ушли далеко вперед от описанных классификаторов (Naive Bayes), фундаментальный принцип — повышение результатов на основе контекста и тематики — остается центральным в поиске.
Как этот патент связан с Topical Authority?
Этот патент напрямую связан с Topical Authority. Чтобы сайт попал в Boost Vector с высоким весом, он должен быть четко классифицирован и сильно ассоциирован с определенной категорией. Развитие Topical Authority помогает поисковой системе сформировать эту сильную ассоциацию, что увеличивает шансы на получение бустинга в персонализированной выдаче.
Что делать, если мой контент охватывает несколько категорий?
Тематическая неоднозначность может навредить. Лучшая практика — четко структурировать сайт, возможно, используя отдельные директории для разных тем. Это поможет системе рассматривать каждую секцию как отдельную тематическую единицу для классификации и включения в соответствующие Boost Vectors.