Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует Контекстные Векторы (Macro-Contexts) для классификации контента, понимания запросов и персонализации поиска

    USER-CONTEXT-BASED SEARCH ENGINE (Поисковая система, основанная на контексте пользователя)
    • US9449105B1
    • Google LLC
    • 2016-09-20
    • 2006-08-08
    2006 EEAT и качество Патенты Google Персонализация Семантика и интент

    Патент описывает систему для определения семантического контекста текста (веб-страниц, запросов и истории пользователя). Она разделяет информацию на тематические Домены и вычисляет контекстный вектор (Macro-Context) на основе использования уникальной терминологии. Это позволяет поисковой системе классифицировать контент и сопоставлять намерение пользователя с документами на основе контекста, а не только ключевых слов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему неоднозначности языка в поиске (например, слово «horse» может относиться к животноводству, столярному делу или гимнастике). Традиционный поиск по ключевым словам часто неспособен различить эти значения. Изобретение предлагает детерминистический метод для установления точного контекста (context) запросов, пользователей и контента, позволяя поисковой системе определить, к каким тематическим областям (Domains) относится информация, и повысить релевантность выдачи.

    Что запатентовано

    Запатентована система и метод для определения контекста информации путем создания и использования контекстных векторов. Система предварительно разделяет информационное пространство (Universe) на тематические Domains и идентифицирует уникальные термины для каждого. На основе этого создается словарь (Vocabulary List), где для каждого термина рассчитывается Macro-Context (вектор, показывающий принадлежность к разным доменам). Этот механизм используется для классификации нового текста (веб-страниц или запросов) путем агрегации векторов составляющих его слов.

    Как это работает

    Система работает в два основных этапа:

    1. Построение Базы Знаний (Офлайн): Информационное пространство делится на Domains. Для каждого домена определяются уникальные термины (Domain Lists). Затем анализируется эталонный корпус (например, энциклопедия), и для каждого термина в Vocabulary List вычисляется Macro-Context – вектор, основанный на частоте встречаемости уникальных терминов из разных Domain Lists в описании этого термина.
    2. Применение (Онлайн/Индексирование): При получении входного текста (запроса или веб-страницы) система идентифицирует известные термины. Она вычисляет Macro-Context входного текста путем суммирования векторов Macro-Context всех найденных терминов. Затем определяется Micro-Context – список терминов из словаря, чьи векторы наиболее близки (например, через скалярное произведение) к вектору входного текста.

    Актуальность для SEO

    Высокая. Понимание контекста и использование векторных представлений (embeddings) являются основой современных поисковых систем (BERT, MUM). Хотя конкретная реализация в патенте (детерминированный подсчет на основе предопределенных Domain Lists) может отличаться от современных нейросетевых подходов, фундаментальный принцип — преобразование текста в контекстный вектор для семантического сравнения — остается критически важным.

    Важность для SEO

    Патент имеет высокое стратегическое значение (85/100). Он описывает механизм, как поисковая система может математически определять тематический контекст страницы и запроса. Это подчеркивает критическую важность построения Тематического Авторитета (Topical Authority) и использования точной, уникальной и релевантной для конкретного Домена (Domain) терминологии для четкой классификации контента и повышения его релевантности в контекстуальном поиске.

    Детальный разбор

    Термины и определения

    Assertions (Утверждения)
    Факты, правила или вопросы, часто встречающиеся в определенном домене. В одном из вариантов реализации (Embodiment II), домены могут определяться через набор Assertions, а не только ключевые слова.
    Certified Click (Сертифицированный клик)
    (Из Embodiment I). Рекламный клик, верифицированный системой как качественный. Происходит, когда Personalization Vector пользователя достаточно близок к контекстному вектору целевого сайта (значение M превышает порог T).
    Communication Elements (Элементы коммуникации)
    Базовые единицы информации: слова, термины, выражения, фразы, утверждения (assertions).
    Domain (Домен)
    Предопределенная область предметной тематики или центр значения. Раздел семантического пространства (partition of some semantic space). В патенте упоминается возможность использования 100 и более доменов.
    Domain Lists (Списки Доменов)
    Списки выбранных терминов, которые являются уникальными (unique) или преимущественно используются в конкретном Domain. Используются для определения контекста других терминов.
    Macro-Context (Макро-контекст)
    Контекстный вектор (Context Vector). Характеризует контекст термина или текста путем сопоставления множества Domains с соответствующими весами (Weights). Вес отражает вклад соответствующего домена.
    Micro-Context (Микро-контекст)
    Список терминов, выбранных из Vocabulary List, которые наиболее тесно связаны (closely aligned) с тематикой входного текста. Определяется путем сравнения Macro-Contexts.
    Personalization Vector (Вектор персонализации)
    Context Vector, присвоенный пользователю на основе анализа его истории поиска и кликов. Используется для уточнения контекста запроса и оценки соответствия интересов пользователя контенту.
    Vocabulary List (Список словаря)
    Обширный список терминов (topical entries), созданный на основе анализа эталонного корпуса (например, энциклопедии). Для каждого термина в этом списке предварительно рассчитывается Macro-Context.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает метод классификации информации.

    1. Система получает входной текст (input text).
    2. Используется Vocabulary List (независимый от входного текста), где каждый элемент имеет Macro-Context (вектор, сопоставляющий уникальные предметные области/домены с весами).
    3. Подсчитывается количество вхождений каждого термина из Vocabulary List во входном тексте.
    4. Вычисляется Macro-Context входного текста путем суммирования (summations) Macro-Contexts терминов, найденных во входном тексте.
    5. Определяется Micro-Context – список терминов из Vocabulary List, соответствующих входному тексту.

    Claim 2 (Зависимый от 1): Уточняет определение Micro-Context. Список терминов сокращается путем выбора тех, чьи Macro-Contexts наиболее близки (most closely aligned) к Macro-Context входного текста.

    Claim 6 (Зависимый от 1): Уточняет метод сравнения контекстов. Определение Micro-Context включает вычисление произведения (multiplication, например, скалярного произведения) как минимум двух векторов Macro-Context для получения математического значения, отражающего соответствие.

    Claim 10 (Независимый пункт): Описывает метод поиска с использованием контекстов.

    1. Анализ (mining) репозитория информации для определения Macro и Micro-Contexts для элементов базы данных.
    2. Индексирование контента базы данных в соответствии с этими контекстами.
    3. Получение запроса от пользователя и определение его Macro и Micro-Contexts.
    4. Поиск в базе данных информации, контексты которой связаны с контекстами запроса.

    Claim 14 (Зависимый от 10): Уточняет, что определение контекста запроса может включать дополнительную информацию о пользователе: предыдущие запросы, историю браузинга (previous results from browsing by a user) или предоставленные пользователем документы.

    Где и как применяется

    Изобретение описывает фундаментальную систему контекстуального анализа, которая применяется на ключевых этапах поиска.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения для анализа контента. Система анализирует (mining) веб-страницы для определения их Macro и Micro-Contexts. Затем контент индексируется (Indexing Database) в соответствии с этими контекстами. Это позволяет системе понять тематику и семантический фокус документа до получения запроса. Также на этом этапе (офлайн) происходит построение Vocabulary List.

    QUNDERSTANDING – Понимание Запросов
    Система определяет Macro и Micro-Contexts, связанные с запросом пользователя. Патент указывает, что контекст определяется не только на основе самого запроса, но и на основе истории пользователя (создание Personalization Vector). Это позволяет точно интерпретировать интент и разрешать неоднозначность.

    RANKING – Ранжирование (Retrieval)
    На этапе отбора кандидатов (Retrieval) система ищет в индексе информацию, чьи контексты (Macro-Contexts) достаточно связаны с контекстами запроса. Это обеспечивает отбор документов на основе семантического соответствия (сравнения векторов), а не только совпадения ключевых слов.

    Входные данные:

    • Текст для анализа (веб-страница, запрос, история пользователя).
    • Vocabulary List с предварительно рассчитанными Macro-Contexts.
    • (Офлайн): Предопределенные Domains и их Domain Lists.
    • (Офлайн): Эталонный корпус (Corpus) для построения Vocabulary List.

    Выходные данные:

    • Macro-Context (контекстный вектор) для входного текста.
    • Micro-Context (список наиболее релевантных терминов) для входного текста.
    • Индекс, организованный по контекстам.

    На что влияет

    • Тематическая классификация и разрешение неоднозначности (Disambiguation): Помогает различать значения многозначных слов, анализируя общий контекстный вектор текста. Например, слово «horse» в тексте с высокими весами в доменах «Ranching» или «Gymnastics» будет интерпретировано по-разному.
    • Специфические запросы: Наибольшее влияние на информационные и неоднозначные запросы, где требуется глубокое понимание семантики.
    • Персонализация и Реклама: Влияет на результаты поиска через учет интересов пользователя (Personalization Vector). Также используется для оценки качества рекламного трафика (Certified Click).

    Когда применяется

    • При индексировании: Каждый раз, когда новый контент обнаруживается или обновляется, система вычисляет его Macro и Micro-Contexts для индексации.
    • При обработке запроса: В реальном времени при получении запроса для определения его контекста и контекста пользователя.
    • Условия работы: Зависит от наличия предварительно рассчитанных Domain Lists и Vocabulary List.

    Пошаговый алгоритм

    Алгоритм состоит из двух основных процессов: построение базы знаний и применение этой базы для анализа текста.

    Процесс А: Построение Vocabulary List (Офлайн)

    1. Разделение на Домены: Универсум информации делится на предопределенное количество Domains (например, 100+).
    2. Создание Domain Lists: Для каждого Domain идентифицируются списки терминов, которые являются уникальными (unique) и частотными для этого домена (например, 40-50 терминов).
    3. Идентификация Корпуса: Выбирается эталонный корпус, организованный по тематическим записям (Topical Entries).
    4. Подсчет вхождений: Для каждой Topical Entry система подсчитывает количество вхождений уникальных терминов из каждого Domain List в тексте этой записи.
    5. Расчет Macro-Context: Для каждого термина в Vocabulary List (т.е. для каждой Topical Entry) создается Macro-Context. Это вектор, где каждое измерение соответствует Domain, а значение (вес) равно количеству подсчитанных уникальных терминов этого домена.

    Процесс Б: Анализ Входного Текста (Индексирование или Обработка Запроса)

    1. Получение текста: Система получает входной текст (веб-страница, запрос, история пользователя).
    2. Идентификация терминов: Входной текст парсится, и в нем идентифицируются термины, присутствующие в Vocabulary List.
    3. Расчет Macro-Context текста: Система извлекает предварительно рассчитанные векторы Macro-Context для всех идентифицированных терминов. Macro-Context входного текста вычисляется путем суммирования этих векторов.
    4. Определение Micro-Context: Система сравнивает полученный Macro-Context входного текста с Macro-Context терминов в Vocabulary List. Сравнение выполняется с использованием скалярного произведения (dot product) векторов.
    5. Формирование списка Micro-Context: Выбирается список терминов (например, 256), чьи векторы наиболее близки (имеют наибольшее значение скалярного произведения) к вектору входного текста.
    6. Использование контекста: Полученные Macro и Micro-Contexts используются для индексации текста или для поиска релевантного контента в индексе.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Основные данные – это текст веб-страниц, запросов или описаний в эталонном корпусе. Система анализирует используемые слова, термины и выражения (Communication Elements).
    • Системные данные (Предварительно определенные):
      • Domains: Предопределенные категории тематик.
      • Domain Lists: Списки уникальных терминов для каждого домена.
      • Vocabulary List: Обширный словарь с рассчитанными Macro-Contexts.
    • Пользовательские факторы: История поиска (search history), история кликов (click history), история браузинга. Используются для определения контекста пользователя (Personalization Vector) и уточнения контекста запроса (Claim 14).

    Какие метрики используются и как они считаются

    • Weights (Веса) в Macro-Context: В процессе построения базы знаний вес рассчитывается как количество вхождений (Count Occurrences) уникальных терминов из Domain List в описании термина словаря.
    • Агрегация Macro-Context: При анализе входного текста Macro-Context рассчитывается путем суммирования (Summing Domain Weights) векторов составляющих терминов.
    • Alignment Score (Оценка близости / Выравнивания): Метрика для определения Micro-Context и сравнения контекстов (например, запроса и документа). Рассчитывается путем сравнения двух векторов Macro-Context, например, с помощью скалярного произведения (dot product).
    • Match Value (M) и Threshold (T): (Из Embodiment I). Значение соответствия M рассчитывается умножением вектора пользователя на вектор сайта. Если M > T, генерируется Certified Click.

    Выводы

    1. Контекст определяется используемым словарем: Система определяет контекст текста не по отдельным ключевым словам, а путем агрегации предварительно рассчитанных контекстных векторов (Macro-Contexts) всех слов, содержащихся в тексте. Это позволяет понять тематику детерминистическим методом.
    2. Важность уникальной терминологии (Domain Lists): Основой для расчета контекстных векторов являются Domain Lists – наборы уникальных терминов для предопределенных тематик (Domains). Использование такой терминологии в контенте критично для правильной классификации страницы.
    3. Два уровня контекста: Система использует Macro-Context для определения общей тематической направленности (вектор доменов) и Micro-Context для определения специфики внутри темы (список наиболее связанных терминов).
    4. Векторное сравнение для определения релевантности: Релевантность между запросом и документом определяется путем математического сравнения их контекстных векторов (например, через скалярное произведение). Чем ближе векторы, тем выше релевантность.
    5. Контекст пользователя (Personalization Vector): Патент описывает создание контекстного профиля пользователя на основе его истории. Этот контекст пользователя (его интересы в разрезе доменов) используется для персонализации поиска, уточнения интента и даже для валидации качества рекламного трафика (Certified Clicks).

    Практика

    Best practices (это мы делаем)

    • Использование точной и уникальной отраслевой терминологии: Насыщайте контент терминами, которые являются уникальными и специфичными для вашей тематической ниши (Domain). Это помогает поисковой системе точнее рассчитать Macro-Context страницы, так как эти термины, вероятно, входят в Domain Lists или имеют сильные векторы в нужном домене.
    • Семантическое обогащение контента (Micro-Context): Используйте широкий спектр связанных терминов, сущностей и синонимов, которые вместе формируют четкий Micro-Context. Анализируйте термины, которые часто встречаются вместе в авторитетных источниках, чтобы убедиться, что агрегированный контекстный вектор страницы соответствует целевой тематике.
    • Создание контента, отвечающего на отраслевые вопросы: В патенте упоминается (Embodiment II), что Domains могут определяться через список утверждений (assertions) или вопросов, на которые обычно отвечает текст в этом домене. Создавайте экспертный контент, который дает четкие ответы на эти вопросы, используя соответствующую терминологию.
    • Построение тематического авторитета (Topical Authority): Работайте над тем, чтобы весь сайт или его раздел имел согласованный Macro-Context. Последовательная публикация контента с сильными контекстными векторами в определенном домене укрепляет авторитет ресурса в этой теме.

    Worst practices (это делать не надо)

    • Использование общих слов и «воды»: Создание контента с преобладанием общеупотребительной лексики без специфических отраслевых терминов приведет к формированию слабого или размытого Macro-Context, что затруднит классификацию страницы в нужном Domain.
    • Смешивание несвязанных тематик на одной странице: Попытка оптимизировать одну страницу под несколько разных тематик приведет к смешанному Macro-Context (вектор с весами в разных, не связанных доменах). Это снизит релевантность страницы для конкретного запроса.
    • Фокус только на целевых ключевых словах (Keyword Stuffing): Оптимизация только под несколько высокочастотных ключей неэффективна. Система анализирует весь словарь страницы для расчета контекстного вектора. Отсутствие поддерживающей уникальной терминологии ослабит контекст.
    • Генерация некачественного трафика: Привлечение трафика от пользователей с нерелевантными интересами (несовпадающими Personalization Vectors) может быть обесценено системой (как указано в примере с Certified Clicks).

    Стратегическое значение

    Этот патент подтверждает переход поисковых систем от поиска по ключевым словам к контекстуальному поиску, основанному на векторных представлениях. Стратегическое значение заключается в понимании того, что каждое слово на странице вносит вклад в ее общий контекстный вектор (Macro-Context). SEO-стратегия должна фокусироваться на создании семантически богатого, точного и согласованного контента, который четко сигнализирует о своей принадлежности к определенному тематическому Домену, используя уникальную для него терминологию.

    Практические примеры

    Сценарий: Оптимизация статьи по медицинской тематике (Онкология)

    1. Анализ Домена: SEO-специалист определяет, что целевой домен – «Медицина», поддомен – «Онкология».
    2. Идентификация уникальных терминов (Имитация Domain List): Специалист собирает термины, уникальные для онкологии (например, «карцинома», «метастазирование», «химиотерапия», «биопсия», «TNM-стадирование»).
    3. Создание контента: Статья пишется с использованием этих терминов в естественном и экспертном контексте.
    4. Ожидаемый результат (Как работает система):
      • При индексации система идентифицирует эти уникальные термины.
      • Macro-Context страницы получает высокие веса в домене «Медицина»/»Онкология», так как эти термины имеют сильные векторы, указывающие на этот домен.
      • Micro-Context страницы будет включать список близких медицинских терминов.
      • При запросе, чей Macro-Context близок к Macro-Context статьи (например, запрос о методах диагностики рака), статья будет признана высокорелевантной за счет близости контекстных векторов (высокое значение скалярного произведения).

    Вопросы и ответы

    Что такое Macro-Context и почему он важен для SEO?

    Macro-Context – это контекстный вектор, который математически представляет тематику текста, показывая его связь с различными предметными областями (Domains). Для SEO это критически важно, потому что релевантность определяется путем сравнения вектора запроса и вектора страницы. Если Macro-Context страницы не соответствует целевой тематике, она не будет ранжироваться, даже если содержит ключевые слова.

    Как система рассчитывает Macro-Context для моей веб-страницы?

    Система идентифицирует на вашей странице термины, которые присутствуют в ее внутреннем словаре (Vocabulary List). Для каждого такого термина у системы уже есть предварительно рассчитанный базовый Macro-Context вектор. Macro-Context всей страницы вычисляется путем суммирования векторов всех найденных в ней терминов. Итоговый вектор определяет общий контекст страницы.

    Что такое Domain Lists и как я могу использовать это знание?

    Domain Lists – это списки терминов, которые система считает уникальными и определяющими для конкретной тематики (Domain). Они являются основой для расчета всех контекстных векторов. Для SEO это означает, что использование узкоспециализированной, экспертной лексики в контенте является мощным сигналом для точной тематической классификации вашего сайта поисковой системой.

    В чем разница между Macro-Context и Micro-Context?

    Macro-Context дает общее представление о тематике в виде весов по Доменам (например, 70% Спорт, 20% Питание). Micro-Context – это конкретный список наиболее релевантных терминов из словаря системы, которые точно описывают содержание текста. Macro-Context используется для широкой классификации, а Micro-Context определяет детальное семантическое ядро текста.

    Как этот патент помогает Google бороться с неоднозначностью слов (например, «ключ» как инструмент и «ключ» как источник воды)?

    Патент решает эту проблему через суммирование векторов. Хотя слово «ключ» может иметь вес в обоих доменах, окружающие слова в тексте будут иметь сильные веса только в одном из них. Когда система суммирует векторы всех слов, итоговый Macro-Context будет иметь явный пик в одном домене (например, «Инструменты» или «География»), тем самым разрешая неоднозначность.

    Как этот патент связан с Topical Authority?

    Патент предоставляет конкретный механизм для измерения Topical Authority. Сайт, который последовательно публикует контент с сильными и согласованными векторами Macro-Context в рамках определенного Domain и использует соответствующую уникальную терминологию (Domain Lists), будет считаться авторитетным в этой области.

    Что такое Personalization Vector и как он используется?

    Personalization Vector – это Macro-Context пользователя. Он рассчитывается на основе истории поиска, кликов и просмотренных страниц (Claim 14). Система использует этот вектор для уточнения контекста текущего запроса, адаптируя выдачу под долгосрочные интересы пользователя. Также он может использоваться для оценки качества рекламных кликов (Certified Clicks).

    Использует ли Google этот метод сегодня или он устарел из-за BERT и MUM?

    Фундаментальные принципы (определение контекста, использование векторов для сравнения релевантности) крайне актуальны. Однако современные модели, такие как BERT и MUM, используют более сложные нейросетевые методы (embeddings) и могут не полагаться на предопределенные Domain Lists и простое суммирование. Они генерируют контекстные векторы динамически, но базовая идея векторного представления контекста сохраняется.

    Что делать, чтобы улучшить контекстный вектор моих страниц?

    Необходимо насыщать контент семантически богатой и специализированной лексикой, релевантной вашей нише. Используйте термины, которые однозначно указывают на вашу тематику. Избегайте общих фраз и убедитесь, что все слова на странице работают на создание согласованного контекстного вектора, соответствующего целевому домену.

    Что произойдет, если я использую много новых слов, которых нет в Vocabulary List?

    Согласно патенту, если слова из вашего текста отсутствуют в Vocabulary List системы, они не будут учтены при расчете Macro-Context, так как система не знает их контекстных векторов. Это может привести к неточному определению тематики страницы. Поэтому рекомендуется использовать устоявшуюся, общепринятую терминологию в своей области.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.