Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как поисковые системы используют векторное пространство и мультимодальные сигналы для анализа контента, ссылок и поведения пользователей

    SYSTEM AND METHOD FOR QUANTITATIVELY REPRESENTING DATA OBJECTS IN VECTOR SPACE (Система и метод количественного представления объектов данных в векторном пространстве)
    • US6922699B2
    • Google LLC
    • 2005-07-26
    • 1999-10-19
    Индексация Патенты Google Семантика и интент Техническое SEO

    Анализ патента, описывающего фундаментальные методы Information Retrieval для представления документов и пользователей в виде векторов. Патент охватывает использование различных модальностей (текст, ссылки, URL, жанр, характеристики изображений, поведение пользователей) для расчета схожести, кластеризации контента и создания систем рекомендаций, основанных на анализе паттернов потребления информации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему навигации, поиска и анализа информации в больших, слабоструктурированных коллекциях документов (таких как World Wide Web или корпоративные интранеты). Он устраняет ограничения традиционного поиска, который часто опирается только на текстовый контент или ключевые слова. Изобретение предлагает фреймворк для интеграции разнородных (мультимодальных) сигналов – текста, структуры ссылок, характеристик изображений и данных о поведении пользователей – в единую математическую модель для улучшения релевантности, организации информации и создания рекомендаций.

    Что запатентовано

    Запатентована система и метод для представления объектов данных (документов и пользователей) в виде векторов в многомерных пространствах (Vector Space Model). Суть изобретения заключается в использовании multi-modal features (мультимодальных признаков), таких как текст, ссылки, URL, жанр, визуальные характеристики и логи использования. Для каждой модальности определяется метод векторизации (часто с использованием Token Frequency и Inverse Context Frequency) и метрика схожести (например, cosine distance). Это позволяет количественно сравнивать и кластеризовать документы и пользователей на основе агрегированных данных.

    Как это работает

    Система работает путем преобразования разнородных данных в числовые векторы:

    • Извлечение признаков: Из каждого документа извлекаются данные различных модальностей (текст, ссылки, изображения).
    • Векторизация: Каждая модальность преобразуется в вектор. Для текстовых и ссылочных данных часто используется взвешивание TF-ICF (аналог TF-IDF). Для изображений используются гистограммы цветов и сложности.
    • Анализ пользователей: Пользователи также представляются в виде векторов на основе того, какие страницы они посещали (Page Usage).
    • Медиация (Mediation): Пользователи могут быть представлены опосредованно через контент посещенных страниц (например, текстовый вектор пользователя = среднее взвешенное текстовых векторов посещенных им страниц).
    • Расчет схожести и кластеризация: Схожесть между векторами рассчитывается (например, через cosine distance), после чего объекты кластеризуются (например, методом k-means).
    • Применение: Эти данные используются для мультимодального браузинга (поочередное сужение поиска по разным признакам), анализа использования коллекции и систем рекомендаций.

    Актуальность для SEO

    Высокая. Хотя патент подан в 1999 году и описывает классические методы векторизации (TF-ICF), заложенные в нем принципы являются фундаментальными для современного поиска. Представление всего контента и сигналов в виде векторов (embeddings) и использование мультимодальных данных лежат в основе современных нейросетевых моделей (BERT, MUM, Vision Transformers). Концепция анализа поведения пользователей и их кластеризации критически важна для персонализации и рекомендательных систем (например, Google Discover).

    Важность для SEO

    Патент имеет высокое стратегическое значение (85/100). Он описывает фундаментальную архитектуру того, как поисковые системы могут обрабатывать и интегрировать различные типы сигналов (контент, ссылки, пользовательские факторы, визуальные данные). Понимание Vector Space Model и мультимодальности критически важно для разработки долгосрочных SEO-стратегий, выходящих за рамки простого подбора ключевых слов, и охватывающих оптимизацию изображений, структуру ссылок и понимание поведенческих паттернов пользователей.

    Детальный разбор

    Термины и определения

    Aggregate Similarity (Агрегированная схожесть)
    Общая мера схожести между двумя документами, рассчитанная как взвешенная сумма схожестей по отдельным модальностям.
    Color Complexity (Сложность цвета)
    Модальность изображения, основанная на длине горизонтальных и вертикальных прогонов (run lengths) одного цвета. Используется для различения простых изображений (логотипы) и сложных (фотографии).
    Color Histogram (Цветовая гистограмма)
    Модальность изображения. Вектор, представляющий распределение цветов в изображении, часто в пространстве HSV.
    Cosine Distance (Косинусное расстояние/сходство)
    Основная метрика для расчета схожести между двумя векторами. Измеряет косинус угла между ними.
    Collection Use Analysis (CUA) (Анализ использования коллекции)
    Метод анализа того, как пользователи взаимодействуют с коллекцией документов, часто с использованием мультимодальной кластеризации пользователей.
    Inverse Context Frequency (ICF) (Обратная частота контекста)
    Мера того, насколько информативен элемент (например, слово). Аналог IDF. Рассчитывается как логарифм отношения общего числа контекстов (документов) к числу контекстов, в которых встречается элемент.
    K-means Clustering (Кластеризация методом k-средних)
    Алгоритм кластеризации, используемый для разбиения объектов на k кластеров путем итеративного пересчета центров кластеров (центроидов).
    Mediation (Медиация/Опосредованное представление)
    Метод представления пользователей через характеристики контента, который они потребляют. Например, текстовый вектор пользователя рассчитывается на основе текстовых векторов посещенных им страниц.
    Modality (Модальность)
    Тип информации или признака, связанный с объектом (документом или пользователем). Примеры: текст, входящие ссылки, исходящие ссылки, URL, жанр, использование страниц, характеристики изображения.
    Multi-modal Features (Мультимодальные признаки)
    Использование нескольких разнородных типов информации для описания объекта.
    Token Frequency (TF) (Частота токена/элемента)
    Мера частоты элемента в контексте. Аналог Term Frequency. Часто используется с логарифмическим демпфированием: log(1 + N).
    Vector Space Model (Векторная модель пространства)
    Фреймворк, в котором документы и пользователи представляются как векторы в многомерном пространстве.

    Ключевые утверждения (Анализ Claims)

    Патент очень широкий и охватывает множество методов представления различных типов данных в векторном пространстве. Рассмотрим ключевые независимые пункты.

    Claim 1 (Независимый пункт): Описывает метод количественного представления цифровых документов.

    1. Идентификация первого цифрового документа.
    2. Извлечение первого признака (first feature), который включает текст, окружающий изображение в документе, причем этот текст не является анкорным текстом (anchor text).
    3. Преобразование этого признака в первый вектор.
    4. Ассоциирование этого вектора с документом.

    Это утверждение защищает идею использования около-изображения текста (не анкоров) как отдельного признака для векторизации документа.

    Claim 15 (Независимый пункт): Описывает метод (в виде инструкций на носителе) для количественного представления пользователей коллекции документов.

    1. Идентификация первого пользователя.
    2. Извлечение первого признака, представляющего подмножество документов, к которым пользователь получал доступ.
    3. Преобразование этого признака в первый вектор.
    4. Ассоциирование этого вектора с пользователем.

    Это утверждение защищает базовую идею векторизации поведения пользователя на основе истории его доступов к документам.

    Claim 18 (Независимый пункт): Описывает метод (на носителе) для мультимодального представления документа.

    1. Идентификация документа.
    2. Выбор признака изображения (image feature) как первого признака, связанного с нетекстовым контентом изображения в документе.
    3. Извлечение информации и преобразование в первый вектор.
    4. Выбор второго признака из набора мультимодальных признаков, включая информацию о пользователе (user information feature) и жанр (genre feature).
    5. Извлечение информации и преобразование во второй вектор.

    Это утверждение защищает комбинацию визуальных признаков изображения с другими типами признаков (пользовательскими или жанровыми) для представления документа.

    Claim 23 (Независимый пункт): Аналогичен Claim 18, но сформулирован как метод, а не как инструкции на носителе. Защищает метод мультимодальной векторизации, комбинирующий признаки изображения с пользовательскими или жанровыми признаками.

    Где и как применяется

    Изобретение описывает фундаментальные процессы обработки данных, которые применяются на ранних этапах поисковой архитектуры и влияют на последующие этапы.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются данные, которые будут использоваться для векторизации: текст документа, текст вокруг изображений, URL, структура ссылок (для последующего определения Inlinks/Outlinks), а также логи доступа пользователей (usage logs).

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. На этом этапе происходит обработка сырых данных и их преобразование в векторное представление.

    1. Извлечение признаков (Feature Extraction): Анализируются различные модальности.
    2. Векторизация: Рассчитываются векторы для каждой модальности (текст, URL, ссылки, жанр, изображение, использование). Это включает расчет весов TF и ICF.
    3. Анализ пользователей: Обрабатываются логи использования для создания векторов пользователей и, возможно, для расчета опосредованных представлений (Mediation).
    4. Хранение: Полученные векторы сохраняются в базе данных (Database) для последующего использования.

    RANKING / QUNDERSTANDING
    Векторные представления, созданные по этому патенту, являются входными данными для алгоритмов ранжирования и понимания запросов. Они используются для расчета схожести (similarity) между запросом и документами или между документами.

    Входные данные:

    • Сырой контент документов (текст, HTML, изображения).
    • Структура ссылок коллекции.
    • Логи доступа пользователей.
    • Определения жанров.

    Выходные данные:

    • Набор векторов для каждого документа, представляющих его различные модальности.
    • Набор векторов для каждого пользователя, представляющих его паттерны доступа.

    На что влияет

    • Конкретные типы контента: Наиболее сильно влияет на мультимедийный контент, в частности, на документы, содержащие изображения, так как патент детально описывает методы векторизации изображений (Color Histogram, Color Complexity) и использование окружающего их текста.
    • Все типы запросов: Влияет на все типы запросов, так как описывает базовую модель представления информации (Vector Space Model), используемую для расчета релевантности.
    • Анализ пользователей: Влияет на способность системы понимать интересы пользователей, персонализировать выдачу и предоставлять рекомендации.

    Когда применяется

    Алгоритмы векторизации применяются во время индексирования нового контента или при обновлении индекса. В патенте отмечается, что добавление новых документов может потребовать пересчета векторов для всей коллекции (например, если появились новые уникальные слова, меняющие размерность векторов и значения ICF), поэтому обновление может происходить пакетно для эффективности.

    Пошаговый алгоритм

    Процесс А: Векторизация Документа

    1. Изоляция контента: Получение доступа к документу/изображению.
    2. Мультимодальное извлечение признаков:
      • Извлечение текста и текста вокруг изображений.
      • Извлечение входящих (Inlinks) и исходящих (Outlinks) ссылок.
      • Определение жанра (Genre).
      • Анализ изображений (цвета, длины прогонов).
    3. Расчет векторов модальностей:
      • Для текстовых/ссылочных/URL модальностей: Расчет Token Frequency (TF) и Inverse Context Frequency (ICF). Компонент вектора = TF * ICF.
      • Для жанра: Расчет вектора вероятностей принадлежности к жанрам.
      • Для изображений: Создание нормализованных гистограмм (цвета или сложности).
    4. Хранение: Сохранение всех рассчитанных векторов в базе данных, ассоциированных с документом.

    Процесс Б: Векторизация Пользователя

    1. Сбор данных: Извлечение данных о доступе к страницам из логов использования.
    2. Расчет вектора использования (Page Usage Vector): Контекст = пользователь, токен = страница. Расчет TF и ICF для посещенных страниц.
    3. (Опционально) Медиация (Mediation): Расчет опосредованных векторов пользователя путем умножения матрицы доступа пользователей на матрицу контента страниц (например, $P_T = T \cdot P$). Это создает векторное представление интересов пользователя на основе контента, который он потреблял.
    4. Хранение: Сохранение векторов пользователя.

    Какие данные и как использует

    Данные на входе

    Патент описывает использование широкого спектра факторов для построения векторных представлений:

    • Контентные факторы: Весь текст документа, текст вокруг изображений, текст заголовков/подписей (для модальности Subject), ALT-теги, текст гиперссылок.
    • Технические факторы: URL документа. URL разбирается на отдельные термины (сервер, директория, имя файла).
    • Ссылочные факторы: Входящие ссылки (Inlinks) и исходящие ссылки (Outlinks). Учитывается как сам факт наличия ссылки, так и URL ссылки.
    • Поведенческие факторы: Логи доступа пользователей (Page Usage). Учитывается, какие страницы посещал пользователь и как часто.
    • Структурные факторы: Структура документа и его окружение используются для определения жанра (Genre).
    • Мультимедиа факторы: Изображения. Анализируются пиксельные данные для извлечения распределения цветов (HSV) и сложности (длины цветовых прогонов).

    Какие метрики используются и как они считаются

    Система использует стандартизированный подход к расчету метрик, основанный на векторной модели.

    Взвешивание (Weighting):

    • Token Frequency (TF): $tf_{ci} = log(1+N_{ci})$. Где $N_{ci}$ – количество вхождений элемента i в контекст c. Используется логарифмическое демпфирование.
    • Inverse Context Frequency (ICF): $icf_i = log(N/N_i)$. Где N – общее число контекстов, $N_i$ – число контекстов, где встречается элемент i.
    • Компонент вектора: $\phi(d)_i = tf_{di} \cdot icf_i$. Применяется для текста, URL, ссылок, использования страниц.

    Метрики схожести (Similarity Metrics):

    • Cosine Similarity: Основная метрика для сравнения векторов:
      $sim(d_1, d_2) = (\sum \phi(d_1)_i \cdot \phi(d_2)_i) / \sqrt{(\sum \phi(d_1)_i^2) \cdot (\sum \phi(d_2)_i^2)}$.
    • Aggregate Similarity: Взвешенная сумма схожестей по разным модальностям: $sim(d_1, d_2) = \sum w_j \cdot sim_j(d_1, d_2)$.

    Методы анализа изображений:

    • Color Histogram: Квантизация в пространстве HSV (например, по 2 бита на канал), подсчет пикселей в бинах, нормализация гистограммы.
    • Color Complexity: Подсчет длин горизонтальных и вертикальных прогонов одинакового цвета, создание гистограмм длин прогонов.

    Методы анализа пользователей:

    • Mediation (Матричное умножение): $P_T = T \cdot P$. Создание опосредованного представления пользователей через контент.

    Выводы

    1. Фундаментальность Векторной Модели: Патент подтверждает критическую важность представления всех типов данных (текст, ссылки, изображения, поведение пользователей) в виде числовых векторов. Это позволяет применять математические методы для расчета релевантности и схожести.
    2. Мультимодальность как стандарт: Поисковые системы не должны полагаться только на текст. Патент демонстрирует методы интеграции разнородных сигналов (multi-modal features) в единую модель, что позволяет оценивать документы комплексно.
    3. Важность около-контекстного текста: Патент отдельно выделяет использование текста, окружающего изображения (но не являющегося анкором), как важного сигнала для понимания содержания изображения (Claim 1).
    4. TF-ICF (TF-IDF) как базовая модель взвешивания: Описанные методы взвешивания (Token Frequency и Inverse Context Frequency) подчеркивают важность не только частоты термина в документе, но и его уникальности в коллекции.
    5. Пользователи как векторы контента (Mediation): Концепция Mediation (представление пользователя через контент, который он потребляет) является мощным инструментом. Она позволяет находить схожих пользователей, даже если они не посещали одни и те же страницы, но читали о схожих темах. Это основа для продвинутых систем рекомендаций и персонализации.
    6. Значение анализа изображений: Патент описывает конкретные методы (Color Histogram, Color Complexity) для преобразования визуальной информации в векторы, что позволяет учитывать ее при ранжировании и кластеризации.

    Практика

    Best practices (это мы делаем)

    • Комплексная оптимизация (Мультимодальность): Необходимо оптимизировать все аспекты документа, так как поисковые системы могут векторизовать и использовать все модальности. Это включает текст, структуру URL, ссылочный профиль (входящий и исходящий), а также визуальный контент.
    • Оптимизация контекста изображений: Уделяйте пристальное внимание тексту, окружающему важные изображения. Патент явно указывает на использование этого текста (text surrounding an image) для понимания контекста. Текст должен быть релевантным изображению.
    • Семантическая насыщенность и уникальность (TF-ICF): Продолжайте фокусироваться на создании контента, который не только часто использует ключевые термины (высокий TF), но и содержит уникальную информацию или уникальные комбинации слов (высокий ICF/IDF). Это улучшает векторизацию контента.
    • Структурирование URL: Используйте чистые, семантически значимые URL. Патент описывает векторизацию URL путем разбора его на термины. URL типа /products/copiers/model-x/ дают больше информации, чем /p?id=123.
    • Понимание паттернов пользователей (CUA): Анализируйте логи сервера и данные аналитики, чтобы понять, как пользователи взаимодействуют с сайтом. Кластеризация пользователей по интересам (как описано в патенте через Mediation) может дать инсайты для улучшения структуры сайта и перелинковки между страницами, которые часто просматриваются одной группой пользователей.

    Worst practices (это делать не надо)

    • Игнорирование оптимизации изображений: Размещение изображений без релевантного текстового окружения или с неинформативными визуальными характеристиками снижает их ценность в мультимодальном анализе.
    • Неинформативные URL: Использование сложных динамических URL с параметрами затрудняет извлечение семантики из модальности URL.
    • Разделение связанного контента: Разделение информации, которая интересует одну и ту же группу пользователей, по разным, не связанным разделам сайта. Патент показывает, что анализ пользовательских кластеров (Collection Use Analysis) может выявить такие неоптимальные структуры.

    Стратегическое значение

    Этот патент описывает инфраструктуру и математический аппарат, лежащий в основе современных поисковых систем. Он подтверждает стратегический переход от поиска по ключевым словам к поиску, основанному на векторах и комплексном анализе сущностей и их признаков. Для SEO это означает необходимость глубокого понимания того, как различные сигналы интегрируются. Стратегия должна быть направлена на создание сильных сигналов во всех доступных модальностях и обеспечение положительного пользовательского опыта, так как поведение пользователей также векторизуется и используется системой.

    Практические примеры

    Сценарий: Оптимизация карточки товара с изображением

    1. Задача: Улучшить ранжирование карточки товара (например, «Принтер Xerox Model X») в веб-поиске и поиске по картинкам.
    2. Применение патента (Мультимодальная векторизация):
      • Текст: Убедиться, что текст страницы насыщен релевантными терминами с хорошим балансом TF-ICF.
      • Текст вокруг изображения (Claim 1): Непосредственно перед или после изображения разместить детальное описание модели, ее характеристик и преимуществ. Этот текст будет использован для векторизации.
      • URL: Использовать ЧПУ: /printers/xerox-model-x.
      • Изображение (Color Histogram/Complexity): Использовать качественное, сложное изображение (фотографию), а не простой логотип, чтобы модальность Color Complexity давала сильные сигналы.
    3. Ожидаемый результат: Поисковая система получает сильные, консистентные сигналы по нескольким модальностям, что улучшает общее векторное представление документа и его релевантность запросам.

    Сценарий: Анализ интересов пользователей для рекомендаций (Mediation)

    1. Задача: Понять интересы посетителей раздела «Поддержка» для улучшения блока рекомендаций.
    2. Применение патента (Mediation и CUA):
      • Проанализировать логи доступа пользователей (Page Usage).
      • Связать посещенные страницы с их контентом (Mediation). Например, пользователь А посетил страницы о замене картриджа и очистке сканера.
      • Кластеризовать пользователей на основе схожести контента, который они потребляли.
      • Выявить кластер пользователей, интересующихся обслуживанием конкретной модели.
    3. Ожидаемый результат: Новому пользователю, который начал искать информацию о замене картриджа для этой модели, система сможет рекомендовать страницу об очистке сканера, так как предыдущие пользователи часто интересовались обеими темами.

    Вопросы и ответы

    Что такое мультимодальность (Multi-modality) в контексте этого патента и почему это важно для SEO?

    Мультимодальность означает, что система использует несколько различных типов информации (модальностей) для анализа документа: текст, URL, входящие и исходящие ссылки, жанр, характеристики изображений и данные об использовании. Для SEO это критически важно, так как показывает, что оптимизация не может ограничиваться только текстом. Поисковые системы строят комплексное представление о документе, интегрируя все эти сигналы.

    Патент описывает Vector Space Model (VSM) и TF-ICF. Актуально ли это, учитывая современные нейросетевые модели типа BERT?

    Принципы VSM абсолютно актуальны – представление контента в виде векторов лежит в основе современного поиска. Однако методы создания этих векторов эволюционировали. TF-ICF (аналог TF-IDF) – это классический, более простой метод векторизации. Современные модели (BERT, MUM) создают гораздо более сложные контекстуальные векторы (embeddings), но они решают ту же задачу, что описана в патенте: преобразование данных в числовое представление для математического анализа.

    Что такое Медиация (Mediation) и как она влияет на понимание пользователей?

    Медиация – это метод представления пользователей не просто по списку посещенных ими URL, а через характеристики контента этих страниц. Например, текстовый вектор пользователя рассчитывается как среднее векторов посещенных им страниц. Это позволяет системе понять тематические интересы пользователя и найти схожих пользователей, даже если они посещали разные URL, но читали о схожих вещах.

    Как патент предлагает анализировать изображения?

    Патент предлагает два основных метода. Первый – Color Histogram (Цветовая гистограмма), который анализирует распределение цветов (в пространстве HSV). Второй – Color Complexity (Сложность цвета), который анализирует длину непрерывных цветовых прогонов по горизонтали и вертикали. Это позволяет различать простые графические элементы (логотипы) и сложные изображения (фотографии).

    В Claim 1 упоминается «текст, окружающий изображение». Насколько это важно для SEO картинок?

    Это критически важно. Claim 1 специально защищает идею использования текста вокруг изображения (который не является анкорным текстом) как отдельного признака для векторизации. Это подтверждает лучшую практику SEO: размещение релевантного, описательного текста в непосредственной близости от важных изображений для улучшения их контекстуального понимания поисковой системой.

    Как система использует структуру URL?

    Система рассматривает URL как отдельную модальность. URL разбирается на составные части (термины), такие как домен, директории, имя файла. Затем эти термины векторизуются с использованием TF-ICF. Это подчеркивает важность использования семантически понятных ЧПУ (человекопонятных URL) для предоставления дополнительных сигналов релевантности.

    Что такое Aggregate Similarity и как она рассчитывается?

    Aggregate Similarity – это общая оценка схожести между двумя документами, учитывающая все доступные модальности. Она рассчитывается как взвешенная сумма схожестей по каждой отдельной модальности (например, 0.5 * Схожесть_Текста + 0.3 * Схожесть_Ссылок + 0.2 * Схожесть_Изображений). Это позволяет системе комплексно сравнивать документы.

    Как описанный в патенте анализ использования коллекции (CUA) может помочь в SEO практике?

    CUA позволяет понять, как разные группы пользователей взаимодействуют с сайтом. Анализируя, какие страницы часто посещаются одной и той же группой пользователей (кластером), можно выявить потребности в улучшении навигации или перелинковки. Если две разные поддиректории постоянно посещаются одним кластером, их следует связать ссылками или объединить.

    Патент принадлежит Xerox. Применимы ли эти методы к Google?

    Да, абсолютно. Описанные методы (Vector Space Model, TF-IDF/ICF, мультимодальность, кластеризация пользователей, Cosine Similarity) являются фундаментальными концепциями в области Information Retrieval. Все крупные поисковые системы используют эти или более продвинутые версии этих концепций. Это академические основы, реализованные на практике.

    В чем разница между модальностями «Text» и «Subject»?

    Модальность Text обычно основывается на всем текстовом контенте документа. Модальность Subject (Тема) является альтернативным или дополнительным признаком, который основывается только на тексте из специфических зон: заголовков, подзаголовков и подписей. Это позволяет придать больший вес структурно выделенным элементам текста.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.