Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как поисковые системы используют мультимодальный анализ (текст, ссылки, изображения, поведение) для определения сходства контента и кластеризации пользователей

    SYSTEM AND METHOD FOR IDENTIFYING SIMILARITIES AMONG OBJECTS IN A COLLECTION (Система и метод выявления сходств между объектами в коллекции)
    • US6941321B2
    • Google LLC
    • 2005-09-06
    • 1999-10-19
    Индексация Патенты Google Семантика и интент Техническое SEO

    Анализ фундаментального патента (изначально Xerox), описывающего, как системы Information Retrieval преобразуют различные характеристики документов (текст, URL, ссылки, изображения) и поведение пользователей в векторные представления. Это позволяет численно определять сходство, комбинируя сигналы из разных модальностей, и кластеризовать контент для улучшения поиска и систем рекомендаций.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему эффективного поиска, навигации и анализа больших коллекций неструктурированных данных (таких как веб-страницы), которые содержат разнообразные типы информации. Он устраняет ограничения систем, фокусирующихся только на одной модальности (например, только текст), предлагая унифицированный фреймворк для интеграции multi-modal features (текст, изображения, ссылки, поведение) для более точного определения сходства и организации информации.

    Что запатентовано

    Запатентована система и метод для количественного представления объектов (документов и пользователей) в виде векторов в многомерных пространствах (Vector Space Model) на основе их мультимодальных признаков. Суть изобретения заключается в методологии эмбеддинга различных модальностей в векторное пространство и определении метрик сходства (например, cosine similarity) между этими векторами. Это позволяет выполнять агрегированный анализ сходства и кластеризацию.

    Как это работает

    Система работает путем извлечения и обработки различных признаков:

    • Извлечение признаков: Анализируются текст, URL, входящие (inlinks) и исходящие (outlinks) ссылки, жанр текста, характеристики изображений и логи использования.
    • Векторизация: Каждая модальность преобразуется в числовой вектор (feature vector). Для текстовых и ссылочных данных используется взвешивание, аналогичное TF-IDF (Token Frequency Weight и Inverse Context Frequency Weight).
    • Расчет сходства: Сходство между объектами вычисляется как расстояние между их векторами (например, cosine similarity) для одной модальности или как взвешенная сумма (Aggregate Similarity).
    • Кластеризация и анализ: Объекты группируются на основе этих метрик сходства (например, с помощью k-means clustering) для улучшения навигации (Scatter/Gather) и анализа использования коллекции (Collection Use Analysis).

    Актуальность для SEO

    Высокая (концептуально). Хотя патент подан в 1999 году (Xerox) и конкретные реализации (TF-IDF, базовый анализ изображений) устарели, описанные в нем фундаментальные концепции — векторизация контента, мультимодальный анализ, расчет сходства через косинусное расстояние — являются основой современных поисковых систем и векторного поиска. Понимание этих механизмов критично.

    Важность для SEO

    Патент имеет высокое стратегическое значение (75/100). Он не дает прямых тактических советов для современного SEO, но описывает фундаментальную логику Information Retrieval. Он подтверждает, что системы оценивают документы холистически, используя текст, ссылки, структуру URL и поведение пользователей. Для SEO это означает необходимость комплексной работы над всеми аспектами контента для формирования сильных и когерентных сигналов во всех модальностях.

    Детальный разбор

    Термины и определения

    Aggregate Similarity (Агрегированное сходство)
    Общая метрика сходства между двумя документами, вычисляемая как взвешенная сумма метрик сходства по отдельным модальностям.
    Collection Use Analysis (CUA) (Анализ использования коллекции)
    Метод анализа того, как пользователи взаимодействуют с коллекцией документов, часто включающий кластеризацию пользователей.
    Cosine Similarity (Косинусное сходство)
    Метрика для определения сходства между двумя векторами, основанная на косинусе угла между ними. Широко используется для сравнения документов в векторном пространстве.
    Feature Vector (Вектор признаков)
    Многомерный вектор, представляющий характеристики объекта в определенной модальности.
    Inverse Context Frequency Weight (icf)
    Аналог IDF. Метрика, уменьшающая вес элементов (слов, ссылок), которые часто встречаются во многих контекстах (документах).
    Mediated Representation (Опосредованное представление)
    Метод представления одного типа объектов (например, пользователей) через характеристики другого типа объектов (например, документов, которые они посетили). Вычисляется путем перемножения матриц.
    Modality (Модальность)
    Отдельный тип информации или признак. Примеры: текст, inlinks, outlinks, URL, жанр, характеристики изображения (Color Histogram, Complexity), Usage.
    Scatter/Gather (Рассеивание/Сбор)
    Метод итеративного просмотра коллекции, при котором коллекция разбивается на кластеры («рассеивание»), а пользователь выбирает интересующие кластеры («сбор») для дальнейшего анализа.
    Token Frequency Weight (tf)
    Аналог Term Frequency (TF). Метрика, отражающая важность элемента в пределах одного контекста, часто с логарифмическим шкалированием.
    Vector Space Model (VSM)
    Представление объектов в виде векторов в многомерном пространстве.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает метод расчета сходства между двумя объектами (документами) с использованием как минимум двух разных модальностей.

    1. Система идентифицирует первый вектор признаков (feature vector) для двух объектов в первой модальности (из набора: текст, URL, входящая или исходящая ссылка).
    2. Вычисляется первая метрика расстояния (distance metric).
    3. Система идентифицирует второй вектор признаков во второй модальности (Признак изображения), причем указано, что это делается «без ссылки на текстовую информацию» (without reference to textual information).
    4. Вычисляется вторая метрика расстояния.
    5. Вычисляется сумма первой и второй метрик расстояния.

    Это ядро изобретения: возможность математически комбинировать разнородные типы данных (например, текст + изображение) в единую метрику агрегированного сходства (Aggregate Similarity).

    Claim 15 (Независимый пункт): Описывает метод расчета сходства между характеристиками двух пользователей на основе их истории просмотров (document browsing history).

    1. Система идентифицирует векторы для первого и второго пользователя.
    2. Эти векторы представляют собой mediated representation пользователя через признаки документов (document feature), которые этот пользователь посетил.
    3. Вычисляется метрика расстояния между этими двумя векторами.

    Это ключевой механизм для кластеризации пользователей не просто по факту посещения одинаковых страниц, а по схожести *контента* страниц, которые они посещают.

    Claim 18 (Зависимый от 15): Уточняет, как рассчитывается mediated representation.

    Оно рассчитывается путем умножения двух матриц: Матрицы признаков документов (например, Слова × Документы) на Матрицу доступа пользователей (Документы × Пользователи). Результат — матрица (Слова × Пользователи), представляющая интересы пользователей через контент.

    Где и как применяется

    Изобретение описывает фундаментальные процессы обработки данных, применяемые на нескольких этапах поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    Основное применение. На этом этапе система анализирует документы и извлекает multi-modal features (текст, ссылки, URL, жанр, характеристики изображений). Затем эти признаки преобразуются в feature vectors с использованием методов взвешивания (tf и icf). Также вычисляются векторы использования для пользователей.

    INDEXING / Офлайн-обработка (Аналитика и Рекомендации)
    На основе векторов система выполняет кластеризацию документов и пользователей. Применяется Collection Use Analysis (CUA) и механизм Mediated Representation для анализа интересов и генерации данных для рекомендательных систем.

    RANKING – Ранжирование
    Методы расчета сходства (similarity metrics) могут использоваться на этапах ранжирования для оценки релевантности документа запросу. Кластеризация документов может использоваться для организации индекса.

    RERANKING / Интерфейс пользователя
    Механизм Scatter/Gather применяется для интерактивной организации и уточнения результатов поиска после первичного отбора.

    Входные данные:

    • Сырой контент документов (HTML, изображения).
    • Структура ссылок (граф сети).
    • Логи использования (посещения страниц пользователями).

    Выходные данные:

    • Feature vectors для каждого документа и пользователя.
    • Метрики сходства между объектами.
    • Кластеры документов и пользователей.

    На что влияет

    • Типы контента: Влияет на все типы контента, но особенно важен для страниц, богатых мультимедиа (изображения), и для понимания ценности контента через анализ ссылок и поведения. Система позволяет оценивать и кластеризовать контент, даже если одна из модальностей отсутствует (например, изображение без текста).
    • Специфические запросы: Позволяет лучше обрабатывать запросы, где важен визуальный компонент или где требуется понимание намерений пользователей (через анализ поведения).

    Когда применяется

    • Векторизация: При индексировании нового контента или обновлении существующего.
    • Кластеризация: Периодически в офлайн-режиме для анализа коллекции и пользователей, а также может применяться в реальном времени для организации результатов поиска (Scatter/Gather).

    Пошаговый алгоритм

    Процесс А: Генерация мультимодальных векторов для документа

    1. Изоляция контента: Система получает доступ к документу.
    2. Извлечение признаков: Извлекаются текст, URL, входящие и исходящие ссылки. Анализируются изображения (цветовая гистограмма и сложность). Определяется жанр.
    3. Векторизация (TF-ICF): Для текстовых и ссылочных модальностей вычисляется Token Frequency Weight (tf = log(1 + Nci)) и Inverse Context Frequency Weight (icf = log(N/Ni)). Вектор формируется как произведение tf*icf для каждого элемента.
    4. Векторизация (Другие модальности): Для жанра и изображений формируются соответствующие векторы на основе вычисленных характеристик (часто нормализованные гистограммы).
    5. Сохранение: Все feature vectors сохраняются в базе данных.

    Процесс Б: Расчет агрегированного сходства

    1. Идентификация векторов: Система получает feature vectors для Документа 1 и Документа 2 по всем доступным модальностям.
    2. Расчет сходства по модальностям: Для каждой модальности вычисляется метрика сходства (например, cosine similarity).
    3. Взвешивание и Агрегация: Вычисляется взвешенная сумма метрик сходства для получения итогового значения Aggregate Similarity.

    Процесс В: Анализ пользователей (Mediated Representation)

    1. Создание матрицы доступа P (Страницы × Пользователи) на основе логов.
    2. Создание матрицы признаков T (например, Слова × Страницы).
    3. Расчет опосредованного представления: Умножение матриц PT = T * P. Результат – матрица (Слова × Пользователи), представляющая интересы пользователей через контент.
    4. Кластеризация пользователей: Применение алгоритма кластеризации (например, k-means) к матрице PT для группировки пользователей по интересам.

    Какие данные и как использует

    Данные на входе

    Патент описывает использование широкого спектра данных из разных модальностей:

    • Контентные факторы: Текст документа. Текст, окружающий изображения на HTML-странице (до 800 символов). ALT-теги. Текст из заголовков/подписей (модальность Subject).
    • Технические факторы: URL документа. Термины, извлеченные из URL.
    • Ссылочные факторы: Входящие ссылки (Inlinks). Исходящие ссылки (Outlinks). Текст гиперссылок.
    • Поведенческие факторы: Логи использования (Usage logs). Посещения страниц пользователями (Page Usage).
    • Структурные/Стилистические факторы: Признаки, используемые для классификации жанра документа (Genre).
    • Мультимедиа факторы (Изображения): Пиксельные данные. Цвета (в пространстве HSV). Распределение цветов (Color Histogram). Структурная сложность (Complexity, основанная на длине цветовых последовательностей).

    Какие метрики используются и как они считаются

    • Token Frequency Weight (tf): log(1 + Nci). Логарифмическое шкалирование частоты элемента в контексте.
    • Inverse Context Frequency Weight (icf): log(N / Ni). Измерение уникальности элемента в коллекции.
    • Векторное представление (Embedding): Для большинства модальностей (текст, ссылки, URL, использование) вектор вычисляется как произведение tf * icf.
    • Cosine Similarity: Основная метрика для сравнения векторов. Вычисляется как скалярное произведение векторов, деленное на произведение их норм.
    • Aggregate Similarity: Взвешенная сумма метрик сходства по разным модальностям. sim(d1, d2) = Σ wj * simj(d1, d2).
    • Mediated Representation: Вычисляется путем перемножения матриц для переноса признаков документов на пользователей.

    Выводы

    1. Фундаментальность векторного подхода: Патент детально описывает, как разнородные данные (текст, ссылки, изображения, поведение) преобразуются в единый формат — многомерные векторы (Vector Space Model). Это основа для всех современных систем семантического и векторного поиска.
    2. Мультимодальность как стандарт: Система изначально спроектирована для интеграции сигналов из разных источников (multi-modal features). Сходство документа определяется не только текстом, но и его ссылочным окружением, визуальными характеристиками и тем, как его используют.
    3. Гибкость в оценке сходства: Использование Aggregate Similarity позволяет системе динамически комбинировать и взвешивать различные модальности при определении релевантности или сходства.
    4. Анализ пользователей через контент (Mediated Representation): Описан мощный механизм понимания интересов пользователей не напрямую, а через анализ характеристик контента, который они потребляют. Это позволяет кластеризовать пользователей по схожести интересов, даже если они не посещали идентичные страницы.
    5. Кластеризация для организации данных: Кластеризация является основным методом для организации коллекций документов (тематические группы) и сегментации пользователей (группы по интересам), что критично для навигации и рекомендаций.

    Практика

    Best practices (это мы делаем)

    • Комплексная проработка контента (Холистический подход): Необходимо оптимизировать все модальности документа. Создавайте контент, который формирует когерентные сигналы: текст, ссылочное окружение (внутреннее и внешнее), релевантные изображения и чистая структура URL должны работать согласованно.
    • Построение Topical Authority через кластеризацию: Патент подчеркивает роль кластеризации. SEO-стратегия должна быть направлена на создание плотных тематических кластеров контента, которые будут иметь высокое Cosine Similarity друг с другом. Сайт должен стремиться стать центроидом релевантного кластера.
    • Важность анализа ссылок и URL: Патент подтверждает, что термины в URL, а также профили входящих и исходящих ссылок векторизуются и участвуют в оценке сходства как отдельные модальности. Используйте ЧПУ и стройте качественный ссылочный профиль.
    • Контекстуализация изображений: Убедитесь, что изображения размещены рядом с релевантным текстом. Патент указывает, что окружающий текст используется для анализа изображения.
    • Анализ поведения пользователей (CUA): Понимайте, что поведение пользователей на сайте (Page Usage) используется для кластеризации и понимания ценности контента (Mediated Representation). Оптимизируйте UX и перелинковку для удовлетворения интента.

    Worst practices (это делать не надо)

    • Фокус только на тексте или ключевых словах: Игнорирование других модальностей (ссылочный профиль, структура URL) приведет к неполной оптимизации, так как система рассчитывает Aggregate Similarity.
    • Нерелевантные ссылки: Получение входящих ссылок с нерелевантного контента или создание исходящих ссылок на него размоет векторное представление документа в ссылочных модальностях, затрудняя его кластеризацию.
    • Манипуляции с отдельными факторами: Попытки манипулировать одной модальностью (например, спам ключевыми словами) могут быть нивелированы сигналами из других модальностей при расчете агрегированного сходства.
    • Игнорирование структуры URL: Использование неинформативных URL снижает вклад этой модальности в общую оценку документа.

    Стратегическое значение

    Этот патент является одним из фундаментальных документов в области Information Retrieval, закладывающим основу для мультимодального и векторного поиска. Он подтверждает стратегическую важность перехода от оптимизации по ключевым словам к оптимизации по смыслу и комплексному качеству контента. Для долгосрочной SEO-стратегии критически важно обеспечить согласованность и высокое качество всех сигналов, которые генерирует сайт — текстовых, визуальных, ссылочных и поведенческих.

    Практические примеры

    Сценарий: Улучшение организации контентного раздела на основе анализа поведения (CUA)

    1. Концепция из патента: Collection Use Analysis и кластеризация пользователей для выявления паттернов навигации. В патенте приведен пример, когда пользователи часто просматривали два структурно удаленных раздела («annualreport» и «factbook»).
    2. Действие SEO-специалиста: Проанализировать данные аналитики (пути пользователей), чтобы выявить схожие паттерны на своем сайте. Например, пользователи, читающие статью о «Выборе беговых кроссовок», часто переходят к разделу «Техники бега», который находится в другом блоке меню.
    3. Реализация: Улучшить внутреннюю перелинковку между этими разделами, добавить контекстные ссылки или блоки рекомендаций.
    4. Ожидаемый результат: Улучшение пользовательского опыта и вовлеченности за счет упрощения навигации для этого сегмента аудитории, что подтверждает релевантность контента для системы.

    Вопросы и ответы

    Что такое «мультимодальность» в контексте этого патента и как это связано с SEO?

    Мультимодальность означает использование нескольких различных типов информации (модальностей) для анализа документа. Патент выделяет текст, URL, входящие/исходящие ссылки, жанр, характеристики изображений и данные об использовании. Для SEO это подчеркивает, что поисковая система оценивает сайт комплексно, по совокупности всех этих сигналов, а не изолированно по тексту или ссылкам.

    Патент использует TF-ICF (аналог TF-IDF) для векторизации. Это актуально для современного Google?

    Конкретная реализация TF-ICF устарела. Современные системы используют гораздо более сложные нейронные эмбеддинги (BERT, MUM) для создания векторов, которые улавливают семантику и контекст. Однако фундаментальная идея — преобразование данных в вектор для математического сравнения сходства — остается центральной в современном векторном поиске.

    Что такое «Mediated Representation» (Опосредованное представление) и почему оно важно?

    Это метод представления интересов пользователя через характеристики контента, который он потребляет. Система анализирует не просто список посещенных URL, а признаки (текст, темы) этих страниц. Это позволяет находить пользователей со схожими интересами, даже если они посещали разные страницы, но интересовались схожими темами, что является основой для систем рекомендаций и анализа интента.

    Как концепция кластеризации в этом патенте влияет на SEO-стратегию?

    Она подтверждает критическую важность построения тематических кластеров (Topical Authority). Поисковые системы используют методы кластеризации для организации информации. Сайт должен стремиться к формированию четких, плотных кластеров контента, чтобы система идентифицировала его как авторитетный источник в данной тематике.

    Что такое Aggregate Similarity и как она влияет на ранжирование?

    Aggregate Similarity — это общая оценка сходства, которая является взвешенной суммой оценок сходства по разным модальностям (текст, ссылки, изображения). Это означает, что документ может высоко ранжироваться, если он силен во всех модальностях, или если его общая оценка выше за счет комбинации разных сигналов.

    Что такое Scatter/Gather и используется ли это в Google?

    Scatter/Gather — это метод интерактивного браузинга для итеративного уточнения поиска путем перекластеризации результатов. Это скорее интерфейсное решение, а не алгоритм ранжирования. В чистом виде в интерфейсе Google он не используется, но концепция динамической группировки и уточнения результатов опирается на схожие принципы кластеризации.

    Влияют ли термины в URL на оценку документа согласно этому патенту?

    Да, однозначно. URL рассматривается как отдельная модальность. Он разбирается на термины, которые затем векторизуются с использованием TF-ICF. Это подчеркивает важность использования чистых, семантически значимых URL, содержащих релевантные термины.

    Как система анализирует изображения согласно патенту и актуально ли это?

    Используются базовые признаки: Color Histogram (распределение цветов) и Complexity (сложность на основе длин пробегов цвета). Эти методы очень примитивны и не актуальны для современного компьютерного зрения. Однако патент подтверждает, что визуальные характеристики являются еще одной модальностью анализа.

    Патент принадлежит Xerox, а не Google. Насколько он актуален для SEO под Google?

    Несмотря на принадлежность Xerox, патент описывает фундаментальные и универсальные методы Information Retrieval (векторные модели, косинусное сходство, мультимодальный анализ). Эти концепции являются основой работы всех современных поисковых систем, включая Google. Поэтому его актуальность для понимания принципов поиска высока.

    Подтверждает ли этот патент использование поведенческих факторов в ранжировании?

    Патент не описывает их как прямой фактор ранжирования. Однако он подробно описывает использование логов (Collection Use Analysis) для кластеризации пользователей, понимания их интересов (через Mediated Representation) и генерации рекомендаций. Это показывает, что анализ поведения пользователей является неотъемлемой частью систем информационного поиска.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.