Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google фильтрует и выбирает надежные текстовые метки для ранжирования изображений и видео, используя консенсус разных источников

    NON-TEXT CONTENT ITEM SEARCH (Поиск по нетекстовым элементам контента)
    • US8856125B1
    • Google LLC
    • 2014-10-07
    • 2010-06-07
    2010 Антиспам Индексация Мультимедиа Патенты Google

    Патент Google описывает систему повышения качества поиска по нетекстовому контенту (изображения, видео). Система агрегирует текстовые метки (Initial Labels) со всех страниц, где размещен контент. Затем эти метки группируются по схожести текста или по источнику (например, одному домену). Надежными метками (Final Labels) признаются только те слова или фразы (n-grams), которые встречаются в достаточном количестве независимых групп. Это позволяет отфильтровать шум и спам, опираясь на консенсус разных источников.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему низкой точности и надежности текстовых меток (labels), используемых для поиска и ранжирования нетекстового контента (изображений, видео, аудио). Поскольку поисковая система часто опирается на окружающий текст и метаданные для понимания содержания таких файлов, существует риск, что контент будет ранжироваться по нерелевантным запросам, если текст на странице искажает его содержание или содержит спам. Изобретение предлагает механизм фильтрации шума и выбора только тех меток, которые подтверждены несколькими независимыми источниками или контекстами.

    Что запатентовано

    Запатентован метод выбора надежных меток (Final Labels) для нетекстового контента (Non-text content item). Суть метода заключается в агрегации исходных меток (Initial Labels) со всех веб-страниц, где встречается этот контент, и последующей проверке этих меток на основе консенсуса. Метки группируются по признаку происхождения (например, с одного домена) или по текстовой схожести. Чтобы слово или фраза стали Final Label, они должны присутствовать в определенном пороговом количестве независимых групп.

    Как это работает

    Система работает следующим образом:

    • Сбор данных: Идентифицируется нетекстовый элемент, присутствующий на нескольких веб-страницах. Собираются Initial Labels (окружающий текст, метаданные) с каждой страницы.
    • Группировка по источникам: Метки, полученные с «совпадающих веб-страниц» (matching web pages), например, с одного домена или от одного паблишера, объединяются в одну группу.
    • Группировка по схожести: Метки, которые текстуально или семантически похожи (matching labels), независимо от источника, объединяются в отдельные группы.
    • Извлечение N-грамм: Из каждой группы извлекаются слова и фразы (n-grams).
    • Выбор Финальных Меток: N-грамма выбирается в качестве Final Label, только если она встречается в пороговом количестве (threshold number) различных групп.
    • Ранжирование: При получении запроса система проверяет его совпадение с Final Labels. При совпадении базовая оценка ранжирования (baseline result score) нетекстового элемента повышается с помощью коэффициента (boost factor).

    Актуальность для SEO

    Высокая. Точное понимание содержания изображений и видео остается ключевой задачей для поисковых систем. Механизмы фильтрации спама и шума в контекстных сигналах критически важны для качества вертикального поиска (Google Images, Google Video). Описанный метод обеспечивает надежный способ определения релевантности, основанный на консенсусе источников, что актуально для борьбы с манипуляциями и улучшения пользовательского опыта.

    Важность для SEO

    Влияние на SEO высокое (85/100), особенно для стратегий, связанных с продвижением изображений и видео. Патент описывает конкретный механизм фильтрации, который определяет, какие именно текстовые сигналы будут учитываться при ранжировании нетекстового контента. Если контекст вокруг изображения на сайте не согласуется с контекстом на других ресурсах или является уникальным (и не проходит пороговый фильтр групп), изображение может не ранжироваться по целевым запросам. Кроме того, патент описывает механизм агрессивного повышения (boosting) для контента, чьи Final Labels совпадают с запросом.

    Детальный разбор

    Термины и определения

    Boost Factor (Коэффициент повышения)
    Значение (обычно больше 1.0), используемое для увеличения baseline result score нетекстового элемента, если его Final Label соответствует поисковому запросу. Может быть пропорционален Match Score.
    Final Labels (Финальные метки)
    Надежные текстовые метки (n-граммы), выбранные из Initial Labels после процесса фильтрации и валидации через группировку. Используются для определения релевантности контента запросу.
    Initial Labels (Исходные метки)
    Текст, идентифицированный как описательный для нетекстового элемента на конкретной веб-странице. Может включать текст вблизи элемента, метаданные страницы или файла.
    Initial Label Group (Группа исходных меток)
    Набор исходных меток, сгруппированных по определенному признаку: либо они происходят из набора matching web pages, либо они сами являются набором matching labels.
    Matching Labels (Совпадающие метки)
    Набор из двух или более Initial Labels, которые имеют минимально необходимую схожесть (например, содержат одинаковые слова, соответствуют одной концепции или имеют пороговое косинусное сходство).
    Matching Web Pages (Совпадающие веб-страницы)
    Набор из двух или более веб-страниц, имеющих общую характеристику. Примеры: страницы одного домена или страницы одного паблишера.
    Match Score (Оценка совпадения)
    Мера совпадения между поисковым запросом и Final Label.
    N-gram (N-грамма)
    Последовательность из одного или более слов, извлеченная из текста Initial Labels в группе.
    Non-text content item (Нетекстовый элемент контента)
    Контент, предоставленный в нетекстовом формате файла (изображения, видео, аудио, мультимедиа).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод выбора финальных меток.

    1. Идентификация нетекстового элемента, связанного с множеством веб-страниц.
    2. Получение данных, включающих набор Initial Labels для этого элемента.
    3. Группировка по источникам: Для каждого из двух или более наборов matching web pages, связанные с ними исходные метки группируются в отдельную label group. Метки из разных наборов попадают в разные группы.
    4. Группировка по схожести: Разные наборы matching labels из исходного набора группируются в разные label groups.
    5. Выбор Final Label: Выбор n-граммы, которая включена в пороговое количество (threshold number) различных групп меток.

    Ядро изобретения — это двойной механизм группировки (по схожим источникам И по схожести текста) и последующее требование консенсуса: метка должна подтверждаться в нескольких независимых группах, чтобы считаться надежной (Final Label).

    Claim 3 (Зависимый от 1): Уточняет критерий для группировки по источникам.

    Группировка по источникам включает идентификацию наборов исходных меток, полученных с одного и того же домена (same domain), и объединение их в группу. Это ключевой механизм нормализации влияния отдельных сайтов.

    Claim 4 (Зависимый от 1): Уточняет критерий для группировки по схожести.

    Группировка по схожести включает идентификацию наборов исходных меток, которые имеют пороговую меру схожести (threshold measure of similarity), и объединение их в группу.

    Дополнительные аспекты (из описания патента, FIG. 4): Описание патента также детализирует, как Final Labels используются в процессе ранжирования.

    1. Получение поискового запроса.
    2. Определение совпадения запроса с Final Label нетекстового элемента (вычисление Match Score).
    3. В случае совпадения увеличение оценки результата (result score) для этого элемента путем применения Boost Factor.
    4. Boost Factor может быть пропорционален Match Score.

    Где и как применяется

    Изобретение затрагивает этапы индексирования (для генерации меток) и ранжирования (для использования меток).

    CRAWLING – Сканирование и Сбор данных
    На этом этапе система обнаруживает нетекстовый контент и веб-страницы, на которых он размещен. Собираются данные об источниках (URL, домены).

    INDEXING – Индексирование и извлечение признаков
    Основное применение механизма генерации меток. Система анализирует контент вокруг нетекстового элемента для извлечения Initial Labels. Затем запускается описанный процесс агрегации, группировки (по доменам/паблишерам и по схожести текста) и фильтрации для определения Final Labels. Эти Final Labels сохраняются в индексе или отдельном хранилище (Label Store) как надежные признаки, ассоциированные с нетекстовым элементом.

    RANKING – Ранжирование
    При получении запроса система использует Final Labels для определения релевантности нетекстового контента. Вычисляется Match Score между запросом и Final Labels. Если совпадение есть, система выбирает Boost Factor и увеличивает baseline result score элемента. Это происходит, вероятно, на этапах L2 или L3 ранжирования в вертикальном поиске (например, Google Images/Video).

    Входные данные:

    • Нетекстовый элемент контента (файл или его сигнатура).
    • Множество веб-страниц, где он размещен.
    • Initial Labels с каждой страницы (текст вблизи, метаданные).
    • Данные об источниках (домены, паблишеры).

    Выходные данные:

    • Набор Final Labels, ассоциированных с нетекстовым элементом.
    • При ранжировании: скорректированный result score (после применения Boost Factor).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на изображения (Image content), видео (Video content), аудио (Audio content) и мультимедиа (Multimedia content).
    • Специфические запросы: Влияет на информационные и коммерческие запросы, где точное описание нетекстового контента критично (например, поиск товаров по изображению, поиск конкретных сцен или персон).
    • Масштаб: Механизм особенно важен для популярного контента, который копируется и размещается на множестве разных сайтов, так как позволяет отделить авторское описание от шума на страницах агрегаторов или спам-ресурсов.

    Когда применяется

    • Условие активации (Индексирование): Алгоритм генерации Final Labels активируется, когда нетекстовый элемент обнаружен на нескольких веб-страницах (multiple web pages).
    • Условие активации (Ранжирование): Механизм повышения (boosting) активируется, когда поисковый запрос совпадает (matches) с одним из Final Labels элемента.
    • Пороговые значения: Ключевой порог — threshold number of separate initial label groups. N-грамма должна появиться в достаточном количестве групп, чтобы стать Final Label. В патенте упоминается пример порога в 3 группы. Также используются пороги схожести для определения matching labels.

    Пошаговый алгоритм

    Процесс А: Генерация Финальных Меток (Индексирование)

    1. Идентификация контента: Выбор нетекстового элемента, ассоциированного с несколькими веб-страницами.
    2. Сбор исходных данных: Получение Initial Labels и идентификаторов ресурсов (URL) для каждой страницы.
    3. Идентификация совпадений (Параллельный шаг):
      • Шаг 3а: Выбор наборов совпадающих веб-страниц (matching web pages), например, по домену или паблишеру.
      • Шаг 3б: Выбор наборов совпадающих меток (matching labels), например, по текстовой схожести или общей концепции.
    4. Группировка (Параллельный шаг):
      • Шаг 4а: Группировка Initial Labels, соответствующих каждому набору совпадающих веб-страниц, в отдельные Initial Label Groups.
      • Шаг 4б: Группировка каждого набора совпадающих меток в отдельные Initial Label Groups.
      • (Опционально) Метки, не попавшие ни в одну группу, могут формировать свои собственные уникальные группы (unique label group).
    5. Генерация N-грамм: Для каждой Initial Label Group генерируются n-граммы (слова и фразы) на основе текстов меток в этой группе.
    6. Фильтрация и Выбор: Подсчет количества уникальных групп, в которых встречается каждая n-грамма. N-граммы, которые встречаются в пороговом количестве (threshold number) групп, выбираются как Final Labels.
    7. Сохранение: Ассоциация Final Labels с нетекстовым элементом в индексе.

    Процесс Б: Использование Финальных Меток (Ранжирование)

    1. Получение запроса: Система получает поисковый запрос.
    2. Вычисление совпадения: Вычисление Match Score между запросом и Final Labels нетекстовых элементов-кандидатов.
    3. Проверка совпадения: Определение того, что запрос соответствует Final Label (например, Match Score выше порога).
    4. Выбор коэффициента: Выбор Boost Factor на основе значения Match Score.
    5. Корректировка оценки: Увеличение baseline result score нетекстового элемента с использованием Boost Factor (например, путем умножения).
    6. Ранжирование: Выбор порядка представления результатов на основе итоговых оценок (result scores).

    Какие данные и как использует

    Данные на входе

    Система использует следующие типы данных для генерации меток:

    • Контентные факторы (для генерации Initial Labels):
      • Текст, расположенный вблизи нетекстового элемента (text that is provided for presentation within a threshold number of pixels).
      • Заголовки страниц или разделов (page and/or section titles), соответствующих позиции элемента.
    • Технические факторы:
      • Идентификаторы ресурсов (resource identifier, URL). Используются для определения домена или паблишера.
    • Структурные факторы:
      • Метаданные веб-страницы (metadata for the web page).
    • Мультимедиа факторы:
      • Метаданные файла (file names, авторство).
    • Пользовательские факторы:
      • Обратная связь от пользователей (user feedback), например, описательный текст, предоставленный пользователями (descriptive text provided by users).

    Какие метрики используются и как они считаются

    • Threshold number of separate initial label groups (Порог количества групп): Ключевая метрика для валидации n-граммы. Определяет минимальное количество различных групп, в которых должна появиться n-грамма, чтобы стать Final Label. (Пример в патенте: 3).
    • Label Similarity Score (Оценка схожести меток): Мера схожести между двумя Initial Labels. Используется для создания matching labels. Может рассчитываться как:
      • Количество совпадающих терминов.
      • Семантическая схожесть (соответствие одной концепции).
      • Косинусное сходство (cosine similarity measure).
    • Matching Resource Feature (Совпадающая характеристика ресурса): Критерий для определения matching web pages. Основные критерии, упомянутые в патенте — принадлежность к одному домену (same domain) или одному издателю (same publisher).
    • Match Score (Оценка совпадения): Метрика, определяющая степень соответствия между поисковым запросом и Final Label. Используется для определения размера boost factor.
    • Boost Factor (Коэффициент повышения): Значение, используемое для увеличения baseline result score. Может быть пропорционально match score.

    Выводы

    1. Консенсус источников как валидация метки: Ключевая идея патента — использование консенсуса между независимыми источниками для подтверждения надежности текстовой метки. Метка считается надежной (Final Label), только если она подтверждена пороговым количеством различных источников или контекстов (представленных через Initial Label Groups).
    2. Фильтрация шума и уникального контента: Система эффективно отфильтровывает текстовый шум, спам или просто уникальные описания, которые не подтверждаются другими источниками. Это повышает точность поиска, но может затруднить ранжирование нового или узкоспециализированного контента, который еще не получил широкого распространения.
    3. Двойная группировка повышает надежность: Использование группировки как по источнику (matching web pages, например, домен), так и по содержанию (matching labels) создает робастную систему. Многократное повторение метки на одном сайте (одна группа) не гарантирует ее попадания в Final Labels, если она не подтверждена в других группах.
    4. Final Labels получают приоритет в ранжировании: Патент явно описывает механизм повышения (Boost Factor) для контента, чьи Final Labels соответствуют запросу. Это означает, что Final Labels являются более сильными сигналами ранжирования, чем обычные контекстные сигналы (Initial Labels), которые могут входить в baseline result score.
    5. Важность контекста и окружения: Для SEO критически важно качество и релевантность текста, окружающего нетекстовый контент (Initial Labels), так как именно он является источником для генерации Final Labels.

    Практика

    Best practices (это мы делаем)

    • Обеспечение релевантного и точного контекста: Размещайте изображения и видео в окружении максимально релевантного, описательного текста (текст вблизи, заголовки разделов). Этот текст формирует Initial Labels, из которых затем могут быть выбраны Final Labels.
    • Консистентность описаний внутри сайта: Если одно и то же изображение используется в разных разделах сайта, убедитесь, что контекст остается консистентным. Это укрепит сигналы внутри группы matching web pages (ваш домен) и повысит вероятность того, что нужные n-граммы будут извлечены из этой группы.
    • Стимулирование естественного распространения контента с сохранением контекста: Если ваш качественный нетекстовый контент будет использоваться другими авторитетными сайтами в релевантном контексте, это приведет к созданию новых независимых Initial Label Groups, подтверждающих ваши целевые метки. Это значительно увеличивает шансы на получение нужных Final Labels.
    • Использование описательных метаданных: Оптимизируйте имена файлов и метаданные (например, alt-текст, хотя он прямо не упоминается, но входит в понятие metadata и proximate text), так как они также являются источником Initial Labels.

    Worst practices (это делать не надо)

    • Размещение контента в нерелевантном окружении: Вставка изображений или видео в статьи, не соответствующие их содержанию, создает шумные Initial Labels. Если это единственный источник меток, контент не получит релевантных Final Labels.
    • Keyword Stuffing вокруг контента: Перенасыщение текста вокруг изображения ключевыми словами может быть неэффективным. Если эти ключевые слова не используются другими источниками для описания того же изображения, они не пройдут фильтр консенсуса и не станут Final Labels.
    • Использование вводящих в заблуждение описаний (Clickbait): Если описание изображения на вашем сайте сильно отличается от того, как его описывают другие ресурсы, ваши метки будут проигнорированы системой как не получившие подтверждения в достаточном количестве групп.
    • Искусственное распространение контента на некачественных площадках: Размещение изображений на сетках сайтов (PBN) или спам-ресурсах с целью манипуляции метками может быть неэффективным, если система определит эти сайты как связанные (matching web pages от одного паблишера), объединив их в одну группу, или если контекст на этих сайтах будет слишком разнородным.

    Стратегическое значение

    Патент подчеркивает стратегию Google по валидации сигналов через консенсус независимых источников. Это применимо не только к ссылкам (PageRank), но и к контекстному пониманию контента. Для SEO это означает, что изоляция не работает; важно, чтобы ваш контент и его интерпретация (через метки) были поддержаны экосистемой интернета. Стратегия продвижения нетекстового контента должна фокусироваться на создании точного контекста на собственном сайте и стимулировании использования этого контента авторитетными сторонними ресурсами в аналогичном контексте.

    Практические примеры

    Сценарий: Оптимизация изображения товара для E-commerce

    Цель: Добиться, чтобы фотография кроссовка модели «Nike Air Max 270 Blue» получила Final Label «Nike Air Max 270 Blue» и получала Boost Factor при ранжировании по этому запросу.

    1. Действия на сайте (Формирование Группы 1 — Ваш Домен): Изображение размещается на странице товара. Окружающий текст, заголовок H1 и метаданные содержат фразу «Nike Air Max 270 Blue». Если изображение используется в блоге сайта, контекст сохраняется.
    2. Действия вне сайта (Формирование Группы 2 — Обзоры): PR-отдел распространяет пресс-релиз с этим изображением. Авторитетные новостные сайты (разные домены) публикуют новость, используя изображение и подписывая его «Новые кроссовки Nike Air Max 270 Blue». Система может сгруппировать эти схожие метки (matching labels) в Группу 2 или создать отдельные группы для каждого домена.
    3. Действия вне сайта (Формирование Группы 3 — Агрегаторы): Сайты-агрегаторы копируют изображение и описание. Некоторые используют сокращенное название «Air Max 270 Blue». Система группирует эти метки в Группу 3.
    4. Результат (Фильтрация): N-грамма «Nike Air Max 270 Blue» встречается в Группе 1, Группе 2 и частично в Группе 3. Если порог равен 3, эта фраза (или ее ключевые компоненты) становится Final Label.
    5. Ранжирование: При запросе «Nike Air Max 270 Blue» изображение получает значительный Boost Factor в Google Images.

    Вопросы и ответы

    Что такое Initial Label и откуда они берутся?

    Initial Labels — это первичные текстовые данные, которые система ассоциирует с изображением или видео на конкретной странице. Согласно патенту, они могут браться из текста, расположенного в непосредственной близости от контента (within a threshold number of pixels), метаданных страницы или файла (например, имени файла), а также из заголовков разделов или пользовательских описаний.

    В чем ключевое отличие Final Label от Initial Label?

    Initial Label — это сырой, непроверенный сигнал с одной страницы. Final Label — это валидированная метка (n-грамма), которая прошла проверку на надежность. Чтобы стать Final Label, слово или фраза должны встречаться в Initial Labels из достаточного количества независимых групп (Initial Label Groups). Final Labels считаются более надежными и используются для повышения ранжирования (boosting).

    Что такое Initial Label Group и как они формируются?

    Это набор исходных меток, объединенных по общему признаку. Патент описывает два основных способа формирования: группировка меток, пришедших с «совпадающих веб-страниц» (matching web pages), например, с одного домена или от одного паблишера; и группировка меток, которые текстуально похожи друг на друга (matching labels), независимо от источника.

    Если я использую одно изображение 100 раз на своем сайте с одинаковым описанием, это поможет сделать его Final Label?

    Не обязательно. Согласно патенту, метки с совпадающих страниц (например, одного домена) объединяются в одну Initial Label Group. Ваша активность сформирует только одну сильную группу. Чтобы метка стала Final Label, она должна быть подтверждена в пороговом количестве разных групп (например, в 3). Вам нужно, чтобы это описание также появилось в группах, сформированных из других источников или других контекстов.

    Как система определяет, что метки являются «совпадающими» (matching labels)?

    Патент упоминает несколько методов определения схожести (measure of similarity). Это может быть наличие одного и того же слова, соответствие одной и той же концепции (семантическая близость) или достижение порогового значения косинусного сходства (threshold cosine similarity measure). Это позволяет группировать метки, которые близки по смыслу, но не идентичны по тексту.

    Влияет ли этот патент на ранжирование обычных веб-страниц?

    Патент сфокусирован на поиске по нетекстовому контенту (Non-text content item search), например, в Google Images или Video. Он напрямую не описывает ранжирование веб-страниц в основном поиске. Однако наличие на веб-странице нетекстового контента с сильными Final Labels, релевантными запросу, может косвенно влиять на общую релевантность страницы.

    Что такое Boost Factor и как он работает?

    Boost Factor — это механизм повышения ранжирования. Если поисковый запрос совпадает с Final Label изображения, его базовая оценка ранжирования (baseline result score) увеличивается (например, умножается на коэффициент больше 1.0). Чем лучше совпадение (выше Match Score), тем выше может быть Boost Factor.

    Может ли этот механизм помешать ранжированию нового или уникального изображения?

    Да, это возможный побочный эффект. Поскольку система требует консенсуса (наличия меток в нескольких группах) для формирования Final Labels, новое изображение, существующее только на одной или нескольких страницах, может не получить Final Labels сразу. Оно будет ранжироваться только на основе baseline result score без дополнительного бустинга, пока не получит распространения в интернете.

    Учитывает ли система авторитетность сайтов, с которых приходят метки?

    Патент не упоминает использование авторитетности или качества сайтов (Site Quality) при формировании групп или выборе Final Labels. Он фокусируется на количестве групп, подтверждающих метку. Однако авторитетность сайта, вероятно, учитывается при расчете baseline result score, к которому применяется Boost Factor.

    Как оптимизировать видео контент с учетом этого патента?

    Принципы те же, что и для изображений. Необходимо обеспечить, чтобы контекст вокруг видео на вашем сайте (текст, заголовки, метаданные) был максимально точным и релевантным. Стратегически важно способствовать тому, чтобы другие независимые ресурсы (СМИ, блоги) встраивали ваше видео и использовали схожие описания. Это позволит накопить достаточное количество независимых групп для формирования надежных Final Labels.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.