Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google вычисляет авторитетность контента без гиперссылок, используя схожесть изображений и редкие фразы

    BOOK CONTENT ITEM SEARCH (Поиск по элементам контента книги)
    • US9043338B1
    • Google LLC
    • 2015-05-26
    • 2009-01-09
    2009 Shumeet Baluja Патенты Google Ссылки

    Google использует механизм для определения авторитетности контента (например, книг), когда отсутствуют традиционные гиперссылки. Система создает «неявные ссылки» на основе общих уникальных признаков: схожих изображений или редких текстовых фраз (n-грамм). На основе этих связей строится взвешенный граф, позволяющий рассчитать показатель важности (Rank Score), аналогичный PageRank.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему определения относительной важности или авторитетности (authoritativeness) для специфического типа контента, который не имеет традиционных гиперссылок – в частности, оцифрованных книг (book content items). Стандартные алгоритмы, основанные на анализе ссылок (как PageRank), неэффективны для такого корпуса, что затрудняет определение наиболее авторитетных источников и оптимальное ранжирование результатов поиска.

    Что запатентовано

    Запатентована система ранжирования контента (в данном случае книг) на основе implicit links (неявных ссылок). Эти ссылки формируются не через гиперссылки, а через обнаружение совпадающих признаков (matching features) в разных единицах контента. Патент детально описывает два типа признаков: схожие изображения (определяемые через descriptor points) и совпадающие редкие текстовые фразы (uncommon word strings или n-граммы).

    Как это работает

    Система функционирует путем анализа корпуса книг для выявления общих признаков:

    • Анализ текста: Текст сегментируется на n-граммы. Идентифицируются uncommon word strings – фразы, встречающиеся реже определенного порога.
    • Анализ изображений: Изображения анализируются для выявления локальных признаков (localized features), которые описываются с помощью descriptor points (векторов).
    • Построение графа: Создается weighted graph, где узлы – это книги. Если две книги содержат совпадающую редкую фразу или схожее изображение (определенное по совпадению descriptor points), между ними создается ребро (неявная ссылка).
    • Взвешивание и Ранжирование: Ребра взвешиваются (например, по количеству совпадений или авторитетности источника). Затем вычисляется Rank Score для каждого узла (аналог PageRank), отражающий его авторитетность в этом графе. Этот скор используется в комбинации с Relevance Score для финального ранжирования.

    Актуальность для SEO

    Средняя/Высокая. Хотя патент явно фокусируется на Google Books, концепция вычисления авторитетности без прямых ссылок крайне актуальна. Методы анализа изображений (использование descriptor points, SIFT и т.д.) являются стандартными в Computer Vision и активно используются в Google Images и Lens. Использование анализа n-грамм для определения уникальности текста также является стандартной практикой в IR.

    Важность для SEO

    Патент имеет умеренное прямое влияние на стандартное веб-SEO (4/10), так как описывает механизм для специфического корпуса (книги). Однако он имеет высокое концептуальное значение (8/10). Он демонстрирует методологию Google для использования схожести контента (особенно изображений и уникальных фраз) как сигнала связи и авторитетности в отсутствие традиционных ссылок. Это важно для стратегий Image SEO и подтверждает ценность создания действительно оригинального контента.

    Детальный разбор

    Термины и определения

    Book content item / Distinct book content item
    Электронное представление отдельной книги (например, оцифрованная книга), совокупный контент которой отличается от контента других книг.
    Descriptor points (Точки-дескрипторы)
    Векторы чисел, которые описывают localized features изображения. Могут включать информацию о цвете, границах, интенсивности, а также местоположении (координаты x, y) и ориентации признака.
    Implicit Links (Неявные ссылки)
    Связи между единицами контента, выведенные на основе общих признаков (matching features), а не явных гиперссылок. Включают Implicit Text Links и Implicit Image Links.
    Localized features (Локализованные признаки)
    Дискретные компоненты изображения, которые находятся в локализованных областях (например, Harris corners, SIFT). Характеристики части изображения.
    Rank Score (Оценка ранжирования / Авторитетности)
    Оценка, указывающая на важность элемента контента относительно других элементов. Рассчитывается на основе анализа weighted graph неявных связей. Не зависит от запроса.
    Relevance Score (Оценка релевантности)
    Оценка, показывающая релевантность элемента контента конкретному поисковому запросу.
    Uncommon word strings / Uncommon phrases (Редкие строки слов / Редкие фразы)
    N-граммы (последовательности слов), частота встречаемости которых ниже определенного порога (threshold frequency of occurrence) в общем корпусе текстов.
    Weighted graph (Взвешенный граф)
    Структура данных, используемая для моделирования связей. Узлы (nodes) представляют книги, а ребра (edges) представляют неявные ссылки. Ребра имеют вес (weight), отражающий силу связи.

    Ключевые утверждения (Анализ Claims)

    ВАЖНОЕ ПРИМЕЧАНИЕ: Хотя в описании патента (Description) подробно обсуждаются как текстовые (uncommon word strings), так и графические (implicit image links) методы создания неявных связей, Формула изобретения (Claims) данного конкретного патента (US9043338B1) фокусируется исключительно на методе, основанном на изображениях.

    Claim 1 (Независимый пункт): Описывает метод ранжирования книг на основе схожести изображений.

    1. Система идентифицирует изображения в наборе отдельных книг (distinct book content items), которые не имеют явных электронных ссылок между собой.
    2. Генерируются неявные связи (implicit links) между двумя или более книгами, которые содержат схожее изображение.
    3. Эти связи представляются как взвешенные ребра (weighted edges) в графе, где узлы – это книги. Каждое ребро представляет совпадение контента изображений между разными книгами.
    4. Совпадение изображений идентифицируется на основе множества точек-дескрипторов (multiple descriptor points).
    5. Ребрам присваиваются веса (weightings).
    6. Определяется Rank Score для каждой книги на основе этих неявных связей, указывающий на важность книги относительно других.

    Claim 2 (Зависимый от 1): Уточняет механизм генерации неявных связей.

    Генерация включает идентификацию descriptor points, которые определяют localized features. Неявная связь создается, если книги содержат изображения с совпадающими descriptor points, идентифицированными на основе схожести.

    Claim 8 (Зависимый): Детализирует построение взвешенного графа.

    Граф является взвешенным. Каждое ребро взвешивается на основе относительной важности узла, из которого оно исходит (принцип, аналогичный PageRank). Процесс включает идентификацию совпадающего контента изображений путем сравнения descriptor points.

    Claims 10, 11, 12 (Зависимые): Уточняют расчет веса ребер.

    Веса ребер (edge weights) определяются на основе количества совпадающих descriptor points между книгами (Claim 10), общего количества совпадающих точек в нескольких изображениях (Claim 11) или на основе геометрического расположения (geometric layout) совпадающих точек (Claim 12).

    Claim 14 (Зависимый): Описывает метод идентификации изображений.

    Изображения определяются как части книги, которые не идентифицированы как текстовый контент (например, через OCR) и не идентифицированы как пустое пространство (blank space).

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно на этапах индексирования и ранжирования (в части расчета статических сигналов авторитетности).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная обработка контента:

    1. Обработка текста: Выполняется OCR. Текст сегментируется на n-граммы (word strings). Рассчитывается частота встречаемости (frequency of occurrence). Определяются uncommon word strings.
    2. Обработка изображений: Идентифицируются области изображений (не текст и не фон). Выявляются localized features и рассчитываются descriptor points.
    3. Сохранение данных: Признаки (редкие фразы и дескрипторы) сохраняются в индексе, ассоциированном с каждой книгой.

    RANKING – Ранжирование (Предварительные вычисления)
    Этот процесс выполняется офлайн или периодически для всего корпуса:

    1. Построение графа: Система строит weighted graph, сравнивая признаки всех книг и создавая ребра (implicit links) при обнаружении совпадений (текстовых или графических).
    2. Расчет авторитетности: Вычисляется статический Rank Score для каждой книги на основе структуры и весов графа (например, итеративным методом, похожим на PageRank).

    RANKING – Ранжирование (Во время запроса)
    Во время выполнения запроса система идентифицирует книги, удовлетворяющие запросу, и определяет их Relevance Score.

    RERANKING / METASEARCH – Переранжирование / Смешивание
    Финальный набор результатов упорядочивается на основе комбинации предварительно рассчитанного Rank Score (авторитетность по неявным связям) и Relevance Score (релевантность запросу).

    Входные данные:

    • Корпус отсканированных книг (изображения страниц и OCR-текст).

    Выходные данные:

    • Rank Score (показатель авторитетности) для каждой книги.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на ранжирование в Google Books или аналогичных сервисах, где контент представлен документами без гиперссылок.
    • Мультимедиа контент: Механизм, основанный на изображениях (который является фокусом Claims), подчеркивает важность визуального контента для установления связей и авторитетности.
    • Уникальный контент: Механизм, основанный на тексте (описанный в Description), влияет на контент, содержащий уникальные или редкие формулировки.

    Когда применяется

    • Условия работы алгоритма: Применяется для расчета авторитетности в корпусах контента, где отсутствуют или редки явные гиперссылки.
    • Частота применения: Построение графа и расчет Rank Score – это периодический офлайн-процесс. Использование Rank Score происходит при каждом запросе к соответствующему корпусу.

    Пошаговый алгоритм

    Патент описывает два основных механизма генерации графа: на основе текста (FIG. 3) и на основе изображений (FIG. 4).

    Процесс А: Генерация графа на основе текста (Implicit Text Links)

    1. Идентификация и извлечение текста: Определение набора книг и извлечение текста (например, через OCR).
    2. Сегментация и расчет частотности: Разделение текста на n-граммы и определение частоты встречаемости для каждой уникальной n-граммы во всем корпусе.
    3. Классификация фраз: Определение n-грамм, чья частота ниже порогового значения, как uncommon word strings (редкие фразы).
    4. Построение графа: Представление книг в виде узлов. Для каждого узла (книги):
      1. Идентификация редких фраз в этой книге.
      2. Поиск совпадающих редких фраз в других книгах.
      3. Генерация ребер (edges) между узлами, где найдены совпадения.
    5. Расчет оценок: Определение Rank Score для каждого узла на основе структуры графа.

    Процесс Б: Генерация графа на основе изображений (Implicit Image Links)

    1. Идентификация и извлечение изображений: Определение набора книг и идентификация графического контента (области, не являющиеся текстом или фоном).
    2. Извлечение признаков: Идентификация descriptor points для каждого изображения.
    3. Построение графа: Представление книг в виде узлов взвешенного графа. Для каждого узла (книги):
      1. Идентификация descriptor points для изображений в этой книге.
      2. Поиск совпадающих изображений в других книгах путем сравнения descriptor points. Совпадение определяется по схожести и количеству совпадающих точек.
      3. Генерация взвешенных ребер (edges) между узлами, где найдены схожие изображения.
    4. Расчет оценок: Определение Rank Score для каждого узла на основе взвешенного графа.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Весь текст книги, полученный с помощью OCR. Используется для сегментации на n-граммы и определения uncommon phrases.
    • Мультимедиа факторы: Изображения, присутствующие в книгах. Используются для извлечения локальных признаков (localized features) и расчета descriptor points.
    • Структурные факторы: Используется структурное разделение страницы для идентификации областей текста, изображений и фона (blank space).

    Какие метрики используются и как они считаются

    • Frequency of occurrence (Частота встречаемости): Метрика для n-грамм. Рассчитывается как количество появлений конкретной n-граммы, деленное на общее количество всех n-грамм в корпусе.
    • Threshold frequency of occurrence (Пороговая частота): Предопределенный процент (например, 0.02%), используемый для классификации n-граммы как uncommon.
    • Descriptor Points: Векторы, описывающие локальные признаки изображения (цвет, границы, интенсивность, SIFT и т.д.).
    • Similarity of Descriptor Points: Метрика схожести между векторами. Используется для определения того, представляют ли два дескриптора один и тот же признак.
    • Matching Descriptor Points (Количество совпадающих точек): Количество схожих дескрипторов между двумя изображениями или книгами. Используется как условие для создания связи и для расчета веса ребра.
    • Geometric Layout Similarity: Схожесть геометрического расположения совпадающих дескрипторов. Может использоваться для верификации совпадения изображений и расчета веса ребра.
    • Edge Weights (Веса ребер): Вес неявной связи. Может рассчитываться на основе:
      • Количества совпадающих редких фраз или изображений.
      • Общего количества совпадающих descriptor points.
      • Относительной важности (Rank Score) исходного узла (рекурсивный расчет, как в PageRank).
      • Нормализации (например, вес может быть снижен, если в книге очень много изображений).
    • Rank Score: Итоговая оценка авторитетности книги, рассчитанная на основе анализа взвешенного графа.

    Выводы

    1. Авторитетность без гиперссылок: Патент предоставляет конкретную методологию Google для расчета авторитетности (аналога PageRank) в средах, где отсутствуют явные гиперссылки (например, Google Books).
    2. Схожесть контента как неявная связь: Ключевая концепция – использование общих уникальных признаков (matching features) как прокси для ссылок (implicit links). Если два документа разделяют уникальный контент, система интерпретирует это как связь или цитирование между ними.
    3. Важность уникальности (Текст): Для формирования текстовых связей используются только uncommon word strings. Часто встречающийся контент не создает сильных неявных связей. Это подчеркивает ценность оригинального текста и уникальных формулировок.
    4. Важность уникальности (Изображения): Схожесть изображений определяется на уровне descriptor points. Наличие общих изображений создает сильные связи, причем вес связи зависит от степени схожести (количества совпадающих дескрипторов и их расположения). Claims этого патента сфокусированы именно на этом механизме.
    5. Графовый анализ авторитетности: Авторитетность рассчитывается на взвешенном графе, причем патент явно упоминает возможность рекурсивного расчета, когда вес связи зависит от авторитетности источника (аналогично PageRank).

    Практика

    Best practices (это мы делаем)

    Хотя патент сфокусирован на книгах, его принципы имеют высокое концептуальное значение для общего SEO, подтверждая важность уникальности контента.

    • Создание оригинальных изображений и инфографики: Инвестируйте в создание уникальных визуальных активов. Они генерируют уникальные descriptor points. Если другой авторитетный ресурс использует ваше изображение (даже без гиперссылки), это может создать implicit link, который система потенциально может учитывать для расчета авторитетности или определения первоисточника.
    • Разработка уникального стиля и терминологии: Стремитесь к созданию действительно оригинального текстового контента, который генерирует уникальные n-граммы (uncommon word strings). Это увеличивает вероятность формирования неявных текстовых связей с другими документами, обсуждающими ту же тему, и повышает ценность вашего контента как первоисточника.
    • Стратегия Image SEO: Оптимизируйте изображения, понимая, что Google анализирует их содержание на уровне пикселей и признаков (descriptor points), а не только метаданных. Убедитесь, что ключевые изображения уникальны и высокого качества.

    Worst practices (это делать не надо)

    • Чрезмерное использование стоковых изображений: Популярные стоковые изображения не способствуют созданию уникальных неявных связей. Если изображение уже присутствует на тысячах сайтов, связь через него будет иметь минимальный вес или может связать ваш контент с нерелевантными источниками.
    • Поверхностный рерайтинг и синонимайзинг: Текст, являющийся лишь перефразированием существующих источников, вряд ли сгенерирует uncommon word strings. Он будет состоять из частых n-грамм, которые, согласно логике патента, не используются для создания сильных неявных связей.
    • Копирование контента: Полное копирование текста или изображений делает ваш контент вторичным. В контексте этой модели авторитетность (Rank Score) будет консолидироваться вокруг первоисточников или наиболее авторитетных узлов, связанных уникальными признаками.

    Стратегическое значение

    Патент подтверждает, что Google активно ищет способы оценки авторитетности контента за пределами анализа гиперссылок. Использование анализа схожести контента (Content Similarity Analysis) для вывода неявных связей является мощным механизмом. Для SEO это означает, что уникальность контента – это не просто требование для избежания дублирования, но и активный фактор, позволяющий формировать сигналы связи и авторитетности. Стратегия должна фокусироваться на создании контента, который является первоисточником как в плане идей и текста, так и в плане визуального представления.

    Практические примеры

    Сценарий: Повышение авторитетности исследования за счет уникальной диаграммы (Концептуальное применение в Веб)

    1. Действие: SEO-команда продвигает новый отчет об исследовании рынка и разрабатывает уникальную сложную инфографику для визуализации данных.
    2. Механизм (по патенту): Google индексирует отчет. Система Computer Vision анализирует инфографику и генерирует набор уникальных descriptor points.
    3. Распространение: Авторитетные новостные издания (например, WSJ, Bloomberg) освещают исследование и включают эту инфографику в свои статьи (с ссылкой на источник или без нее).
    4. Результат: Google обнаруживает совпадение descriptor points между инфографикой в оригинальном отчете и в статьях новостных изданий. Согласно концепции патента, это создает implicit image links между документами. Если эти связи учитываются системой ранжирования, они способствуют повышению авторитетности (Rank Score) оригинального отчета как первоисточника.

    Вопросы и ответы

    Означает ли этот патент, что Google использует анализ схожести контента вместо PageRank?

    Нет, это не замена PageRank, а дополнение или альтернатива для сред, где гиперссылки отсутствуют (например, Google Books). Патент описывает, как рассчитать показатель авторитетности (Rank Score), функционально аналогичный PageRank, но использующий неявные связи (implicit links) вместо явных гиперссылок. В основном поиске PageRank по-прежнему играет ключевую роль.

    Патент описывает текст и изображения. Что важнее для создания неявных связей?

    Патент описывает оба механизма как валидные способы генерации взвешенного графа. Однако важно отметить, что в утвержденной Формуле изобретения (Claims) данного патента (US9043338B1) акцент сделан именно на механизме, основанном на схожести изображений (implicit image links) и анализе descriptor points.

    Что такое «редкая фраза» (uncommon word string) и как ее создать?

    Это последовательность слов (n-грамма, например, 5 слов подряд), которая редко встречается в общем корпусе текстов (ниже Threshold Frequency). Она создается не искусственно, а естественным образом при написании оригинального, глубокого контента, использовании точной терминологии или уникального авторского стиля. Поверхностный рерайтинг редко создает такие фразы.

    Как Google определяет схожесть изображений?

    Патент описывает использование localized features (локальных признаков, таких как цвета, границы, SIFT) и их представление в виде векторов (descriptor points). Два изображения считаются схожими, если они имеют достаточное количество совпадающих или близких descriptor points, часто с учетом их геометрического расположения.

    Если кто-то украдет мое уникальное изображение, получит ли он выгоду от неявной связи?

    Теоретически, да, неявная связь будет создана. Однако, поскольку расчет Rank Score в патенте описывается как рекурсивный (подобно PageRank, где важна авторитетность источника связи), и учитывая другие сигналы ранжирования Google (например, определение первоисточника), более вероятно, что авторитетность будет консолидироваться вокруг оригинального источника.

    Как этот патент влияет на Image SEO?

    Он имеет значительное концептуальное влияние. Он показывает, что изображения могут напрямую влиять на расчет авторитетности документа. Использование уникальных, высококачественных изображений становится не просто элементом оформления, а стратегическим активом для построения неявных связей и повышения Rank Score.

    Стоит ли перестать использовать стоковые изображения?

    Для ключевых страниц – да. Стоковые изображения не уникальны и имеют широко распространенные descriptor points. Они не помогут сформировать сильные неявные связи с авторитетными источниками и могут «размывать» тематическую направленность вашего контента в глазах системы, связывая его с множеством разнородных сайтов.

    Применяется ли эта технология в основном поиске Google (Web Search)?

    Патент сфокусирован на Book Content Item Search. Нет прямых указаний на использование этого конкретного механизма расчета Rank Score в основном поиске, где доминируют гиперссылки. Однако технологии анализа изображений и текста, описанные здесь, безусловно используются в основном поиске для понимания контента, поиска дубликатов и Image Search.

    Как вес ребра (Edge Weight) влияет на ранжирование?

    Чем выше вес ребра между двумя документами, тем сильнее связь между ними и тем больше авторитетности (Rank Score) может передаваться. Вес увеличивается при большем количестве совпадений (больше общих редких фраз или больше совпадающих дескрипторов изображений) и может зависеть от авторитетности источника.

    Что произойдет, если в книге очень много изображений?

    Патент предусматривает нормализацию. Упоминается, что вес ребра, исходящего из книги с большим количеством изображений, может быть снижен. Это делается для того, чтобы книга, содержащая много разнородных изображений, не была ошибочно идентифицирована как авторитет по множеству тем только из-за объема визуального контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.