Google использует метрику Codomain Relationship Measure (CDR), чтобы определить, какой сайт показать в качестве целевой страницы в Поиске по Картинкам. Система анализирует связь между доменом контента и доменом хостинга изображения. Предпочтение отдается сайтам с сильной связью (например, использующим собственный CDN), что помогает бороться с хотлинкингом и продвигать авторитетные источники вместо низкокачественных агрегаторов.
Описание
Какую задачу решает
Патент решает проблему выбора наиболее авторитетной и качественной целевой страницы (landing page) для результатов поиска по изображениям (Image Search). Когда одно и то же изображение встроено на множестве разных веб-страниц, системе необходимо определить, какая из них является лучшим источником для пользователя. Изобретение направлено на снижение приоритета низкокачественных сайтов, которые массово используют «хотлинкинг» (hotlinking) — ссылаются на изображения, размещенные на чужих серверах, для привлечения трафика без затрат на хостинг.
Что запатентовано
Запатентована система для расчета Codomain Relationship Measure (CDR) — показателя взаимосвязи кодоменов. Эта метрика количественно оценивает степень связанности (measure of relatedness) между Первым доменом (D1), размещающим веб-страницу, и Вторым доменом (D2), размещающим файл изображения. Высокий CDR используется как индикатор авторитетности при выборе целевой страницы в Image Search.
Как это работает
Система работает в два этапа: офлайн-расчет и онлайн-применение.
- Офлайн: Система анализирует все ссылки на изображения в интернете. Для пары доменов (D1 и D2) рассчитывается CDR. Расчет основан на соотношении ссылок между D1 и D2 к общему количеству ссылок (предложено два варианта расчета).
- Онлайн: Когда изображение найдено по запросу, система идентифицирует все веб-страницы, ссылающиеся на него. Для каждой пары доменов (страница на D1, изображение на D2) извлекается предварительно рассчитанный CDR. Страница, принадлежащая паре с наивысшим CDR, получает предпочтение в качестве целевой страницы в результатах поиска.
Актуальность для SEO
Высокая. Проблема атрибуции визуального контента, борьбы с хотлинкингом и выбора канонического источника остается крайне актуальной для Google Images. Описанный механизм предоставляет масштабируемый сигнал для алгоритмического определения авторитетности источника, отдавая предпочтение сайтам, которые инвестируют в собственный хостинг или имеют эксклюзивные связи с хостингом изображений.
Важность для SEO
Высокое влияние (8/10) для стратегий, ориентированных на трафик из Поиска по Картинкам. Патент раскрывает конкретный механизм, который Google использует для фильтрации агрегаторов и сайтов, злоупотребляющих хотлинкингом. Для успеха в Image SEO критически важно не только иметь релевантные изображения, но и обеспечить правильную архитектуру их хостинга для максимизации Codomain Relationship Measure.
Детальный разбор
Термины и определения
- Codomain Relationship Measure (CDR) (Показатель взаимосвязи кодоменов)
- Метрика, определяющая степень связанности между Первым доменом (D1) и Вторым доменом (D2) на основе статистики ссылок на изображения. Используется для выбора целевой страницы.
- First Domain (D1) (Первый домен)
- Домен, который размещает веб-страницы (контент), содержащие ссылки на изображения.
- Second Domain (D2) (Второй домен)
- Домен, который размещает файлы изображений, на которые ссылаются веб-страницы Первого домена.
- Image Link (Ссылка на изображение)
- Ссылка на веб-странице (например, HTML-тег), которая заставляет браузер загружать изображение со Второго домена для отображения на Первом домене.
- #IL(D1)
- Общее количество всех исходящих ссылок на изображения со всех страниц Первого домена (D1).
- #IL(D1, D2)
- Количество исходящих ссылок на изображения с Первого домена (D1), которые ведут конкретно на Второй домен (D2).
- #ILT(D2)
- Общее количество входящих ссылок на изображения, размещенные на Втором домене (D2), со всех доменов в интернете.
- Hotlinking (Хотлинкинг)
- Практика встраивания изображений путем прямой ссылки на файлы, размещенные на другом сервере.
- Image link number threshold (Порог количества ссылок на изображения)
- Минимальное количество исходящих ссылок на изображения (#IL(D1)), которое должен иметь домен для участия в расчете CDR.
Ключевые утверждения (Анализ Claims)
Патент содержит два основных независимых пункта (Claim 1 и Claim 18), которые описывают два разных метода расчета Codomain Relationship Measure (CDR).
Claim 1 (Независимый пункт) – Метод 1 (D1-центричный): Описывает расчет CDR на основе исходящих ссылок Первого домена.
- Доступ к данным о доменах.
- Для каждого D1:
- Определение общего числа ссылок на изображения с D1 (#IL(D1)).
- Идентификация всех D2, на которые ссылается D1.
- Для каждого D2:
- Определение числа ссылок с D1 на D2 (#IL(D1, D2)).
- Расчет CDR(D1, D2) на основе #IL(D1, D2) и #IL(D1).
Claim 5 (Зависимый от 1): Уточняет формулу для Метода 1: CDR(D1,D2) = #IL(D1,D2) / #IL(D1). Этот метод измеряет, насколько эксклюзивно D1 полагается на D2 для хостинга изображений.
Claim 18 (Независимый пункт) – Метод 2 (D2-центричный): Описывает расчет CDR на основе входящих ссылок Второго домена.
- Для каждой пары (D1, D2):
- Определение общего числа входящих ссылок на изображения на D2 (#ILT(D2)).
- Определение числа ссылок с D1 на D2 (#IL(D1, D2)).
- Расчет CDR(D1, D2) на основе #IL(D1, D2) и #ILT(D2).
Claim 19 (Зависимый от 18): Уточняет формулу для Метода 2: CDR(D1,D2) = #IL(D1,D2) / #ILT(D2). Этот метод измеряет, какую долю трафика/ссылок на изображения D2 генерирует D1.
Claim 2 (Зависимый от 1): Описывает процесс применения CDR в поиске.
- Получение запроса и определение релевантного изображения, на которое ссылаются несколько страниц.
- Определение D1 (хосты страниц) и D2 (хост изображения).
- Сравнение CDR для всех пар (D1, D2).
- Выбор одной из страниц для ссылки в результатах поиска на основе сравнения (предпочтение отдается паре с наивысшим CDR).
Claim 6 (Зависимый от 1): Вводит image link number threshold. Расчет CDR выполняется, только если общее количество ссылок на изображения с D1 превышает этот порог.
Где и как применяется
Изобретение применяется в инфраструктуре Поиска по Картинкам (Image Search) и разделено на офлайн и онлайн процессы.
CRAWLING – Сканирование и Сбор данных
Система обнаруживает веб-страницы (на D1) и изображения (на D2), извлекает ссылки на изображения (Image Links) и определяет домены хостинга.
INDEXING – Индексирование и извлечение признаков
Основной этап офлайн-расчета (preprocessing stage). Система агрегирует данные о ссылках и вычисляет метрики #IL(D1), #IL(D1, D2) и #ILT(D2). Затем рассчитываются и индексируются значения Codomain Relationship Measure (CDR) для пар доменов.
RANKING / RERANKING – Ранжирование и Переранжирование (Image Search)
Онлайн-применение (query-time process). Когда система идентифицирует релевантное изображение и набор кандидатов на роль целевой страницы, она использует предварительно вычисленные CDR для выбора наилучшего кандидата из этого набора.
Входные данные (Офлайн):
- Данные сканирования (Link data, Domain data).
Выходные данные (Офлайн) / Входные данные (Онлайн):
- Индекс Codomain Relationship Measures (CDR) для пар доменов.
Выходные данные (Онлайн):
- Выбранная целевая страница для отображения в результатах поиска по изображению.
На что влияет
- Конкретные типы контента: Влияет исключительно на результаты поиска по изображениям (Image Search).
- Конкретные ниши или тематики: Наибольшее влияние в визуальных нишах: e-commerce, фотография, новости, развлечения. Особенно сильно влияет на ниши, где распространено агрегирование контента и хотлинкинг.
Когда применяется
- Условия применения: Алгоритм активируется, когда изображение релевантно запросу И на это изображение ссылаются несколько веб-страниц (кандидатов).
- Пороговые значения: Расчет CDR может быть ограничен доменами, у которых общее количество ссылок на изображения (#IL(D1)) превышает image link number threshold, что обеспечивает статистическую значимость.
Пошаговый алгоритм
Процесс А: Офлайн-расчет CDR (Индексирование)
- Сбор данных: Сканирование интернета для сбора данных о доменах и ссылках на изображения.
- Агрегация ссылок:
- Подсчет общего числа исходящих ссылок для каждого D1 (#IL(D1)).
- Подсчет числа ссылок между конкретными парами (#IL(D1, D2)).
- (Для Метода 2) Подсчет общего числа входящих ссылок для каждого D2 (#ILT(D2)).
- Фильтрация (Опционально): Проверка, превышает ли #IL(D1) установленный image link number threshold. Если нет, CDR для этого D1 не рассчитывается.
- Расчет CDR: Для оставшихся пар (D1, D2) рассчитать CDR.
- Метод 1: #IL(D1, D2) / #IL(D1)
- Метод 2: #IL(D1, D2) / #ILT(D2)
- Сохранение: Сохранение рассчитанных CDR в индексе.
Процесс Б: Онлайн-выбор целевой страницы (Ранжирование)
- Получение запроса и Идентификация изображения: Система определяет изображение, релевантное запросу.
- Идентификация кандидатов: Находится множество веб-страниц, ссылающихся на это изображение.
- Определение пар доменов: Для каждой страницы-кандидата определяется Первый домен (D1) и Второй домен (D2).
- Извлечение CDR: Система извлекает предварительно рассчитанные CDR для каждой пары (D1, D2).
- Сравнение и выбор: Система сравнивает CDR всех пар. Выбирается страница с наивысшим CDR. Патент отмечает (Claim 4), что этот выбор может также учитывать другие факторы, такие как показатели качества (quality measure) веб-страницы.
- Предоставление результата: Результат поиска по изображению ссылается на выбранную целевую страницу.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе структуры ссылок и доменов.
- Ссылочные факторы: Ключевые данные – это ссылки на изображения (Image Links). Анализируется источник ссылки (страница на D1) и цель ссылки (изображение на D2).
- Технические факторы: Данные о доменах (Domain data) – необходимы для определения, какой ресурс на каком домене или субдомене размещен.
Какие метрики используются и как они считаются
Система вычисляет следующие ключевые метрики:
- #IL(D1): Общее количество исходящих ссылок на изображения с D1.
- #IL(D1, D2): Количество ссылок с D1 на D2.
- #ILT(D2): Общее количество входящих ссылок на изображения на D2.
Формулы расчета Codomain Relationship Measure (CDR):
- Метод 1 (Equation 1): CDR = #IL(D1, D2) / #IL(D1). Измеряет эксклюзивность связи. Высокое значение (близкое к 1.0) указывает, что D1 почти эксклюзивно использует D2 для хостинга.
- Метод 2 (Equation 2): CDR = #IL(D1, D2) / #ILT(D2). Измеряет важность D1 как источника ссылок для D2.
Пороговые значения:
- Image link number threshold: Минимальное значение #IL(D1) для расчета CDR.
Взвешивание:
Патент упоминает, что вместо простых подсчетов могут использоваться взвешенные агрегаты (weighted aggregates), где веса основаны на качестве или полезности ссылок, изображений, страниц или доменов.
Выводы
- Борьба с хотлинкингом и агрегаторами: Основная цель патента — снизить приоритет низкокачественных сайтов, которые массово используют hotlinking изображений с разных доменов. Такие сайты естественным образом будут иметь низкий CDR (по Методу 1) с любым отдельным доменом-источником, так как их ссылки распределены по множеству разных D2.
- Предпочтение авторитетным связям и инфраструктуре: Высокий CDR свидетельствует о сильной и часто эксклюзивной связи между контентным доменом и хостингом изображений. Это характерно для авторитетных сайтов, которые размещают изображения на своем домене (D1=D2) или используют выделенный CDN.
- Два взгляда на взаимосвязь: Google оценивает связь с двух сторон: насколько важен хостинг D2 для сайта D1 (Метод 1) и насколько важен сайт D1 для хостинга D2 (Метод 2). Это дает комплексную оценку взаимоотношений доменов.
- Архитектура хостинга как фактор ранжирования в Image Search: Способ размещения изображений напрямую влияет на CDR и, следовательно, на способность сайта получать трафик из поиска по картинкам.
- Комбинация сигналов: CDR является ключевым механизмом выбора, но патент предусматривает его интеграцию с другими сигналами качества страницы (quality measure) и релевантности для финального выбора целевой страницы.
Практика
Best practices (это мы делаем)
- Консолидация хостинга изображений: Размещайте изображения на основном домене или на выделенном субдомене/CDN. Цель — минимизировать количество Вторых доменов (D2), на которые ссылается ваш сайт (D1). В идеале D1 должен ссылаться только на один D2. Это максимизирует CDR по Методу 1 (#IL(D1, D2) / #IL(D1) будет близко к 1.0).
- Правильная настройка CDN (Custom CNAME): Если используется CDN, убедитесь, что он настроен через CNAME на ваш субдомен (например, images.vashsite.com). Избегайте использования общих доменов CDN-провайдера, так как это может размыть связь между вашим контентом и хостингом.
- Обеспечение достаточного объема изображений: Убедитесь, что на сайте достаточное количество проиндексированных изображений и ссылок на них, чтобы превысить потенциальный Image Link Number Threshold и участвовать в расчете CDR.
- Поддержание качества целевых страниц: Помните, что CDR может использоваться в сочетании с сигналами качества страницы. Поддерживайте высокий уровень E-E-A-T и релевантности целевых страниц, на которых размещены изображения.
Worst practices (это делать не надо)
- Хотлинкинг с разных источников: Использование изображений путем прямой ссылки на множество разных сторонних доменов (D2). Это приведет к низкому CDR и значительно снижает вероятность выбора вашего сайта в качестве целевой страницы в Image Search.
- Распыление хостинга: Размещение части изображений на основном домене, части на одном CDN, а части на другом стороннем сервисе без необходимости. Это размывает CDR для каждого из них.
- Создание сайтов-агрегаторов низкого качества: Создание сайтов, которые полагаются исключительно на встраивание чужого визуального контента. Механизм CDR напрямую направлен против таких практик.
Стратегическое значение
Патент подтверждает стратегию Google по приоритизации оригинальных и авторитетных источников контента над агрегаторами. Codomain Relationship Measure является технической реализацией этой стратегии в Поиске по Картинкам, позволяя алгоритмически измерить «авторитетность» связи между контентом и его хостингом. Для SEO-специалистов это означает, что техническая инфраструктура хостинга изображений является важным фактором ранжирования в Image Search.
Практические примеры
Сценарий: Выбор целевой страницы для товара в E-commerce
Изображение продукта доступно на трех сайтах. Система должна выбрать лучшую целевую страницу.
- Сайт А (Производитель): Страницы на brand.com (D1_A). Изображения на cdn.brand.com (D2_A). 99% всех изображений на D1_A загружаются с D2_A.
CDR(D1_A, D2_A) = 0.99 (Высокий). - Сайт Б (Авторитетный ритейлер): Страницы на retailer.com (D1_B). Изображения на images.retailer-cdn.com (D2_B). 95% всех изображений на D1_B загружаются с D2_B.
CDR(D1_B, D2_B) = 0.95 (Высокий). - Сайт В (Аффилиатный агрегатор): Страницы на reviews.com (D1_C). Изображения загружаются путем хотлинкинга с cdn.brand.com (D2_A), images.retailer-cdn.com (D2_B) и еще с 50 других доменов. Только 5% изображений на D1_C загружаются с D2_A.
CDR(D1_C, D2_A) = 0.05 (Низкий).
Результат: Система сравнит CDR кандидатов. Сайт А (Производитель) имеет наивысший CDR (0.99) и с наибольшей вероятностью будет выбран в качестве целевой страницы, вытеснив Сайт В, даже если изображение физически одно и то же.
Вопросы и ответы
Влияет ли этот патент на обычный веб-поиск (синие ссылки)?
Патент сфокусирован исключительно на выборе целевой страницы для результатов поиска по изображениям (Image Search). Он напрямую не влияет на ранжирование стандартных веб-результатов. Однако он отражает общую философию Google по приоритизации авторитетных источников и борьбе с низкокачественным агрегированным контентом.
Как система относится к использованию CDN для хостинга изображений?
Использование CDN является предпочтительной практикой, если оно настроено правильно. Если CDN используется эксклюзивно для вашего сайта (например, через субдомен images.vashsite.com, настроенный через CNAME), то связь между вашим основным доменом (D1) и доменом CDN (D2) будет очень сильной, что приведет к высокому CDR (близкому к 1.0). Проблемы возникают при использовании общих, неэксклюзивных хостингов или доменов CDN-провайдера.
В патенте описаны два метода расчета CDR. Какой из них важнее?
Патент не указывает приоритет. Метод 1 (D1-центричный) измеряет, насколько сильно сайт полагается на конкретный хостинг. Метод 2 (D2-центричный) измеряет, какую долю трафика на хостинг генерирует сайт. Метод 1 лучше всего подходит для борьбы с хотлинкингом, так как он наказывает сайты, ссылающиеся на множество разных источников. Для SEO стратегии важнее всего контролировать Метод 1 путем консолидации хостинга.
Является ли хостинг изображений на том же домене, что и контент, лучшим вариантом?
С точки зрения этого патента, это идеальный сценарий. В этом случае Первый домен (D1) и Второй домен (D2) совпадают. Это гарантирует максимально возможный CDR (1.0), при условии, что вы не ссылаетесь на внешние изображения. Хотя это оптимально для CDR, использование CDN часто предпочтительнее с точки зрения производительности загрузки, и оно также обеспечивает высокий CDR при правильной настройке.
Как работает порог Image Link Number Threshold?
Система может установить минимальное количество исходящих ссылок на изображения, которое должен иметь сайт (D1), прежде чем для него будет рассчитан CDR. Например, если порог равен 500, а у сайта всего 50 изображений, он может быть проигнорирован этим алгоритмом. Это делается для обеспечения статистической надежности метрики и снижения вычислительной нагрузки.
Может ли качественная страница с низким CDR обойти страницу с высоким CDR?
Да. Патент (Claim 4) упоминает, что CDR может использоваться в комбинации с показателями качества страницы (quality measure) и релевантности. Если страница имеет исключительно высокие показатели качества и релевантности, она может быть выбрана, даже если ее CDR не самый высокий среди кандидатов, особенно если используется взвешенная модель агрегации сигналов.
Как этот патент влияет на сайты с пользовательским контентом (UGC)?
Если UGC-платформа размещает загруженные пользователями изображения на своем собственном домене или выделенном CDN, это положительно скажется на CDR. Однако если платформа позволяет пользователям встраивать контент путем хотлинкинга с внешних сайтов, это негативно повлияет на CDR платформы, так как увеличится количество Вторых доменов (D2).
Учитывает ли система субдомены отдельно от основного домена?
Да. Патент прямо указывает, что описанные техники могут применяться как на уровне доменов, так и на уровне субдоменов. Это означает, что Google может рассчитывать CDR для каждой пары субдоменов отдельно, что требует гранулярного контроля за инфраструктурой хостинга.
Что делать, если я вынужден использовать сторонний хостинг изображений (например, SaaS платформу или DAM)?
Если необходимо использовать сторонний сервис, постарайтесь консолидировать все изображения там. Если ваш сайт (D1) будет ссылаться только на домен сервиса (D2), ваш CDR по Методу 1 все равно будет высоким (1.0). Также критически важно проверить, поддерживает ли сервис настройку Custom CNAME, чтобы использовать ваш субдомен для отдачи изображений.
Если я перенесу изображения на новый CDN, как быстро обновится CDR?
Расчет CDR происходит офлайн на этапе индексирования. Метрика обновится после того, как Google полностью пересканирует ваш сайт, обнаружит новые ссылки на изображения, агрегирует статистику и выполнит перерасчет CDR. Это может занять время, зависящее от скорости и полноты переиндексации сайта.