
Google использует многофакторную систему для выбора наилучшего изображения, представляющего новостную статью или кластер. Система фильтрует неподходящие изображения (рекламу, логотипы), анализирует контекст (подписи, Alt-текст, расположение рядом с заголовком) и оценивает технические параметры (размер, формат), чтобы выбрать изображение для показа в результатах поиска новостей.
Патент решает проблему автоматического выбора наиболее релевантного изображения для представления новостной статьи или группы связанных статей (cluster) в результатах поиска (например, в Google News). Новостные документы часто содержат множество изображений, не связанных с основной темой (реклама, логотипы, фотографии авторов). Изобретение направлено на фильтрацию этих нежелательных изображений (suspect images) и точную идентификацию изображения, которое лучше всего иллюстрирует новость.
Запатентована система и метод для многоэтапной фильтрации, анализа и оценки изображений из новостных документов. Система использует набор правил для идентификации подходящих кандидатов (candidate images) и применяет механизм оценки (Image Score), основанный на технических характеристиках, расположении на странице и семантическом анализе подписей (captions). Цель — выбрать одно репрезентативное изображение для статьи или кластера.
Система работает в несколько этапов:
suspect images (неправильный размер/формат, наличие ссылок, сторонний хостинг).Alt text или текст, расположенный рядом с изображением в HTML-структуре (например, в ячейках таблицы).Image Score) на основе размера, близости к заголовку и релевантности подписи содержанию документа (Document Centroid).Reference Count для исключения изображений, которые часто повторяются на сайте (например, фото авторов или логотипы).Cluster Centroid).Высокая. Выбор репрезентативного изображения критически важен для привлечения внимания и CTR в Google News, блоках Top Stories и Google Discover. Несмотря на возраст патента (оригинальная заявка 2004 года), описанные в нем фундаментальные принципы — техническая фильтрация, контекстуальный анализ (подписи, расположение) и оценка релевантности — остаются актуальными. Участие Krishna Bharat (ключевой фигуры в создании Google News) подчеркивает значимость патента.
Влияние на SEO значительно (8/10), особенно для издателей новостей. Патент раскрывает конкретные факторы, которые Google анализирует при выборе изображения для показа. Понимание этих механизмов позволяет SEO-специалистам оптимизировать размещение, технические характеристики и контекст изображений, чтобы повысить вероятность их выбора, что напрямую влияет на трафик из новостных вертикалей.
Alt text или из текста, структурно расположенного рядом с изображением (например, в той же ячейке таблицы).Alt text, которые не связаны с темой документа (например, имя фотографа), что делает Alt text непригодным для использования в качестве подписи.Claim 1 (Независимый пункт): Описывает метод выбора репрезентативного изображения для кластера документов на основе многофакторной оценки.
caption), связанную с изображением в документе, входящем в кластер.overall score) на основе этих трех оценок.Claim 4 (Независимый пункт): Альтернативное описание метода выбора для кластера с фокусом на анализе релевантности подписи.
Claims 5-11 (Зависимые): Детализируют процесс фильтрации изображений.
Они защищают правила исключения изображений на основе: неправильной формы (Claim 6), размера ниже порога (Claim 7), экстремального соотношения сторон (Claim 8), неподходящего формата файла (Claim 9), наличия ссылки в изображении (Claim 10) и если хост изображения отличается от хоста документа (Claim 11).
Claim 21 (Независимый пункт): Описывает метод фильтрации на основе частоты использования (Reference Count).
count), указывающий, сколько раз на это изображение ссылаются документы с определенного хоста.Изобретение применяется преимущественно на этапах сбора и индексирования новостного контента.
CRAWLING – Сканирование и Сбор данных
Система (News Crawling Unit) сканирует новостные документы, извлекает URL-адреса изображений и их метаданные из HTML. Затем система скачивает сами файлы изображений для проверки их доступности, определения фактических характеристик и сбора данных для расчета Reference Count.
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система (News Image Processing Unit) выполняет:
Candidate Images от Suspect Images по техническим и частотным признакам.Document Centroid. Анализ HTML (особенно таблиц) для обнаружения Image Captions. Определение расположения изображения относительно заголовка.Image Score для кандидатов.METASEARCH – Метапоиск и Смешивание
На этапе формирования выдачи (Google News, Top Stories) система использует предварительно выбранное репрезентативное изображение для отображения рядом с соответствующим новостным результатом или кластером.
product searches).Reference Count.Процесс выбора репрезентативного изображения:
alt text).Suspect Images. Правила включают проверку: Alt text на наличие Poison Words.Alt text не подходит, анализируется HTML-структура. Если изображение в таблице, ищутся Text Runs в той же или соседних ячейках, проверяется их длина, чтобы убедиться, что это подпись, а не тело статьи.Image Score. Патент предлагает формулу:
Image Caption является ключевым фактором оценки релевантности. Система активно ищет подписи в Alt text или окружающем тексте и сравнивает их с темой статьи (Document Centroid).Image Score. Приоритет отдается крупным изображениям в начале статьи.Reference Count позволяет идентифицировать и исключать изображения, которые часто используются на сайте в разных контекстах.Alt text без "ядовитых" слов (например, имен фотографов). Убедитесь, что слова в подписи пересекаются с основными терминами статьи.Reference Count.<figure> и <figcaption> соответствует логике анализа структуры, описанной в патенте.Reference Count приведет к их фильтрации.Image Score и вероятность выбора изображения.Патент подчеркивает важность структурирования контента и технической оптимизации для новостных сайтов. Он демонстрирует, что Google глубоко анализирует структуру страницы (HTML, расположение элементов) и контекст (подписи, центроиды) для выбора визуального представления контента. Для издателей это означает, что техническая реализация CMS и редакционные процессы по работе с изображениями напрямую влияют на видимость и CTR в новостных вертикалях Google (Google News, Top Stories, Discover).
Сценарий 1: Оптимизация изображения для статьи о спортивном событии
Цель: Максимизировать вероятность того, что фотография ключевого момента матча будет выбрана в качестве репрезентативного изображения.
alt="Игрок А забивает решающий гол в ворота Команды Б на 90-й минуте матча". Это обеспечивает высокое пересечение с Document Centroid.Image Score благодаря близости к заголовку, большому размеру и релевантной подписи. Изображение выбирается для показа в Google News.Сценарий 2: Фильтрация фотографии автора (Reference Count)
Reference Count (используется в сотнях статей на одном хосте).Suspect Image и исключает его из кандидатов, даже если оно большое и находится близко к заголовку. Вместо него будет выбрано другое, тематическое изображение из статьи (если оно есть).Как Google определяет подпись к изображению (Image Caption), если Alt text отсутствует?
Если Alt text отсутствует или содержит "ядовитые слова" (например, имя фотографа), система анализирует HTML-структуру страницы. Если изображение находится внутри HTML-таблицы, система ищет текстовые фрагменты (Text Runs) в той же или соседних ячейках. Эти фрагменты используются как подпись, если они не слишком длинные, что позволяет отличить подпись от основного текста статьи.
Что важнее для выбора изображения: его размер или релевантность подписи?
Оба фактора критичны и входят в формулу расчета Image Score. Изображение должно сначала пройти фильтр минимального размера, чтобы рассматриваться как кандидат. Затем его относительный размер и релевантность подписи (пересечение с Document Centroid) играют ключевую роль в ранжировании по сравнению с другими кандидатами в той же статье.
Как система определяет, что изображение является логотипом или фотографией автора?
Система использует метрику Reference Count. Она отслеживает, как часто конкретное изображение используется в разных документах на одном и том же хосте. Если Reference Count высок, система предполагает, что это изображение общего назначения (например, логотип или фото колумниста), а не уникальная иллюстрация к новости, и отфильтровывает его.
Влияет ли расположение изображения на странице на вероятность его выбора?
Да, очень сильно. Расстояние от заголовка документа до изображения является одним из трех основных факторов в формуле Image Score. Чем ближе изображение к заголовку, тем выше его оценка, поскольку это указывает на его важность и связь с основной темой статьи.
Какие технические параметры могут привести к исключению изображения из рассмотрения?
Изображение может быть отфильтровано, если оно слишком маленькое (например, менее 60 пикселей), имеет экстремальное соотношение сторон (например, более 3:1), имеет нестандартный формат файла, содержит гиперссылку (воспринимается как реклама) или размещено на стороннем хостинге, не связанном с издателем.
Как выбирается изображение для кластера новостей (группы статей по одной теме)?
Выбор изображения для кластера основывается на двух ключевых факторах. Во-первых, учитывается ранг (авторитетность) исходного документа внутри кластера — чем выше ранг статьи, тем больше шансов у ее изображения. Во-вторых, оценивается релевантность подписи изображения общей теме кластера (пересечение с Cluster Centroid).
Мы используем CDN для хостинга изображений. Повлияет ли это негативно?
Патент указывает, что изображения, размещенные другими организациями, могут быть отфильтрованы. Однако также упоминается существование "хороших списков" (good lists), которые могут включать доверенные сторонние сервисы кэширования (например, Akamai). При использовании авторитетного CDN, корректно настроенного, проблем возникать не должно.
Анализирует ли Google содержимое самого изображения (Image Recognition)?
В данном патенте основной упор сделан на контекстуальные и технические сигналы. Однако упоминаются дополнительные правила фильтрации после сканирования: отбрасывание изображений, которые содержат текст, выглядят как клип-арт (а не фотографии), или являются одноцветными. Это указывает на применение базовых методов анализа содержимого изображения.
Что такое центроид документа (Document Centroid) и как он используется?
Document Centroid — это набор ключевых слов, которые лучше всего представляют тему новостного документа. Система сравнивает слова в подписи изображения (Image Caption) со словами в центроиде. Чем больше совпадений (Centroid Hits), тем более релевантным считается изображение и тем выше его Image Score.
Влияет ли скорость загрузки изображения на его выбор?
Патент упоминает, что в процессе сканирования изображений (image crawl) устанавливается таймаут. Если изображение не загружается в течение этого времени (timeout period), оно считается недоступным и отбрасывается (discarded). Поэтому медленная скорость загрузки может привести к исключению изображения из кандидатов.

Мультимедиа
SERP

Мультимедиа
Поведенческие сигналы
SERP

Свежесть контента
EEAT и качество

Семантика и интент
Мультимедиа
SERP

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Local SEO

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
SERP

EEAT и качество
Индексация
Семантика и интент

Ссылки
Антиспам
EEAT и качество

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Антиспам
SERP
