Как Google выбирает главное изображение для новостных статей и кластеров в Google News и Top Stories

Google использует многофакторную систему для выбора наилучшего изображения, представляющего новостную статью или кластер. Система фильтрует неподходящие изображения (рекламу, логотипы), анализирует контекст (подписи, Alt-текст, расположение рядом с заголовком) и оценивает технические параметры (размер, формат), чтобы выбрать изображение для показа в результатах поиска новостей.

Описание

Какую задачу решает

Патент решает проблему автоматического выбора наиболее релевантного изображения для представления новостной статьи или группы связанных статей (cluster) в результатах поиска (например, в Google News). Новостные документы часто содержат множество изображений, не связанных с основной темой (реклама, логотипы, фотографии авторов). Изобретение направлено на фильтрацию этих нежелательных изображений (suspect images) и точную идентификацию изображения, которое лучше всего иллюстрирует новость.

Что запатентовано

Запатентована система и метод для многоэтапной фильтрации, анализа и оценки изображений из новостных документов. Система использует набор правил для идентификации подходящих кандидатов (candidate images) и применяет механизм оценки (Image Score), основанный на технических характеристиках, расположении на странице и семантическом анализе подписей (captions). Цель — выбрать одно репрезентативное изображение для статьи или кластера.

Как это работает

Система работает в несколько этапов:

Сканирование и Фильтрация: Система сканирует новостные документы и применяет правила для отсева suspect images (неправильный размер/формат, наличие ссылок, сторонний хостинг).
Обнаружение Подписей: Для кандидатов система ищет подписи, анализируя Alt text или текст, расположенный рядом с изображением в HTML-структуре (например, в ячейках таблицы).
Оценка (Scoring): Изображения получают оценку (Image Score) на основе размера, близости к заголовку и релевантности подписи содержанию документа (Document Centroid).
Фильтрация по частоте: Система использует Reference Count для исключения изображений, которые часто повторяются на сайте (например, фото авторов или логотипы).
Выбор: Выбирается лучшее изображение для документа. Для кластера статей выбирается лучшее изображение с учетом ранга документа-источника и релевантности изображения теме кластера (Cluster Centroid).

Актуальность для SEO

Высокая. Выбор репрезентативного изображения критически важен для привлечения внимания и CTR в Google News, блоках Top Stories и Google Discover. Несмотря на возраст патента (оригинальная заявка 2004 года), описанные в нем фундаментальные принципы — техническая фильтрация, контекстуальный анализ (подписи, расположение) и оценка релевантности — остаются актуальными. Участие Krishna Bharat (ключевой фигуры в создании Google News) подчеркивает значимость патента.

Важность для SEO

Влияние на SEO значительно (8/10), особенно для издателей новостей. Патент раскрывает конкретные факторы, которые Google анализирует при выборе изображения для показа. Понимание этих механизмов позволяет SEO-специалистам оптимизировать размещение, технические характеристики и контекст изображений, чтобы повысить вероятность их выбора, что напрямую влияет на трафик из новостных вертикалей.

Детальный разбор

Термины и определения

Candidate Image (Изображение-кандидат): Изображение, прошедшее первичную фильтрацию и рассматриваемое как потенциально релевантное теме новостного документа.
Suspect Image (Подозрительное изображение): Изображение, которое с высокой вероятностью не связано с темой новости (реклама, логотипы, иконки, фото колумнистов). Отфильтровывается системой.
Image Caption (Подпись к изображению): Текст, описывающий изображение. Извлекается из Alt text или из текста, структурно расположенного рядом с изображением (например, в той же ячейке таблицы).
Document Centroid (Центроид документа): Набор слов, наиболее репрезентативных для содержания конкретного новостного документа.
Cluster Centroid (Центроид кластера): Набор слов, наиболее репрезентативных для темы кластера связанных новостных документов.
Image Score (Оценка изображения): Числовая оценка, рассчитываемая для изображений-кандидатов на основе факторов размера, расположения и релевантности подписи.
Reference Count (Счетчик ссылок/использований): Метрика, показывающая, как часто на конкретное изображение ссылаются различные документы на одном и том же хосте. Используется для идентификации повторяющихся нерелевантных изображений.
Text Runs (Текстовые фрагменты): Непрерывные фрагменты текста внутри HTML-тегов, анализируемые системой при поиске подписей к изображениям.
Poison Words («Ядовитые» слова): Слова в Alt text, которые не связаны с темой документа (например, имя фотографа), что делает Alt text непригодным для использования в качестве подписи.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод выбора репрезентативного изображения для кластера документов на основе многофакторной оценки.

Система идентифицирует подпись (caption), связанную с изображением в документе, входящем в кластер.
Генерируется первая оценка на основе размера изображения.
Генерируется вторая оценка на основе расстояния между изображением и заголовком документа.
Генерируется третья оценка на основе подписи изображения.
Генерируется общая оценка (overall score) на основе этих трех оценок.
Изображение идентифицируется как репрезентативное для кластера на основе общей оценки.

Claim 4 (Независимый пункт): Альтернативное описание метода выбора для кластера с фокусом на анализе релевантности подписи.

Идентификация подписи изображения.
Определение количества раз, когда слова из подписи появляются в теле документа.
Определение первого фактора на основе размера изображения ИЛИ расстояния до заголовка.
Определение второго фактора на основе количества появлений слов подписи в теле документа.
Определение оценки изображения на основе первого и второго факторов.
Выбор изображения как репрезентативного для кластера.

Claims 5-11 (Зависимые): Детализируют процесс фильтрации изображений.

Они защищают правила исключения изображений на основе: неправильной формы (Claim 6), размера ниже порога (Claim 7), экстремального соотношения сторон (Claim 8), неподходящего формата файла (Claim 9), наличия ссылки в изображении (Claim 10) и если хост изображения отличается от хоста документа (Claim 11).

Claim 21 (Независимый пункт): Описывает метод фильтрации на основе частоты использования (Reference Count).

Система определяет для изображения счетчик (count), указывающий, сколько раз на это изображение ссылаются документы с определенного хоста.
На основе этого счетчика изображение исключается (например, если счетчик слишком высок, это может быть логотип или фото автора).
Для оставшихся изображений определяются подписи.
Изображение выбирается для ассоциации с документом на основе подписей.

Где и как применяется

Изобретение применяется преимущественно на этапах сбора и индексирования новостного контента.

CRAWLING – Сканирование и Сбор данных
Система (News Crawling Unit) сканирует новостные документы, извлекает URL-адреса изображений и их метаданные из HTML. Затем система скачивает сами файлы изображений для проверки их доступности, определения фактических характеристик и сбора данных для расчета Reference Count.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система (News Image Processing Unit) выполняет:

Фильтрацию: Отделение Candidate Images от Suspect Images по техническим и частотным признакам.
Анализ контента и структуры: Вычисление Document Centroid. Анализ HTML (особенно таблиц) для обнаружения Image Captions. Определение расположения изображения относительно заголовка.
Оценку: Расчет Image Score для кандидатов.
Выбор: Определение лучшего изображения для документа и сохранение ассоциации в индексе.
Кластеризацию: Группировка новостей и выбор лучшего изображения для кластера.

METASEARCH – Метапоиск и Смешивание
На этапе формирования выдачи (Google News, Top Stories) система использует предварительно выбранное репрезентативное изображение для отображения рядом с соответствующим новостным результатом или кластером.

На что влияет

Конкретные типы контента: Влияет преимущественно на новостные документы (News Articles). В заключении патента также упоминается потенциальная применимость к поиску продуктов (product searches).
Специфические запросы: Влияет на отображение результатов в Google News и блоках Top Stories при поиске по новостным интентам.

Когда применяется

Условия работы: Алгоритм применяется в процессе индексирования и кластеризации новостного контента.
Триггеры активации: Наличие изображений в документе, идентифицированном как новостной.
Пороговые значения: Система использует множество порогов: минимальный размер (например, 60 пикселей), допустимое соотношение сторон (например, не более 3:1), максимальная длина подписи, порог для Reference Count.

Пошаговый алгоритм

Процесс выбора репрезентативного изображения:

Сканирование и Извлечение: Система сканирует новостные документы и извлекает URL всех изображений и их атрибуты (размеры в HTML, alt text).
Предварительная фильтрация (Создание кандидатов): Изображения фильтруются для удаления Suspect Images. Правила включают проверку:
- Размера и соотношения сторон.
- Формата файла (JPEG, GIF, PNG и т.д.).
- Наличия ссылок (отсеивание рекламы).
- Источника хостинга (должен совпадать с организацией издателя, с возможными исключениями для доверенных CDN, упомянутых как ‘good list’).
Обнаружение подписей (Caption Detection): Для кандидатов ищется подпись:
- Анализ Alt text на наличие Poison Words.
- Если Alt text не подходит, анализируется HTML-структура. Если изображение в таблице, ищутся Text Runs в той же или соседних ячейках, проверяется их длина, чтобы убедиться, что это подпись, а не тело статьи.
Оценка кандидатов (Scoring): Расчет Image Score. Патент предлагает формулу:

Выводы

Комплексный подход к выбору изображений: Google использует многофакторную модель для выбора изображений в новостях, которая учитывает технические, структурные и контентные сигналы. Это не просто выбор первого или самого большого изображения.
Критическая роль подписей (Captions и Alt Text): Наличие и качество Image Caption является ключевым фактором оценки релевантности. Система активно ищет подписи в Alt text или окружающем тексте и сравнивает их с темой статьи (Document Centroid).
Важность расположения и размера: Размер изображения и его близость к заголовку статьи являются важными компонентами Image Score. Приоритет отдается крупным изображениям в начале статьи.
Фильтрация повторяющихся изображений (Reference Count): Система активно борется с показом шаблонных изображений (логотипы, фото авторов). Метрика Reference Count позволяет идентифицировать и исключать изображения, которые часто используются на сайте в разных контекстах.
Жесткие технические требования: Изображения должны соответствовать критериям минимального размера, умеренного соотношения сторон, стандартного формата. Изображения, содержащие ссылки или размещенные на сторонних доменах, активно фильтруются как потенциальная реклама.
Авторитетность источника влияет на выбор в кластерах: Для новостных сюжетов (кластеров) выбор изображения зависит не только от его качества, но и от ранга (авторитетности) статьи, в которой оно содержится.

Практика

Best practices (это мы делаем)

Оптимизация подписей (Captions и Alt Text): Обеспечьте наличие четких, релевантных подписей для ключевых изображений. Используйте описательный Alt text без «ядовитых» слов (например, имен фотографов). Убедитесь, что слова в подписи пересекаются с основными терминами статьи.
Стратегическое размещение: Размещайте наиболее важное изображение как можно ближе к заголовку статьи, так как расстояние до заголовка является фактором оценки.
Использование качественных и уникальных изображений: Отдавайте предпочтение более крупным изображениям со стандартным соотношением сторон (избегая экстремальных, например, более 3:1). Используйте уникальные изображения для статей, чтобы избежать проблем с высоким Reference Count.
Техническая оптимизация: Используйте стандартные форматы (JPEG, PNG). Убедитесь, что изображения доступны для сканирования и быстро загружаются (чтобы избежать таймаута при скачивании, упомянутого в патенте).
Чистая и семантическая верстка: Используйте чистую HTML-структуру, которая позволяет системе ассоциировать текст подписи с изображением. В современном вебе использование <figure> и <figcaption> соответствует логике анализа структуры, описанной в патенте.
Контроль хостинга: Размещайте изображения на том же домене или поддомене организации, что и новостной сайт. Использование доверенных CDN допустимо.

Worst practices (это делать не надо)

Использование изображений как ссылок: Не используйте ключевые тематические изображения в качестве гиперссылок. Это сильный сигнал для классификации изображения как рекламы и его исключения из кандидатов.
Чрезмерное повторное использование изображений: Избегайте использования одного и того же изображения (например, стандартного фото автора или логотипа рубрики) во множестве разных статей. Высокий Reference Count приведет к их фильтрации.
Игнорирование Alt Text и подписей: Отсутствие контекстных сигналов значительно снижает Image Score и вероятность выбора изображения.
Использование маленьких или непропорциональных изображений: Иконки, слишком узкие баннеры или маленькие изображения будут отфильтрованы по техническим критериям.
Размещение главного изображения в конце статьи: Большое расстояние до заголовка снизит оценку изображения.

Стратегическое значение

Патент подчеркивает важность структурирования контента и технической оптимизации для новостных сайтов. Он демонстрирует, что Google глубоко анализирует структуру страницы (HTML, расположение элементов) и контекст (подписи, центроиды) для выбора визуального представления контента. Для издателей это означает, что техническая реализация CMS и редакционные процессы по работе с изображениями напрямую влияют на видимость и CTR в новостных вертикалях Google (Google News, Top Stories, Discover).

Практические примеры

Сценарий 1: Оптимизация изображения для статьи о спортивном событии

Цель: Максимизировать вероятность того, что фотография ключевого момента матча будет выбрана в качестве репрезентативного изображения.

Размещение и Размер: Фотография размещается сразу после заголовка H1. Размер 1600x900px (большой размер, стандартное соотношение).
Оптимизация Alt Text: Прописывается alt=»Игрок А забивает решающий гол в ворота Команды Б на 90-й минуте матча». Это обеспечивает высокое пересечение с Document Centroid.
Технические аспекты: Изображение в формате JPEG, без ссылки, размещено на основном домене.
Устранение конкуренции: Логотипы команд или реклама спонсоров имеют меньший размер или расположены ниже по тексту.
Ожидаемый результат: Система присваивает этой фотографии высокий Image Score благодаря близости к заголовку, большому размеру и релевантной подписи. Изображение выбирается для показа в Google News.

Сценарий 2: Фильтрация фотографии автора (Reference Count)

Ситуация: Колумнист публикует ежедневные статьи, и CMS автоматически добавляет его стандартную фотографию в каждую статью.
Анализ системы: Google сканирует сайт и обнаруживает, что одно и то же изображение (фото колумниста) имеет очень высокий Reference Count (используется в сотнях статей на одном хосте).
Результат: Система классифицирует это изображение как Suspect Image и исключает его из кандидатов, даже если оно большое и находится близко к заголовку. Вместо него будет выбрано другое, тематическое изображение из статьи (если оно есть).

Вопросы и ответы

Как Google определяет подпись к изображению (Image Caption), если Alt text отсутствует?

Если Alt text отсутствует или содержит «ядовитые слова» (например, имя фотографа), система анализирует HTML-структуру страницы. Если изображение находится внутри HTML-таблицы, система ищет текстовые фрагменты (Text Runs) в той же или соседних ячейках. Эти фрагменты используются как подпись, если они не слишком длинные, что позволяет отличить подпись от основного текста статьи.

Что важнее для выбора изображения: его размер или релевантность подписи?

Оба фактора критичны и входят в формулу расчета Image Score. Изображение должно сначала пройти фильтр минимального размера, чтобы рассматриваться как кандидат. Затем его относительный размер и релевантность подписи (пересечение с Document Centroid) играют ключевую роль в ранжировании по сравнению с другими кандидатами в той же статье.

Как система определяет, что изображение является логотипом или фотографией автора?

Система использует метрику Reference Count. Она отслеживает, как часто конкретное изображение используется в разных документах на одном и том же хосте. Если Reference Count высок, система предполагает, что это изображение общего назначения (например, логотип или фото колумниста), а не уникальная иллюстрация к новости, и отфильтровывает его.

Влияет ли расположение изображения на странице на вероятность его выбора?

Да, очень сильно. Расстояние от заголовка документа до изображения является одним из трех основных факторов в формуле Image Score. Чем ближе изображение к заголовку, тем выше его оценка, поскольку это указывает на его важность и связь с основной темой статьи.

Какие технические параметры могут привести к исключению изображения из рассмотрения?

Изображение может быть отфильтровано, если оно слишком маленькое (например, менее 60 пикселей), имеет экстремальное соотношение сторон (например, более 3:1), имеет нестандартный формат файла, содержит гиперссылку (воспринимается как реклама) или размещено на стороннем хостинге, не связанном с издателем.

Как выбирается изображение для кластера новостей (группы статей по одной теме)?

Выбор изображения для кластера основывается на двух ключевых факторах. Во-первых, учитывается ранг (авторитетность) исходного документа внутри кластера — чем выше ранг статьи, тем больше шансов у ее изображения. Во-вторых, оценивается релевантность подписи изображения общей теме кластера (пересечение с Cluster Centroid).

Мы используем CDN для хостинга изображений. Повлияет ли это негативно?

Патент указывает, что изображения, размещенные другими организациями, могут быть отфильтрованы. Однако также упоминается существование «хороших списков» (good lists), которые могут включать доверенные сторонние сервисы кэширования (например, Akamai). При использовании авторитетного CDN, корректно настроенного, проблем возникать не должно.

Анализирует ли Google содержимое самого изображения (Image Recognition)?

В данном патенте основной упор сделан на контекстуальные и технические сигналы. Однако упоминаются дополнительные правила фильтрации после сканирования: отбрасывание изображений, которые содержат текст, выглядят как клип-арт (а не фотографии), или являются одноцветными. Это указывает на применение базовых методов анализа содержимого изображения.

Что такое центроид документа (Document Centroid) и как он используется?

Document Centroid — это набор ключевых слов, которые лучше всего представляют тему новостного документа. Система сравнивает слова в подписи изображения (Image Caption) со словами в центроиде. Чем больше совпадений (Centroid Hits), тем более релевантным считается изображение и тем выше его Image Score.

Влияет ли скорость загрузки изображения на его выбор?

Патент упоминает, что в процессе сканирования изображений (image crawl) устанавливается таймаут. Если изображение не загружается в течение этого времени (timeout period), оно считается недоступным и отбрасывается (discarded). Поэтому медленная скорость загрузки может привести к исключению изображения из кандидатов.