SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google выбирает главное изображение для новостных статей и кластеров в Google News и Top Stories

IMAGE SELECTION FOR NEWS SEARCH (Выбор изображений для поиска по новостям)
  • US8775436B1
  • Google LLC
  • 2008-08-20 (Продолжение заявки от 2004-03-19)
  • 2014-07-08
  • Мультимедиа
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует многофакторную систему для выбора наилучшего изображения, представляющего новостную статью или кластер. Система фильтрует неподходящие изображения (рекламу, логотипы), анализирует контекст (подписи, Alt-текст, расположение рядом с заголовком) и оценивает технические параметры (размер, формат), чтобы выбрать изображение для показа в результатах поиска новостей.

Описание

Какую проблему решает

Патент решает проблему автоматического выбора наиболее релевантного изображения для представления новостной статьи или группы связанных статей (cluster) в результатах поиска (например, в Google News). Новостные документы часто содержат множество изображений, не связанных с основной темой (реклама, логотипы, фотографии авторов). Изобретение направлено на фильтрацию этих нежелательных изображений (suspect images) и точную идентификацию изображения, которое лучше всего иллюстрирует новость.

Что запатентовано

Запатентована система и метод для многоэтапной фильтрации, анализа и оценки изображений из новостных документов. Система использует набор правил для идентификации подходящих кандидатов (candidate images) и применяет механизм оценки (Image Score), основанный на технических характеристиках, расположении на странице и семантическом анализе подписей (captions). Цель — выбрать одно репрезентативное изображение для статьи или кластера.

Как это работает

Система работает в несколько этапов:

  • Сканирование и Фильтрация: Система сканирует новостные документы и применяет правила для отсева suspect images (неправильный размер/формат, наличие ссылок, сторонний хостинг).
  • Обнаружение Подписей: Для кандидатов система ищет подписи, анализируя Alt text или текст, расположенный рядом с изображением в HTML-структуре (например, в ячейках таблицы).
  • Оценка (Scoring): Изображения получают оценку (Image Score) на основе размера, близости к заголовку и релевантности подписи содержанию документа (Document Centroid).
  • Фильтрация по частоте: Система использует Reference Count для исключения изображений, которые часто повторяются на сайте (например, фото авторов или логотипы).
  • Выбор: Выбирается лучшее изображение для документа. Для кластера статей выбирается лучшее изображение с учетом ранга документа-источника и релевантности изображения теме кластера (Cluster Centroid).

Актуальность для SEO

Высокая. Выбор репрезентативного изображения критически важен для привлечения внимания и CTR в Google News, блоках Top Stories и Google Discover. Несмотря на возраст патента (оригинальная заявка 2004 года), описанные в нем фундаментальные принципы — техническая фильтрация, контекстуальный анализ (подписи, расположение) и оценка релевантности — остаются актуальными. Участие Krishna Bharat (ключевой фигуры в создании Google News) подчеркивает значимость патента.

Важность для SEO

Влияние на SEO значительно (8/10), особенно для издателей новостей. Патент раскрывает конкретные факторы, которые Google анализирует при выборе изображения для показа. Понимание этих механизмов позволяет SEO-специалистам оптимизировать размещение, технические характеристики и контекст изображений, чтобы повысить вероятность их выбора, что напрямую влияет на трафик из новостных вертикалей.

Детальный разбор

Термины и определения

Candidate Image (Изображение-кандидат)
Изображение, прошедшее первичную фильтрацию и рассматриваемое как потенциально релевантное теме новостного документа.
Suspect Image (Подозрительное изображение)
Изображение, которое с высокой вероятностью не связано с темой новости (реклама, логотипы, иконки, фото колумнистов). Отфильтровывается системой.
Image Caption (Подпись к изображению)
Текст, описывающий изображение. Извлекается из Alt text или из текста, структурно расположенного рядом с изображением (например, в той же ячейке таблицы).
Document Centroid (Центроид документа)
Набор слов, наиболее репрезентативных для содержания конкретного новостного документа.
Cluster Centroid (Центроид кластера)
Набор слов, наиболее репрезентативных для темы кластера связанных новостных документов.
Image Score (Оценка изображения)
Числовая оценка, рассчитываемая для изображений-кандидатов на основе факторов размера, расположения и релевантности подписи.
Reference Count (Счетчик ссылок/использований)
Метрика, показывающая, как часто на конкретное изображение ссылаются различные документы на одном и том же хосте. Используется для идентификации повторяющихся нерелевантных изображений.
Text Runs (Текстовые фрагменты)
Непрерывные фрагменты текста внутри HTML-тегов, анализируемые системой при поиске подписей к изображениям.
Poison Words («Ядовитые» слова)
Слова в Alt text, которые не связаны с темой документа (например, имя фотографа), что делает Alt text непригодным для использования в качестве подписи.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод выбора репрезентативного изображения для кластера документов на основе многофакторной оценки.

  1. Система идентифицирует подпись (caption), связанную с изображением в документе, входящем в кластер.
  2. Генерируется первая оценка на основе размера изображения.
  3. Генерируется вторая оценка на основе расстояния между изображением и заголовком документа.
  4. Генерируется третья оценка на основе подписи изображения.
  5. Генерируется общая оценка (overall score) на основе этих трех оценок.
  6. Изображение идентифицируется как репрезентативное для кластера на основе общей оценки.

Claim 4 (Независимый пункт): Альтернативное описание метода выбора для кластера с фокусом на анализе релевантности подписи.

  1. Идентификация подписи изображения.
  2. Определение количества раз, когда слова из подписи появляются в теле документа.
  3. Определение первого фактора на основе размера изображения ИЛИ расстояния до заголовка.
  4. Определение второго фактора на основе количества появлений слов подписи в теле документа.
  5. Определение оценки изображения на основе первого и второго факторов.
  6. Выбор изображения как репрезентативного для кластера.

Claims 5-11 (Зависимые): Детализируют процесс фильтрации изображений.

Они защищают правила исключения изображений на основе: неправильной формы (Claim 6), размера ниже порога (Claim 7), экстремального соотношения сторон (Claim 8), неподходящего формата файла (Claim 9), наличия ссылки в изображении (Claim 10) и если хост изображения отличается от хоста документа (Claim 11).

Claim 21 (Независимый пункт): Описывает метод фильтрации на основе частоты использования (Reference Count).

  1. Система определяет для изображения счетчик (count), указывающий, сколько раз на это изображение ссылаются документы с определенного хоста.
  2. На основе этого счетчика изображение исключается (например, если счетчик слишком высок, это может быть логотип или фото автора).
  3. Для оставшихся изображений определяются подписи.
  4. Изображение выбирается для ассоциации с документом на основе подписей.

Где и как применяется

Изобретение применяется преимущественно на этапах сбора и индексирования новостного контента.

CRAWLING – Сканирование и Сбор данных
Система (News Crawling Unit) сканирует новостные документы, извлекает URL-адреса изображений и их метаданные из HTML. Затем система скачивает сами файлы изображений для проверки их доступности, определения фактических характеристик и сбора данных для расчета Reference Count.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система (News Image Processing Unit) выполняет:

  1. Фильтрацию: Отделение Candidate Images от Suspect Images по техническим и частотным признакам.
  2. Анализ контента и структуры: Вычисление Document Centroid. Анализ HTML (особенно таблиц) для обнаружения Image Captions. Определение расположения изображения относительно заголовка.
  3. Оценку: Расчет Image Score для кандидатов.
  4. Выбор: Определение лучшего изображения для документа и сохранение ассоциации в индексе.
  5. Кластеризацию: Группировка новостей и выбор лучшего изображения для кластера.

METASEARCH – Метапоиск и Смешивание
На этапе формирования выдачи (Google News, Top Stories) система использует предварительно выбранное репрезентативное изображение для отображения рядом с соответствующим новостным результатом или кластером.

На что влияет

  • Конкретные типы контента: Влияет преимущественно на новостные документы (News Articles). В заключении патента также упоминается потенциальная применимость к поиску продуктов (product searches).
  • Специфические запросы: Влияет на отображение результатов в Google News и блоках Top Stories при поиске по новостным интентам.

Когда применяется

  • Условия работы: Алгоритм применяется в процессе индексирования и кластеризации новостного контента.
  • Триггеры активации: Наличие изображений в документе, идентифицированном как новостной.
  • Пороговые значения: Система использует множество порогов: минимальный размер (например, 60 пикселей), допустимое соотношение сторон (например, не более 3:1), максимальная длина подписи, порог для Reference Count.

Пошаговый алгоритм

Процесс выбора репрезентативного изображения:

  1. Сканирование и Извлечение: Система сканирует новостные документы и извлекает URL всех изображений и их атрибуты (размеры в HTML, alt text).
  2. Предварительная фильтрация (Создание кандидатов): Изображения фильтруются для удаления Suspect Images. Правила включают проверку:
    • Размера и соотношения сторон.
    • Формата файла (JPEG, GIF, PNG и т.д.).
    • Наличия ссылок (отсеивание рекламы).
    • Источника хостинга (должен совпадать с организацией издателя, с возможными исключениями для доверенных CDN, упомянутых как 'good list').
  3. Обнаружение подписей (Caption Detection): Для кандидатов ищется подпись:
    • Анализ Alt text на наличие Poison Words.
    • Если Alt text не подходит, анализируется HTML-структура. Если изображение в таблице, ищутся Text Runs в той же или соседних ячейках, проверяется их длина, чтобы убедиться, что это подпись, а не тело статьи.
  4. Оценка кандидатов (Scoring): Расчет Image Score. Патент предлагает формулу:

Выводы

  1. Комплексный подход к выбору изображений: Google использует многофакторную модель для выбора изображений в новостях, которая учитывает технические, структурные и контентные сигналы. Это не просто выбор первого или самого большого изображения.
  2. Критическая роль подписей (Captions и Alt Text): Наличие и качество Image Caption является ключевым фактором оценки релевантности. Система активно ищет подписи в Alt text или окружающем тексте и сравнивает их с темой статьи (Document Centroid).
  3. Важность расположения и размера: Размер изображения и его близость к заголовку статьи являются важными компонентами Image Score. Приоритет отдается крупным изображениям в начале статьи.
  4. Фильтрация повторяющихся изображений (Reference Count): Система активно борется с показом шаблонных изображений (логотипы, фото авторов). Метрика Reference Count позволяет идентифицировать и исключать изображения, которые часто используются на сайте в разных контекстах.
  5. Жесткие технические требования: Изображения должны соответствовать критериям минимального размера, умеренного соотношения сторон, стандартного формата. Изображения, содержащие ссылки или размещенные на сторонних доменах, активно фильтруются как потенциальная реклама.
  6. Авторитетность источника влияет на выбор в кластерах: Для новостных сюжетов (кластеров) выбор изображения зависит не только от его качества, но и от ранга (авторитетности) статьи, в которой оно содержится.

Практика

Best practices (это мы делаем)

  • Оптимизация подписей (Captions и Alt Text): Обеспечьте наличие четких, релевантных подписей для ключевых изображений. Используйте описательный Alt text без "ядовитых" слов (например, имен фотографов). Убедитесь, что слова в подписи пересекаются с основными терминами статьи.
  • Стратегическое размещение: Размещайте наиболее важное изображение как можно ближе к заголовку статьи, так как расстояние до заголовка является фактором оценки.
  • Использование качественных и уникальных изображений: Отдавайте предпочтение более крупным изображениям со стандартным соотношением сторон (избегая экстремальных, например, более 3:1). Используйте уникальные изображения для статей, чтобы избежать проблем с высоким Reference Count.
  • Техническая оптимизация: Используйте стандартные форматы (JPEG, PNG). Убедитесь, что изображения доступны для сканирования и быстро загружаются (чтобы избежать таймаута при скачивании, упомянутого в патенте).
  • Чистая и семантическая верстка: Используйте чистую HTML-структуру, которая позволяет системе ассоциировать текст подписи с изображением. В современном вебе использование <figure> и <figcaption> соответствует логике анализа структуры, описанной в патенте.
  • Контроль хостинга: Размещайте изображения на том же домене или поддомене организации, что и новостной сайт. Использование доверенных CDN допустимо.

Worst practices (это делать не надо)

  • Использование изображений как ссылок: Не используйте ключевые тематические изображения в качестве гиперссылок. Это сильный сигнал для классификации изображения как рекламы и его исключения из кандидатов.
  • Чрезмерное повторное использование изображений: Избегайте использования одного и того же изображения (например, стандартного фото автора или логотипа рубрики) во множестве разных статей. Высокий Reference Count приведет к их фильтрации.
  • Игнорирование Alt Text и подписей: Отсутствие контекстных сигналов значительно снижает Image Score и вероятность выбора изображения.
  • Использование маленьких или непропорциональных изображений: Иконки, слишком узкие баннеры или маленькие изображения будут отфильтрованы по техническим критериям.
  • Размещение главного изображения в конце статьи: Большое расстояние до заголовка снизит оценку изображения.

Стратегическое значение

Патент подчеркивает важность структурирования контента и технической оптимизации для новостных сайтов. Он демонстрирует, что Google глубоко анализирует структуру страницы (HTML, расположение элементов) и контекст (подписи, центроиды) для выбора визуального представления контента. Для издателей это означает, что техническая реализация CMS и редакционные процессы по работе с изображениями напрямую влияют на видимость и CTR в новостных вертикалях Google (Google News, Top Stories, Discover).

Практические примеры

Сценарий 1: Оптимизация изображения для статьи о спортивном событии

Цель: Максимизировать вероятность того, что фотография ключевого момента матча будет выбрана в качестве репрезентативного изображения.

  1. Размещение и Размер: Фотография размещается сразу после заголовка H1. Размер 1600x900px (большой размер, стандартное соотношение).
  2. Оптимизация Alt Text: Прописывается alt="Игрок А забивает решающий гол в ворота Команды Б на 90-й минуте матча". Это обеспечивает высокое пересечение с Document Centroid.
  3. Технические аспекты: Изображение в формате JPEG, без ссылки, размещено на основном домене.
  4. Устранение конкуренции: Логотипы команд или реклама спонсоров имеют меньший размер или расположены ниже по тексту.
  5. Ожидаемый результат: Система присваивает этой фотографии высокий Image Score благодаря близости к заголовку, большому размеру и релевантной подписи. Изображение выбирается для показа в Google News.

Сценарий 2: Фильтрация фотографии автора (Reference Count)

  1. Ситуация: Колумнист публикует ежедневные статьи, и CMS автоматически добавляет его стандартную фотографию в каждую статью.
  2. Анализ системы: Google сканирует сайт и обнаруживает, что одно и то же изображение (фото колумниста) имеет очень высокий Reference Count (используется в сотнях статей на одном хосте).
  3. Результат: Система классифицирует это изображение как Suspect Image и исключает его из кандидатов, даже если оно большое и находится близко к заголовку. Вместо него будет выбрано другое, тематическое изображение из статьи (если оно есть).

Вопросы и ответы

Как Google определяет подпись к изображению (Image Caption), если Alt text отсутствует?

Если Alt text отсутствует или содержит "ядовитые слова" (например, имя фотографа), система анализирует HTML-структуру страницы. Если изображение находится внутри HTML-таблицы, система ищет текстовые фрагменты (Text Runs) в той же или соседних ячейках. Эти фрагменты используются как подпись, если они не слишком длинные, что позволяет отличить подпись от основного текста статьи.

Что важнее для выбора изображения: его размер или релевантность подписи?

Оба фактора критичны и входят в формулу расчета Image Score. Изображение должно сначала пройти фильтр минимального размера, чтобы рассматриваться как кандидат. Затем его относительный размер и релевантность подписи (пересечение с Document Centroid) играют ключевую роль в ранжировании по сравнению с другими кандидатами в той же статье.

Как система определяет, что изображение является логотипом или фотографией автора?

Система использует метрику Reference Count. Она отслеживает, как часто конкретное изображение используется в разных документах на одном и том же хосте. Если Reference Count высок, система предполагает, что это изображение общего назначения (например, логотип или фото колумниста), а не уникальная иллюстрация к новости, и отфильтровывает его.

Влияет ли расположение изображения на странице на вероятность его выбора?

Да, очень сильно. Расстояние от заголовка документа до изображения является одним из трех основных факторов в формуле Image Score. Чем ближе изображение к заголовку, тем выше его оценка, поскольку это указывает на его важность и связь с основной темой статьи.

Какие технические параметры могут привести к исключению изображения из рассмотрения?

Изображение может быть отфильтровано, если оно слишком маленькое (например, менее 60 пикселей), имеет экстремальное соотношение сторон (например, более 3:1), имеет нестандартный формат файла, содержит гиперссылку (воспринимается как реклама) или размещено на стороннем хостинге, не связанном с издателем.

Как выбирается изображение для кластера новостей (группы статей по одной теме)?

Выбор изображения для кластера основывается на двух ключевых факторах. Во-первых, учитывается ранг (авторитетность) исходного документа внутри кластера — чем выше ранг статьи, тем больше шансов у ее изображения. Во-вторых, оценивается релевантность подписи изображения общей теме кластера (пересечение с Cluster Centroid).

Мы используем CDN для хостинга изображений. Повлияет ли это негативно?

Патент указывает, что изображения, размещенные другими организациями, могут быть отфильтрованы. Однако также упоминается существование "хороших списков" (good lists), которые могут включать доверенные сторонние сервисы кэширования (например, Akamai). При использовании авторитетного CDN, корректно настроенного, проблем возникать не должно.

Анализирует ли Google содержимое самого изображения (Image Recognition)?

В данном патенте основной упор сделан на контекстуальные и технические сигналы. Однако упоминаются дополнительные правила фильтрации после сканирования: отбрасывание изображений, которые содержат текст, выглядят как клип-арт (а не фотографии), или являются одноцветными. Это указывает на применение базовых методов анализа содержимого изображения.

Что такое центроид документа (Document Centroid) и как он используется?

Document Centroid — это набор ключевых слов, которые лучше всего представляют тему новостного документа. Система сравнивает слова в подписи изображения (Image Caption) со словами в центроиде. Чем больше совпадений (Centroid Hits), тем более релевантным считается изображение и тем выше его Image Score.

Влияет ли скорость загрузки изображения на его выбор?

Патент упоминает, что в процессе сканирования изображений (image crawl) устанавливается таймаут. Если изображение не загружается в течение этого времени (timeout period), оно считается недоступным и отбрасывается (discarded). Поэтому медленная скорость загрузки может привести к исключению изображения из кандидатов.

Похожие патенты

Как Google выбирает главное (репрезентативное) изображение страницы для показа в результатах поиска
Google использует систему для автоматического выбора наилучшего изображения, представляющего содержание статьи или веб-страницы. Система анализирует все изображения на странице, оценивая их характеристики (размер, формат, расположение, контекст) и присваивая им оценку (Image Data Score). Цель – отличить содержательные фотографии от элементов дизайна или иконок. Изображение с наивысшей оценкой выбирается в качестве репрезентативного для показа в SERP, Новостях или Discover.
  • US7580568B1
  • 2009-08-25
  • Мультимедиа

  • SERP

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования
Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.
  • US9858295B2
  • 2018-01-02
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)
Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.
  • US8429173B1
  • 2013-04-23
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса
Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.
  • US10366422B2
  • 2019-07-30
  • Поведенческие сигналы

  • Local SEO

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы
Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.
  • US8392435B1
  • 2013-03-05
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами
Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.
  • US7783639B1
  • 2010-08-24
  • Ссылки

  • Антиспам

  • EEAT и качество

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

seohardcore