SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует визуальное сходство и графовый анализ (VisualRank) для валидации и ранжирования меток изображений

RANKING OF IMAGES AND IMAGE LABELS (Ранжирование изображений и меток изображений)
  • US7961986B1
  • Google LLC
  • 2008-06-30
  • 2011-06-14
  • Мультимедиа
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google валидирует текстовые метки изображений (например, Alt-текст или имена файлов) с помощью визуального анализа. Система строит граф, связывающий визуально похожие изображения. Симулируя навигацию пользователя по этому графу (алгоритм, подобный PageRank), Google определяет, какие метки наиболее релевантны фактическому содержанию изображения, отфильтровывая шум и повышая качество поиска по картинкам.

Описание

Какую проблему решает

Патент решает проблему низкого качества и зашумленности текстовых меток (labels или keywords), ассоциированных с изображениями. Зачастую эти метки извлекаются автоматически из окружающего текста, имен файлов или метаданных и могут быть неинформативными (например, «круто», «IMG_001.jpg») или нерелевантными фактическому визуальному содержанию изображения. Это ухудшает качество результатов поиска по картинкам.

Что запатентовано

Запатентована система ранжирования изображений и их меток, использующая графовый итеративный алгоритм (часто называемый VisualRank). Суть изобретения в том, что релевантность метки определяется через анализ визуального сходства этого изображения с другими. Система рассчитывает Transitional Probability (вероятность перехода) между визуально похожими изображениями и использует эту вероятность для распространения и валидации релевантности меток по всему графу изображений.

Как это работает

Система работает по следующему принципу:

  • Сбор данных: Извлекаются изображения и их исходные текстовые метки.
  • Визуальный анализ: Для пар изображений рассчитывается степень визуального сходства (Similarity Score) на основе извлеченных признаков (цвет, текстура, объекты).
  • Расчет вероятностей перехода: На основе визуального сходства определяется Transitional Probability P(A→B)P(A->B)P(A→B) — вероятность того, что пользователь перейдет от изображения A к изображению B. Учитывается, что пользователи предпочитают похожие, но не идентичные картинки.
  • Итеративное ранжирование (VisualRank): Используя модель случайного блуждания (аналогично PageRank), система итеративно пересчитывает релевантность меток (функции TRA/TRB). Метка считается релевантной, если она валидирована похожими изображениями.
  • Финализация: Для каждого изображения определяются метки, чья итоговая оценка релевантности удовлетворяет определенному критерию.

Актуальность для SEO

Высокая. Визуальное понимание контента является ключевым направлением развития поиска (Google Lens, MUM). Хотя конкретные методы извлечения визуальных признаков эволюционировали (например, переход от упомянутого SIFT к нейросетевым эмбеддингам), фундаментальный принцип использования визуального сходства для валидации семантики изображений, заложенный в этом патенте (VisualRank), остается крайне актуальным.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно в области оптимизации изображений. Он показывает, что оптимизация текста вокруг изображения (alt, title, окружающий контент) недостаточна, если само изображение визуально нерелевантно теме или не похоже на другие качественные изображения в этом тематическом кластере. Качество и содержание самого визуального актива играют решающую роль в том, как Google его проиндексирует и по каким запросам будет ранжировать.

Детальный разбор

Термины и определения

Degree of Similarity / Similarity Score (Степень сходства)
Числовая метрика, определяющая, насколько два изображения визуально похожи друг на друга на основе сравнения их признаков.
Features (Global/Local) (Признаки изображения)
Визуальные характеристики изображения. Глобальные относятся ко всему изображению (например, общая цветовая гистограмма), локальные — к его частям или объектам (например, SIFT-дескрипторы ключевых точек). Включают цвет, интенсивность, текстуру, края.
Image Quality Metric (Метрика качества изображения)
Оценка технического качества изображения (например, фокус, насыщенность, цветовая глубина), которая может влиять на вероятность перехода к нему.
Image Term Ranking Function (TRA/TRB)
Функции ранжирования, описанные в патенте. Представляют собой вероятностное распределение (на основе модели случайного блуждания), оценивающее релевантность изображения I по отношению к термину Q.
Relationship Metrics / Relationship-based similarity (Метрики взаимосвязей)
Метрика сходства, основанная не на визуальном контенте, а на контексте размещения изображений (например, изображения с одного сайта, блога или связанные структурно, например, через SimRank).
Transitional Probability (Вероятность перехода/навигации P(A→B)P(A->B)P(A→B))
Ключевая метрика патента. Вероятность того, что пользователь перейдет к изображению B, если в данный момент он просматривает изображение A. Рассчитывается на основе Similarity Score и других факторов.
Beta Distribution (Бета-распределение)
Предлагаемый способ моделирования Transitional Probability. Вероятность достигает пика при высоком сходстве, но падает близко к 1.0 (почти дубликаты).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

  1. Система определяет оценку (score) для изображения по отношению к терминам.
  2. Система идентифицирует и ассоциирует с изображением термины, удовлетворяющие критерию.
  3. Ключевой механизм: Определение оценки включает определение вероятностей навигации (probabilities of navigating) между изображениями и расчет оценки на основе этих вероятностей.

Ядро изобретения — использование вероятностей переходов между изображениями для определения релевантности меток.

Claim 2 и 3 (Зависимые от 1): Уточняют происхождение вероятностей навигации.

Вероятности навигации определяются с использованием степеней сходства (degrees of similarity) (Claim 2), которые, в свою очередь, определяются путем сравнения признаков (features) изображений (Claim 3).

Claims 4, 5, 6, 7 (Зависимые от 2): Описывают дополнительные факторы, влияющие на вероятность перехода.

Вероятность навигации может базироваться не только на визуальном сходстве, но и на:

  • Quality metrics (метрики качества изображения, такие как фокус, насыщенность) (Claims 4, 5).
  • Relationship metrics (метрики связи между страницами, на которых размещены изображения) (Claim 6).
  • Комбинации всех трех факторов (Claim 7).

Это критически важно: качество изображения и контекст его размещения влияют на его вес в графе.

Claim 11 (Зависимый от 1): Описывает итеративный характер расчета оценки (механизм VisualRank).

Определение оценки для изображения (Target) включает комбинирование оценок других изображений (Other), умноженных на вероятность перехода от Other к Target (probability adjusted scores).

Это математическое описание итеративного алгоритма распространения релевантности по графу, аналогичного PageRank.

Где и как применяется

Изобретение применяется преимущественно на этапе индексирования для обработки и анализа изображений.

CRAWLING – Сканирование и Сбор данных
Система получает изображения и исходный контент (метаданные, окружающий текст), используемый для генерации начальных меток.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента:

  1. Извлечение признаков: Image Features Module анализирует пиксели и извлекает визуальные признаки (Features). Также рассчитываются Image Quality Metrics.
  2. Расчет сходства: Image Similarity Module сравнивает признаки и строит граф визуального сходства.
  3. Расчет вероятностей: Probabilities Module определяет Transitional Probabilities между изображениями в графе, используя сходство, качество и контекст.
  4. Ранжирование меток: Scoring and Ranking Module выполняет итеративный расчет (VisualRank, используя TRA/TRB) для определения финальных оценок релевантности меток.
  5. Индексирование: Image Indexing Module сохраняет изображения в Image Repository/Index, индексируя их по валидированным и взвешенным меткам.

RANKING – Ранжирование
Image Search Server использует индекс с валидированными метками. Когда поступает запрос, система ищет и ранжирует изображения, используя эти уточненные данные.

На что влияет

  • Типы контента: Влияет на все типы изображений (фотографии, иллюстрации, графика) в Поиске по Картинкам.
  • Специфические запросы: Наибольшее влияние на запросы, где визуальное содержание является ключевым. Помогает уточнить выдачу и отфильтровать изображения, попавшие в топ из-за текстовых манипуляций.
  • Ниши: Критично для E-commerce, моды, дизайна, где точность соответствия изображения запросу имеет первостепенное значение.

Когда применяется

  • Временные рамки: Алгоритм применяется в процессе индексирования и обработки изображений (офлайн или в пакетном режиме). Расчет визуального сходства и итеративное ранжирование являются вычислительно затратными и выполняются до момента поступления запроса пользователя.

Пошаговый алгоритм

Этап 1: Подготовка данных

  1. Получение данных: Сбор изображений и извлечение исходных меток (из метаданных, текста и т.д.).
  2. Извлечение признаков: Для каждого изображения идентифицируются визуальные признаки (SIFT, гистограммы) и рассчитываются метрики качества (фокус, насыщенность).

Этап 2: Построение графа сходства

  1. Расчет степени сходства: Для пар изображений определяется Similarity Score путем сравнения визуальных признаков.
  2. Определение вероятностей перехода (Transitional Probability): Для пар изображений рассчитывается P(A→B)P(A->B)P(A→B). Эта вероятность является функцией от Similarity Score, Image Quality Metric и Relationship Metrics. Используется Бета-распределение для снижения вероятности перехода к почти дубликатам.

Этап 3: Итеративное ранжирование меток (VisualRank)

  1. Инициализация оценок: Для конкретной метки Q всем изображениям присваивается начальная оценка релевантности (например, на основе частоты или TF-IDF).
  2. Итеративный пересчет (Random Walk): Оценки релевантности пересчитываются итеративно (используя формулы TRA или TRB) до сходимости. Оценка изображения A обновляется на основе оценок других изображений (B, C...), умноженных на вероятность перехода от них к A.

Этап 4: Финализация

  1. Выбор и ассоциация: Идентифицируются метки, удовлетворяющие критерию (например, самая высокая оценка или выше порога), и эти метки ассоциируются с изображением в индексе.

Какие данные и как использует

Данные на входе

  • Контентные факторы (Текстовые): Исходные метки изображений. Извлекаются из имен файлов, EXIF-метаданных, окружающего текста, анкорного текста ссылок на изображение.
  • Мультимедиа факторы (Визуальные): Пиксельные данные. Используются для извлечения Global/Local Features (интенсивность, цвет, края, текстура, ключевые точки SIFT).
  • Технические факторы (Качество): Производные метрики качества изображения (Image Quality Metrics): цветовая глубина, уровень фокуса, насыщенность.
  • Структурные факторы (Контекст размещения): Информация о том, где размещены изображения (URL, хост). Используется для расчета Relationship Metrics (например, изображения с одного сайта).
  • Поведенческие факторы (Опционально): В патенте упоминается возможность использования данных о кликах (co-click data) для уточнения оценки Transitional Probability.

Какие метрики используются и как они считаются

  • Similarity Score: Рассчитывается путем сравнения визуальных признаков двух изображений.
  • Transitional Probability P(A→B)P(A->B)P(A→B): Функция от Similarity Score, Image Quality Metric и Relationship Metrics. Предлагается использовать Бета-распределение от сходства.
  • Image Term Ranking Score (TRA/TRB): Итоговая оценка релевантности. Рассчитывается итеративно.

TRA (Стандартное случайное блуждание):

TRA(Mi,Q)=∑(P(Mj→Mi)∗TRA(Mj,Q))TR_A(M_i, Q) = \sum (P(M_j -> M_i) * TR_A(M_j, Q))TRA​(Mi​,Q)=∑(P(Mj​→Mi​)∗TRA​(Mj​,Q))

TRB (Случайное блуждание с телепортацией): Аналогично стандартному PageRank, включает коэффициент затухания (d) и возможность телепортации к любому изображению, связанному с запросом Q.

TRB(Mi,Q)=[Teleportation+d∗∑(P(Mj→Mi)∗TRB(Mj,Q))TR_B(M_i, Q) = [\text{Teleportation}] + d * \sum (P(M_j -> M_i) * TR_B(M_j, Q))TRB​(Mi​,Q)=[Teleportation]+d∗∑(P(Mj​→Mi​)∗TRB​(Mj​,Q))

Выводы

  1. Визуальное содержание определяет релевантность: Текстовые сигналы (alt-text, имена файлов) рассматриваются как исходные гипотезы о содержании. Эти гипотезы затем валидируются или опровергаются на основе визуального анализа и сходства с другими изображениями в индексе.
  2. Контекст визуального графа (VisualRank): Изображения не оцениваются изолированно. Применяется модель, аналогичная PageRank, где релевантность распространяется по графу визуально похожих изображений. "Ссылками" в этом графе являются вероятности перехода (Transitional Probabilities).
  3. Техническое качество изображения влияет на ранжирование: Метрики качества (Image Quality Metrics, такие как фокус, насыщенность) напрямую влияют на Transitional Probability (Claims 4, 5). Более качественные изображения получают преимущество.
  4. Контекст размещения влияет на ранжирование: Система может учитывать связь между источниками изображений (Relationship Metrics, Claim 6). Изображения с авторитетных или тематически связанных ресурсов могут получать преимущество.
  5. Умеренное поощрение разнообразия (Борьба с дубликатами): Механизм расчета Transitional Probability (использование Бета-распределения) предполагает, что пользователи реже переходят к почти идентичным изображениям. Система предпочитает похожие, но не идентичные результаты.

Практика

Best practices (это мы делаем)

  • Использование высококачественных и четких изображений: Поскольку Image Quality Metrics (фокус, насыщенность) влияют на Transitional Probability, технически качественные изображения получают преимущество в алгоритме VisualRank и лучше ранжируются.
  • Обеспечение визуальной релевантности контенту: Убедитесь, что изображение строго соответствует теме страницы и тексту (включая alt-text). Если изображение визуально не соответствует текстовым меткам, система может их девальвировать.
  • Создание уникального визуального контента: Из-за использования Бета-распределения для вероятности перехода, система может понижать интерес к точным копиям (дубликатам). Используйте уникальные ракурсы или оригинальный дизайн, сохраняя при этом визуальное сходство с темой.
  • Поддержание визуальной консистентности в нише: Размещайте изображения, которые визуально схожи с другими авторитетными изображениями в вашей тематике. Это помогает системе правильно классифицировать ваше изображение и включить его в нужный визуальный кластер, что способствует валидации ваших ключевых меток.

Worst practices (это делать не надо)

  • Манипуляции с метаданными (Keyword Stuffing): Перечисление множества ключевых слов в alt-text или имени файла, если они не отражают визуальное содержание. Алгоритм VisualRank отфильтрует эти метки, если они не подтверждаются визуальным графом.
  • Использование нерелевантных или декоративных изображений: Размещение изображений, которые визуально не связаны с основной темой контента. Текстовая оптимизация не поможет, так как визуальный анализ не подтвердит эти метки.
  • Использование размытых или низкокачественных изображений: Изображения с низкими Image Quality Metrics будут иметь низкую Transitional Probability, что снизит их эффективность в поиске по картинкам.
  • Чрезмерное использование популярных стоковых фото без изменений: Они могут быть классифицированы как дубликаты и иметь сниженную ценность по сравнению с уникальным контентом.

Стратегическое значение

Этот патент подчеркивает, что для Google Image Search визуальное содержание первично, а текст вторичен. Стратегия SEO должна фокусироваться на качестве и содержании самого визуального актива. Google способен кластеризовать изображения по визуальному сходству и определять канонические метки для всего кластера. Если оптимизированное изображение не попадает в релевантный визуальный кластер, оно не будет хорошо ранжироваться, независимо от текстовой оптимизации.

Практические примеры

Сценарий: Оптимизация карточки товара в E-commerce

Задача: Продвинуть изображение нового смартфона «Pixel 9» в поиске по картинкам.

  1. Анализ (на основе патента): Система Google будет сравнивать ваше изображение с другими изображениями Pixel 9. Чтобы метка «Pixel 9» была признана релевантной, ваше изображение должно быть визуально похоже на них (попасть в кластер) и быть высокого качества (высокая Transitional Probability).
  2. Действия:
    • Сделать уникальные, высококачественные фотографии смартфона с разных ракурсов (не используя стандартные фото производителя).
    • Убедиться, что объект на фото легко идентифицируется и визуально соответствует кластеру Pixel 9.
    • Оптимизировать alt-text и имя файла под «Pixel 9».
  3. Результат: Уникальность избегает пессимизации за дубликаты. Визуальное сходство с кластером и высокое качество приводят к высокой оценке VisualRank для метки «Pixel 9». Изображение хорошо ранжируется.
  4. Анти-паттерн: Использование рендера низкого качества или стандартного фото от производителя. В первом случае низкое качество снизит ранг; во втором случае изображение будет конкурировать с тысячами дубликатов и может быть пессимизировано.

Вопросы и ответы

Что такое VisualRank, упоминаемый в связи с этим патентом?

VisualRank — это неофициальное название алгоритма, описанного в этом патенте. Это аналог PageRank, применяемый к изображениям. Вместо анализа ссылок между страницами, он анализирует визуальное сходство между изображениями. Релевантность меток и авторитетность изображений распространяются по графу визуально похожих картинок с помощью итеративного алгоритма случайного блуждания.

Означает ли этот патент, что Alt-text больше не важен для SEO изображений?

Нет, Alt-text остается важным сигналом. Он служит источником исходных меток (кандидатов) для инициализации алгоритма. Однако патент описывает механизм, который валидирует эти исходные метки на основе визуального содержания. Если Alt-text не соответствует тому, что изображено, он будет проигнорирован или его вес будет значительно снижен.

Что такое Transitional Probability и почему она важна?

Transitional Probability P(A→B)P(A->B)P(A→B) — это оценка вероятности того, что пользователь перейдет от изображения A к изображению B. Это вес ребра в графе изображений. Именно эти вероятности используются в алгоритме VisualRank для распространения релевантности меток. Она рассчитывается на основе визуального сходства, качества изображения B и связи между источниками A и B.

Как техническое качество изображения (например, резкость) влияет на SEO согласно патенту?

Патент явно указывает (Claims 4, 5), что метрики качества изображения (Image Quality Metrics, такие как фокус, насыщенность) используются при расчете Transitional Probability. Предполагается, что пользователи предпочитают переходить к более качественным изображениям. Следовательно, технически качественные изображения получают более высокий вес в алгоритме VisualRank и ранжируются лучше.

Как этот алгоритм борется с дубликатами изображений?

Патент предлагает использовать Бета-распределение при расчете вероятности перехода. Это означает, что вероятность перехода растет по мере увеличения сходства, но только до определенного момента. Если изображения становятся слишком похожими (почти дубликаты), вероятность перехода снижается. Это помогает системе предпочитать похожие, но разнообразные результаты, а не точные копии.

Влияет ли контекст размещения (сайт, страница) на ранжирование изображения?

Да. Патент упоминает (Claim 6) использование Relationship Metrics при расчете Transitional Probability. Изображения, размещенные на связанных ресурсах (например, на одном и том же сайте или тематически близких страницах), могут считаться более связанными, что увеличивает вероятность перехода между ними и влияет на итоговый ранг.

Как этот патент влияет на использование стоковых фотографий?

Стоковые фотографии часто являются точными дубликатами, что может привести к снижению Transitional Probability. Кроме того, если они используются в нерелевантном контексте, VisualRank не подтвердит их метки. Для SEO эффективнее использовать уникальные, качественные и строго релевантные изображения, которые визуально поддерживают контент страницы.

Может ли система присвоить изображению метку, которой не было в исходных данных (Alt-text, имя файла)?

Основной фокус патента (Claim 1) — ранжирование и валидация существующих меток. Он не описывает генерацию новых меток с нуля. Однако, путем анализа графа он может значительно усилить слабые метки и полностью отбросить сильные, если они не подтверждаются визуальным контентом, что изменяет итоговый набор ассоциаций в индексе.

Чем отличаются алгоритмы TRA и TRB, описанные в патенте?

TRA — это стандартный алгоритм случайного блуждания, основанный только на вероятностях перехода. TRB больше похож на классический PageRank: он включает коэффициент затухания (d) и возможность "телепортации" к любому изображению, связанному с запросом. TRB более стабилен и гарантирует сходимость алгоритма.

Актуальны ли методы анализа изображений (SIFT, гистограммы), упомянутые в патенте 2008 года?

Конкретные методы извлечения признаков (SIFT, гистограммы) сегодня в значительной степени заменены более продвинутыми технологиями на основе глубокого обучения (нейросетевые эмбеддинги). Однако сама архитектура системы — построение графа сходства и использование итеративного алгоритма для ранжирования меток — остается фундаментальной концепцией, не зависящей от конкретного метода расчета сходства.

Похожие патенты

Как Google использует визуальное сходство для определения и уточнения ключевых слов изображений (VisualRank)
Google анализирует визуальные характеристики изображений и строит граф сходства. Релевантные ключевые слова распространяются от размеченных изображений к похожим, но неразмеченным или плохо размеченным изображениям. Это позволяет поисковой системе понять реальное содержание картинки, основываясь на визуальных данных, и отфильтровать шум в метаданных или окружающем тексте.
  • US8356035B1
  • 2013-01-15
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)
Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.
  • US8429173B1
  • 2013-04-23
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google переводит изображения в текстовые запросы, валидируя метки через веб-поиск
Google использует эту систему для определения наилучшего текстового описания (метки) для изображения. Система тестирует различные варианты меток, используя их как поисковые запросы, и проверяет, сколько результатов поиска указывают на веб-страницы, содержащие исходное изображение. Это гарантирует, что выбранная метка точно отражает то, как изображение используется и понимается в интернете.
  • US9218546B2
  • 2015-12-22
  • Мультимедиа

  • Семантика и интент

  • Индексация

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Популярные патенты

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска
Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.
  • US8583675B1
  • 2013-11-12
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов
Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.
  • US8495483B1
  • 2013-07-23
  • Индексация

  • Ссылки

  • SERP

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату
Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.
  • US9355158B2
  • 2016-05-31
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

seohardcore