SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует визуальное сходство для определения и уточнения ключевых слов изображений (VisualRank)

ASSOCIATION OF TERMS WITH IMAGES USING IMAGE SIMILARITY (Ассоциация терминов с изображениями с использованием сходства изображений)
  • US8356035B1
  • Google LLC
  • 2007-04-10
  • 2013-01-15
  • Индексация
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует визуальные характеристики изображений и строит граф сходства. Релевантные ключевые слова распространяются от размеченных изображений к похожим, но неразмеченным или плохо размеченным изображениям. Это позволяет поисковой системе понять реальное содержание картинки, основываясь на визуальных данных, и отфильтровать шум в метаданных или окружающем тексте.

Описание

Какую проблему решает

Патент решает проблему низкой точности и зашумленности меток (ключевых слов), используемых для индексации изображений. Традиционные методы полагаются на текст, окружающий изображение, метаданные (например, Exif) или имена файлов. Эти данные часто бывают неинформативными (например, «круто», «wow»), отсутствуют или нерелевантны содержанию картинки. Это ухудшает качество результатов поиска по изображениям.

Что запатентовано

Запатентована система для автоматического аннотирования, уточнения и взвешивания терминов, ассоциированных с изображениями, на основе анализа их визуального сходства. Система строит Similarity Graph (Граф Сходства), где узлы — это изображения, а вес ребер — степень их визуального сходства. Затем релевантные термины распространяются (Term Propagation) по этому графу, позволяя системе определить наиболее точные ключевые слова на основе визуального контента.

Как это работает

Система работает в несколько этапов:

  • Сбор данных: Собираются изображения и их исходные термины (из метаданных, окружающего текста).
  • Извлечение признаков: Для каждого изображения извлекаются визуальные признаки (Image Features), например, с помощью SIFT или цветовых гистограмм.
  • Расчет сходства: Вычисляется степень визуального сходства (Degree of Similarity) между парами изображений.
  • Построение графа: Строится Similarity Graph, где ребра между изображениями взвешены по степени их сходства.
  • Распространение терминов (VisualRank): Термины итеративно распространяются по графу. Вес термина для изображения зависит от весов этого термина у визуально похожих соседей, скорректированного на степень сходства.
  • Выбор меток: Для каждого изображения выбираются термины с наибольшим итоговым весом.

Актуальность для SEO

Высокая. Точное понимание изображений на основе визуального контента критически важно для современных поисковых систем (Google Images, Google Lens). Описанный механизм, часто называемый VisualRank, и лежащие в его основе принципы (использование графовых структур и итеративное распространение сигналов) остаются фундаментальными в системах Information Retrieval для масштабируемого улучшения качества разметки изображений.

Важность для SEO

Патент имеет высокое значение для стратегий Image SEO. Он демонстрирует, что Google может определять тематику изображения, основываясь преимущественно на его визуальном содержании, потенциально корректируя или игнорируя оптимизированный ALT-текст или окружающий контент, если визуальные сигналы сильнее или противоречат тексту. Это подчеркивает критическую важность использования четких, релевантных и визуально консистентных изображений.

Детальный разбор

Термины и определения

Degree of Similarity / Similarity Score (Степень сходства / Оценка сходства)
Числовое значение, определяющее, насколько два изображения визуально похожи друг на друга. Рассчитывается путем сравнения Image Features.
Image Features (Признаки изображения)
Визуальные характеристики изображения, используемые для сравнения. Могут быть глобальными (например, общая цветовая гистограмма) или локальными (например, дескрипторы вокруг Keypoints).
Injector Node (Узел-инжектор)
Вспомогательный узел в Similarity Graph, который хранит исходные термины, ассоциированные с изображением. Он «внедряет» эти термины с начальным весом в соответствующий узел изображения.
Keypoints / Points of Interest (Ключевые точки / Точки интереса)
Особые точки на изображении (например, углы, перепады яркости), используемые для вычисления локальных признаков и нахождения соответствий между изображениями.
Random Walk (Случайное блуждание)
Альтернативный алгоритм распространения меток, упомянутый в патенте. Используется для оценки важности терминов путем моделирования случайных переходов по графу до достижения Injector Node.
SIFT (Scale-Invariant Feature Transform)
Конкретный алгоритм, упомянутый в патенте, для извлечения локальных признаков, устойчивых к изменениям масштаба и поворота изображения.
Similarity Graph (Граф сходства)
Взвешенный граф, где узлы представляют изображения, а вес ребра между двумя узлами отражает их Degree of Similarity.
Term Propagation (Распространение терминов)
Итеративный процесс, в ходе которого термины и их веса передаются между узлами в Similarity Graph. Вес термина корректируется весом ребра при передаче.
Term Weight (Вес термина)
Оценка релевантности термина конкретному изображению. Уточняется в процессе Term Propagation.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод ассоциации терминов с изображением.

  1. Система получает множество изображений, часть из которых уже ассоциирована с терминами.
  2. Определяются степени сходства (degrees of similarity) между парами изображений (включая первое изображение и другие).
  3. Для первого изображения терминам присваивается вес (respective weight). Этот вес основан на степенях сходства между первым изображением и другими изображениями.
  4. Система выбирает один или несколько терминов на основе их весов и ассоциирует их с первым изображением.

Claim 3 (Зависимый от 2 и 1): Уточняет, что сходство определяется путем идентификации и сравнения признаков (features) первого и второго изображений.

Claim 7 (Зависимый от 3): Уточняет тип признаков. Признаки являются масштабно-инвариантными (scale-invariant features), что соответствует методам типа SIFT.

Claim 8 (Зависимый от 1): Детализирует механизм присвоения весов через использование графа.

  1. Генерируется взвешенная графовая структура (weighted graph data structure). Узлы соответствуют изображениям, ребра взвешены на основе степени сходства.
  2. Термины распространяются (propagating) к первому узлу. Вес термина присваивается на основе весов ребер, соединенных с этим узлом.

Claim 16 (Независимый пункт): Описывает метод с явным акцентом на графовую структуру и процесс распространения (VisualRank).

  1. Получение изображений и определение степеней сходства.
  2. Генерация взвешенного графа.
  3. Распространение терминов к узлам графа на основе весов ребер. Вес термина на узле зависит от веса ребер, подключенных к этому узлу.
  4. Выбор терминов для изображения на основе присвоенных весов.

Claim 25 (Независимый пункт): Описывает использование системы для определения поисковых запросов.

  1. Система идентифицирует сходства и представляет их как веса в Similarity Graph.
  2. Система использует Similarity Graph (и веса сходства для конкретного изображения), чтобы идентифицировать набор терминов для поискового запроса.
  3. Этот запрос специфичен для данного изображения и вернет результаты, включающие похожие изображения.

Где и как применяется

Изобретение применяется в инфраструктуре поисковой системы для улучшения качества индекса изображений.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает изображения и связанный с ними контент (метаданные, окружающий текст), который используется для первоначальной ассоциации терминов (исходные данные для Injector Nodes).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.

  1. Извлечение признаков: Image Features Module анализирует пиксели и извлекает визуальные признаки (SIFT, гистограммы). Image Terms Module извлекает исходные текстовые термины.
  2. Расчет сходства: Image Similarity Module вычисляет Similarity Scores между парами изображений.
  3. Построение графа: Similarity Graph Module строит граф сходства.
  4. Обработка графа (Term Propagation): Происходит итеративный расчет весов терминов (VisualRank). Это ресурсоемкий процесс, выполняемый в пакетном (batch) режиме.
  5. Индексирование: Image Indexing Module сохраняет уточненные и взвешенные термины в индексе (Image Repository).

RANKING – Ранжирование
На этом этапе Image Search Module использует результаты работы алгоритма. Система сопоставляет запрос пользователя с уточненными терминами в индексе для поиска релевантных изображений.

Входные данные:

  • Множество изображений (пиксельные данные).
  • Исходные термины, ассоциированные с некоторыми изображениями.

Выходные данные:

  • Уточненный набор терминов для каждого изображения с рассчитанными весами (Term Weights).

На что влияет

  • Типы контента: Влияет на все типы изображений (фотографии, иллюстрации, графика). Особенно сильно влияет на изображения, для которых существует много визуальных вариантов (товары, достопримечательности, логотипы).
  • Специфические запросы: Улучшает качество выдачи в Image Search по запросам, где важна визуальная идентификация объекта (например, модели техники, породы животных, конкретные места).

Когда применяется

  • Условия применения: Алгоритм применяется для обработки корпуса изображений с целью улучшения их аннотаций.
  • Временные рамки и частота: Применяется на этапе индексирования или при периодическом обновлении индекса изображений. Расчеты (особенно построение графа и итерации) выполняются офлайн или в пакетном режиме из-за высокой вычислительной сложности, а не в момент запроса пользователя.

Пошаговый алгоритм

Этап А: Подготовка данных и построение графа

  1. Получение изображений и исходных терминов: Система собирает изображения и извлекает термины из доступных источников (метаданные, текст). Опционально может использоваться TF-IDF для фильтрации неинформативных терминов.
  2. Извлечение визуальных признаков: Для каждого изображения вычисляются признаки (например, локальные дескрипторы SIFT, цветовые гистограммы).
  3. Расчет попарного сходства: Система сравнивает признаки пар изображений и вычисляет Similarity Score для каждой пары.
  4. Построение графа сходства: Создается граф, где изображения являются узлами. Пары узлов соединяются ребрами, вес которых равен Similarity Score. Ребра с низким весом могут быть удалены (elided) для оптимизации.
  5. Добавление узлов-инжекторов: Для изображений с исходными терминами создаются Injector Nodes. Они соединяются с соответствующим узлом изображения однонаправленным ребром (например, с весом 1). Исходные термины помещаются в Injector Nodes.

Этап Б: Итеративное распространение терминов (VisualRank)

  1. Инициализация весов: Веса всех терминов на узлах изображений устанавливаются в 0. Веса терминов на Injector Nodes нормализуются (например, чтобы их сумма на узле равнялась 1).
  2. Итеративный цикл (Loop): Процесс повторяется определенное количество раз (например, 1000) или до стабилизации весов (когда изменения между итерациями меньше порога).
  3. Распространение весов (Propagation): На каждой итерации t для каждого узла изображения N вес термина L пересчитывается. Он равен сумме весов термина L на всех связанных узлах M (включая Injector Nodes) в предыдущей итерации, умноженных на вес ребра между M и N. Формула: nl,t+1=∑m(wmn∗ml,t)n_{l, t+1} = \sum_{m} (w_{mn} * m_{l,t}).
  4. Нормализация: После расчета новых весов на узле изображения они нормализуются (например, чтобы сумма весов всех терминов на узле равнялась 1).
  5. Завершение цикла.

Этап В: Финализация

  1. Выбор терминов: Для каждого изображения система выбирает термины на основе их итогового веса (например, Топ-Y терминов или термины выше порога).
  2. Индексирование: Выбранные термины ассоциируются с изображением в поисковом индексе.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных: визуальные (для расчета сходства) и текстовые (для исходных меток).

  • Мультимедиа факторы (Визуальные): Пиксельные данные изображения. Являются основой для расчета сходства. Из них извлекаются Image Features:
    • Интенсивность, Цвет (гистограммы в RGB, YIQ), Края, Текстура.
    • Локальные инвариантные признаки (явно упоминается SIFT).
    • Ключевые точки (Keypoints).
  • Контентные факторы (Текстовые): Текст окружающий изображение, текст веб-страницы, анкорный текст ссылок на изображение. Используются для получения исходных терминов.
  • Технические факторы / Метаданные: Имя файла изображения, данные Exif (title, description, keywords). Также используются для получения исходных терминов.

Какие метрики используются и как они считаются

  • Similarity Score (Оценка сходства): Вычисляется путем сравнения Image Features. Патент упоминает различные методы: функции сравнения гистограмм (например, сумма абсолютных разностей бинов) или подсчет количества общих ключевых точек (shared keypoints), деленное на общее количество ключевых точек. Итоговая оценка может быть линейной комбинацией оценок по разным признакам.
  • Edge Weight (Вес ребра): Соответствует Similarity Score между двумя изображениями в графе.
  • Term Weight (Вес термина): Рассчитывается итеративно в процессе Term Propagation. Вес термина на узле зависит от весов этого термина на соседних узлах и весов соединяющих ребер.
  • Нормализация: Применяется для калибровки весов. Веса терминов на узлах (как инжекторных, так и узлах изображений) нормализуются, чтобы их сумма равнялась 1.
  • TF-IDF: Упоминается как возможный метод для предварительной фильтрации и взвешивания исходных терминов перед началом распространения.

Выводы

  1. Приоритет визуального контента над текстовым контекстом: Патент демонстрирует механизм, позволяющий Google определять содержание изображения на основе его визуальных характеристик, а не только окружающего текста или метаданных. Если визуальные сигналы сильны и консистентны, они могут переопределить или скорректировать текстовые данные.
  2. Коллективная классификация (VisualRank): Релевантность изображения определяется не изолированно, а через его связь с другими похожими изображениями в Similarity Graph. Это подход, аналогичный PageRank, но основанный на визуальном сходстве, а не на ссылках.
  3. Автоматическое подавление шума и спама: Алгоритм эффективно отфильтровывает нерелевантные термины. Термин получит высокий вес только в том случае, если он консистентно присутствует у множества визуально похожих изображений. Случайные или спамные термины теряют вес в процессе распространения.
  4. Расширение покрытия (Label Expansion): Система позволяет автоматически находить метки для изображений, у которых изначально не было текстового контекста, если они визуально похожи на хорошо размеченные изображения.
  5. Продвинутый визуальный анализ (SIFT): Использование сложных признаков, таких как SIFT, указывает на способность Google распознавать объекты независимо от масштаба, ракурса или освещения, что делает систему сходства очень точной.

Практика

Best practices (это мы делаем)

  • Обеспечение визуальной четкости и ясности объекта: Используйте высококачественные изображения с четко выраженным основным объектом. Это помогает системе корректно извлекать визуальные признаки (Image Features, Keypoints) и находить релевантные визуальные соответствия в Similarity Graph.
  • Соблюдение визуальной консистентности (особенно в E-commerce): Используйте консистентные изображения для продуктов. Поддержание схожего визуального стиля (фон, ракурс) помогает системе связать эти изображения в графе и укрепить общие релевантные термины во время Term Propagation.
  • Оптимизация исходных сигналов (Injector Nodes): Обеспечьте максимально точные и релевантные исходные данные: оптимизированные имена файлов, alt-атрибуты и окружающий текст. Эти данные формируют начальные веса в Injector Nodes. Точные исходные данные повышают вероятность того, что система подтвердит и усилит эти метки.
  • Использование уникальных изображений: Вместо использования стоковых фотографий, которые могут быть ассоциированы с множеством разных тем, создавайте уникальные изображения. Это помогает укрепить связь между визуальным контентом и вашими целевыми ключевыми словами и избежать наследования нерелевантных меток.

Worst practices (это делать не надо)

  • Манипуляция метаданными (Keyword Stuffing в ALT): Переоптимизация ALT-текста ключевыми словами, которые не соответствуют визуальному содержанию. Система может игнорировать эти сигналы, если визуальный анализ (Term Propagation) присвоит им низкий Term Weight, так как они не подтверждаются метками визуально похожих изображений.
  • Использование нерелевантных или популярных стоковых фото: Использование популярных стоковых изображений, не имеющих прямого отношения к теме статьи. Система может ассоциировать изображение с его доминирующей тематикой в интернете, а не с темой вашей страницы.
  • Использование визуально неоднозначных или низкокачественных изображений: Использование изображений, где сложно выделить основной объект или извлечь качественные Image Features. Это снижает точность расчета сходства и эффективность аннотирования.
  • Использование идентичных изображений для разных концепций: Если одно и то же изображение используется для иллюстрации разных тем, система может ассоциировать нерелевантные термины с вашими страницами.

Стратегическое значение

Патент подтверждает стратегию Google на понимание контента напрямую (в данном случае, визуально), а не только через текстовые посредники. В контексте Image SEO это означает, что оптимизация смещается от работы с тегами к работе с самим визуальным активом. Долгосрочная стратегия должна включать создание качественного, уникального и консистентного визуального контента, который помогает поисковой системе правильно классифицировать объекты на изображениях.

Практические примеры

Сценарий 1: Оптимизация карточки товара в E-commerce

  1. Задача: Продвинуть в Image Search страницу с товаром «Красное вечернее платье модель X».
  2. Действия: Загрузить высококачественные, четкие фотографии платья модели X с разных ракурсов. Обеспечить точный ALT-текст для главного фото.
  3. Как работает система: Google извлекает визуальные признаки и сравнивает их с другими фото платьев. Ваши фото визуально похожи на изображения на авторитетных сайтах (например, сайт бренда), которые хорошо размечены.
  4. Распространение терминов: Через Term Propagation термины «красное платье», «вечернее платье», «Модель X» с высоким весом переносятся на ваши изображения от авторитетных источников.
  5. Результат: Изображение лучше ранжируется по целевым запросам, так как его визуальное содержание подтверждает релевантность.

Сценарий 2: Использование стокового фото в блоге (Негативный пример)

  1. Задача: Проиллюстрировать статью о «Сложностях подачи налоговой декларации».
  2. Действия: Использовать популярное стоковое фото человека за ноутбуком с ALT-текстом «Подача налоговой декларации».
  3. Как работает система: Google анализирует это фото. В Similarity Graph оно сильно связано с сотнями других сайтов, использующих его в контексте «работа из дома», «фриланс», «онлайн-курсы».
  4. Распространение терминов: Термины «работа из дома» и «фриланс» получают высокий вес. Термин «Подача налоговой декларации», введенный только вашим сайтом (слабый Injector Node), получает очень низкий вес.
  5. Результат: Изображение не ранжируется по целевому запросу, так как система классифицировала его по доминирующей визуальной тематике.

Вопросы и ответы

Что такое VisualRank и как он связан с этим патентом?

VisualRank — это неофициальное название подхода Google к анализу изображений, описанного в этом патенте (авторы патента также публиковали работы по VisualRank). Это применение логики алгоритма PageRank к изображениям. Вместо анализа гиперссылок система анализирует визуальное сходство. Если авторитетное (хорошо аннотированное) изображение А визуально похоже на изображение Б, оно передает свой авторитет и свои метки изображению Б.

Означает ли этот патент, что Alt-text и имена файлов больше не важны?

Нет, они критически важны. Alt-text, имена файлов и окружающий текст формируют исходный набор терминов, которые помещаются в Injector Nodes. Эти исходные данные являются "зерном" для всего процесса распространения. Чем точнее исходные данные, тем выше вероятность, что система быстро и правильно определит основные метки изображения, но система может их скорректировать, если они противоречат визуальным данным.

Как система определяет визуальное сходство?

Патент описывает использование различных визуальных признаков (Image Features): цвет, интенсивность, текстура, края. Особо выделяется использование локальных признаков, вычисляемых вокруг ключевых точек (Keypoints), например, с помощью алгоритма SIFT. Сходство (Similarity Score) рассчитывается путем сравнения этих признаков, например, через сравнение гистограмм или подсчет количества совпадающих ключевых точек.

Может ли этот алгоритм навредить, присвоив моему изображению неправильные ключевые слова?

Да, это возможно. Если ваше изображение визуально очень похоже на популярные изображения из другой тематики (например, вы используете популярное стоковое фото в нерелевантном контексте), система может перенести эти нерелевантные термины через Similarity Graph. Именно поэтому рекомендуется использовать уникальные и четкие изображения, соответствующие вашей тематике.

Как повлиять на процесс распространения терминов (Term Propagation)?

Напрямую повлиять сложно, но можно создать оптимальные условия. Во-первых, предоставляйте точные исходные метки (Alt-текст, Schema.org). Во-вторых, используйте визуально консистентные изображения для одной темы. Если у вас 10 фотографий одного объекта, убедитесь, что они похожи и все корректно подписаны. Они будут усиливать друг друга в Similarity Graph.

Что такое SIFT и почему он важен для SEO?

SIFT (Scale-Invariant Feature Transform) — это алгоритм компьютерного зрения для описания локальных особенностей изображения. Он устойчив к изменениям масштаба, освещения и поворота. Его упоминание означает, что Google может распознать объект на вашем фото, даже если он снят с другого ракурса или в другом масштабе, чем на других изображениях в индексе. Для SEO это подчеркивает важность наличия четких объектов на фото.

Применяется ли этот алгоритм в реальном времени при загрузке нового изображения?

Нет. Построение Similarity Graph для миллиардов изображений и выполнение итераций Term Propagation — это крайне ресурсоемкие процессы. Они выполняются в пакетном (batch) режиме для всего корпуса изображений во время обновления индекса, а не в реальном времени.

Как этот патент соотносится с современными AI моделями типа Google Lens или MUM?

Этот патент описывает более ранний подход, основанный на классическом компьютерном зрении (SIFT) и графовых алгоритмах. Современные модели (Lens, MUM, CLIP) используют глубокое обучение для создания сложных векторных представлений (embeddings), которые фиксируют семантику изображения гораздо глубже. Однако описанные здесь принципы — использование сходства для переноса информации — остаются актуальными и могут дополнять современные подходы.

Влияет ли качество и размер изображения на работу этого алгоритма?

Да, безусловно. Высокое качество и четкость изображения облегчают извлечение надежных визуальных признаков (Image Features) и ключевых точек (Keypoints). Это позволяет точнее рассчитать Similarity Score и найти действительно похожие изображения, что в итоге приводит к более точной ассоциации терминов.

Что произойдет, если мое изображение уникально и не имеет похожих аналогов в индексе?

Если изображение действительно уникально, Similarity Graph не найдет для него близких соседей (или вес ребер будет очень низким). В этом случае алгоритм Term Propagation окажет на него слабое влияние. Ранжирование такого изображения будет в большей степени зависеть от его исходных меток (alt-текст, окружающий контент).

Похожие патенты

Как Google использует визуальное сходство и графовый анализ (VisualRank) для валидации и ранжирования меток изображений
Google валидирует текстовые метки изображений (например, Alt-текст или имена файлов) с помощью визуального анализа. Система строит граф, связывающий визуально похожие изображения. Симулируя навигацию пользователя по этому графу (алгоритм, подобный PageRank), Google определяет, какие метки наиболее релевантны фактическому содержанию изображения, отфильтровывая шум и повышая качество поиска по картинкам.
  • US7961986B1
  • 2011-06-14
  • Мультимедиа

  • SERP

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)
Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.
  • US8429173B1
  • 2013-04-23
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google определяет текстовое описание изображения для визуального поиска, анализируя похожие картинки и связанные с ними запросы
Google использует систему визуального поиска, которая позволяет пользователям отправлять изображение в качестве запроса. Для этого система создает индекс визуальных признаков и анализирует метаданные (запросы, по которым кликали на картинку, и текст на ссылающихся страницах). При получении изображения система находит визуально похожие картинки в индексе, анализирует связанные с ними текстовые фразы (n-граммы) и выбирает наилучшее описание. Затем выполняется стандартный поиск по этому текстовому описанию.
  • US8761512B1
  • 2014-06-24
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google агрегирует и ранжирует пользовательские метки для идентификации объектов в Визуальном поиске (Google Lens)
Google использует этот механизм для повышения точности идентификации объектов при поиске по изображению. Система находит множество визуально похожих изображений, загруженных пользователями (UGC), и анализирует их текстовые метки. Метки группируются по смыслу, а затем эти группы ранжируются на основе совокупной визуальной релевантности. Это позволяет определить наиболее вероятное название объекта, опираясь на коллективное мнение.
  • US9424279B2
  • 2016-08-23
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google использует "визуальные слова" и геометрические данные для эффективного поиска похожих изображений
Патент Google, описывающий инфраструктуру поиска по изображениям. Система разбивает изображения на "визуальные слова" (признаки) и использует инвертированный индекс (posting lists) для быстрого поиска совпадений. Ключевая особенность — хранение геометрических данных (положение признаков) прямо в индексе, что позволяет быстро рассчитывать визуальное сходство и проверять пространственное расположение элементов на лету.
  • US20150169740A1
  • 2015-06-18
  • Индексация

  • Мультимедиа

Популярные патенты

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)
Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.
  • US7979417B1
  • 2011-07-12
  • Ссылки

  • Краулинг

  • Техническое SEO

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию
Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.
  • US8321463B2
  • 2012-11-27
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников
Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.
  • US8745067B2
  • 2014-06-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

seohardcore