SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)

COMPARING TEXT PAGES USING IMAGE FEATURES BASED ON WORD POSITIONS (Сравнение текстовых страниц с использованием признаков изображения на основе позиций слов)
  • US8151186B1
  • Google LLC
  • 2011-09-08
  • 2012-04-03
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.

Описание

Какую проблему решает

Патент решает проблему надежного сравнения и идентификации изображений текстовых документов. Традиционные методы сопоставления изображений плохо работают с текстом из-за повторяющихся паттернов. Методы, основанные на оптическом распознавании символов (OCR), требуют высокого качества изображения, являются ресурсоемкими и зависят от языка. Изобретение предлагает метод сравнения, основанный исключительно на геометрическом расположении слов, который устойчив к искажениям и не зависит от языка.

Что запатентовано

Запатентована система для генерации уникальных идентификаторов (signatures) для страниц текста на основе визуального расположения слов, а не их содержания. Для каждого слова на странице создается signature, которая кодирует относительные позиции (углы и расстояния) его ближайших соседей. Страница представляется как набор этих дискретных сигнатур, что позволяет измерять визуальное сходство между двумя изображениями.

Как это работает

Система работает в несколько этапов:

  • Определение позиций слов: Система определяет точечное местоположение (например, центроид) каждого слова на изображении.
  • Идентификация соседей: Для каждого "фокусного слова" (focus word) определяются N ближайших слов (kNNCount).
  • Расчет геометрии: Вычисляются расстояния и углы между фокусным словом и его соседями.
  • Генерация сигнатуры: Соседи упорядочиваются по расстоянию. Углы дискретизируются (огрубляются) и объединяются (конкатенируются) для формирования сигнатуры.
  • Сравнение страниц: Две страницы сравниваются путем сопоставления их наборов сигнатур с использованием меры сходства Жаккара (Jaccard similarity).

Актуальность для SEO

Средняя/Высокая (для обработки документов). Технология актуальна для специфических задач в области анализа изображений документов (Document Image Analysis). Она, вероятно, используется в инфраструктуре Google Books (контроль качества сканирования, дедупликация) и в сервисах типа Google Lens (идентификация документа по фотографии). Она не имеет отношения к основному веб-поиску и ранжированию HTML-контента.

Важность для SEO

Минимальное влияние (1/10). Патент описывает внутренние процессы Google для обработки и сравнения изображений документов. Он не имеет прямого отношения к SEO для веб-сайтов. Описанные механизмы не используются для ранжирования веб-страниц, анализа качества контента или оценки E-E-A-T в контексте основного веб-поиска.

Детальный разбор

Термины и определения

Ambiguous Signature (Неоднозначная сигнатура)
Сигнатура, которая имеет высокую вероятность изменения при незначительных сдвигах позиций слов. Это может произойти из-за "переключения" (flipping) дискретного значения угла или "перестановки" (swapping) порядка соседей.
Bounding Box (Ограничивающая рамка)
Прямоугольная область, содержащая слово. Используется для определения позиции слова (например, её центра).
Connected Components (Связанные компоненты)
Группы смежных пикселей на изображении, представляющие слово. Используются для определения позиции слова (например, их центроида), если данные Bounding Box недоступны.
Discretization (Дискретизация)
Процесс преобразования непрерывного значения угла в одно из фиксированного набора дискретных значений для уменьшения размера сигнатуры.
Focus Word (Фокусное слово)
Конкретное слово на странице, для которого в данный момент генерируется сигнатура.
Jaccard Similarity (Сходство Жаккара, Js, Jb)
Мера сходства между двумя наборами (сигнатур или ограничивающих рамок). Рассчитывается как размер пересечения наборов, деленный на размер их объединения.
kBitPerAngle
Параметр, определяющий количество бит для дискретизации угла. Например, 4 бита кодируют 16 возможных угловых диапазонов.
kNNCount (N)
Параметр, определяющий количество ближайших соседей (k-Nearest Neighbors), которые учитываются при генерации сигнатуры.
Signature (Сигнатура)
Значение (обычно дискретное), которое описывает относительное геометрическое расположение слов вокруг фокусного слова. Формируется путем конкатенации упорядоченных и дискретизированных углов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации сигнатур и их использования для сравнения страниц.

  1. Система определяет позиции множества слов на текстовой странице.
  2. Для первого слова (Focus Word) определяются относительные позиции множества вторых слов (соседей).
  3. Генерируется значение сигнатуры (Signature), описывающее позиции вторых слов относительно первого.
  4. Генерируются дополнительные сигнатуры для других слов на странице.
  5. Первый набор сигнатур (для Страницы 1) сравнивается со вторым набором сигнатур (для Страницы 2).
  6. Генерируется мера сходства (measure of similarity) на основе сравнения.
  7. Мера сходства сохраняется.

Claim 6 (Зависимый от 1): Уточняет, что генерация сигнатуры включает расчет расстояния между первым словом и позициями вторых слов.

Claim 7 (Зависимый от 1): Уточняет, что генерация сигнатуры включает расчет угла между первым словом и позициями вторых слов.

Claim 8 (Зависимый от 7): Детализирует процесс генерации сигнатуры: рассчитанные углы конкатенируются (объединяются), и перед этим они упорядочиваются. (В описании патента уточняется, что упорядочивание основано на расстояниях).

Claim 9 (Зависимый от 7): Детализирует процесс генерации сигнатуры: рассчитанные углы конкатенируются, и перед этим они дискретизируются.

Claim 12 (Зависимый от 1): Указывает, что мера сходства является сходством Жаккара (Jaccard similarity).

Где и как применяется

Этот патент описывает технологию анализа изображений документов (Document Image Analysis) и не вписывается в стандартную архитектуру веб-поиска (сканирование и ранжирование HTML-страниц). Он применяется в специализированных системах.

INDEXING – Индексирование (Специализированное)
Технология используется на этапе обработки специфических корпусов данных, таких как отсканированные книги (Google Books) или коллекции PDF. Система анализирует изображения страниц (Raw page data) и извлекает визуальные признаки — наборы signatures. Эти данные (Page analysis data) сохраняются в индексе для последующего сравнения.

RANKING / RETRIEVAL (Поиск, Специализированный)
Применяется в сценариях, где требуется сравнение изображений:

  1. Дедупликация: Сравнение индексированных изображений для поиска дубликатов или выбора наилучшей копии скана из разных источников.
  2. Поиск по изображению: Сравнение загруженного пользователем изображения (например, фото страницы в Google Lens) с индексированными signatures для идентификации исходного документа.

Входные данные:

  • Изображение текстовой страницы (например, PNG, JPEG).
  • Или данные о расположении слов на странице (например, bounding boxes из PDF).

Выходные данные:

  • Набор signatures, характеризующий визуальный макет страницы.
  • При сравнении двух страниц — мера их сходства (Similarity measure).

На что влияет

  • Конкретные типы контента: Влияет исключительно на сравнение и идентификацию изображений текстовых документов (сканы книг, журналов, PDF-файлы, фотографии документов).
  • Языковые ограничения: Система спроектирована так, чтобы быть независимой от языка, поскольку она анализирует только позиции слов, а не их содержание (OCR).

Когда применяется

  • Условия применения: Когда необходимо сравнить два изображения документа на предмет визуального сходства макета, особенно если использование OCR нецелесообразно, невозможно или слишком затратно.
  • Сценарии использования (упомянутые в патенте):
    • Контроль качества при автоматическом сканировании книг (выбор лучшего изображения страницы из нескольких копий).
    • Поиск документа по фотографии низкого качества (идентификация книги по фото страницы с мобильного телефона).

Пошаговый алгоритм

Этап А: Генерация набора Signatures для страницы

  1. Подготовка изображения (Предварительная обработка): Получение изображения. Опционально: преобразование в оттенки серого, нормализация фона, бинаризация, устранение перекосов.
  2. Определение позиций слов:
    1. Извлечение слов из изображения с помощью анализа connected components или путем использования информации о bounding boxes.
    2. Фильтрация шума (например, удаление знаков препинания).
    3. Определение точечной позиции для каждого слова (например, расчет центроида).
  3. Генерация сигнатур (Итерация по всем словам): Для каждого focus word:
    1. Определение N ближайших слов (kNNCount).
    2. Расчет расстояний (r) до каждого из N соседей.
    3. Расчет углов (a) до каждого из N соседей.
    4. Упорядочивание N соседей на основе рассчитанных расстояний (от ближайшего к дальнему).
    5. Дискретизация рассчитанных углов в соответствии с параметром kBitPerAngle.
    6. Конкатенация (объединение) упорядоченных дискретизированных значений углов для формирования signature.
  4. Обработка неоднозначности (Опционально): Идентификация ambiguous signatures (где высока вероятность flipping или swapping). Такие сигнатуры могут быть отфильтрованы или для них могут быть сгенерированы дополнительные варианты.
  5. Фильтрация набора (Опционально): Удаление неуникальных signatures из набора для предотвращения ложных срабатываний.
  6. Хранение: Сохранение итогового набора signatures для страницы.

Этап Б: Сравнение двух страниц (P1 и P2)

  1. Получение наборов Signatures: Извлечение набора S(p1) и S(p2).
  2. Расчет сходства: Вычисление Jaccard similarity (Js), как отношение количества совпадающих signatures к общему количеству уникальных signatures в обоих наборах.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на визуальных и геометрических данных и намеренно игнорирует содержание текста.

  • Мультимедиа и Структурные факторы:
    • Пиксельные данные изображения страницы.
    • Геометрическое расположение слов на странице (координаты позиций, bounding boxes).

Патент НЕ использует контентные, ссылочные, поведенческие, временные или любые другие стандартные SEO-факторы.

Какие метрики используются и как они считаются

  • Расстояние (r) и Угол (a): Рассчитываются между focus word и его соседями. Расстояние используется для упорядочивания, угол – для формирования сигнатуры.
  • kNNCount (N) и kBitPerAngle: Параметры, определяющие структуру сигнатуры.
  • Jaccard Similarity (Js): Метрика для сравнения страниц P1 и P2 на основе их наборов сигнатур S(p1) и S(p2) (Формула 1 в патенте).

    J(P1,P2)=∣S(p1)∩S(p2)∣∣S(p1)∪S(p2)∣J(P1, P2) = \frac{|S(p1) \cap S(p2)|}{|S(p1) \cup S(p2)|}

  • Jaccard Similarity (Jb): Альтернативная метрика сходства, основанная на сравнении bounding boxes после выравнивания изображений (Формула 2 в патенте).

    Jb(P1,P2)=MatchCount(p1,p2)BoxCount(p1)+BoxCount(p2)−MatchCount(p1,p2)J_b(P1, P2) = \frac{\text{MatchCount}(p_1, p_2)}{\text{BoxCount}(p_1) + \text{BoxCount}(p_2) - \text{MatchCount}(p_1, p_2)}

  • Probability of Flip (P_flip): Вероятность того, что сигнатура изменится из-за переключения дискретизированного угла при малом сдвиге позиции слова (Формула 3 в патенте). Используется для обнаружения ambiguous signatures.

    Pflip=1−∏i=1N(1−p(ϵi))P_{flip} = 1 - \prod_{i=1}^{N}(1-p(\epsilon_i))

  • Probability of Swap (P_swap): Вероятность того, что сигнатура изменится из-за изменения порядка соседних слов, если их расстояния очень близки (Формула 4 в патенте).

    Pswap=1−∏i=1N−1(1−p(∣ri−ri+1∣12(∣ri∣+∣ri+1∣)))P_{swap} = 1 - \prod_{i=1}^{N-1}(1-p(\frac{|r_i - r_{i+1}|}{\frac{1}{2}(|r_i| + |r_{i+1}|)}))

Выводы

  1. Патент чисто технический и нерелевантен для веб-SEO: Патент описывает внутренние процессы Google, связанные с анализом изображений документов (Computer Vision / Document Image Analysis), без каких-либо прямых рекомендаций или выводов для SEO веб-сайтов.
  2. Фокус на геометрии, а не семантике: Технология предназначена для идентификации визуально схожих документов исключительно на основе геометрии расположения слов. Содержание текста (OCR), язык и другие семантические факторы полностью игнорируются.
  3. Специфические области применения: Основное применение технологии — это специализированные вертикали (Google Books) и конкретные задачи (дедупликация сканов, поиск по фотографии в Google Lens). Она не используется в основном алгоритме ранжирования веб-поиска.
  4. Механизм работы: Ключевым элементом является генерация signature путем кодирования упорядоченных и дискретизированных углов между словом и его ближайшими соседями. Это создает устойчивый к искажениям визуальный идентификатор макета.
  5. Эффективное сравнение: Использование дискретных сигнатур и Jaccard similarity позволяет быстро и эффективно сравнивать миллионы изображений документов.

Практика

Best practices (это мы делаем)

Патент является инфраструктурным и описывает технологию анализа изображений документов. Практических выводов и рекомендаций для SEO-специалистов, занимающихся продвижением веб-сайтов (ранжированием в google.com), на основе этого патента нет.

Worst practices (это делать не надо)

Тактик SEO, которые этот патент делает неэффективными или опасными, нет, так как он не связан с факторами ранжирования веб-поиска и не направлен против манипуляций в нем.

Стратегическое значение

Стратегического значения для SEO веб-сайтов патент не имеет. Он демонстрирует возможности Google в области компьютерного зрения и обработки изображений документов, но эти технологии не пересекаются со стандартными методами поисковой оптимизации HTML-контента и стратегиями построения E-E-A-T.

Практические примеры

Практических примеров для SEO нет. Ниже приведен пример использования технологии, описанный в патенте.

Сценарий: Идентификация книги по фотографии страницы

  1. Индексирование (Офлайн): Google сканирует миллионы книг (Google Books). Для каждой страницы рассчитывается набор signatures на основе расположения слов и сохраняется в специальном индексе.
  2. Запрос пользователя: Пользователь фотографирует страницу книги на мобильный телефон (фото может быть низкого качества или с искажениями) и загружает его (например, через Google Lens).
  3. Обработка запроса (Онлайн): Система анализирует фотографию, определяет позиции слов и генерирует набор signatures для этого изображения.
  4. Поиск: Система ищет совпадения сгенерированных signatures в своем индексе и подсчитывает количество совпадений для каждой проиндексированной страницы.
  5. Результат: Страница книги, имеющая наибольшее сходство Жаккара (Jaccard similarity) с фотографией, идентифицируется как источник. Система возвращает пользователю информацию об этой книге.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает технологию компьютерного зрения для сравнения изображений текстовых документов (например, сканов книг или фотографий). Он не связан с анализом контента веб-страниц, ссылок, поведенческих факторов или E-E-A-T в основном поиске Google.

Использует ли Google эту технологию для оценки качества верстки или дизайна HTML-страниц?

В патенте нет информации об этом. Технология разработана для анализа изображений текста с фиксированным расположением слов. Для анализа HTML-страниц Google использует системы рендеринга и алгоритмы оценки макета (Page Layout Algorithms), которые анализируют DOM и CSS, а не метод геометрических сигнатур, описанный здесь.

Что такое "signature" в контексте этого патента?

Signature — это числовое значение, которое кодирует геометрическое расположение ближайших слов вокруг определенного слова (focus word). Оно формируется путем расчета углов до соседних слов, упорядочивания этих слов по расстоянию, огрубления (дискретизации) углов и их объединения в одно значение. Это визуальный отпечаток локальной структуры текста.

Зачем Google сравнивать страницы как картинки, игнорируя текст (OCR)?

Это необходимо, когда распознавание текста (OCR) затруднено, невозможно или нежелательно. Например, при работе с документами на языках, для которых OCR работает плохо, при анализе фотографий низкого качества или для быстрой дедупликации огромного количества сканов (например, в Google Books), где полное распознавание текста было бы слишком ресурсоемким.

Что такое Jaccard Similarity и как оно здесь используется?

Jaccard Similarity — это метрика, измеряющая сходство между двумя наборами данных. В данном патенте каждая страница представлена набором signatures. Сходство Жаккара рассчитывается как количество общих signatures у двух страниц, деленное на общее количество уникальных signatures на обеих страницах. Чем выше значение, тем более похожи макеты страниц.

Применяется ли этот алгоритм в Google Images или Google Lens?

Патент описывает применение для "поиска документа на основе фотографии страницы", что соответствует функциональности Google Lens. Основное применение, также описанное в патенте, это обработка сканов книг (Google Books). Он также может использоваться для поиска визуально похожих документов в Google Images.

Что означает, что технология не зависит от языка?

Это означает, что система не пытается прочитать или понять текст на странице. Она анализирует только геометрические позиции слов как объектов на изображении. Благодаря этому система может одинаково эффективно сравнивать документы на любом языке, не требуя языковых моделей или словарей.

Как система определяет позицию слова?

Система определяет позицию слова как одну точку. Это достигается путем анализа изображения для извлечения "связанных компонентов" (connected components) или путем использования информации об ограничивающем прямоугольнике (bounding box). Затем для этого объекта рассчитывается центральная точка (centroid), которая и используется как позиция слова.

Может ли изменение шрифта или интервалов повлиять на работу этого алгоритма?

Да, может. Поскольку алгоритм основан на точных геометрических позициях, изменение шрифта, размера текста или интервалов изменит относительные расстояния и углы между словами. Это приведет к генерации других signatures. Алгоритм предназначен для поиска идентичных макетов, а не страниц с одинаковым текстом, но разным форматированием.

Имеет ли этот патент отношение к анализу дублированного контента в веб-поиске?

Нет. В веб-поиске дублированный контент определяется на основе анализа текста (например, с помощью шинглов или семантического сходства). Этот патент анализирует дублирование визуального макета изображения документа. Две веб-страницы с идентичным текстом, но разной версткой, не будут считаться дубликатами с точки зрения этого алгоритма.

Похожие патенты

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google использует OCR и канонические документы для улучшения результатов визуального поиска
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
  • US9176986B2
  • 2015-11-03
  • Мультимедиа

  • Индексация

  • EEAT и качество

Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)
Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.
  • US8811742B2
  • 2014-08-19
  • Мультимедиа

  • EEAT и качество

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)
Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.
  • US8510312B1
  • 2013-08-13
  • Индексация

Как Google комбинирует визуальные признаки и распознанный текст (OCR) внутри изображения для улучшения визуального поиска
Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).
  • US9323784B2
  • 2016-04-26
  • Мультимедиа

  • Индексация

  • Семантика и интент

Популярные патенты

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания
Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.
  • US8326861B1
  • 2012-12-04
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент
Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.
  • US8458196B1
  • 2013-06-04
  • EEAT и качество

  • Семантика и интент

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.
  • US8041568B2
  • 2011-10-18
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR
Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).
  • US10650066B2
  • 2020-05-12
  • Ссылки

  • SERP

seohardcore