SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует гибридную классификацию и OCR для извлечения ответов из личных фотографий пользователя

IMAGE ANALYSIS FOR RESULTS OF TEXTUAL IMAGE QUERIES (Анализ изображений для результатов по текстовым запросам к изображениям)
  • US10740400B2
  • Google LLC
  • 2018-08-28
  • 2020-08-11
  • Индексация
  • Мультимедиа
  • Семантика и интент
  • Персонализация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для ответа на текстовые запросы (например, «Сколько я потратил в ресторане?») путем анализа личной библиотеки изображений. Система предварительно классифицирует фотографии (например, чеки, меню, пейзажи), используя распознавание объектов и текста (OCR). Это позволяет быстро найти нужную информацию в релевантной категории и представить ответ в виде обрезанного изображения или аудиосообщения.

Описание

Какую проблему решает

Патент решает задачу эффективного и точного извлечения конкретной фактической информации из большой коллекции изображений пользователя (например, личных фотографий) в ответ на текстовый запрос. Основная проблема — снижение вычислительных затрат и времени поиска. Система достигает этого за счет предварительной классификации изображений и сужения пространства поиска только до релевантных категорий, а также за счет выборочного применения ресурсоемкого процесса OCR.

Что запатентовано

Запатентована система обработки запросов к изображениям (Image Query Processing System). Она использует гибридный подход к классификации изображений, комбинируя распознавание объектов и текста. При получении текстового запроса система определяет необходимую категорию изображения (Image Category) и тип запрашиваемого контента (Output Type), что позволяет быстро найти и извлечь конкретные данные для ответа (например, сумму из чека).

Как это работает

Система работает в двух режимах:

  • Офлайн-классификация (Индексирование): Изображения предварительно классифицируются. Сначала используется распознавание объектов. Если результат однозначен (например, «пейзаж»), он сохраняется. Если нет (например, обнаружен текст), активируется OCR для уточнения категории (например, «чек» или «меню»).
  • Обработка запроса (Рантайм): Текстовый запрос анализируется для определения целевой категории и типа вывода. Поиск выполняется только внутри этой категории. Найдя ответ, система извлекает его и форматирует результат: обрезает изображение (cropping), чтобы акцентировать внимание на ответе, или генерирует аудиосообщение.

Актуальность для SEO

Высокая. Механизмы, описанные в патенте, лежат в основе функций поиска в персональных фото-сервисах (таких как Google Photos) и тесно связаны с технологиями Google Assistant и Google Lens. Гибридная классификация изображений и извлечение фактов из них являются ключевыми направлениями развития поиска.

Важность для SEO

Влияние на стандартные SEO-стратегии минимальное (20/100). Патент сфокусирован на механизмах поиска по личной коллекции изображений пользователя, а не по общедоступному веб-индексу. Он не описывает ранжирование публичных веб-сайтов. Однако патент имеет высокое концептуальное значение, так как раскрывает передовые методы Google в области классификации изображений и OCR. Эти технологии фундаментальны для Visual Search и Google Lens.

Детальный разбор

Термины и определения

Image Category (Категория изображения)
Классификация изображения на основе его содержания (например, «пейзаж», «чек», «меню», «документ»). Определяется с помощью распознавания объектов и/или текста.
Image Query Processing System (Система обработки запросов к изображениям)
Основная система, описанная в патенте, которая классифицирует изображения и отвечает на текстовые запросы, используя их контент.
Object Classification System (Система классификации объектов)
Компонент, который анализирует изображение на основе изображенных на нем объектов (визуальных признаков) для определения начальной категории изображения (Initial Image Category).
Optical Character Recognition (OCR) Device (Устройство оптического распознавания символов)
Компонент, используемый для идентификации и извлечения текста, изображенного на картинке.
Output Type (Тип вывода)
Тип запрашиваемого контента, определяемый из запроса (например, «изображение», «аннотированное изображение», «общая стоимость», «текстовая сводка», «аудиоответ»). Определяет, как должен быть представлен ответ.
Query Processing System (Система обработки запросов)
Компонент, который анализирует входящий текстовый запрос для определения Image Category, Output Type и ключевых фраз (Key Phrases).
Results Presentation System (Система представления результатов)
Компонент, который форматирует результаты для отображения или озвучивания, включая обрезку (cropping) или выделение релевантных частей изображений.
Text Classification System (Система классификации текста)
Компонент, который анализирует изображение на основе слов, извлеченных с помощью OCR, и их расположения для уточнения категории изображения (Second Image Category).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс ответа на текстовый запрос с использованием изображений.

  1. Определение Image Category и Output Type на основе текстуального запроса.
  2. Выбор подмножества изображений из базы данных, которые принадлежат к этой Image Category (используя предварительно сохраненные связи).
  3. Анализ данных выбранных изображений для определения тех, которые отвечают на запрос.
  4. Определение ответа на запрос с использованием этих изображений.
  5. Предоставление ответа для презентации, используя Output Type.

Claim 3 (Зависимый от 1): Детализирует механизм визуального представления ответа.

  1. Определение ответа включает выбор части (portion) изображения, которая содержит данные, релевантные запросу.
  2. Предоставление ответа включает генерацию инструкций для UI, который акцентирует (emphasizes) эту выбранную часть (например, путем обрезки или выделения).

Claim 20 (Независимый пункт): Описывает офлайн-процесс классификации изображений (гибридный подход).

  1. Анализ изображения с использованием распознавания объектов (Object Recognition) для определения начальной категории (Initial Image Category).
  2. Проверка, входит ли начальная категория в определенную группу (т.е. является ли она достаточно точной и не требующей анализа текста, например, «пейзаж»).
  3. Если ДА: Использовать начальную категорию как финальную.
  4. Если НЕТ (например, категория «текст» или «документ»): Анализ изображения с использованием распознавания текста (Text Recognition/OCR) для определения второй категории (Second Image Category).
  5. Определение финальной категории с использованием начальной и второй категорий.
  6. Сохранение связи изображения и категории в базе данных.

Claim 22 (Независимый пункт): Описывает процесс генерации аудиоответа.

Процесс аналогичен Claim 1 и 3 (определение категории, выбор подмножества, анализ, выбор релевантной части изображения). Финальный шаг — генерация инструкций для звукового представления (audible presentation) извлеченных данных и предоставление этих инструкций динамику.

Где и как применяется

Изобретение применяется в системах поиска по личным коллекциям изображений (например, Google Photos).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка и классификация изображений (Офлайн-процесс). Object Classification System и, при необходимости, Text Classification System (OCR) анализируют изображения для определения их категорий. Результаты сохраняются в базе данных.

QUNDERSTANDING – Понимание Запросов
Query Processing System анализирует входящий текстовый запрос в реальном времени для определения Image Category, Output Type и Key Phrases.

RANKING – Ранжирование (Отбор кандидатов)
Система использует определенную Image Category для быстрого отбора подмножества изображений. Это радикально сокращает поисковое пространство.

RERANKING / METASEARCH – Переранжирование / Представление
Система анализирует отобранное подмножество для поиска точного ответа. Results Presentation System форматирует вывод: определяет область ответа (Bounding Box), обрезает изображение (cropping) или генерирует аудиоответ.

Входные данные:

  • Коллекция изображений пользователя (пиксельные данные и метаданные).
  • Текстовый запрос пользователя.

Выходные данные:

  • Ответ на запрос (текстовая сводка, обрезанное/выделенное изображение или аудиосообщение).

На что влияет

  • Конкретные типы контента: Наибольшее влияние на изображения, содержащие фактическую или структурированную информацию: чеки, меню, документы, визитные карточки, презентации, вывески.
  • Специфические запросы: Влияет на информационные запросы, направленные на извлечение фактов из личной коллекции изображений (например, «Сколько я потратил...?», «В какой ресторан я ходил...?»).

Когда применяется

  • Условия работы: Применяется, когда пользователь отправляет текстовый запрос к системе, имеющей доступ к проиндексированной и классифицированной коллекции изображений этого пользователя.
  • Триггеры активации: Запрос, который подразумевает поиск фактической информации, которая может содержаться в изображениях (Information Extraction intent).

Пошаговый алгоритм

Процесс А: Офлайн-классификация изображений (Индексирование)

  1. Получение данных изображения.
  2. Анализ объектов: Object Classification System анализирует изображение для определения начальной категории (Initial Image Category).
  3. Проверка категории: Система определяет, является ли начальная категория достаточно определенной (входит ли в «особую группу», например, «пейзаж»).
  4. Условие:
    • Если ДА: Начальная категория используется как финальная. Переход к шагу 6.
    • Если НЕТ (например, обнаружен текст или документ): Переход к шагу 5.
  5. Анализ текста: Text Classification System и OCR анализируют текст и его структуру на изображении для определения второй категории (Second Image Category, например, «чек», «меню»). Финальная категория определяется на основе начальной и второй.
  6. Сохранение: Связь между изображением и его категорией сохраняется в базе данных.

Процесс Б: Обработка запроса в реальном времени

  1. Получение текстуального запроса.
  2. Анализ запроса: Query Processing System определяет Image Category, Output Type и Key Phrases.
  3. Отбор кандидатов: Система выбирает подмножество изображений, соответствующих Image Category.
  4. Анализ подмножества: Система анализирует данные отобранных изображений (используя ключевые фразы, метаданные, текст OCR), чтобы найти изображения, отвечающие на запрос.
  5. Извлечение и Локализация: Для релевантных изображений система идентифицирует конкретные данные и определяет часть изображения, содержащую эти данные (например, с помощью Bounding Box).
  6. Генерация ответа: Results Presentation System генерирует инструкции для презентации. Это может включать:
    • Обрезку (cropping) изображения для акцентирования ответа.
    • Генерацию текстовой сводки (summary), если найдено несколько результатов.
    • Генерацию аудиоответа.
  7. Предоставление ответа: Инструкции отправляются на дисплей или динамик.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке изображений и запросов в контексте персонального поиска.

  • Мультимедиа факторы: Пиксельные данные изображений. Используются для распознавания объектов (Object Classification).
  • Контентные факторы (Текст): Текст, извлеченный с помощью OCR. Используется для классификации текста (Text Classification) и поиска ответа на запрос.
  • Структурные факторы (внутри изображения): Расположение текста (layout) и границы объектов. Используются для классификации (например, определение «чека» по структуре) и для определения области обрезки.
  • Временные и Географические факторы: Метаданные изображения (временные метки, GPS-координаты) могут использоваться для фильтрации изображений (например, при запросе «на прошлой неделе»).
  • Пользовательские факторы: Текстуальные запросы пользователя.

Какие метрики используются и как они считаются

  • Image Category / Output Type: Метки классификации, присваиваемые изображению и запросу соответственно.
  • Bounding Box (Ограничивающий прямоугольник): Координаты области на изображении, содержащей релевантные данные. Используется для обрезки и выделения.
  • Classification Accuracy (Точность классификации): В описании упоминается как критерий для принятия решения. Если точность распознавания объектов удовлетворяет пороговому значению, OCR может не использоваться.
  • Output Format (Формат вывода): Определяется на основе количества результатов и Output Type (например, одиночный результат или сводка — summary).

Выводы

  1. Фокус на персональном поиске: Ключевой вывод — этот патент описывает систему для поиска информации в личных коллекциях изображений пользователя (например, Google Photos). Прямых выводов для ранжирования веб-сайтов в Google Search он не дает.
  2. Гибридная и эффективная классификация: Запатентован конкретный метод экономии ресурсов: сначала используется распознавание объектов. Ресурсоемкий процесс OCR активируется только при необходимости (если изображение похоже на документ), а не для всех изображений (например, пейзажей).
  3. Эффективность за счет категоризации: Предварительная классификация изображений по категориям используется для радикального сокращения поискового пространства при обработке запроса в реальном времени.
  4. Извлечение фактов, а не поиск картинок: Система нацелена на Information Extraction. Цель – извлечь конкретный факт (имя, сумму, дату) из изображения для прямого ответа на вопрос.
  5. Адаптивная презентация результатов: Система динамически форматирует ответ. Она может агрессивно обрезать (cropping) изображение, чтобы выделить ответ, или предоставить аудиоответ вместо визуального.

Практика

Практическое применение в SEO

ВАЖНО: Этот патент является инфраструктурным и описывает процессы Google для персонального поиска изображений. Он не дает прямых практических рекомендаций для SEO-продвижения веб-сайтов.

Тем не менее, он демонстрирует возможности Google в области анализа изображений (Computer Vision, OCR), которые также используются в Google Images и Google Lens. Понимание этих возможностей полезно для общей стратегии работы с визуальным контентом.

Best practices (это мы делаем)

  • Обеспечение читаемости текста на изображениях (OCR-Ready): Патент подтверждает, что Google активно использует OCR для классификации изображений и извлечения данных. Текст на изображениях (инфографика, схемы, фотографии товаров с этикетками, баннеры) должен быть четким, контрастным и легко распознаваемым.
  • Четкий визуальный контекст для классификации: Система использует распознавание объектов для первичной классификации. Убедитесь, что изображения на сайте имеют ясный визуальный фокус и что ключевые объекты легко идентифицируются, чтобы облегчить их корректную классификацию.
  • Структурирование данных на изображениях: Для изображений, содержащих данные (например, прайс-листы, характеристики), используйте четкую структуру (например, табличную). Это поможет системам извлечения информации корректно интерпретировать контент.

Worst practices (это делать не надо)

  • Использование сложных шрифтов для важной информации: Использование декоративных, рукописных или слишком мелких шрифтов для критически важной информации (например, цен, артикулов) может помешать OCR корректно извлечь данные.
  • Низкое качество и контрастность: Размытые изображения или низкоконтрастный текст на шумном фоне затрудняют как распознавание объектов, так и работу OCR.
  • Сокрытие важной информации только в изображениях: Полагаться только на изображение для передачи важной информации рискованно. Всегда дублируйте ключевую информацию в HTML-тексте или микроразметке.

Стратегическое значение

Патент подтверждает высокий уровень развития технологий Google в области машинного зрения и извлечения информации (Information Extraction). Он демонстрирует способность системы не только классифицировать изображения по объектам, но и понимать их функциональный тип (чек, меню) и извлекать конкретные текстовые данные. Это подчеркивает важность оптимизации под визуальный поиск (Visual Search) и Google Lens, где изображения рассматриваются как источник структурированных данных.

Практические примеры

Практических примеров для SEO нет, так как патент описывает поиск по личным данным. Примеры из патента иллюстрируют работу с личными фотографиями.

Пример из патента (Персональный поиск):

  1. Индексирование: Пользователь фотографирует чек. Система классифицирует его: Object Classification определяет «текст/документ», затем OCR и Text Classification уточняют категорию до «чек».
  2. Запрос: Пользователь спрашивает: «Сколько я потратил в ресторане Extravaganza?».
  3. Обработка: Система определяет Image Category = «чек» и Output Type = «общая стоимость».
  4. Поиск: Система ищет среди чеков упоминание «Extravaganza» и извлекает итоговую сумму.
  5. Вывод: Система показывает пользователю обрезанную часть чека с итоговой суммой или озвучивает ответ: «€29.63».

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Web Search или Google Images?

Нет, напрямую не влияет. Патент описывает систему для анализа личной библиотеки фотографий пользователя (например, в Google Photos). Он не касается механизмов ранжирования общедоступных веб-страниц или изображений в интернете. Однако он демонстрирует технологии (OCR, классификация), которые Google использует повсеместно.

Как работает описанная гибридная классификация изображений?

Это двухэтапный процесс для экономии ресурсов. Сначала система использует быстрое распознавание объектов. Если она уверена в категории (например, «пейзаж»), классификация завершается. Если результат неоднозначен или изображение содержит текст, активируется второй, более ресурсоемкий этап — OCR и анализ текста для уточнения категории (например, чтобы отличить «чек» от «меню»).

Что такое «Output Type» и зачем он нужен?

Output Type — это тип ответа, который ожидает пользователь. Система определяет его из запроса (например, «Сколько я потратил?» = «общая стоимость»). Это помогает системе понять, какую именно информацию нужно извлечь из картинки (например, итоговую сумму на чеке) и в каком формате её показать (текст, обрезанное изображение или аудио).

Что означает, что система «акцентирует» (emphasizes) часть изображения?

Это означает, что система выделяет ту часть изображения, которая содержит ответ. На практике это реализуется путем обрезки (cropping) изображения, чтобы показать только нужную область (например, итоговую сумму на чеке), или путем визуального выделения этой области (например, рамкой).

Может ли эта система отвечать голосом?

Да. Патент (Claim 22) явно описывает генерацию инструкций для аудио-презентации (audible presentation) ответа. Система может озвучить извлеченные данные, например: «Вы потратили 29.63 евро в ресторане Extravaganza», и предоставить этот ответ через динамик устройства.

Какую практическую пользу для SEO можно извлечь из этого патента?

Основная польза — это подтверждение важности оптимизации изображений для машинного чтения, особенно для Visual Search и Google Lens. Для SEO-специалистов это сигнал о том, что текст на изображениях (инфографика, товары) должен быть максимально доступным для OCR (четким, контрастным), а сами изображения должны быть понятными для корректной классификации объектов.

Использует ли система OCR при каждом запросе?

Не обязательно. OCR активно используется на этапе предварительной классификации (офлайн), если изображение содержит текст. Во время запроса система может использовать уже извлеченный текст или, при необходимости, запустить OCR повторно для анализа отобранного подмножества изображений.

Может ли система комбинировать информацию из нескольких изображений?

Да. Патент описывает сценарии с несколькими релевантными изображениями. В этом случае система может сгенерировать сводку (summary). Например, в ответ на запрос «Сколько я потратил на обед на прошлой неделе?» система может найти три чека, показать общую сумму и список отдельных трат.

Используются ли метаданные изображений (время, место съемки)?

Да, в патенте упоминается возможность использования метаданных, таких как временные метки (timestamp) и GPS-координаты. Это позволяет системе отвечать на запросы, содержащие временные или географические ограничения (например, «ресторан, в котором я был в прошлую среду»).

Что важнее для этой системы: распознавание объектов или распознавание текста?

Они работают в тандеме. Распознавание объектов используется первым для быстрой общей классификации и принятия решения о необходимости запуска распознавания текста. Распознавание текста (OCR) критически важно для анализа документов и извлечения конкретных ответов на запросы пользователя. Эффективность зависит от слаженной работы обоих компонентов.

Похожие патенты

Как Google использует текст внутри изображений (например, Street View) для индексации и ранжирования в локальном и имиджевом поиске
Google извлекает текст непосредственно из изображений (например, названия улиц, вывески бизнесов в Street View), используя передовые методы OCR и улучшения качества (Superresolution). Этот текст ассоциируется с точными географическими координатами (GPS). Это позволяет Google индексировать информацию из реального мира и использовать её для ответа на локальные поисковые запросы и повышения релевантности поиска по картинкам.
  • US8098934B2
  • 2012-01-17
  • Индексация

  • Local SEO

  • Мультимедиа

Как Google комбинирует визуальные признаки и распознанный текст (OCR) внутри изображения для улучшения визуального поиска
Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).
  • US9323784B2
  • 2016-04-26
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google использует OCR и канонические документы для улучшения результатов визуального поиска
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
  • US9176986B2
  • 2015-11-03
  • Мультимедиа

  • Индексация

  • EEAT и качество

Как Google распознает и связывает объекты на изображении с результатами поиска (Архитектура Google Lens)
Google использует систему параллельных поисковых движков (OCR, распознавание лиц, объектов, продуктов) для анализа визуального запроса (изображения). Система создает интерактивный документ, накладывая на исходное изображение визуальные идентификаторы (например, рамки или метки) для распознанных объектов. Эти идентификаторы служат ссылками на конкретные результаты поиска для каждого объекта.
  • US9087059B2
  • 2015-07-21
  • Мультимедиа

  • Ссылки

Популярные патенты

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату
Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.
  • US9355158B2
  • 2016-05-31
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore