SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)

IDENTIFYING MATCHING CANONICAL DOCUMENTS CONSISTENT WITH VISUAL QUERY STRUCTURAL INFORMATION (Идентификация совпадающих канонических документов, соответствующих структурной информации визуального запроса)
  • US8811742B2
  • Google LLC
  • 2011-12-01
  • 2014-08-19
  • Мультимедиа
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.

Описание

Какую проблему решает

Патент решает задачу точной идентификации конкретного авторитетного источника (Canonical Document), когда пользователь предоставляет изображение текста (Visual Query), например, фотографию страницы книги или документа. Сложность заключается в том, что один и тот же текст может существовать в разных документах или изданиях с разной версткой. Изобретение направлено на поиск точного совпадения не только по тексту, но и по его визуальной структуре, даже если качество изображения низкое.

Что запатентовано

Запатентована система обработки визуальных запросов, которая комбинирует оптическое распознавание символов (OCR) с анализом Structural Information (верстка, шрифты, позиционирование текста). Система оценивает надежность распознанного текста, выделяет высококачественные строки (High Quality Textual Strings) и ищет в базе данных Canonical Document, который совпадает как по тексту, так и по структуре. Это позволяет точно атрибутировать источник контента по изображению.

Как это работает

Система работает следующим образом:

  • Получение и анализ: Принимается визуальный запрос (изображение).
  • Извлечение данных: Выполняется OCR для извлечения текста и одновременно извлекается Structural Information (расположение символов, размеры, шрифты, переносы строк).
  • Оценка качества: Распознанный текст оценивается на надежность (Text Quality Score), часто с использованием языковых моделей (иногда с учетом местоположения пользователя).
  • Идентификация надежных строк: Выделяются High Quality Textual Strings.
  • Сопоставление: Система ищет Canonical Document, который содержит эти строки И чья структура соответствует структуре текста на исходном изображении.
  • Результат: Пользователю возвращается фрагмент найденного канонического документа (в виде текста или изображения).

Актуальность для SEO

Высокая. Описанные механизмы являются фундаментальными для работы сервисов визуального поиска, таких как Google Lens. Способность точно идентифицировать источник текста по изображению и сопоставлять его с оригинальной версткой остается ключевой задачей в Information Retrieval для мультимодальных запросов и атрибуции контента.

Важность для SEO

Влияние на традиционное SEO (ранжирование в веб-поиске) низкое. Этот патент описывает инфраструктуру и методы для визуального поиска, а не алгоритмы ранжирования веб-страниц. Однако он имеет стратегическое значение для понимания того, как Google индексирует и атрибутирует контент. Патент демонстрирует, что Google индексирует не только текст, но и его структуру (верстку). Для SEO-специалистов это подчеркивает важность статуса сайта как канонического источника для обеспечения видимости в Google Lens и подобных сервисах.

Детальный разбор

Термины и определения

Canonical Document (Канонический документ)
Оригинальный, авторитетный источник контента (например, книга от издателя, официальная веб-страница). Документ, который авторитетно представляет текстовое содержание и его структуру.
High Quality Textual String (Высококачественная текстовая строка)
Строка текста, извлеченная из визуального запроса с помощью OCR, которая имеет высокую оценку надежности (Text Quality Score).
Language-Conditional Character Probability (Вероятность символа, обусловленная языком)
Метрика, указывающая, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели (которая может быть выбрана на основе местоположения пользователя).
OCR (Optical Character Recognition)
Оптическое распознавание символов. Процесс преобразования изображений текста в машиночитаемый текст.
Reference Point Elements (Опорные элементы)
Элементы на изображении (например, поля, края страницы, нетекстовые объекты, разрывы строк), относительно которых определяется положение текстовых символов в рамках Structural Information.
Structural Information (Структурная информация)
Данные, описывающие верстку и представление текста в визуальном запросе. Включает относительное расположение символов, размеры, порядок слов, количество символов, категорию шрифта, переносы строк.
Text Quality Score (Оценка качества текста)
Метрика, присваиваемая символам или строкам, которая измеряет надежность результата OCR.
Visual Query (Визуальный запрос)
Изображение (фотография, скан, скриншот), отправленное в поисковую систему в качестве запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для поиска канонического источника.

  1. Система получает Visual Query (изображение) от клиента.
  2. Выполняется OCR для получения: (a) распознанных текстовых символов и (b) Structural Information. Структурная информация определяет позицию символов относительно опорных точек (Reference Point Elements) на изображении.
  3. Выполняется оценка (скоринг) каждого распознанного символа.
  4. На основе оценок идентифицируются High Quality Textual Strings.
  5. Выполняется поиск и извлечение Canonical Document. Критерии извлечения: документ должен содержать эти высококачественные строки И его структура должна соответствовать (consistent with) структурной информации из визуального запроса.
  6. Часть этого канонического документа отправляется клиенту.

Ядром изобретения является использование не только текста (OCR), но и его точного расположения и верстки (Structural Information) для идентификации источника. Это позволяет системе различать, например, два разных издания книги с идентичным текстом, но разной версткой.

Claim 11 (Независимый пункт): Описывает вариацию метода с условным форматом результата.

  1. Процесс аналогичен Claim 1 (OCR, структурная информация, скоринг, идентификация строк, поиск канонического документа, соответствующего структуре).
  2. Дополнительный шаг: вычисляется Quality Score для высококачественной строки.
  3. Если оценка качества НИЖЕ порога, извлекается версия канонического документа в виде изображения (image version).
  4. Если оценка качества ВЫШЕ или равна порогу, извлекается версия в виде машиночитаемого текста (machine readable text version).

Система адаптирует формат вывода. Если уверенность в точности распознавания и сопоставления высока, предоставляется текст. Если уверенность ниже, предоставляется изображение оригинала.

Где и как применяется

Изобретение применяется в рамках системы обработки визуальных запросов (например, Google Lens) и затрагивает несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна обрабатывать и индексировать Canonical Documents (книги, веб-страницы, PDF). Критически важно, что индексируется не только текст этих документов, но и их Structural Information (верстка, расположение текста, шрифты). Это позволяет в дальнейшем выполнять сопоставление структуры.

QUNDERSTANDING – Понимание Запросов
На этом этапе может использоваться географическое местоположение клиента (если доступно) для выбора соответствующей языковой модели, что улучшает точность OCR (например, выбор между британским и американским английским).

RANKING – Ранжирование (Точнее, Retrieval/Matching в визуальном поиске)
Это основной этап применения патента. Это не традиционное ранжирование веб-страниц, а процесс сопоставления (matching) изображения с каноническим источником.

  1. Анализ запроса: Визуальный запрос анализируется модулем OCR для извлечения текста и структуры.
  2. Оценка и фильтрация: Оценивается качество распознавания и выделяются надежные строки (High Quality Textual Strings).
  3. Сопоставление: Выполняется поиск в базе данных, используя как текст, так и Structural Information в качестве сигналов для нахождения точного соответствия.

Входные данные:

  • Визуальный запрос (изображение).
  • Географическое положение клиента (опционально).

Выходные данные:

  • Часть Canonical Document, соответствующая визуальному запросу (в формате изображения или машиночитаемого текста).
  • Опционально: Комбинация визуального запроса с наложенным фрагментом канонического документа (для "очистки" изображения).

На что влияет

  • Конкретные типы контента: В первую очередь влияет на контент, который часто фотографируют или сканируют: книги, журналы, газеты, документы, а также скриншоты веб-страниц.
  • Специфические запросы: Визуальные запросы (Visual Search), целью которых является идентификация источника текста или получение цифровой версии текста с изображения.
  • Географические факторы: Точность распознавания может варьироваться в зависимости от региона, так как система может использовать локализованные языковые модели.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда в поисковую систему поступает визуальный запрос, содержащий распознаваемый текст (например, через Google Lens).
  • Условия применения: Применяется, если система способна извлечь Structural Information и идентифицировать High Quality Textual Strings, достаточные для сопоставления с базой данных канонических документов.

Пошаговый алгоритм

Процесс работы системы (OCR Search System) при получении визуального запроса:

  1. Получение данных: Система получает визуальный запрос и, опционально, географическое положение клиента.
  2. Оптическое распознавание и структурный анализ: Модуль OCR обрабатывает изображение. Извлекаются:
    • Текстовые символы.
    • Structural Information (позиционирование, размеры, шрифты, верстка относительно опорных точек).
  3. Оценка символов (Scoring): Text Evaluation Engine оценивает каждый распознанный символ.
    • Генерируется Language-Conditional Character Probability (может использоваться языковая модель, выбранная на основе географии).
    • Генерируется Text Quality Score (на оценку могут влиять соседние символы).
  4. Идентификация качественных строк: На основе оценок идентифицируются High Quality Textual Strings.
  5. Поиск и извлечение канонического документа: Система ищет документ, удовлетворяющий двум условиям:
    • Содержит идентифицированные высококачественные строки.
    • Структура документа соответствует (consistent with) структурной информации визуального запроса.
  6. Генерация результата: Система определяет формат возвращаемого результата (изображение или текст). В некоторых вариантах это зависит от итоговой оценки качества. Опционально может быть сгенерирована комбинация (наложение чистого текста/изображения поверх запроса).
  7. Отправка результата: Часть найденного канонического документа отправляется клиенту.

Какие данные и как использует

Данные на входе

  • Контентные/Мультимедиа факторы (Визуальный запрос): Пиксельные данные изображения, которые анализируются для распознавания текста и структуры.
  • Структурные факторы (Structural Information): Ключевые данные, извлекаемые из визуального запроса: относительное расположение и размеры символов, порядок символов, категория шрифта, расположение относительно опорных точек (края страницы, разрывы строк).
  • Географические факторы: Местоположение клиента. Используется для выбора наиболее подходящей языковой модели для оценки качества OCR.

Какие метрики используются и как они считаются

  • Text Quality Score (Оценка качества текста): Метрика для оценки надежности OCR на уровне символов, слов или строк. Может быть бинарной или числовой.
  • Language-Conditional Character Probability: Вероятностная оценка того, насколько последовательность символов соответствует языковой модели (потенциально локализованной). Учитывает контекст (предшествующие символы).
  • Структурное соответствие (Consistency with Structural Information): Метрика, которая оценивает, насколько верстка канонического документа совпадает с версткой в визуальном запросе. Используется как критерий поиска и верификации.
  • Quality Score (в Claim 11): Итоговая оценка качества строки, используемая для определения формата возвращаемого результата (изображение или текст).

Выводы

  1. Каноникализация структуры контента: Google применяет концепцию каноникализации не только к тексту, но и к его структуре (верстке). Система стремится найти источник, который соответствует как содержанию, так и точному визуальному представлению (consistent with the structural information).
  2. Индексация структурной информации: Для работы этой системы Google должен индексировать и хранить данные о верстке и представлении текста (шрифты, размеры, расположение) для Canonical Documents.
  3. Приоритет авторитетных источников в визуальном поиске: Цель системы — связать визуальный запрос с его авторитетным первоисточником (Canonical Document), что критически важно для атрибуции контента в визуальном поиске (например, Google Lens).
  4. Продвинутый OCR с учетом локализации: Google использует сложные методы оценки качества распознавания (Text Quality Score) и применяет локализованные языковые модели (на основе географического положения пользователя) для повышения точности OCR.
  5. Адаптивный формат результата и улучшение UX: Система может динамически выбирать формат ответа (текст или изображение) в зависимости от уверенности в качестве распознавания, а также может "очищать" изображение пользователя, накладывая поверх него контент из канонического источника.

Практика

Best practices (это мы делаем)

Хотя патент в большей степени описывает внутренние механизмы визуального поиска, он дает важные инсайты для SEO-стратегии в контексте индексации, каноникализации и оптимизации под визуальный поиск (VSO).

  • Обеспечение статуса канонического источника: Стратегически важно, чтобы ваш сайт рассматривался Google как Canonical Document для вашего контента. Это требует предоставления высококачественного, машиночитаемого текста (HTML, качественные PDF). Это гарантирует, что при визуальном поиске вашего контента (например, через скриншот) система атрибутирует его вам.
  • Использование чистой и логичной структуры контента: Применяйте стандартные шрифты и четкую, семантическую верстку. Поскольку Google индексирует Structural Information, понятная и последовательная верстка может способствовать более точной идентификации вашего контента как канонического источника.
  • Оптимизация для Визуального Поиска (VSO): При создании изображений, содержащих важный текст (например, инфографика, цитаты), используйте читаемые шрифты и контрастный фон, чтобы облегчить OCR и повысить вероятность генерации High Quality Textual Strings, ведущих к вашему контенту.

Worst practices (это делать не надо)

  • Публикация ключевого контента только в виде изображений: Если важный текст представлен только как изображение (без текстовой альтернативы), он не сможет эффективно служить Canonical Document для сопоставления с визуальными запросами, хотя OCR и может его прочитать.
  • Использование чрезмерно сложной или нестандартной верстки: Сложные дизайнерские решения, плохо читаемые шрифты или верстка могут ухудшить качество OCR и затруднить анализ Structural Information, снижая вероятность точного сопоставления.
  • Использование скриншотов чужого контента как основного: Технология позволяет Google идентифицировать первоисточник текста на изображении. Размещение чужого контента в виде картинок не скрывает его происхождение от поисковой системы.

Стратегическое значение

Патент подтверждает, что индексация Google выходит за рамки ключевых слов и охватывает представление и структуру контента. Это критически важно для эры мультимодального и визуального поиска (Google Lens). Стратегически, SEO должно учитывать не только ЧТО сказано, но и КАК это представлено. Атрибуция контента становится все более точной, и Google может идентифицировать первоисточник, даже если контент был скопирован в виде изображения.

Практические примеры

Сценарий: Атрибуция контента при визуальном поиске скриншота

  1. Ситуация: Пользователь делает скриншот интересного абзаца на вашем сайте (Сайт А) и отправляет его в Google Lens для поиска источника.
  2. Работа системы: Google применяет OCR и извлекает Structural Information (шрифты, переносы строк, отступы) из скриншота.
  3. Сопоставление: Система ищет Canonical Document. Допустим, ваш контент также скопирован на Сайт Б, но с немного другой версткой.
  4. Результат: Поскольку система ищет совпадение не только текста, но и Structural Information, она идентифицирует Сайт А как точный источник, так как его верстка соответствует скриншоту. Пользователю будет возвращена ссылка на Сайт А.

Вопросы и ответы

Что такое «Структурная информация» (Structural Information) в контексте этого патента и почему это важно?

Structural Information — это данные о визуальной верстке и представлении текста: размеры шрифтов, точное расположение символов и слов друг относительно друга и относительно краев страницы или полей. Это важно, потому что позволяет Google не просто найти документ с похожим текстом, а идентифицировать точный первоисточник. Например, это позволяет отличить разные издания книги или разные сайты с одинаковым текстом, но разным оформлением.

Что в контексте этого патента означает "Канонический документ" (Canonical Document)?

Это оригинальный и авторитетный источник контента. Система Google стремится найти именно этот первоисточник (например, официальную страницу статьи или скан книги от издателя), а не его копию. Важно, что каноничность здесь относится не только к тексту, но и к его оригинальной структуре и верстке.

Влияет ли этот патент на ранжирование моего сайта в обычном веб-поиске?

Прямого влияния на ранжирование в традиционном веб-поиске этот патент не оказывает. Он описывает механизм обработки визуальных запросов (поиск по картинке) и идентификации источника текста на изображении. Он не описывает сигналы, используемые для ранжирования веб-страниц в органической выдаче.

Как SEO-специалист может использовать знание об этом патенте?

Знание этого патента полезно для оптимизации под визуальный поиск (VSO) и обеспечения корректной атрибуции контента. Необходимо использовать чистую верстку и читаемые шрифты, а также убедиться, что ваш сайт индексируется как канонический источник. Это гарантирует, что при поиске через Google Lens пользователи будут направлены на ваш ресурс.

Как система определяет качество распознанного текста (Text Quality Score)?

Система оценивает каждый символ, используя Language-Conditional Character Probability. Эта метрика проверяет, насколько хорошо последовательность символов соответствует статистическим моделям языка (языковой модели). Если последовательность выглядит как естественный язык, оценка качества повышается. Также учитываются оценки соседних символов.

Влияет ли географическое положение пользователя на работу этого алгоритма?

Да, это предусмотрено патентом. Географическое положение может использоваться для выбора более точной языковой модели. Например, если пользователь находится в Великобритании, система применит модель британского английского, что повысит точность распознавания текста и последующую оценку его качества.

В каком формате Google вернет результат, если найдет источник?

Патент описывает возможность возврата результата как в виде машиночитаемого текста, так и в виде изображения из канонического источника. В одном из вариантов (Claim 11) выбор формата зависит от уверенности системы (Quality Score): высокая уверенность — текст, низкая уверенность — изображение.

Что означает «комбинация визуального запроса и канонического документа»?

Это функция улучшения пользовательского опыта (UX), описанная в патенте. Если пользователь отправил размытую фотографию текста, система может взять чистый текст или изображение из найденного канонического источника и наложить его поверх исходной фотографии пользователя, совместив ориентацию. Это создает эффект «очистки» изображения.

Как этот патент связан с Google Lens?

Этот патент описывает базовую технологию, которая используется в Google Lens для функций, связанных с текстом. Когда пользователь использует Lens для копирования текста с изображения или поиска информации по фотографии документа, применяются механизмы OCR, анализа структуры и поиска канонического источника, описанные здесь.

Нужно ли мне оптимизировать шрифты и верстку специально под этот алгоритм?

Специально под этот алгоритм оптимизировать не нужно, но следует придерживаться лучших практик веб-дизайна: использовать читаемые шрифты, логичную структуру и контрастную верстку. Это улучшает пользовательский опыт и одновременно гарантирует, что системы OCR смогут корректно распознать текст и структуру вашего контента при визуальном запросе.

Похожие патенты

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google использует OCR и канонические документы для улучшения результатов визуального поиска
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
  • US9176986B2
  • 2015-11-03
  • Мультимедиа

  • Индексация

  • EEAT и качество

Как Google использует местоположение пользователя для улучшения распознавания текста на изображениях и поиска источника контента
Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.
  • US8805079B2
  • 2014-08-12
  • Мультиязычность

  • Local SEO

  • EEAT и качество

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
  • US8151186B1
  • 2012-04-03
  • Индексация

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Популярные патенты

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений
Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.
  • US8065611B1
  • 2011-11-22
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)
Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.
  • US10120949B2
  • 2018-11-06
  • Индексация

  • SERP

  • Персонализация

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников
Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.
  • US8745067B2
  • 2014-06-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок
Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.
  • US12353458B2
  • 2025-07-08
  • Ссылки

  • Семантика и интент

  • SERP

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

seohardcore