SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует OCR и канонические документы для улучшения результатов визуального поиска

GENERATING A COMBINATION OF A VISUAL QUERY AND MATCHING CANONICAL DOCUMENT (Генерация комбинации визуального запроса и соответствующего канонического документа)
  • US9176986B2
  • Google LLC
  • 2011-12-01
  • 2015-11-03
  • Мультимедиа
  • Индексация
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.

Описание

Какую проблему решает

Патент решает проблему низкого качества или сложности чтения текста в визуальных запросах (например, размытых или искаженных фотографиях документов). Традиционный поиск по такому контенту затруднен. Изобретение улучшает пользовательский опыт, предоставляя чистую, авторитетную версию распознанного текста путем сопоставления его с каноническим документом (canonical document) и комбинирования результатов с исходным изображением.

Что запатентовано

Запатентована система обработки визуальных запросов, которая выполняет оптическое распознавание символов (OCR) и использует сложный механизм оценки качества распознанного текста. Система идентифицирует строки текста высокого качества (high quality textual strings) и ищет их в индексе канонических документов. При обнаружении совпадения система генерирует комбинацию исходного визуального запроса и соответствующей части канонического документа (текста или изображения), часто накладывая каноническую версию поверх исходного изображения для улучшения читаемости.

Как это работает

Система работает в несколько этапов:

  • Получение и OCR: Система получает визуальный запрос (изображение) и выполняет OCR.
  • Оценка качества символов: Каждый распознанный символ оценивается. Оценка учитывает не только уверенность OCR для самого символа, но и оценки соседних символов, а также вероятность появления символа в контексте языковой модели (language-conditional character probability).
  • Идентификация качественных строк: Выявляются последовательности символов с высокими оценками качества.
  • Поиск канонического документа: Эти строки используются для поиска соответствующего канонического документа в базе данных.
  • Генерация комбинации: Система создает комбинированный результат, накладывая часть канонического документа (чистый текст или изображение) поверх исходного визуального запроса, выравнивая его по ориентации исходного изображения.

Актуальность для SEO

Высокая. Технология напрямую связана с функциональностью Google Lens и обработкой изображений в поиске. Возможность распознавать текст в сложных условиях, сопоставлять его с авторитетными источниками и предоставлять улучшенную версию изображения является ключевым компонентом современных систем визуального поиска.

Важность для SEO

Патент имеет среднее стратегическое значение для SEO. Он не описывает алгоритмы ранжирования веб-страниц, но критически важен для понимания того, как Google извлекает информацию из изображений (Image SEO) и связывает ее с каноническими документами (веб-страницами). Патент подтверждает, что текст внутри изображений индексируется и используется для генерации стандартных веб-результатов. Для SEO-специалистов это подчеркивает важность обеспечения того, чтобы их контент выступал в качестве канонического источника для информации, содержащейся в изображениях (например, инфографике, фотографиях продуктов).

Детальный разбор

Термины и определения

Visual Query (Визуальный запрос)
Изображение (например, фотография, скан, скриншот), отправленное в поисковую систему в качестве запроса.
Canonical Document (Канонический документ)
Авторитетный исходный документ (например, веб-страница, книга, опубликованная статья) из установленного источника, хранящийся в базе данных. Текст в таких документах считается авторитетным представлением контента.
OCR (Optical Character Recognition)
Оптическое распознавание символов. Процесс преобразования изображений текста в машиночитаемый текст.
Text Recognition Data (Данные распознавания текста)
Выходные данные процесса OCR, включающие распознанные символы и связанную с ними информацию.
High Quality Textual Strings (Текстовые строки высокого качества)
Последовательности распознанных символов, которые имеют оценку качества выше определенного порога. Используются для поиска канонического документа.
Language-Conditional Character Probability (Вероятность символа, обусловленная языком)
Метрика, указывающая, насколько распознанный символ и предшествующие ему символы соответствуют определенной языковой модели.
Structural Information (Структурная информация)
Данные, описывающие макет текста в визуальном запросе: относительные позиции, размеры, порядок символов, количество символов и категорию шрифта.
Visual Query Server System (Система сервера визуальных запросов)
Серверная инфраструктура, предназначенная для обработки визуальных запросов, включающая параллельные системы поиска (например, OCR, распознавание лиц, распознавание объектов).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для генерации комбинированного результата.

  1. Система получает визуальный запрос от клиента.
  2. Выполняется OCR для получения данных, представляющих текстовые символы в непрерывной области изображения.
  3. Выполняется оценка (scoring) каждого текстового символа. Ключевой аспект: оценка символа основана как на качестве OCR самого символа, так и на качестве OCR одного или нескольких соседних символов.
  4. На основе оценок идентифицируются одна или несколько high quality textual strings.
  5. Извлекается canonical document, содержащий эти строки.
  6. Генерируется комбинация визуального запроса и по крайней мере части канонического документа.
  7. Комбинация отправляется клиенту.

Claim 2 (Зависимый от 1): Уточняет механизм генерации комбинации.

Генерация комбинации включает наложение (superimposing) части канонического документа на визуальный запрос.

Claim 3 (Зависимый от 1): Уточняет ориентацию при генерации комбинации.

Часть канонического документа ориентируется в комбинации в соответствии с ориентацией визуального запроса (т.е. если исходное фото было под углом, наложенный текст также будет под углом).

Claim 9 (Зависимый от 1): Детализирует механизм оценки символов.

Оценка символа включает генерацию language-conditional character probability, которая показывает, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели.

Claim 12 (Независимый пункт): Описывает метод выбора типа возвращаемого канонического контента на основе качества.

  1. После выполнения OCR, оценки символов и идентификации качественных строк рассчитывается quality score (оценка качества) для этих строк.
  2. Если оценка качества ниже порогового значения, извлекается версия канонического документа в виде изображения (image version).
  3. Если оценка качества равна или выше порогового значения, извлекается версия канонического документа в виде машиночитаемого текста (machine readable text version).
  4. Генерируется комбинация визуального запроса и извлеченной версии.

Где и как применяется

Патент описывает процессы внутри специализированной системы Visual Query Server System, которая функционирует параллельно основному веб-поиску (Term Query Server System). Он затрагивает этапы, аналогичные стандартной архитектуре поиска, но применяемые к визуальным данным.

CRAWLING / INDEXING (Канонических документов)
Система полагается на существующую базу данных или индекс канонических документов (например, индекс веб-страниц, Google Books). Эти документы должны быть предварительно проиндексированы.

INDEXING (Извлечение признаков из визуального запроса)
Основная часть работы происходит здесь, в частности в подсистеме OCR Search System. Визуальный запрос анализируется, выполняется OCR, извлекается текст и структурная информация (Structural Information). Происходит сложная оценка качества символов и строк.

RANKING / RETRIEVAL (Поиск соответствий)
Идентифицированные high quality textual strings используются как запрос к базе данных канонических документов для поиска соответствий. В некоторых вариантах также учитывается Structural Information для выбора наиболее подходящего документа (например, правильного издания книги).

METASEARCH / RERANKING (Генерация и смешивание результатов)
На этом этапе система генерирует финальный результат. Ключевым моментом является создание «комбинации» — наложение канонического контента на исходный визуальный запрос. Также система может использовать извлеченный текст для генерации дополнительных веб-результатов (Web Results) через Term Query Server System и смешивать их с визуальными результатами.

Входные данные:

  • Визуальный запрос (изображение).
  • (Опционально) Географическое положение клиента.

Выходные данные:

  • Комбинация визуального запроса и части канонического документа (наложенный текст или изображение).
  • (Опционально) Отдельные сегменты канонического документа (текст и/или изображение).
  • (Опционально) Список релевантных веб-результатов.

На что влияет

  • Типы контента: В первую очередь влияет на изображения, содержащие текст: фотографии документов, книг, газет, упаковки продуктов, вывесок, инфографику.
  • Специфические запросы: Визуальные запросы, целью которых является идентификация источника текста или улучшение читаемости сфотографированного текста.
  • Географические факторы: Система может адаптировать распознавание и результаты в зависимости от местоположения пользователя, используя локализованные языковые модели и уточняя географические названия, найденные в тексте.

Когда применяется

  • Триггеры активации: Применяется, когда система обнаруживает текст в визуальном запросе и может идентифицировать high quality textual strings, достаточные для поиска соответствия в базе канонических документов.
  • Условия работы: Работает при наличии доступа к обширной базе канонических документов. Эффективность зависит от качества OCR и способности сопоставить распознанный текст с источником.

Пошаговый алгоритм

Процесс обработки визуального запроса и генерации комбинации

  1. Получение данных: Система получает визуальный запрос и (опционально) географическое положение клиента.
  2. Выполнение OCR: На визуальном запросе выполняется оптическое распознавание символов для получения текстовых символов и (опционально) структурной информации (шрифт, расположение, размер).
  3. Оценка символов (Scoring): Каждый распознанный символ оценивается.
    1. Выбирается языковая модель (по умолчанию или на основе географического положения).
    2. Генерируется language-conditional character probability для каждого символа с учетом контекста (предшествующих символов) и выбранной языковой модели.
    3. Генерируется text quality score для каждого символа. Эта оценка зависит как от качества распознавания самого символа, так и от оценок соседних символов.
  4. Идентификация качественных строк: На основе оценок символов (и, возможно, оценок слов) система идентифицирует одну или несколько high quality textual strings.
  5. Поиск канонического документа: Система ищет canonical document, который содержит эти высококачественные строки. В некоторых вариантах поиск также требует соответствия структурной информации визуального запроса и канонического документа.
  6. Генерация комбинации:
    1. Извлекается соответствующая часть канонического документа (в виде текста или изображения). Выбор типа может зависеть от итоговой оценки качества (Claim 12).
    2. Генерируется комбинация путем наложения извлеченной части на исходный визуальный запрос.
    3. Наложенная часть ориентируется в соответствии с ориентацией текста в исходном визуальном запросе.
  7. Генерация веб-результатов (Опционально): Идентифицируются веб-результаты, релевантные визуальному запросу и (опционально) географическому положению. Если в тексте найден географический термин, он может быть уточнен с помощью местоположения клиента.
  8. Отправка результатов: Комбинация и (опционально) веб-результаты отправляются клиенту.

Какие данные и как использует

Данные на входе

  • Контентные факторы (Изображение): Пиксельные данные визуального запроса, которые анализируются системой OCR.
  • Структурные факторы (Извлеченные): Система извлекает из изображения Structural Information: относительные позиции, размеры, порядок символов, категорию шрифта.
  • Географические факторы: IP-адрес или GPS-координаты клиента используются для выбора языковой модели и уточнения географических терминов в тексте.
  • Системные данные (Внутренние): База данных канонических документов, языковые модели (language models).

Какие метрики используются и как они считаются

  • OCR Quality Score (Оценка качества OCR): Уверенность системы OCR в правильности распознавания отдельного символа.
  • Language-Conditional Character Probability: Вероятность появления символа в заданном контексте (последовательности предшествующих символов) согласно языковой модели.
  • Text Quality Score (Оценка качества текста): Агрегированная оценка для символа. Патент указывает, что она зависит от качества OCR самого символа И от оценок соседних символов (Claim 1). Это предполагает использование алгоритмов сглаживания или контекстной постобработки OCR.
  • Quality Score (для строк): Оценка, рассчитываемая для high quality textual strings. Используется для принятия решения о том, возвращать ли текстовую или графическую версию канонического документа (Claim 12).
  • Соответствие структурной информации: Метрика, оценивающая, насколько макет текста в визуальном запросе соответствует макету текста в каноническом документе.

Выводы

  1. Google активно использует текст в изображениях для поиска: Патент демонстрирует сложный механизм извлечения текста из визуальных запросов (OCR) и его использования для поиска релевантной информации, включая генерацию стандартных веб-результатов. Текст в изображениях является индексируемым контентом.
  2. Важность канонических источников: Система стремится сопоставить распознанный текст с canonical document. Это подчеркивает важность наличия четкого, индексируемого текстового контента на сайте, который может служить авторитетным источником для информации, распространяемой в графическом формате.
  3. Сложная оценка качества OCR: Google не просто полагается на уверенность распознавания отдельных символов. Используются языковые модели и контекст (соседние символы) для определения high quality textual strings. Это позволяет системе работать даже с искаженными или размытыми изображениями.
  4. Учет структуры и формата: Система анализирует Structural Information (макет, шрифты) и может использовать это для различения разных версий одного и того же текста (например, разных изданий книги).
  5. Локализация в визуальном поиске: Географическое положение пользователя влияет на процесс OCR (выбор языковой модели для учета локальных вариантов написания) и на генерацию результатов (уточнение географических названий в тексте).

Практика

Best practices (это мы делаем)

  • Обеспечение каноничности текстового контента: Убедитесь, что текст, используемый в ваших изображениях (инфографика, схемы, цитаты), также присутствует на вашем сайте в виде индексируемого HTML-текста. Это позволит Google идентифицировать ваш сайт как canonical document для этого контента.
  • Оптимизация текста в изображениях для OCR: Используйте четкие, контрастные шрифты и избегайте наложения текста на сложные фоны. Хотя система Google предназначена для работы со сложными случаями, упрощение задачи OCR повышает вероятность правильного распознавания и сопоставления.
  • Использование текста в изображениях продуктов (E-commerce): Текст на упаковке продукта или на самом продукте является важным сигналом. Патент показывает, что Google может распознать этот текст и использовать его для идентификации продукта и генерации релевантных веб-результатов.
  • Локализация визуального контента: При работе на нескольких рынках учитывайте локальные особенности языка и написания в визуальных материалах, так как Google может использовать локализованные языковые модели для OCR на основе местоположения пользователя.

Worst practices (это делать не надо)

  • Публикация важной информации только в виде изображений: Размещение ключевой информации (например, спецификаций продукта, контактных данных, основных тезисов статьи) исключительно в графическом формате без текстового дублирования на странице затрудняет идентификацию вашего сайта как канонического источника.
  • Использование намеренно искаженных шрифтов для ключевой информации: Использование CAPTCHA-подобных или чрезмерно стилизованных шрифтов может снизить качество OCR и помешать системе извлечь high quality textual strings.
  • Игнорирование географической неоднозначности: Если в изображении упоминается географическое название, которое имеет несколько значений (например, "Париж"), и контекст неясен, система может ошибочно связать его с местоположением пользователя. Рекомендуется предоставлять уточняющий контекст (например, "Париж, Франция").

Стратегическое значение

Этот патент подтверждает стратегию Google по извлечению и пониманию информации из любых форматов, включая сложные визуальные данные. Для SEO это означает, что граница между текстовым и визуальным контентом стирается. Стратегия должна включать оптимизацию изображений не только через alt-тексты и имена файлов, но и через обеспечение читаемости и каноничности контента, содержащегося внутри самих изображений. Это особенно важно в контексте роста популярности визуального поиска (например, Google Lens).

Практические примеры

Сценарий: Оптимизация инфографики для идентификации канонического источника

  1. Действие: Компания создает и публикует детальную инфографику со статистикой по своей отрасли.
  2. Реализация (Best Practice): Одновременно с публикацией инфографики на странице блога публикуется полная текстовая расшифровка всех данных и тезисов, содержащихся в инфографике, непосредственно под изображением.
  3. Ожидаемый результат: Когда пользователи или другие сайты делятся этой инфографикой (делают скриншоты, фотографии), система Google выполняет OCR. Она идентифицирует high quality textual strings и сопоставляет их с текстовой расшифровкой в блоге. Сайт компании идентифицируется как canonical document, что повышает вероятность показа этого сайта в результатах визуального поиска или в связанных веб-результатах.

Сценарий: Использование локализации в визуальном поиске (E-commerce)

  1. Действие: Международный ритейлер продает продукт с разным написанием названия на упаковке для рынка США ("Color") и рынка Великобритании ("Colour").
  2. Реализация (Best Practice): Ритейлер поддерживает отдельные канонические страницы продуктов для каждого региона с соответствующим написанием.
  3. Ожидаемый результат: Пользователь в Великобритании фотографирует упаковку с надписью "Colour". Система Google использует географическое положение пользователя для выбора британской языковой модели (Claim 9, FIG. 25A). Это повышает точность распознавания слова "Colour". Система сопоставляет его с канонической страницей продукта для Великобритании и генерирует соответствующие локальные веб-результаты.

Вопросы и ответы

Что такое «канонический документ» в контексте этого патента?

Canonical document — это авторитетный источник контента, хранящийся в базе данных Google (например, проиндексированная веб-страница, книга из Google Books). Когда система распознает текст в визуальном запросе, она пытается найти этот же текст в своей базе канонических документов, чтобы подтвердить точность распознавания и получить чистую версию контента.

Как Google оценивает качество распознанного текста (OCR)?

Оценка качества сложная и не полагается только на уверенность OCR для отдельных символов. Ключевым аспектом (Claim 1) является то, что оценка символа зависит от оценок его соседей. Также используется language-conditional character probability — метрика, проверяющая, насколько последовательность символов соответствует языковой модели. Это позволяет системе идентифицировать надежные строки (high quality textual strings) даже в искаженных изображениях.

Что такое «комбинация» визуального запроса и канонического документа?

Это ключевая часть изобретения. Вместо того чтобы просто показать распознанный текст, система генерирует новый визуальный результат, накладывая чистый текст или изображение из канонического документа поверх исходного (возможно, размытого или искаженного) визуального запроса. Это создает эффект «исправления» или улучшения исходного изображения для пользователя.

Влияет ли этот патент на ранжирование моего сайта в обычном поиске?

Напрямую нет, так как он описывает обработку визуальных запросов. Однако патент показывает, что текст, извлеченный из изображений с помощью OCR, используется для генерации стандартных веб-результатов (Web Results). Если система сможет распознать текст в изображении и идентифицировать ваш сайт как канонический источник этого текста, ваш сайт может быть показан в этих результатах.

Как SEO-специалисту использовать информацию из этого патента на практике?

Основное применение — обеспечение каноничности вашего контента. Если вы публикуете изображения, содержащие текст (например, инфографику), убедитесь, что этот же текст присутствует на вашем сайте в формате HTML. Это поможет Google связать визуальный контент с вашим сайтом как авторитетным источником.

Учитывает ли система форматирование текста при поиске канонического документа?

Да. Патент описывает извлечение Structural Information (шрифт, размер, расположение, порядок слов). Система может использовать эту информацию, чтобы найти канонический документ, который не только содержит тот же текст, но и имеет схожую структуру. Это помогает, например, различать разные издания одной и той же книги.

Как местоположение пользователя влияет на этот процесс?

Местоположение используется двумя способами. Во-первых, оно помогает выбрать правильную языковую модель для OCR (например, для учета различий в написании между американским и британским английским). Во-вторых, оно используется для уточнения географических названий, найденных в тексте (например, чтобы понять, имеется ли в виду Париж во Франции или в Техасе).

Должен ли я оптимизировать текст в изображениях для лучшего распознавания?

Да. Хотя система Google разработана для работы со сложными случаями, использование четких, контрастных шрифтов и простого макета повышает вероятность того, что OCR сгенерирует high quality textual strings. Это, в свою очередь, увеличивает шансы на успешное сопоставление с вашим каноническим документом.

Что происходит, если Google уверен в качестве распознанного текста?

Патент (Claim 12) описывает сценарий, когда система принимает решение на основе оценки качества. Если оценка качества высока (выше порога), система предпочитает использовать машиночитаемую текстовую версию канонического документа для генерации комбинации. Если оценка ниже порога, она может использовать версию в виде изображения.

Является ли это описанием работы Google Lens?

Хотя патент не упоминает Google Lens по имени, описанные технологии — обработка визуальных запросов, параллельное использование OCR и других систем распознавания, сопоставление с каноническими источниками и улучшение изображения — тесно связаны с функциональностью, наблюдаемой в Google Lens и современных системах визуального поиска.

Похожие патенты

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)
Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.
  • US8811742B2
  • 2014-08-19
  • Мультимедиа

  • EEAT и качество

Как Google использует местоположение пользователя для улучшения распознавания текста на изображениях и поиска источника контента
Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.
  • US8805079B2
  • 2014-08-12
  • Мультиязычность

  • Local SEO

  • EEAT и качество

Как Google комбинирует визуальные признаки и распознанный текст (OCR) внутри изображения для улучшения визуального поиска
Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).
  • US9323784B2
  • 2016-04-26
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует OCR, шаблоны и метаданные для индексации и поиска по личным документам (сканам, PDF)
Патент Google, описывающий систему для преобразования бумажных или графических документов (например, сканов, PDF) в индексируемый текст. Система использует OCR, применяет шаблоны для автоматического извлечения данных и назначения метаданных, а также управляет доступом, сохраняя всё в базе данных для личного поиска.
  • US20080162603A1
  • 2008-07-03
  • Индексация

Популярные патенты

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии
Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.
  • US8051076B1
  • 2011-11-01
  • SERP

  • Поведенческие сигналы

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя
Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.
  • US9235626B2
  • 2016-01-12
  • Персонализация

  • SERP

  • Семантика и интент

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
  • US9235653B2
  • 2016-01-12
  • Knowledge Graph

  • Свежесть контента

  • Семантика и интент

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)
Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.
  • US9165040B1
  • 2015-10-20
  • Ссылки

  • EEAT и качество

  • Антиспам

seohardcore