SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам

SYSTEM AND METHOD FOR ASSOCIATING IMAGES WITH SEMANTIC ENTITIES (Система и метод ассоциации изображений с семантическими сущностями)
  • US9171018B2
  • Google LLC
  • 2013-01-16
  • 2015-10-27
  • Семантика и интент
  • Knowledge Graph
  • Мультимедиа
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).

Описание

Какую проблему решает

Патент решает проблему неоднозначности (ambiguity) при поиске изображений. Традиционный поиск по картинкам часто опирается на текстовые метки (labels), связанные с изображением. Однако эти метки могут быть многозначными. Например, метка «Ягуар» может относиться к животному, автомобилю или спортивной команде. Если система просто выполнит текстовый поиск по этой метке, результаты будут смешанными и неточными. Изобретение устраняет эту неоднозначность, связывая изображения не просто с текстом, а с конкретными, disambiguated semantic entities (семантическими сущностями).

Что запатентовано

Запатентована система для ассоциации изображений с semantic entities и использования этих ассоциаций для улучшения результатов поиска по картинке. Система использует базу данных исходных изображений (source images), которые предварительно связываются с сущностями через анализ их текстовых меток (labels). Когда пользователь загружает целевое изображение (target image) для поиска, система находит похожие исходные изображения и использует связанные с ними сущности для определения наиболее вероятной сущности для целевого изображения.

Как это работает

Система работает в двух режимах: офлайн-обработка и онлайн-поиск.

Офлайн-обработка:

  • Исходным изображениям присваиваются метки (labels).
  • Метки агрегируются и распространяются между похожими изображениями (label propagation).
  • Для каждого изображения создается «документ» (image document), содержащий все его метки.
  • Этот документ анализируется для связи изображения с одной или несколькими semantic entities (например, статьями Wikipedia/Freebase) с расчетом значения уверенности (confidence value).

Онлайн-поиск:

  • Система получает целевое изображение (запрос).
  • Идентифицируются похожие исходные изображения.
  • Анализируются семантические сущности, связанные с этими похожими изображениями.
  • Сущностям присваивается оценка (score) на основе схожести изображений, значений уверенности и частоты встречаемости.
  • Наиболее вероятная сущность используется для предоставления результатов поиска (например, показ страницы сущности или генерация уточненного поискового запроса).

Актуальность для SEO

Высокая. Переход к семантическому поиску (entity-based search) является центральной стратегией Google. Описанный механизм лежит в основе функционирования Визуального Поиска (Visual Search), таких технологий как Google Lens и современного Google Images, позволяя точно идентифицировать объекты, достопримечательности, произведения искусства и продукты.

Важность для SEO

Значительное влияние (8/10). Патент критически важен для понимания того, как Google интерпретирует визуальный контент. Он подчеркивает важность контекста, в котором размещено изображение, поскольку этот контекст часто служит источником исходных labels. Понимание этого механизма необходимо для эффективной оптимизации изображений для распознавания сущностей, что напрямую влияет на видимость в Google Images, Google Lens и блоках смешанной выдачи (Universal Search).

Детальный разбор

Термины и определения

Confidence Value (Значение уверенности)
Метрика, представляющая вероятность того, что изображение связано с конкретной семантической сущностью. Используется для ранжирования сущностей.
Image Document (Документ изображения)
Структура данных (например, текстовый файл, XML), создаваемая для изображения. Содержит все текстовые метки (labels), связанные с этим изображением, в том числе полученные путем распространения меток.
Image Labels (Метки изображения)
Текстовые строки, связанные с исходными изображениями. Могут быть получены из метаданных, окружающего текста, поисковых запросов, ручной разметки или OCR.
Label Propagation (Распространение меток)
Процесс агрегации меток между похожими изображениями. Если два изображения визуально похожи, их метки объединяются.
Semantic Entity (Семантическая сущность)
Концепция или тема, определенная в рамках конкретной онтологии (например, узел в Knowledge Graph, статья в Wikipedia или Freebase). Сущность имеет уникальный идентификатор и устраняет неоднозначность терминов (например, «Mona Lisa (Movie)» против «Mona Lisa (Painting)»).
Source Image / Reference Image (Исходное / Эталонное изображение)
Изображение, хранящееся в базе данных, которое предварительно обработано и связано с метками и семантическими сущностями. Используется для сравнения с целевым изображением.
Target Image / Input Image (Целевое / Входное изображение)
Изображение, предоставленное пользователем в качестве поискового запроса (например, загруженное в Google Images или снятое через Google Lens).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс онлайн-поиска по изображению.

  1. Система получает входное изображение (input image) в качестве поискового запроса.
  2. Определяются эталонные изображения (reference images, т.е. source images), которые соответствуют входному изображению. Каждое эталонное изображение уже связано с одной или несколькими сущностями.
  3. Из множества сущностей, связанных с эталонными изображениями, выбираются конкретные сущности для ассоциации с входным изображением.
  4. Идентифицируется итоговая сущность (particular entity) на основе *количества* эталонных изображений, которые связаны с ней (консенсус).
  5. Текстовая информация этой итоговой сущности сконфигурирована так, чтобы устранять неоднозначность (disambiguate) по сравнению с другими сущностями, имеющими общий текст.
  6. Сохраняются данные, связывающие входное изображение с идентифицированной итоговой сущностью.

Claim 3 (Зависимый от 1): Уточняет природу сущностей.

Выбранные сущности описывают концепцию или тему, связанную с определенной онтологией (подтверждает определение Semantic Entity).

Claim 4 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).

Выбор сущности основывается на оценке уверенности (confidence score), представляющей вероятность того, что данная сущность связана с конкретным эталонным изображением.

Claim 5 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).

Выбор сущности основывается на оценке схожести (similarity score), представляющей степень сходства эталонного изображения, связанного с сущностью, и входного изображения.

Где и как применяется

Изобретение охватывает как офлайн-процессы индексирования, так и онлайн-процессы ранжирования при обработке визуальных поисковых запросов.

CRAWLING и INDEXING (Сканирование и Индексирование)
На этом этапе собираются source images. Извлекаются визуальные признаки для последующего сравнения схожести. Также извлекаются и присваиваются исходные labels (например, из окружающего текста на веб-страницах, метаданных изображений, ALT-текстов или поисковых запросов, по которым кликали на изображение).

INDEXING (Офлайн-обработка)
Основная часть офлайн-процесса патента происходит здесь:

  • Сравнение изображений: Система идентифицирует похожие source images.
  • Распространение меток (Label Propagation): Метки агрегируются между похожими изображениями.
  • Генерация документов: Создаются Image Documents.
  • Ассоциация с сущностями: Система взаимодействует с базой данных сущностей (Entity Database, например, Knowledge Graph), чтобы связать документы изображений с Semantic Entities и рассчитать Confidence Values.

RANKING (Ранжирование – Визуальный Поиск)
Это начало онлайн-процесса. Система получает Target Image и выполняет быстрый поиск для нахождения визуально похожих Source Images (Retrieval).

RERANKING / METASEARCH (Переранжирование / Метапоиск)
Финальный этап онлайн-процесса. Система агрегирует Semantic Entities, связанные с найденными похожими изображениями. Происходит оценка (scoring) этих сущностей на основе Similarity Scores, Confidence Values и частоты (консенсуса). Выбирается лучшая сущность, которая используется для формирования ответа пользователю (например, показ панели знаний в Google Lens или уточнение запроса в Google Images).

На что влияет

  • Типы контента: Влияет на любые изображения, где требуется устранение неоднозначности: продукты (конкретные модели), достопримечательности, произведения искусства, логотипы, известные личности.
  • Специфические запросы: Критически важен для визуальных поисковых запросов (поиск по загруженному изображению или через камеру).
  • Ниши: Особенно важно в e-commerce для точной идентификации товаров и в информационных нишах для идентификации объектов и мест.

Когда применяется

  • Офлайн-процесс: Применяется периодически или постоянно при обработке и индексировании изображений для пополнения базы данных source images и их связей с сущностями.
  • Онлайн-процесс: Активируется каждый раз, когда пользователь инициирует поиск, используя изображение в качестве запроса (Visual Search).

Пошаговый алгоритм

Процесс А: Офлайн-ассоциация изображений с сущностями

  1. Присвоение меток: Исходным изображениям (source images) в базе данных присваиваются labels (из веб-контекста, запросов, OCR и т.д.).
  2. Агрегация меток: Система идентифицирует похожие исходные изображения (используя визуальные признаки) и выполняет Label Propagation, объединяя метки между ними.
  3. Генерация документов: Для каждого изображения создается Image Document, содержащий все ассоциированные с ним метки.
  4. Идентификация сущностей: Документ анализируется для выявления одной или нескольких Semantic Entities. Это может включать генерацию поисковых запросов на основе меток и поиск в базе данных сущностей.
  5. Извлечение дополнительных данных (Опционально): Из страниц, связанных с сущностями (например, Wikipedia), могут быть извлечены дополнительные метки.
  6. Расчет уверенности: Для каждой пары (изображение, сущность) рассчитывается Confidence Value, указывающий на вероятность правильной ассоциации.
  7. Сохранение: Ассоциации и значения уверенности сохраняются в базе данных.

Процесс Б: Онлайн-поиск по изображению

  1. Получение запроса: Система получает Target Image от пользователя.
  2. Идентификация похожих изображений: Система ищет в базе данных Source Images, которые визуально похожи на Target Image. Может рассчитываться Similarity Score.
  3. Сбор сущностей: Идентифицируются Semantic Entities, связанные с найденными похожими изображениями, вместе с их Confidence Values.
  4. Оценка сущностей (Scoring): Рассчитывается итоговая оценка для каждой сущности. Эта оценка учитывает:
    • Частоту появления сущности среди похожих изображений (консенсус, как указано в Claim 1).
    • Confidence Values ассоциаций (Claim 4).
    • Similarity Scores исходных изображений (Claim 5).
  5. Выбор лучшей сущности: Выбирается сущность (или сущности) с наивысшей итоговой оценкой.
  6. Предоставление результатов: Лучшая сущность используется для ответа на запрос. Это может быть прямая ссылка на страницу сущности или использование сущности для генерации нового, уточненного поискового запроса.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

  • Мультимедиа факторы (Визуальные признаки): Визуальное содержание изображений (пиксельные паттерны, формы, цвета, общие объекты). Это критически важно для определения схожести между Target Image и Source Images, а также для группировки Source Images при распространении меток.
  • Контентные факторы (Текстовые метки): Image Labels. Патент указывает, что они могут быть получены из:
    • Поисковых запросов, в ответ на которые было показано изображение.
    • Ручной разметки пользователями.
    • Оптического распознавания символов (OCR).
    • Веб-документов (HTML), в которые встроены изображения (окружающий текст, ALT-тексты).
  • Технические факторы (Метаданные): Метаданные изображений (например, местоположение, время, устройство) могут использоваться для идентификации похожих изображений.

Какие метрики используются и как они считаются

  • Similarity Score (Оценка схожести): Метрика, определяющая, насколько визуально похожи два изображения. Рассчитывается на основе сравнения визуальных признаков.
  • Confidence Value (Значение уверенности): Вероятностная оценка того, что Source Image правильно связан с конкретной Semantic Entity. Рассчитывается офлайн на основе анализа Image Document.
  • Entity Score (Итоговая оценка сущности): Рассчитывается онлайн для определения лучшей сущности для Target Image. Является функцией от Similarity Scores похожих изображений, их Confidence Values и частоты встречаемости сущности. В патенте указано, что веса для этой оценки могут определяться динамически.

Выводы

  1. Переход от текста к сущностям в анализе изображений: Патент демонстрирует механизм, позволяющий Google понимать семантическое значение изображения, а не просто его визуальные характеристики или связанные с ним ключевые слова. Цель — связать картинку с узлом в Knowledge Graph.
  2. Критическая роль контекста (Labels): Хотя система использует визуальное сравнение, процесс ассоциации с сущностями сильно зависит от качества и полноты исходных labels. Эти метки в значительной степени формируются из контекста, в котором изображение используется в вебе (окружающий текст, ALT-теги, заголовки).
  3. Распространение меток как механизм обогащения данных: Label Propagation позволяет системе улучшать понимание изображения за счет объединения информации от всех его визуально похожих копий в индексе. Это повышает точность идентификации сущностей.
  4. Устранение неоднозначности как главная цель: Основная задача системы — дисамбигуация. Система спроектирована так, чтобы отличать сущности с одинаковыми названиями (например, «Ягуар» машина от животного), анализируя весь набор меток.
  5. Фундамент для Визуального Поиска: Описанная архитектура является базовой для работы сервисов визуального поиска, таких как Google Lens, где точность идентификации объекта критически важна для пользовательского опыта.

Практика

Best practices (это мы делаем)

  • Обеспечение четкого и однозначного контекста: Размещайте изображения в релевантном текстовом окружении. Окружающий текст (абзацы, заголовки, подписи) служит основным источником labels для Google. Контекст должен помогать устранить неоднозначность (например, если это фото ягуара, убедитесь, что рядом есть слова «животное», «природа», а не «автомобиль»).
  • Использование дескриптивных атрибутов: Продолжайте использовать описательные и точные ALT-тексты и имена файлов. Они также являются важными источниками labels.
  • Применение структурированных данных (Schema.org): Используйте микроразметку для явного указания сущности, которую представляет изображение. Для товаров (Product), рецептов (Recipe), статей (Article) и т.д. указывайте свойство image. Это напрямую помогает Google установить связь между изображением и сущностью, вероятно, повышая Confidence Value.
  • Качество и четкость изображений: Используйте высококачественные, четкие изображения, на которых главный объект хорошо виден. Это облегчает извлечение визуальных признаков и повышает точность сравнения (Similarity Score) с другими изображениями в индексе Google.

Worst practices (это делать не надо)

  • Размещение изображений без контекста: Создание страниц, состоящих только из галерей изображений без сопроводительного текста или с минимальным контекстом. Это не дает системе достаточно labels для точной ассоциации с сущностями.
  • Использование вводящих в заблуждение или неоднозначных меток: Применение неточных ALT-текстов или размещение изображения в нерелевантном контексте может привести к неправильной классификации сущности.
  • Использование стоковых или слишком общих изображений в качестве основных: Если изображение слишком общее, оно может быть связано с общей сущностью (например, «Кот»), а не с конкретной темой статьи (например, «Бенгальская кошка»), что снижает его ценность в поиске. Использование популярных стоковых фото может привести к "размытию" сигналов из-за множества разных контекстов в вебе.
  • Блокировка важных изображений от индексации: Это препятствует их использованию в качестве Source Images и не позволяет системе понять контент страницы.

Стратегическое значение

Патент подтверждает, что Image SEO является неотъемлемой частью стратегии семантического (entity-based) продвижения. Изображения — это не просто украшения, а носители данных, которые помогают Google идентифицировать основную сущность страницы и укреплять связи в Knowledge Graph. Стратегия должна быть направлена на то, чтобы помочь Google однозначно и с высокой степенью уверенности связать ваши изображения с правильными семантическими сущностями.

Практические примеры

Сценарий: Оптимизация изображения товара в E-commerce

Задача: Убедиться, что фотография кроссовка «Nike Air Max 90G NRG» будет связана с сущностью именно этой модели, а не с общим понятием «кроссовок» или другой моделью Nike.

  1. Визуальная часть: Загрузить четкие фотографии кроссовка с разных ракурсов, включая фото логотипа и уникальных элементов дизайна. Это улучшит Similarity Score с другими фото этой модели в индексе Google.
  2. Текстовый контекст (Labels): Убедиться, что на странице товара в заголовке H1, описании и ALT-тексте фотографии указано полное название модели «Nike Air Max 90G NRG».
  3. Устранение неоднозначности: В тексте упомянуть характеристики, отличающие эту модель от других (например, «специальная версия для гольфа»).
  4. Структурированные данные: Внедрить разметку Schema.org/Product, указав в ней URL этих фотографий в свойстве image, а также точное название в name, бренд в brand и идентификаторы (GTIN, SKU). Это явно свяжет изображение с сущностью продукта.
  5. Ожидаемый результат: При поиске по этой картинке (например, через Google Lens) система с высокой вероятностью идентифицирует точную модель товара и покажет релевантные результаты (другие магазины, обзоры этой модели), а не общие результаты по кроссовкам.

Вопросы и ответы

Как этот патент связан с Google Lens?

Этот патент описывает фундаментальную технологию, лежащую в основе Google Lens и аналогичных систем визуального поиска. Google Lens получает изображение с камеры (Target Image), находит похожие изображения в базе данных Google (Source Images) и использует описанный в патенте механизм для определения того, какая именно сущность (Semantic Entity) изображена, чтобы предоставить пользователю релевантную информацию.

Что такое «labels» (метки) и откуда Google их берет?

Labels — это текстовые описания, связанные с изображением. Согласно патенту, Google может получать их из различных источников: окружающего текста на веб-странице, метаданных изображения (включая ALT-текст), поисковых запросов, по которым пользователи находят это изображение, ручной разметки, а также с помощью оптического распознавания текста (OCR) на самой картинке.

Как я могу помочь Google связать мое изображение с правильной сущностью?

Ключевым фактором является предоставление четкого и однозначного контекста. Убедитесь, что текст, окружающий изображение на странице, релевантен и помогает устранить возможную неоднозначность. Также критически важно использовать точные ALT-тексты и внедрять структурированные данные (Schema.org), чтобы явно указать системе, какую сущность представляет изображение.

Имеет ли значение качество изображения для этого алгоритма?

Да, имеет. Хотя ассоциация с сущностями зависит от labels, система должна уметь находить похожие изображения (как офлайн для распространения меток, так и онлайн при поиске). Высококачественные и четкие изображения облегчают извлечение визуальных признаков и повышают точность сравнения (Similarity Score), что в итоге улучшает идентификацию сущностей.

Что такое «Semantic Entity» в контексте этого патента?

Semantic Entity — это однозначная концепция или объект реального мира, определенный в базе знаний (например, Knowledge Graph, Wikipedia, Freebase). Это не просто ключевое слово, а конкретный объект с уникальным идентификатором, например, не просто «Mona Lisa», а «Mona Lisa (Painting)» или «Mona Lisa (Movie)».

Что такое «Label Propagation» и зачем это нужно?

Label Propagation (распространение меток) — это процесс, при котором Google находит все визуально похожие копии изображения в своем индексе и объединяет их метки. Это позволяет собрать максимально полное описание изображения, используя информацию со всех сайтов, где оно размещено, что повышает точность связи с семантической сущностью.

Влияет ли этот алгоритм на обычный веб-поиск или только на поиск по картинкам?

В первую очередь, алгоритм напрямую влияет на результаты поиска по картинкам (Google Images) и визуального поиска (Google Lens). Однако, корректная идентификация сущностей на изображениях также помогает Google лучше понять содержание всей веб-страницы, что может косвенно влиять и на ранжирование в обычном веб-поиске.

Как система выбирает лучшую сущность, если похожие изображения связаны с разными сущностями?

Система использует механизм оценки (Scoring). Она учитывает несколько факторов: насколько похоже исходное изображение на целевое (Similarity Score), насколько система уверена в связи исходного изображения с его сущностью (Confidence Value), и как часто эта сущность встречается среди всех похожих изображений (консенсус). Сущность с наивысшей агрегированной оценкой побеждает.

Означает ли этот патент, что ALT-текст стал менее важен?

Нет, наоборот. ALT-текст является одним из важнейших источников исходных labels для изображения. Поскольку весь процесс ассоциации с сущностями начинается с анализа этих меток, точный и описательный ALT-текст критически важен для правильной интерпретации изображения системой.

Как структурированные данные (Schema.org) взаимодействуют с этой системой?

Структурированные данные позволяют вебмастерам явно указать, какую сущность представляет изображение (например, через разметку Product или Article). Это предоставляет системе очень сильный сигнал для связи изображения с сущностью. Вероятно, это значительно повышает Confidence Value этой ассоциации.

Похожие патенты

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)
Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.
  • US8429173B1
  • 2013-04-23
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google агрегирует и ранжирует пользовательские метки для идентификации объектов в Визуальном поиске (Google Lens)
Google использует этот механизм для повышения точности идентификации объектов при поиске по изображению. Система находит множество визуально похожих изображений, загруженных пользователями (UGC), и анализирует их текстовые метки. Метки группируются по смыслу, а затем эти группы ранжируются на основе совокупной визуальной релевантности. Это позволяет определить наиболее вероятное название объекта, опираясь на коллективное мнение.
  • US9424279B2
  • 2016-08-23
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google комбинирует текстовый запрос и изображение-образец для уточнения поиска по картинкам
Google использует механизм для обработки гибридных запросов (текст + изображение). Система находит изображения, которые одновременно релевантны тексту и визуально похожи на образец. Для этого создаются компактные визуальные дескрипторы и используются "визуальные ключи" для быстрого поиска. Финальная выдача ранжируется по степени визуального сходства с образцом.
  • US9043316B1
  • 2015-05-26
  • Мультимедиа

  • Семантика и интент

Как Google использует машинное обучение для распознавания разных смыслов запроса и ранжирования изображений в Image Search
Google использует модель машинного обучения для улучшения ранжирования в поиске по картинкам. Система определяет различные смыслы (senses) неоднозначного запроса (например, "Jaguar" как автомобиль и как животное), проецирует изображения в многомерное пространство признаков и строит гиперплоскости (hyperplanes) для разделения этих смыслов. Итоговый ранг изображения определяется его близостью к любому из релевантных смыслов.
  • US8923655B1
  • 2014-12-30
  • Семантика и интент

  • Мультимедиа

  • SERP

Популярные патенты

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.
  • US8874594B2
  • 2014-10-28
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи
Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).
  • US8972391B1
  • 2015-03-03
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска
Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.
  • US10210263B1
  • 2019-02-19
  • Ссылки

  • SERP

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента
Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.
  • US8412699B1
  • 2013-04-02
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

seohardcore