SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google извлекает факты из изображений для наполнения Knowledge Graph

COMPUTERIZED SYSTEMS AND METHODS FOR ENRICHING A KNOWLEDGE BASE FOR SEARCH QUERIES (Компьютеризированные системы и методы для обогащения базы знаний для поисковых запросов)
  • US10534810B1
  • Google LLC
  • 2016-02-29
  • 2020-01-14
  • Knowledge Graph
  • Семантика и интент
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует технологию распознавания объектов на изображениях для обогащения своей Базы Знаний (Knowledge Graph). Система анализирует наборы изображений, определяет, какие сущности часто появляются вместе (например, «Медведь Гризли» и «Рыба»), и выводит отношения между ними (например, «ест»). Эти извлеченные факты затем используются для ответов на поисковые запросы.

Описание

Какую проблему решает

Патент решает задачу расширения и обогащения Базы Знаний (Knowledge Base), такой как Google Knowledge Graph. Традиционные методы часто полагаются на анализ текста веб-страниц. Данное изобретение предлагает метод извлечения структурированных данных (сущностей и отношений между ними) непосредственно из анализа изображений, тем самым открывая новый источник информации для наполнения Базы Знаний.

Что запатентовано

Запатентована система и метод автоматического извлечения фактов из изображений для обогащения Knowledge Base. Система использует технологии распознавания объектов для аннотирования изображений, идентифицирует главную сущность (Object Entity) и связанные с ней сущности (Attribute Entity). Затем система выводит (Infer) отношения между этими сущностями на основе анализа их совместного появления, пространственных отношений или известных фактов и сохраняет эти новые отношения в Базе Знаний.

Как это работает

Ключевой механизм работы системы:

  • Аннотирование: Изображения (полученные из поиска или базы данных) обрабатываются с помощью технологий распознавания объектов для идентификации сущностей (например, «Медведь», «Рыба», «Вода»).
  • Идентификация Объекта: Система анализирует набор изображений и выбирает основную сущность (Object Entity), часто основываясь на частоте появления или оценках уверенности (Confidence Scores).
  • Идентификация Атрибута: Изображения группируются по Object Entity. В этой группе система определяет другие часто встречающиеся сущности (Attribute Entity).
  • Вывод Отношений: Система выводит отношения между Объектом и Атрибутом. Это может основываться на пространственной близости в изображении (например, рыба во рту у медведя), известных фактах из Knowledge Base или контексте исходного поискового запроса, использованного для поиска изображений.
  • Сохранение: Новый факт (Объект-Отношение-Атрибут) сохраняется в Knowledge Base и используется для ответов на запросы пользователей.

Актуальность для SEO

Высокая. Построение и обогащение Knowledge Graph является центральным элементом современной поисковой стратегии Google. Использование мультимодальных данных (текст и изображения) для понимания мира активно развивается (например, с помощью моделей типа MUM). Этот патент описывает фундаментальный механизм использования визуальной информации для извлечения структурированных фактов.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в контексте оптимизации под Knowledge Graph и Поиск по картинкам. Он демонстрирует, что визуальное представление сущностей и их взаимодействий на изображениях напрямую влияет на то, какие факты Google узнает о них. Это подчеркивает важность использования четких, релевантных и качественных изображений, которые помогают поисковой системе корректно интерпретировать контекст и взаимосвязи между сущностями на сайте.

Детальный разбор

Термины и определения

Annotation (Аннотация)
Метка, присвоенная изображению или его части, которая идентифицирует сущность (Entity), содержащуюся в нем. Присваивается с помощью технологий распознавания объектов.
Attribute Entity (Сущность-Атрибут)
Сущность, обнаруженная в аннотированных изображениях, которая часто встречается вместе с Object Entity. Используется для вывода отношений.
Confidence Score (Оценка уверенности)
Метрика, отражающая вероятность того, что сущность, идентифицированная аннотацией, действительно присутствует на изображении. Может рассчитываться, например, с помощью алгоритма сопоставления шаблонов (template matching algorithm).
Entity (Сущность)
Человек, место, вещь или концепция, идентифицируемая в изображении (например, «Медведь Гризли», «Рыба», «Майкл Джордан»).
Fact Engine (Механизм извлечения фактов)
Компонент системы, отвечающий за изучение фактов из изображений. Включает Image Annotator, Inference Engine и Confidence Score Engine.
Inferring a relationship (Вывод отношения)
Процесс определения связи между Object Entity и Attribute Entity на основе косвенных факторов, таких как контекст изображения, пространственные отношения, известные факты в Knowledge Base, а не путем извлечения из явного текстового утверждения.
Knowledge Base (База Знаний)
Репозиторий структурированных и неструктурированных данных, хранящий сущности, факты о них и отношения между ними (например, Google Knowledge Graph).
Object Entity (Сущность-Объект)
Основная сущность, выбранная среди всех сущностей в наборе аннотированных изображений. Используется как основа для группировки изображений и изучения фактов об этой сущности.
Overall Confidence Score (Общая оценка уверенности)
Агрегированная оценка уверенности для конкретной сущности по набору изображений. Может рассчитываться как среднее значение Confidence Scores для этой сущности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему для обогащения Knowledge Base.

  1. Система присваивает аннотации изображениям, идентифицируя сущности.
  2. На основе аннотаций выбирается Object Entity.
  3. Идентифицируется подмножество изображений, содержащих этот Object Entity.
  4. Определяется Attribute Entity из этого подмножества. Ключевой момент: Attribute Entity определяется как сущность (отличная от Object Entity), которая встречается наиболее часто в этом подмножестве изображений.
  5. Выводится отношение (inferred fact) между Object Entity и Attribute Entity.
  6. Отношение сохраняется в Knowledge Base.

Claim 10 (Независимый пункт): Описывает метод, схожий с Claim 1, но добавляет использование извлеченных фактов.

  1. Процесс аналогичен Claim 1 (аннотирование, выбор объекта, выбор атрибута на основе частоты, вывод отношения, сохранение).
  2. После сохранения система получает поисковый запрос от пользователя, который ссылается на Object Entity и отношение.
  3. В ответ на запрос система идентифицирует контент, связанный с Attribute Entity, основываясь на сохраненном отношении.
  4. Система предоставляет этот контент пользователю.

Claim 21 (Независимый пункт): Описывает метод изучения фактов из изображений с фокусом на пространственный анализ.

  1. Идентификация Object Entity в аннотированных изображениях.
  2. Определение Attribute Entity (как наиболее часто встречающейся сущности).
  3. Вывод отношения между Object Entity и Attribute Entity основывается по крайней мере на одном spatial relationship (пространственном отношении) между ними в изображениях.
  4. Сохранение отношения в Knowledge Base.

Где и как применяется

Изобретение применяется на этапах сбора и обработки данных для построения и обогащения Knowledge Graph.

CRAWLING – Сканирование и Сбор данных
Система может использовать краулер для сбора изображений из Интернета или использовать существующую базу данных изображений (например, индекс Google Images).

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этом этапе (или в аналогичном процессе построения Knowledge Graph):

  1. Распознавание объектов (Object Recognition): Изображения обрабатываются для извлечения признаков и присвоения аннотаций (Annotations) с помощью Image Annotator.
  2. Вычисление метрик: Рассчитываются Confidence Scores для аннотаций.
  3. Извлечение фактов (Fact Extraction): Inference Engine анализирует аннотации, группирует изображения, идентифицирует Object Entities и Attribute Entities и выводит отношения между ними.
  4. Сохранение данных: Новые факты сохраняются в Knowledge Base (Knowledge Graph).

RANKING / QUNDERSTANDING
Хотя патент не фокусируется на ранжировании, извлеченные факты, сохраненные в Knowledge Base, затем используются системами понимания запросов и ранжирования для предоставления ответов пользователям (например, в Knowledge Panels или прямых ответах).

Входные данные:

  • Набор изображений (из базы данных или интернета).
  • Опционально: поисковый запрос, использованный для получения изображений (например, "медведь гризли ест").
  • Существующая Knowledge Base (для верификации и использования известных фактов при выводе новых).

Выходные данные:

  • Новые отношения (факты) в формате (Object Entity, Отношение, Attribute Entity).
  • Аннотации и Confidence Scores, привязанные к изображениям.

На что влияет

  • Конкретные типы контента: В первую очередь влияет на изображения и данные в Knowledge Graph.
  • Специфические запросы: Влияет на информационные запросы, ответы на которые могут быть найдены в Knowledge Graph (например, "Что едят медведи гризли?", "За какую команду играл Майкл Джордан?").
  • Конкретные ниши или тематики: Наибольшее влияние в тематиках, где факты могут быть визуально представлены и легко распознаны: животный мир, спорт, знаменитости, достопримечательности, продукты.

Когда применяется

  • Условия работы алгоритма: Применяется в процессе обработки больших массивов изображений для обогащения Knowledge Base. Это может быть непрерывный процесс или запускаться периодически.
  • Триггеры активации: Активация процесса вывода отношений происходит, когда система идентифицирует Object Entity и обнаруживает статистически значимое совместное появление Attribute Entity в наборе изображений.
  • Пороговые значения: Система использует пороги для Confidence Scores (чтобы убедиться в точности распознавания объектов) и пороги частоты совместного появления (чтобы определить значимость атрибута).

Пошаговый алгоритм

Процесс А: Обогащение Базы Знаний из набора изображений

  1. Сбор данных: Получение набора изображений (например, путем краулинга или из базы данных).
  2. Аннотирование: Присвоение аннотаций изображениям для идентификации содержащихся в них сущностей.
  3. Расчет уверенности (Опционально): Вычисление Confidence Scores для каждой аннотации (например, с помощью template matching).
  4. Выбор Object Entity: Анализ аннотаций по всему набору изображений. Выбор Object Entity, например, как сущности, которая встречается в наибольшем количестве изображений (и, опционально, имеет Overall Confidence Score выше порога).
  5. Группировка: Фильтрация и группировка изображений, которые содержат выбранный Object Entity.
  6. Определение Attribute Entity: Анализ сгруппированных изображений. Определение Attribute Entity как сущности (отличной от Object Entity), которая встречается наиболее часто в этой группе.
  7. Вывод отношения (Inference): Определение отношения между Object Entity и Attribute Entity. Это может включать:
    • Анализ пространственных отношений (spatial relationship) между сущностями на изображениях.
    • Использование известных фактов из Knowledge Base (например, если известно, что Объект А связан с Б, и Б связан с В, можно вывести связь А с В).
  8. Верификация (Опционально): Проверка валидности выведенного отношения с использованием известных фактов в Knowledge Base (например, проверка, что "рыба" является типом "еды", если выведено отношение "ест").
  9. Сохранение: Сохранение нового отношения (факта) в Knowledge Base.

Процесс Б: Целенаправленный поиск фактов (Альтернативный вариант)

  1. Поиск изображений: Выполнение поиска изображений с использованием запроса, включающего Object Entity и предполагаемое отношение (например, "медведь гризли ест").
  2. Аннотирование результатов: Аннотирование полученных изображений.
  3. Определение Attribute Entity: Идентификация часто встречающихся Attribute Entities в результатах.
  4. Вывод отношения: Вывод отношения на основе текста поискового запроса и идентифицированных атрибутов (например, вывод, что медведь ест рыбу, если рыба часто встречается в результатах поиска по запросу "медведь ест").
  5. Сохранение: Сохранение отношения в Knowledge Base.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Изображения): Основной источник данных. Анализируются пиксельные данные изображений.
  • Контентные факторы (Текст запроса): В одном из вариантов реализации используется текст поискового запроса (например, "grizzly bear eats fish") для поиска изображений и помощи в выводе отношений.
  • Системные данные (Knowledge Base): Существующие данные в Knowledge Base (известные сущности и факты) используются для помощи в распознавании и, что более важно, для вывода и верификации новых отношений.

Какие метрики используются и как они считаются

  • Confidence Score: Вероятность корректности аннотации. Патент упоминает возможность использования template matching algorithm, который сравнивает аннотированное изображение с эталонным изображением (template image), например, на основе количества совпадающих пикселей.
  • Overall Confidence Score: Агрегированная метрика уверенности по набору изображений. Упоминается возможность усреднения Confidence Scores.
  • Частота появления (Frequency): Количество изображений, в которых появляется сущность. Используется для выбора Object Entity (наиболее частая сущность в общем наборе) и Attribute Entity (наиболее частая сопутствующая сущность в группе).
  • Пороговые значения (Thresholds): Используются для фильтрации. Например, порог для Confidence Score (чтобы использовать только надежные аннотации) или порог для частоты появления (чтобы атрибут считался значимым).
  • Spatial Relationship (Пространственное отношение): Метрика, оценивающая расположение сущностей относительно друг друга на изображении (например, близость, включение). Используется для вывода типа отношения (например, "держит в руке", "ест", "находится рядом").

Выводы

  1. Изображения как источник фактов: Google активно использует анализ изображений не только для поиска по картинкам, но и как самостоятельный источник для извлечения структурированных фактов и наполнения Knowledge Graph.
  2. Статистический анализ совместного появления: Основной механизм идентификации связей — это анализ того, какие сущности часто появляются вместе на изображениях. Сущность, которая чаще всего появляется рядом с главным объектом, выбирается в качестве атрибута.
  3. Важность контекста и пространственных отношений: Система не просто фиксирует наличие сущностей, но и анализирует, как они расположены относительно друг друга (spatial relationships). Это позволяет выводить конкретные типы отношений (например, разницу между «стоит рядом» и «ест»).
  4. Итеративное обогащение и верификация: Система может использовать существующие факты в Knowledge Base для вывода и верификации новых фактов. Также новые факты могут использоваться для запуска нового поиска изображений и дальнейшего обогащения базы.
  5. Роль Confidence Scores: Для обеспечения качества данных система использует Confidence Scores, чтобы отсеивать ошибки распознавания объектов и фокусироваться только на надежно идентифицированных сущностях.

Практика

Best practices (это мы делаем)

  • Визуализация связей между сущностями: При создании контента используйте изображения, которые четко демонстрируют взаимодействие между ключевыми сущностями вашей тематики. Если вы пишете о медведях гризли, используйте изображения, где они взаимодействуют с рыбой, водой, травой, как описано в патенте. Это помогает Google установить фактические связи.
  • Использование четких и качественных изображений: Поскольку система полагается на распознавание объектов и Confidence Scores, необходимо использовать высококачественные, недвусмысленные изображения, где ключевые сущности легко идентифицируются. Это повышает вероятность того, что Image Annotator корректно распознает объекты.
  • Оптимизация изображений для распознавания (Image SEO): Убедитесь, что основные сущности (продукты, люди, локации) являются центральными объектами на фотографиях. Это увеличивает вероятность их выбора в качестве Object Entity или значимого Attribute Entity.
  • Согласованность мультимедиа и текста: Убедитесь, что изображения на странице подтверждают и визуализируют факты, описанные в тексте. Это создает согласованный сигнал для поисковой системы как при анализе текста, так и при анализе изображений для наполнения Knowledge Base.

Worst practices (это делать не надо)

  • Использование стоковых или нерелевантных изображений: Использование общих изображений, которые не демонстрируют специфических связей между сущностями, не помогает Google извлекать факты. Система ищет статистически значимые паттерны, которые не возникают при использовании случайных иллюстраций.
  • Изображения с низким качеством или «зашумленным» фоном: Изображения, на которых сложно распознать объекты или отделить их от фона, могут привести к низким Confidence Scores и игнорированию изображения системой.
  • Манипуляция визуальными связями: Попытки искусственно создать несуществующие связи путем фотомонтажа (например, размещение продукта рядом со знаменитостью, которая его не использует) могут быть неэффективны, если это противоречит другим источникам или если манипуляция снижает Confidence Score распознавания.

Стратегическое значение

Патент подтверждает стратегическую важность Knowledge Graph и стремление Google использовать все доступные сигналы, включая визуальные, для его наполнения. Для SEO это означает, что оптимизация выходит за рамки текста. Стратегия должна включать управление визуальным представлением сущностей (бренда, продуктов, авторов) в интернете. То, как сущность изображена и с чем она взаимодействует на фотографиях, напрямую влияет на граф знаний о ней.

Практические примеры

Сценарий: Оптимизация карточки товара для нового устройства

  1. Задача: Помочь Google понять, какие аксессуары совместимы с новым устройством.
  2. Действие (на основе патента): Разместить на сайте и в материалах для прессы серию высококачественных фотографий, где устройство (Object Entity) четко показано вместе с совместимым аксессуаром (Attribute Entity). На нескольких фото показать процесс подключения или совместного использования (визуализация spatial relationship).
  3. Механизм работы: Google сканирует изображения. Image Annotator распознает устройство и аксессуар. Из-за частого совместного появления на разных изображениях Inference Engine определяет связь. Анализ пространственных отношений помогает вывести тип связи (например, "совместим с" или "использует").
  4. Ожидаемый результат: В Knowledge Graph или в результатах поиска по товарам Google быстрее установит факт совместимости устройства и аксессуара.

Сценарий: Укрепление связи автора с тематикой (E-E-A-T)

  1. Задача: Усилить ассоциацию эксперта с его профессиональной областью.
  2. Действие (на основе патента): Регулярно публиковать фотографии эксперта (Object Entity) в контексте его работы: на конференциях (Attribute Entity - Логотип конференции), с его книгами (Attribute Entity - Книга), в лаборатории или офисе.
  3. Механизм работы: Система анализирует изображения эксперта, найденные в сети. Частое появление эксперта с атрибутами его профессиональной деятельности позволяет системе вывести отношения (например, "работает в", "автор", "выступал на").
  4. Ожидаемый результат: Обогащение Knowledge Panel эксперта релевантными фактами, что укрепляет его авторитетность в глазах Google.

Вопросы и ответы

Как именно система определяет отношения между двумя сущностями на фото? Например, как она понимает, что медведь ест рыбу, а не просто плывет рядом?

Патент указывает на несколько методов вывода отношений (Inferring). Один из ключевых — анализ пространственных отношений (spatial relationships) (Claim 21). Система оценивает расположение объектов относительно друг друга. В примере с медведем (FIG. 3D), близость рыбы ко рту медведя на значительном количестве изображений позволяет вывести отношение «ест». Также система может использовать известные факты из Knowledge Base для верификации: если известно, что рыба — это еда, вероятность отношения «ест» повышается.

Насколько важна уникальность изображений? Поможет ли публикация одного и того же фото на 100 сайтах?

Патент не уточняет, обрабатываются ли дубликаты изображений. Однако механизм полагается на агрегацию данных по набору изображений для выявления статистически значимых паттернов (Attribute Entity выбирается по частоте появления). Логично предположить, что разнообразие визуальных подтверждений факта (разные фото, демонстрирующие одно и то же взаимодействие) усилит уверенность системы в этом факте, по сравнению с одним и тем же изображением.

Что такое Confidence Score и как он влияет на извлечение фактов?

Confidence Score — это оценка вероятности того, что система правильно распознала объект на изображении. Если у аннотации низкий Confidence Score (например, фото размыто), система может её проигнорировать. Патент описывает использование пороговых значений для Confidence Scores при выборе Object Entity и Attribute Entity. Это значит, что для участия в извлечении фактов изображения должны быть достаточно четкими и качественными для надежного распознавания.

Может ли эта система извлекать факты из видео?

Патент US10534810B1 фокусируется исключительно на анализе статичных изображений (images). Хотя технически схожие принципы распознавания объектов и анализа сцен могут применяться к ключевым кадрам видео, в данном документе обработка видеоконтента не описывается.

Как система определяет, какая сущность является главной (Object), а какая — атрибутом (Attribute)?

Патент предлагает конкретный метод. Сначала анализируется большой набор изображений, и Object Entity часто выбирается как сущность, которая встречается в наибольшем количестве изображений в этом наборе. Затем изображения фильтруются, оставляя только те, где есть этот объект. В этом отфильтрованном наборе Attribute Entity определяется как любая другая сущность, которая также встречается наиболее часто.

Влияет ли текст вокруг изображения (например, alt-текст или подпись) на извлечение фактов по этому патенту?

В основном механизме, описанном в патенте (FIG. 2), анализ текста вокруг изображения не упоминается. Система полагается на визуальный анализ и распознавание объектов. Однако в альтернативном варианте (FIG. 4) упоминается использование текста поискового запроса, который привел к нахождению изображения, для помощи в выводе отношений. Традиционные SEO-атрибуты (alt, title) в этом патенте не описаны как входные данные для Inference Engine.

Как этот патент связан с оптимизацией под Knowledge Graph?

Связь прямая. Патент называется «Системы и методы для обогащения Базы Знаний». Цель описанной системы — находить новые факты (сущности и их отношения) и добавлять их в Knowledge Base (Knowledge Graph). Понимая, как Google использует изображения для изучения фактов, SEO-специалисты могут оптимизировать визуальный контент так, чтобы помочь Google корректно наполнять Knowledge Graph данными о своем бренде, продуктах или персонах.

Может ли система ошибочно связать сущности, которые случайно оказались рядом на многих фото?

Да, такая вероятность существует, так как механизм основан на частоте совместного появления. Однако патент предусматривает механизмы защиты: использование Confidence Scores для точности распознавания и возможность верификации выведенных отношений с использованием уже известных фактов из Knowledge Base. Если выведенное отношение противоречит здравому смыслу или известным фактам, оно может быть отклонено.

Что важнее для SEO в контексте этого патента: количество изображений или их качество?

Важны оба аспекта. Качество критично для того, чтобы объекты были распознаны с высоким Confidence Score и преодолели пороговые значения. Количество и разнообразие изображений необходимы для того, чтобы система могла выявить статистически значимые паттерны совместного появления сущностей и надежно вывести отношения между ними.

Применяется ли этот механизм для анализа изображений, сгенерированных ИИ?

Патент не делает различий между источниками изображений. Если изображение доступно системе (например, проиндексировано в интернете) и технология распознавания объектов может идентифицировать сущности на нем, оно будет обработано. Качество и реалистичность сгенерированного изображения будут влиять на Confidence Score распознавания.

Похожие патенты

Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам
Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).
  • US9171018B2
  • 2015-10-27
  • Семантика и интент

  • Knowledge Graph

  • Мультимедиа

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google выбирает главное изображение для сущности, анализируя тематичность веб-страниц и визуальные характеристики картинки
Google использует многоэтапный процесс для выбора наиболее репрезентативного (evocative) изображения для сущности (например, для Knowledge Panel). Система оценивает, насколько тематически связаны с сущностью как само изображение, так и веб-страницы, на которых оно размещено. Изображения с нерелевантных страниц отфильтровываются. Финальный выбор делается на основе визуальных характеристик, таких как распознавание лиц, логотипов или флагов.
  • US9110943B2
  • 2015-08-18
  • Knowledge Graph

  • Мультимедиа

  • Семантика и интент

Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)
Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.
  • US7774328B2
  • 2010-08-10
  • Knowledge Graph

  • Семантика и интент

  • SERP

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок
Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.
  • US8260785B2
  • 2012-09-04
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Популярные патенты

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL
Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
  • US20140280133A1
  • 2014-09-18
  • Семантика и интент

  • Поведенческие сигналы

  • Knowledge Graph

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования
Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.
  • US7783644B1
  • 2010-08-24
  • Поведенческие сигналы

  • Индексация

  • Семантика и интент

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)
Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.
  • US10120949B2
  • 2018-11-06
  • Индексация

  • SERP

  • Персонализация

seohardcore