SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует Граф Сущностей для определения главных тем страницы и генерации релевантных рекомендаций контента

GENERATING ADDITIONAL CONTENT (Генерация дополнительного контента)
  • US20160026727A1
  • Google LLC
  • 2011-06-03
  • 2016-01-28
  • Семантика и интент
  • Knowledge Graph
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google описывает систему анализа веб-страницы для выявления ее главных тем («Центральных Сущностей») с помощью глобального Графа Сущностей, основанного на совместной встречаемости терминов. Система отфильтровывает периферийные и неоднозначные темы, генерирует на основе главных тем поисковые запросы и предлагает пользователю категоризированный дополнительный контент (новости, видео, товары).

Описание

Какую проблему решает

Патент решает задачу улучшения пользовательского опыта путем проактивного предоставления дополнительного контента (новости, видео, изображения, товары, карты), релевантного просматриваемой веб-странице. Ключевая техническая проблема — точно идентифицировать главные темы (Central Entities) ресурса, отфильтровать периферийную информацию и устранить неоднозначность (Ambiguous Entities), чтобы гарантировать высокую релевантность предлагаемых рекомендаций.

Что запатентовано

Запатентована система (Additional Content System), которая динамически генерирует дополнительный контент на основе контекста текущей страницы. Ядром изобретения является метод идентификации Central Entities с использованием взвешенного и направленного Графа Сущностей (Entity Graph). Система генерирует запросы на основе этих сущностей, отбирает релевантные результаты и отображает их в отдельном элементе интерфейса (например, через браузерное расширение), категоризируя контент (Новости, Видео, Покупки).

Как это работает

Система работает следующим образом:

  • Извлечение сущностей: Из просматриваемой страницы извлекаются сущности-кандидаты.
  • Фильтрация Графа Сущностей: Глобальный Entity Graph фильтруется для контекста данной страницы.
  • Идентификация Центральных Сущностей: Применяется алгоритм фильтрации (например, удаление узлов без исходящих связей) для выявления Central Entities — тем, которые семантически связаны с другими темами на странице.
  • Оценка и Уточнение: Рассчитывается Centrality Score. Система определяет доминирующую тему (Topical Entity) и выявляет неоднозначные сущности (Ambiguous Entities).
  • Генерация Контента: На основе Central Entities формируются поисковые запросы. Полученные результаты ранжируются, причем приоритет отдается результатам по Topical Entity и определенным типам контента (например, видео).
  • Отображение: Дополнительный контент категоризируется и отображается пользователю, адаптируясь к типу страницы (например, показ цен для товаров).

Актуальность для SEO

Высокая. Хотя конкретная реализация интерфейса (браузерное расширение/тулбар) может быть устаревшей, лежащие в основе технологии анализа контента крайне актуальны. Методы идентификации главных тем страницы с помощью Entity Graph, анализа совместной встречаемости (PMI) и расчета Centrality Score являются фундаментальными для понимания того, как Google интерпретирует тематику и контекст документа в современном семантическом поиске и системах рекомендаций (например, Google Discover).

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он не описывает алгоритмы ранжирования основного поиска, но предоставляет детальный взгляд на то, как Google алгоритмически определяет главные темы (Central Entities) и доминирующую тему (Topical Entity) страницы. Понимание этих механизмов критически важно для оптимизации контента, построения тематического авторитета (Topical Authority) и обеспечения правильной интерпретации фокуса страницы системами Google.

Детальный разбор

Термины и определения

Additional Content System (Система дополнительного контента)
Система, отвечающая за идентификацию тем просматриваемого ресурса и генерацию релевантного дополнительного контента.
Ambiguous Entity (Неоднозначная сущность)
Сущность, которая, хотя и связана с темой ресурса, в основном используется в других контекстах в вебе (например, «Moscow» на странице о городе в Айдахо).
Central Entity (Центральная сущность)
Сущность, представляющая одну из главных тем ресурса. Определяется как узел в отфильтрованном графе сущностей, имеющий хотя бы одну исходящую связь.
Centrality Score (Оценка центральности)
Метрика, определяющая важность Central Entity для ресурса. Учитывает структуру графа, частоту сущности (TF-IDF), упоминания в заголовках/URL и данные из журналов запросов.
Directed Edge (Направленное ребро/связь)
Связь в графе сущностей, указывающая на направление зависимости между сущностями (например, Игрок -> Команда).
Entity Graph (Граф Сущностей)
Структура данных, хранящая информацию о сущностях и связях между ними, собранная из коллекции ресурсов. Узлы представляют сущности, а ребра (взвешенные и направленные) — их взаимосвязь на основе совместной встречаемости.
Pointwise Mutual Information (PMI) (Поточечная взаимная информация)
Статистическая мера, используемая для определения веса ребер в Entity Graph. Измеряет, насколько часто две сущности встречаются вместе по сравнению с ожидаемой частотой при их независимости.
Topical Entity (Топиковая/Тематическая сущность)
Сущность, представляющая доминирующую (преобладающую) тему ресурса. Ресурс, как правило, хорошо ранжируется по запросу, содержащему эту сущность.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации и отображения дополнительного контента.

  1. Идентификация тем (сущностей), связанных с веб-ресурсом, который просматривает пользователь в браузере.
  2. Генерация поискового запроса для каждой из этих тем.
  3. Получение от поисковой системы результатов поиска и соответствующих оценок (scores).
  4. Классификация других веб-ресурсов (из результатов поиска) как релевантных исходному ресурсу на основе этих оценок.
  5. Категоризация этих релевантных ресурсов по нескольким категориям.
  6. Предоставление для отображения поверх просматриваемого ресурса элемента пользовательского интерфейса (UI element), содержащего ссылки на эти ресурсы, причем ссылки визуально разделены (visually segregated) по категориям.

Claim 3 (Зависимый от 1): Детализирует процесс классификации релевантности.

Процесс включает повышение (increasing/бустинг) оценок для ресурсов, идентифицированных в результатах поиска. Ресурсы, чьи повышенные оценки удовлетворяют определенному порогу, классифицируются как релевантные.

Claim 4 (Зависимый от 1): Добавляет условие доминирующей темы и типа контента.

Если запрос был сгенерирован для темы, которая является predominant topic (доминирующей темой / Topical Entity) исходного ресурса, то оценки полученных результатов повышаются. Затем выбираются ресурсы, удовлетворяющие порогу И являющиеся определенного типа (например, видео, новости, изображения – как указано в Claim 5).

Claim 10 (Зависимый от 1): Описывает адаптацию интерфейса.

Система определяет тип просматриваемого ресурса (например, товар, место) и модифицирует отображаемые категории и ссылки в элементе UI, чтобы они соответствовали этому типу (например, показ блока «Покупки» для страницы товара).

Где и как применяется

Изобретение затрагивает несколько этапов обработки данных, но его основное применение связано с системами рекомендаций контента и глубоким пониманием содержания страниц.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных:

  • Извлечение сущностей из всех ресурсов в коллекции.
  • Построение глобального Entity Graph. Это офлайн-процесс, включающий анализ совместной встречаемости сущностей, расчет PMI для определения веса связей и определение направления связей (Directed Edges).

Применение в реальном времени (Recommendation/Content Generation)
Основная логика патента применяется, когда система анализирует просматриваемую страницу:

  • Анализ страницы: Система идентифицирует Central Entities, Topical Entity и Ambiguous Entities для текущей страницы, используя данные из Entity Graph Store.
  • Взаимодействие с RANKING: Система генерирует запросы на основе Central Entities и использует стандартную поисковую машину (Search Engine) для получения и первичного ранжирования результатов.
  • Пост-обработка (RERANKING/METASEARCH эквивалент): Результаты переранжируются с учетом Centrality Scores, типа контента и типа страницы, а затем категоризируются для отображения.

Входные данные:

  • Данные о просматриваемом ресурсе (URL или контент).
  • Глобальный Entity Graph.
  • Журналы поисковых запросов (Query Logs).
  • (Опционально) История браузинга пользователя (для персонализации).

Выходные данные:

  • Набор категоризированного дополнительного контента (ссылки, сниппеты, медиа), готовый для отображения в UI.

На что влияет

  • Системы рекомендаций: Патент напрямую влияет на генерацию предложений связанного контента (например, Google Discover, блоки похожих статей).
  • Понимание контента: Описанные механизмы критически важны для того, как поисковая система интерпретирует фокус и контекст любого типа контента.
  • Типы сущностей и Ниши: Система специфически обрабатывает ресурсы о Потребительских товарах (E-commerce) и Местах (Local), адаптируя формат рекомендаций (показывая цены, отзывы или карты).

Когда применяется

  • Условия применения: Алгоритм активируется при просмотре веб-ресурса пользователем, у которого активен соответствующий клиентский модуль (например, web browser add-on).
  • Пороговые значения: Система может не генерировать контент, если ни одна из сущностей не имеет Centrality Score выше определенного порога, или если релевантность найденного дополнительного контента недостаточна.

Пошаговый алгоритм

Процесс А: Идентификация Центральных Сущностей (Central Entities)

  1. Получение кандидатов: Извлечение всех сущностей, связанных с ресурсом (контент, заголовок, URL, метаданные).
  2. Фильтрация глобального графа: Создание отфильтрованного Entity Graph. Из глобального графа удаляются все узлы, которые не соответствуют сущностям-кандидатам. Сохраняются только связи между оставшимися узлами.
  3. Генерация ресурсного графа (Очистка): Из отфильтрованного графа удаляются узлы, у которых нет исходящих (outgoing) связей.
  4. Идентификация Центральных Сущностей: Оставшиеся узлы идентифицируются как Central Entities.
  5. Расчет Centrality Score: Для каждой Central Entity рассчитывается начальная оценка на основе весов исходящих связей (используя PMI).
  6. Корректировка Centrality Score: Начальная оценка корректируется с использованием сигналов:
    • TF-IDF сущности (учитывает частоту на странице и редкость в корпусе).
    • Присутствие сущности в журналах запросов (Query Logs), которые привели к запросу этого ресурса.
    • Расположение сущности (Title, URL).

Процесс Б: Уточнение Сущностей

  1. Определение Topical Entity: Анализ, является ли одна из сущностей доминирующей темой. Проверяется, ранжируется ли сам ресурс высоко в результатах поиска по запросу, содержащему эту сущность, или используются данные Query Logs.
  2. Выявление Ambiguous Entity: Для сущности генерируется запрос. Анализируются ресурсы в результатах поиска. Если большинство этих ресурсов слабо связаны с исходным ресурсом (низкий Relatedness Score), сущность признается неоднозначной.
  3. Устранение неоднозначности: Неоднозначные сущности могут быть отброшены или дисамбигуированы путем добавления других терминов из ресурса.

Процесс В: Генерация Дополнительного Контента

  1. Генерация запросов: Формирование поисковых запросов на основе валидированных Central Entities.
  2. Получение результатов: Запросы отправляются в поисковую систему, возвращаются результаты с оценками (Ranking Scores).
  3. Расчет и Корректировка оценок: Для каждого ресурса рассчитывается итоговая оценка. Применяется бустинг:
    • Повышаются оценки, если ресурс найден по запросу с Topical Entity.
    • Повышаются оценки для определенных типов контента (видео, изображения).
    • Оценки корректируются на основе Centrality Score.
  4. Выбор и Категоризация: Отбираются ресурсы с наивысшими оценками. Они категоризируются (Новости, Видео и т.д.).
  5. Адаптация по типу: Если ресурс определен как Товар или Место, категории адаптируются (Цены, Карты, Отзывы).
  6. Передача клиенту: Сформированный контент передается на клиентское устройство.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст страницы, заголовки (Title), метаданные. Используются для извлечения сущностей-кандидатов. Проминенс (например, в заголовке) влияет на Centrality Score.
  • Технические факторы: URL ресурса используется для идентификации и может влиять на Centrality Score.
  • Поведенческие факторы (Query Logs): Журналы поисковых запросов, которые приводили к кликам на ресурс. Используются для определения Topical Entity и корректировки Centrality Score. Упоминается возможность использования истории браузинга пользователя для персонализации.
  • Данные корпуса (Corpus Data / Entity Graph): Глобальная статистика совместной встречаемости сущностей, необходимая для построения Entity Graph и расчета PMI и IDF.

Какие метрики используются и как они считаются

  • Критерий связи в графе: Связь между сущностью A и B устанавливается, если частота их совместной встречаемости значительно превышает ожидаемую частоту при условии независимости. Формула: freq(A,B)Nfreq(A)N∗freq(B)N>k\frac{\frac{freq(A,B)}{N}}{\frac{freq(A)}{N}*\frac{freq(B)}{N}} > kNfreq(A,B)​Nfreq(A)​∗Nfreq(B)​​>k, где k — пороговое значение.
  • Вес связи (Weight) / PMI: Вес ребра WABW_{AB}WAB​ рассчитывается как log[prob(A,B)/(prob(A)∗prob(B))]log [prob(A,B) / (prob(A)*prob(B))]log[prob(A,B)/(prob(A)∗prob(B))].
  • Направление ребра (Directionality): Определяется на основе условной вероятности. Ребро направлено от A к B, если B часто встречается с A, но A не обязательно часто встречается с B (например, от Игрока к Лиге).
  • Centrality Score: Агрегированная метрика, основанная на весах исходящих связей в ресурсном графе, скорректированная с помощью IDF, данных Query Logs и сигналов проминенса.
  • Relatedness Score (Оценка связанности): Используется для выявления неоднозначности. Измеряет схожесть между исходным ресурсом и ресурсами в результатах поиска, основываясь на количестве общих сущностей или связях в Entity Graph.

Выводы

  1. Определение главных тем через структуру графа: Ключевой механизм определения Central Entities — это анализ их взаимосвязей в контексте страницы с использованием глобального Entity Graph. Сущность считается центральной, если у нее есть исходящие связи к другим сущностям на этой же странице.
  2. Важность совместной встречаемости (Co-occurrence) и PMI: Построение Entity Graph основано на статистическом анализе (PMI). Это подчеркивает, что Google ценит сильные, неслучайные семантические связи между концепциями в контенте.
  3. Многофакторная оценка важности сущности: Centrality Score — комплексная метрика. Она объединяет данные из графа (веса связей), NLP-метрики (TF-IDF), сигналы проминенса (Title, URL) и поведенческие данные (Query Logs).
  4. Различие между главной и доминирующей темой: Система разделяет Central Entities (главные темы) и Topical Entity (единственная доминирующая тема). Topical Entity определяет основной фокус страницы и ее тип (например, Товар или Место).
  5. Активная обработка неоднозначности: Система активно выявляет Ambiguous Entities, проверяя контекст их использования в вебе. Простого упоминания сущности недостаточно; контекст должен быть ясным.
  6. Адаптивное понимание типа контента: Система способна определить тип страницы на основе анализа Topical Entity и адаптировать предлагаемый контент, что демонстрирует глубокое понимание интента и типа контента.

Практика

Best practices (это мы делаем)

  • Выстраивание четких концептуальных связей в контенте: Структурируйте контент так, чтобы главная тема страницы явно подразумевала присутствующие на странице подтемы. Это поможет системе идентифицировать главную тему как Central Entity за счет наличия исходящих направленных связей (outgoing directed edges) в отфильтрованном графе сущностей.
  • Четкое определение доминирующей темы (Topical Entity): Убедитесь, что страница имеет ясный фокус и оптимизирована для ранжирования по этой теме. Доминирующая сущность должна присутствовать в Title, H1, URL. Это помогает системе правильно определить Topical Entity.
  • Использование данных Query Logs (GSC): Анализируйте запросы в Google Search Console, по которым пользователи находят вашу страницу. Интегрируйте эти сущности в контент и заголовки, так как Query Logs являются прямым сигналом для расчета Centrality Score.
  • Активная дисамбигуация (Disambiguation): Если основная тема может быть неоднозначной, активно используйте контекстные термины для её уточнения. Это поможет избежать классификации темы как Ambiguous Entity.
  • Использование специфичных терминов (IDF): Фокусируйтесь на специфичных, релевантных сущностях. Патент подтверждает, что Centrality Score корректируется с помощью IDF, понижая вес общеупотребительных терминов.

Worst practices (это делать не надо)

  • Размытие тематики страницы (Topic Dilution): Создание страниц, охватывающих слишком много слабо связанных тем. Это приводит к формированию слабого ресурсного графа, где не могут быть выделены четкие Central Entities.
  • Изолированное упоминание сущностей: Упоминание важных сущностей без контекстной поддержки и связей с другими релевантными терминами. Такие сущности могут быть отфильтрованы как не имеющие исходящих связей.
  • Игнорирование неоднозначности: Использование многозначных терминов без учета их основного значения в интернете и без предоставления четкого контекста.

Стратегическое значение

Патент является отличной иллюстрацией перехода Google от ключевых слов к сущностям (Entities) и связям между ними. Стратегическое значение заключается в понимании того, что релевантность определяется ролью сущности в семантической структуре страницы и силой ее связей (PMI). Для SEO это означает, что построение тематического авторитета (Topical Authority) требует создания контента, который демонстрирует глубокие и статистически значимые связи между сущностями в рамках определенной ниши.

Практические примеры

Сценарий: Оптимизация статьи о редком заболевании (устранение неоднозначности и усиление центральности)

Задача: Опубликовать статью о заболевании «Синдром XYZ», которое также является названием популярной рок-группы.

  1. Анализ проблемы: В глобальном Entity Graph «Синдром XYZ» сильнее связан с музыкой, чем с медициной (выше PMI). Есть риск определения сущности как Ambiguous.
  2. Действия по оптимизации:
    • Уточнение контекста: Использовать заголовок «Синдром XYZ: симптомы и лечение заболевания». Это помогает определить Topical Entity и повышает Centrality Score.
    • Насыщение связанными сущностями: Активно использовать медицинские сущности (симптомы, гены, методы лечения). Это создает сильные связи в отфильтрованном графе страницы и обеспечивает наличие исходящих связей от «Синдром XYZ» к этим терминам.
  3. Ожидаемый результат:
    • Система видит высокую степень связанности (Relatedness Score) между статьей и медицинским контекстом, что позволяет избежать пометки Ambiguous Entity.
    • Система корректно идентифицирует «Синдром XYZ» как Central Entity и Topical Entity в медицинском контексте.

Вопросы и ответы

Что такое Entity Graph в контексте этого патента и как он строится?

Entity Graph — это глобальная структура данных, где узлы представляют сущности, а ребра показывают их взаимосвязь. Он строится путем анализа совместной встречаемости (co-occurrence) сущностей во всем веб-индексе. Если две сущности встречаются вместе значительно чаще, чем случайно, между ними создается связь. Вес этой связи рассчитывается с помощью PMI (Pointwise Mutual Information), а направление указывает на зависимость (например, от игрока к команде).

Как система определяет, какие сущности на странице являются главными (Central Entities)?

Это ключевой механизм. Система фильтрует глобальный Entity Graph, оставляя только сущности, присутствующие на данной странице. Затем она удаляет все узлы, у которых нет исходящих (outgoing) связей к другим узлам в этом отфильтрованном графе. Оставшиеся узлы и есть Central Entities. Это означает, что главные темы — это те, которые концептуально связаны с другими темами на этой же странице.

В чем разница между Central Entity и Topical Entity?

Central Entity — это одна из главных тем страницы (их может быть несколько). Topical Entity — это единственная преобладающая (доминирующая) тема всего ресурса. Система пытается определить Topical Entity, проверяя, ранжируется ли страница высоко по запросу, состоящему из этой сущности, или анализируя логи запросов (Query Logs).

Как рассчитывается Centrality Score и как на него можно повлиять?

Centrality Score изначально основан на весах исходящих связей в графе (PMI). Но он корректируется рядом факторов. Чтобы повысить его, нужно обеспечить присутствие сущности в Title/URL, использовать специфичные термины (высокий IDF) и убедиться, что страница получает трафик по запросам, содержащим эту сущность (так как используются Query Logs).

Что происходит, если моя главная сущность неоднозначна (Ambiguous)?

Если сущность признана Ambiguous (например, чаще используется в другом контексте), система может её отбросить или попытаться уточнить (дисамбигуировать), добавив другие термины со страницы. Для SEO это означает необходимость активного предоставления контекста с помощью связанных сущностей, чтобы избежать неверной интерпретации темы.

Что означает «направленность ребер» (Directed Edge) в графе сущностей?

Направленность указывает на иерархию или зависимость. Например, связь идет от «Омри Касспи» к «НБА», потому что Касспи подразумевает НБА, но не наоборот. Для того чтобы сущность была признана Central Entity, у нее должны быть исходящие связи к другим сущностям на странице, что указывает на ее важность в данном контексте.

Подтверждает ли патент использование TF-IDF в алгоритмах Google?

Да, патент явно упоминает использование Inverse Document Frequency (IDF) как часть метрики TF-IDF для корректировки Centrality Score. Система понижает вес сущностей, которые слишком часто встречаются в общем корпусе документов (общеупотребительные слова), подчеркивая важность специфичных терминов.

Как система обрабатывает малоизвестные или новые страницы товаров (E-commerce)?

Патент предусматривает исключение. Даже если новая страница товара ещё не ранжируется высоко, система может признать товар Topical Entity, если запрос по этой сущности вызывает специальные результаты (например, Shopping results) И название товара присутствует в Title или URL страницы.

Влияет ли этот патент на ранжирование в основном поиске Google?

Патент описывает систему генерации дополнительного контента, а не алгоритмы основного ранжирования. Однако технологии, лежащие в его основе (идентификация Central Entities, использование Entity Graph, обработка неоднозначности), являются фундаментальными для того, как Google понимает контент, что косвенно влияет на ранжирование.

Как этот патент связан с Тематическим Авторитетом (Topical Authority)?

Патент предоставляет алгоритмическую основу для оценки Тематического Авторитета. Чтобы быть авторитетом, ваш контент должен демонстрировать сильные, статистически подтвержденные (высокий PMI) связи между ключевыми сущностями вашей ниши. Создание контента, который генерирует сильные Central Entities, напрямую способствует построению авторитета.

Похожие патенты

Как Google определяет главную тему страницы (Topical Entity), используя графы сущностей и анализ SERP Features
Google анализирует сущности на странице для определения «Topical Entity» (главной темы). Для этого используются графы сущностей, основанные на совместной встречаемости, и анализ результатов поиска. Присутствие сущности в Title/URL и активация специальных SERP features (Shopping, Maps) могут подтвердить главную тему, даже если страница ранжируется низко. Это понимание используется для генерации релевантного дополнительного контента.
  • US10068022B2
  • 2018-09-04
  • Семантика и интент

  • Knowledge Graph

  • SERP

Как Google использует графы сущностей и их топологию для семантического понимания запросов и таргетинга контента
Google использует механизм выбора контента (например, рекламы), основанный на свойствах сущностей, а не только на ключевых словах. Система генерирует граф запроса, отражающий сущности и их взаимосвязи из Базы Знаний. Контент выбирается, только если его критерии точно соответствуют как содержанию, так и структуре (топологии) этого графа. Это позволяет учитывать семантический контекст, даже если он не выражен текстом запроса.
  • US9542450B1
  • 2017-01-10
  • Семантика и интент

  • Knowledge Graph

Как Google использует графы сущностей для точного семантического сопоставления запросов и контента
Google применяет семантический подход к выбору контента, строя «граф запроса» на основе сущностей в запросе и их связей в Knowledge Graph. Этот граф затем сопоставляется с «графами критериев выбора контента». Система также может автоматически генерировать эти критерии, анализируя целевой контент и выявляя статистически значимые семантические шаблоны.
  • US9501530B1
  • 2016-11-22
  • Семантика и интент

  • Knowledge Graph

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска
Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.
  • US10055462B2
  • 2018-08-21
  • Семантика и интент

  • Knowledge Graph

  • SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

Популярные патенты

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
  • US8131754B1
  • 2012-03-06
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов
Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.
  • US9009153B2
  • 2015-04-14
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования
Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.
  • US7925498B1
  • 2011-04-12
  • Семантика и интент

  • Поведенческие сигналы

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

seohardcore