SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google агрегирует экспертные знания из разных источников для создания контекстно-зависимой поисковой выдачи

AGGREGATING CONTEXT DATA FOR PROGRAMMABLE SEARCH ENGINES (Агрегирование контекстных данных для программируемых поисковых систем)
  • US7716199B2
  • Google LLC
  • 2005-08-10
  • 2010-05-11
  • Семантика и интент
  • SERP
  • Персонализация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google описывает механизм агрегирования «контекстных данных» (правил, аннотаций, фильтров) из нескольких Программируемых Поисковых Систем (PSE), созданных сторонними экспертами. Если несколько PSE посвящены схожей тематике, система объединяет их знания. Это позволяет предоставить пользователю единую, обогащенную выдачу, которая учитывает коллективную экспертизу и контекст запроса (например, покупка или решение проблемы).

Описание

Какую проблему решает

Патент решает проблему неспособности общих поисковых систем надежно определить истинное намерение пользователя и контекст его информационной потребности только по тексту запроса. Он также устраняет фрагментацию экспертизы, накопленной на различных специализированных вертикальных сайтах (Vertical Content Sites). Изобретение позволяет не просто использовать экспертизу одного сайта, а агрегировать и применять коллективные знания множества релевантных источников для программного управления поиском.

Что запатентовано

Запатентована система для агрегирования Контекстных Данных (Context Data) из нескольких Программируемых Поисковых Систем (Programmable Search Engines, PSE) или вертикальных сайтов. Система идентифицирует PSE, относящиеся к схожей тематике, определяет соответствия (mapping) между их контекстами (например, контекст «Покупка» на Сайте А и «Выбор товара» на Сайте Б) и объединяет их инструкции (правила, фильтры, аннотации). Цель — представить интегрированные результаты поиска, использующие коллективную экспертизу из нескольких источников.

Как это работает

Ключевым компонентом является Context Aggregator:

  • Идентификация: Система определяет несколько релевантных контекстов от разных вертикальных сайтов для данного запроса.
  • Маппинг (Mapping): Определяется соответствие между контекстами разных PSE. Это делается либо через стандартизированную номенклатуру, либо через анализ схожести результатов (similarity score), которые генерируют эти контексты.
  • Агрегация (Merging): Инструкции из сопоставленных контекстов объединяются. Правила переписывания запросов, фильтры и аннотации сливаются аддитивно, дубликаты удаляются.
  • Применение: Агрегированный контекст используется для пре-процессинга (модификация запроса до поиска) и/или пост-процессинга (фильтрация, переранжирование, аннотирование результатов после поиска). При слиянии результатов используются техники агрегации рангов (rank aggregation techniques).

Актуальность для SEO

Высокая. Хотя конкретная реализация (Google Custom Search/Programmable Search Engine) не является доминирующей технологией, базовые концепции патента — контекстный поиск, использование внешней экспертизы и агрегация знаний — крайне актуальны. Изобретатель, R. Guha, является ключевой фигурой в развитии семантического веба (Schema.org). Эти идеи лежат в основе современных подходов Google к пониманию интента, E-E-A-T и использованию структурированных данных для валидации качества контента.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он описывает механизм, позволяющий Google формально агрегировать и использовать мнения сторонних экспертов (вертикальных сайтов) о качестве и тематике других ресурсов через Site/Page Annotation Files. Это демонстрирует, как Google концептуально подходит к использованию внешней экспертизы (wisdom of crowds). Для SEO это подчеркивает критическую важность построения авторитета не только в глазах алгоритмов Google, но и в глазах ключевых экспертных игроков ниши.

Детальный разбор

Термины и определения

Context Aggregator (Агрегатор контекста)
Компонент системы, отвечающий за идентификацию схожих контекстов из разных источников (PSE/VSE) и их объединение в агрегированный набор команд.
Context Data / Context Files (Контекстные данные / Файлы контекста)
Набор инструкций, предоставляемых вертикальным сайтом для программного управления поисковой системой. Включают правила пре-процессинга, пост-процессинга и параметры управления движком.
Context Processor (Процессор контекста)
Компонент, который интерпретирует и выполняет инструкции из Context Files.
Knowledge Base File (Файл базы знаний)
Тип контекстного файла, описывающий объекты, классы и их свойства в предметной области (например, модели камер и их характеристики). Используется для понимания сущностей в запросе.
Programmable Search Engine (PSE) / Vertical Search Engine (VSE) (Программируемая / Вертикальная поисковая система)
Поисковая система, чья работа может контролироваться внешними сущностями через Context Files. Пример реализации — Google Custom Search (CSE).
Site/Page Annotation File (Файл аннотаций сайтов/страниц)
Критически важный тип контекстного файла, где вертикальный сайт предоставляет свои оценки (Rank), метки (Descriptors/Tags) и комментарии для других URL в интернете. Это формализованная внешняя экспертиза.
Vertical Content Site (Вертикальный контентный сайт)
Специализированный веб-сайт, созданный экспертами в определенной области. Является источником Context Files.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод агрегации контекстных данных для управления поиском.

  1. Система получает несколько Context Files от одного или нескольких сторонних контент-провайдеров (third-party content providers). Каждый файл содержит команды для управления поисковой системой.
  2. Поисковая система получает поисковый запрос (введенный через интерфейс, предоставленный одним из этих провайдеров).
  3. Система агрегирует команды из нескольких Context Files в единый набор агрегированных команд (set of aggregated commands).
  4. Система использует эти агрегированные команды для контроля организации и представления результатов поиска. Это включает:
    • Обработку запроса для создания context processed search query.
    • Генерацию соответствующих результатов (context processed search results).
    • Предоставление этих результатов в соответствии с агрегированными командами.

Ядро изобретения — это способность объединять инструкции по управлению поиском из разных источников и применять этот объединенный набор для улучшения выдачи.

Claim 24 (Зависимый): Уточняет способ агрегации.

Агрегация команд включает объединение нескольких Context Files аддитивным способом (additive manner). Это означает, что инструкции из разных контекстов суммируются (например, если контекст А добавляет термин X, а контекст Б добавляет термин Y, агрегированный контекст добавляет X и Y).

Claim 8 (Зависимый): Уточняет механизм оптимизации агрегации.

Набор агрегированных команд включает команду, которая удаляет дублирующиеся термины, поисковые системы и коллекции документов. Это указывает на оптимизацию после аддитивного объединения.

Claim 9 (Зависимый): Уточняет применение агрегации.

Набор агрегированных команд включает команду, которая переранжирует (re-ranks) результаты поиска. Это подтверждает использование агрегированных данных (например, оценок из Annotation Files) для изменения порядка выдачи.

Где и как применяется

Изобретение затрагивает этапы понимания запроса, ранжирования и пост-обработки результатов, используя данные, созданные внешними сущностями.

INDEXING – Индексирование и Извлечение признаков
Система должна собирать, индексировать и кэшировать (Cached Context Files) данные, предоставляемые вертикальными сайтами, включая Annotation Files и Knowledge Base Files. Это формирует базу внешней экспертизы.

QUNDERSTANDING – Понимание Запросов
На этом этапе происходит пре-процессинг. Context Aggregator объединяет инструкции из нескольких файлов. Происходит анализ запроса с использованием Knowledge Base Files и преобразование запроса (Query revision) на основе агрегированных правил.

RANKING – Ранжирование
На этапе ранжирования система использует агрегированные параметры управления поисковым движком (Search Engine Control Data). Это может включать выбор специфических коллекций документов для поиска или изменение весовых коэффициентов атрибутов ранжирования.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
На этом этапе происходит пост-процессинг. Система применяет агрегированные правила для фильтрации (Restrictions), переранжирования (используя агрегированные оценки из Annotation Files), кластеризации и аннотирования результатов. Если агрегация происходит динамически, на этом этапе происходит слияние результатов (rank aggregation).

Входные данные:

  • Исходный запрос пользователя.
  • Context Files (включая Annotation Files и Knowledge Base Files) от нескольких VSE/PSE.
  • Данные о пользователе (ID, подписки, история поведения).

Выходные данные:

  • Контекстно-обработанные, агрегированные результаты поиска с аннотациями и навигационными ссылками.

На что влияет

  • Специфические запросы и ниши: Наибольшее влияние оказывается в тематиках с высокой экспертизой и множеством специализированных сайтов (обзоры техники, медицина, хобби). Влияет на запросы, где интент сильно зависит от контекста (покупка vs. использование vs. ремонт).
  • Категоризация контента: Позволяет использовать коллективное мнение экспертов (вертикальных провайдеров) для категоризации контента в интернете (например, определение того, какие сайты являются «Обзорами», а какие — «Новостями»).

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда система идентифицирует, что для данного запроса существует несколько релевантных источников контекстных данных (несколько VSE/PSE по теме). Это может происходить как при поиске с вертикального сайта, так и при общем поиске (если пользователь подписан на VSE или система автоматически определяет релевантные VSE).
  • Условие агрегации: Когда система может установить соответствие (маппинг) между контекстами из разных источников.

Пошаговый алгоритм

Процесс агрегации и обработки запроса:

  1. Получение запроса: Система получает поисковый запрос.
  2. Идентификация контекстов: Определяется первый и дополнительные релевантные контексты. Поиск дополнительных контекстов может включать анализ других VSE, которые обслуживают похожую аудиторию или тематику.
  3. Агрегация контекстов (Context Aggregation):
    1. Маппинг контекстов: Система определяет соответствия между контекстами из разных VSE (например, «Выбор камеры» в VSE1 соответствует «Покупка» в VSE2). Это делается через стандартизированные имена или путем сравнения схожести результатов (similarity score).
    2. Слияние контекстов: Соответствующие контексты объединяются. Это может быть статическое слияние (объединение правил и команд из Context Files, например, через оператор OR) или динамическое слияние (выполнение запроса для каждого контекста и слияние результатов с использованием rank aggregation).
  4. Пре-процессинг запроса: Исходный запрос преобразуется в соответствии с агрегированным контекстом. Применяются агрегированные правила изменения запроса и устанавливаются параметры управления поисковым движком. Дубликаты удаляются.
  5. Выполнение запроса: Преобразованный запрос выполняется для получения результатов.
  6. Пост-процессинг результатов: Полученные результаты обрабатываются в соответствии с агрегированным контекстом. Применяются агрегированные фильтры, аннотации, правила ранжирования. Дубликаты результатов удаляются.
  7. Предоставление результатов: Финальные агрегированные результаты предоставляются пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании контекстных данных, предоставляемых внешними источниками.

  • Данные о качестве и тематике (Внешняя экспертиза): Используются Site/Page Annotation Files, где вертикальные провайдеры присваивают семантические метки (Descriptors или Tags) и оценки качества (Rank) конкретным URL. Это формализованное мнение экспертов о ресурсах интернета.
  • Семантические данные: Используются Knowledge Base Files, которые определяют классы объектов, их экземпляры и свойства. Это используется для понимания того, что обозначает запрос (сущностей).
  • Инструкции по обработке: Context Files, содержащие команды управления поиском (QueryModifier, Restriction, Annotation).
  • Поведенческие факторы (косвенно): Упоминается анализ корреляции посещений разных VSE пользователями для определения схожести этих VSE.
  • Пользовательские факторы: Идентификатор пользователя, его подписки на VSE, IP-адрес, тип устройства.

Какие метрики используются и как они считаются

  • Similarity Score (Оценка схожести): Метрика для маппинга контекстов из разных VSE. Рассчитывается на основе пересечения (overlap) результатов, генерируемых двумя контекстами для одного запроса или набора запросов.
  • Rank (Ранг/Оценка качества): Метрика качества или полезности конкретной страницы, присваиваемая вертикальным провайдером в Annotation File. Используется при пост-процессинге для переранжирования.
  • Rank Aggregation (Агрегация рангов): Стандартные техники для слияния нескольких наборов ранжированных результатов в единый интегрированный список.

Выводы

  1. Агрегация внешней экспертизы как механизм ранжирования: Патент описывает механизм, позволяющий Google формально собирать, агрегировать и использовать экспертизу сторонних вертикальных сайтов для управления поиском. Site/Page Annotation Files действуют как голоса авторитетов, помечая другие сайты метками качества и тематики.
  2. Коллективная валидация качества (Wisdom of Crowds): Агрегация контекстов позволяет использовать «мудрость толпы» авторитетных источников. Если несколько вертикальных сайтов высоко оценивают (Rank) определенный URL или классифицируют его одинаково (Descriptor), этот сигнал усиливается через агрегацию.
  3. Семантическая категоризация контента: Механизм основан на способности внешних экспертов присваивать семантические метки веб-страницам. Это позволяет системе фильтровать выдачу по типам контента (например, показывать только «Обзоры»), опираясь на коллективное мнение экспертов.
  4. Контекст определяет выдачу: Агрегированный контекст (например, «покупка» vs «техподдержка») может радикально изменить выдачу по сравнению со стандартным ранжированием, применяя специфические фильтры и правила переранжирования.
  5. Маппинг онтологий: Ключевым техническим элементом является способность системы сопоставлять различные таксономии и контексты (понимая, что «Выбор» в одном VSE эквивалентен «Покупке» в другом), что критически важно для масштабирования семантического анализа.

Практика

Best practices (это мы делаем)

  • Построение авторитетности в глазах лидеров ниши (Third-Party E-E-A-T): Ключевая стратегия, вытекающая из патента, — добиться того, чтобы авторитетные вертикальные сайты в вашей нише высоко оценивали ваш контент. Хотя мы не можем напрямую управлять их Annotation Files, мы можем создавать контент экспертного качества, который эти сайты захотят рекомендовать. Это подтверждает важность построения репутации и получения ссылок/упоминаний от признанных экспертов.
  • Фокус на удовлетворении специфических интентов (Контекстов): Необходимо создавать контент, который четко удовлетворяет конкретные информационные потребности, описанные в патенте (Выбор продукта, Покупка, Техподдержка). Структурируйте сайт и контент так, чтобы обслуживать эти контексты раздельно, повышая вероятность положительной оценки в рамках соответствующего агрегированного контекста.
  • Использование четкой семантической структуры и разметки: Использование стандартизированных онтологий (например, Schema.org, у истоков которой стоял изобретатель этого патента R. Guha) помогает поисковым системам корректно категоризировать ваш контент (как Review, Product, FAQ), что соответствует логике категоризации через Descriptors в патенте.
  • Анализ экосистемы вертикальных сайтов: Понимайте, какие сайты являются ключевыми авторитетами в нише и как они категоризируют контент. Соответствие их критериям качества и релевантности стратегически важно.

Worst practices (это делать не надо)

  • Игнорирование репутации среди экспертов ниши: Стратегии, сфокусированные только на технических аспектах SEO без учета реальной авторитетности и репутации сайта среди экспертных вертикальных ресурсов, рискованны. Агрегированные негативные оценки от авторитетов могут привести к фильтрации сайта.
  • Создание смешанного контента без четкого фокуса: Попытка ранжироваться по всем возможным интентам на одной странице противоречит логике контекстного поиска. Страница, смешивающая информацию о покупке и ремонте, может быть хуже отфильтрована в специфическом контексте.
  • Игнорирование семантики и фокус только на ключевых словах: Оптимизация под ключевые слова без учета контекста и семантических связей неэффективна, так как система может активно преобразовывать запросы на основе понимания сущностей и агрегированного контекста.

Стратегическое значение

Этот патент, особенно учитывая авторство R. Guha, демонстрирует долгосрочную стратегию Google по использованию формализованной внешней экспертизы для оценки контента и понимания контекста. Агрегация контекстных данных — это механизм использования распределенной человеческой экспертизы для обучения и валидации поисковых алгоритмов и масштабирования оценки E-E-A-T. Стратегически это означает, что для успеха в SEO необходимо не просто быть релевантным запросу, но и быть признанным авторитетом в своей экосистеме.

Практические примеры

Сценарий: Оптимизация сайта по продаже цифровых камер под контекстную агрегацию

  1. Анализ интентов (Контекстов): SEO-команда определяет ключевые контексты: 1) Сравнение моделей (Choosing), 2) Покупка (Shopping), 3) Техподдержка (Troubleshooting).
  2. Создание специализированных хабов: Вместо одной страницы о «Nikon D100», создаются хабы для каждого контекста.
    • Хаб «Выбор»: Содержит экспертные обзоры, сравнения. Цель — быть категоризированным как Review и Guide авторитетными источниками.
    • Хаб «Техподдержка»: Содержит инструкции, FAQ, решение проблем. Цель — быть категоризированным как Technical Support.
  3. Применение семантической разметки: Активно используется разметка Schema.org (Product, Review, FAQ) для четкой сигнализации о типе контента и сущностях.
  4. Построение репутации: Активное взаимодействие с авторитетными обзорными площадками для получения ссылок и упоминаний на соответствующие хабы.
  5. Ожидаемый результат: Когда пользователь ищет в контексте «Выбор камеры», система Google, используя логику агрегации данных из авторитетных источников, с большей вероятностью высоко ранжирует раздел «Выбор», так как он четко соответствует контексту и потенциально имеет положительные внешние оценки (аннотации).

Вопросы и ответы

Что такое «Программируемая поисковая система» (PSE) и «Контекстный файл»?

PSE (например, Google Custom Search) — это поисковая система, работу которой могут настраивать внешние эксперты. Они делают это через Context File — набор инструкций, содержащий правила изменения запросов, фильтры и аннотации к сайтам. Это позволяет экспертам «запрограммировать» поиск так, чтобы он отражал их экспертизу и точку зрения в определенной нише.

В чем суть агрегации контекстных данных, описанной в патенте?

Агрегация — это процесс объединения инструкций из Context Files нескольких разных источников (разных PSE) по одной тематике. Вместо того чтобы использовать экспертизу только одного источника, система объединяет знания нескольких. Например, правила выбора цифровой камеры от Сайта А и Сайта Б объединяются для создания улучшенной, интегрированной выдачи.

Как система определяет, какие контексты из разных источников нужно объединять?

Система ищет соответствия (маппинг). Это делается двумя основными способами. Первый — если PSE используют стандартизированные имена для контекстов (например, оба используют тег «Покупка»). Второй — система выполняет тестовые запросы в обоих контекстах и сравнивает результаты. Если результаты сильно пересекаются (высокий Similarity Score), контексты считаются схожими и подлежат агрегации.

Что такое «Site/Page Annotation File» и почему он важен для SEO?

Это файл, в котором эксперт (вертикальный сайт) формально помечает другие URL семантическими метками (Descriptors) и оценками качества (Rank). Для SEO это критически важно, так как это механизм, через который авторитетные сайты могут напрямую сообщать Google свое мнение о качестве вашего контента. Агрегированные положительные аннотации могут действовать как мощный сигнал ранжирования.

Как агрегация влияет на ранжирование?

Агрегация влияет на ранжирование на двух уровнях. На этапе пре-процессинга она может изменить сам запрос, объединив правила модификации из нескольких контекстов. На этапе пост-процессинга она объединяет фильтры и оценки качества из аннотаций нескольких источников. Контент, высоко оцененный несколькими агрегированными авторитетными источниками, получит преимущество.

Влияет ли этот патент напрямую на ранжирование в основном поиске Google?

Патент описывает архитектуру PSE. Однако описанные механизмы сбора и агрегации внешней экспертизы отражают общую философию Google и могут использоваться в основном поиске для оценки авторитетности и качества контента (E-E-A-T). Патент также упоминает возможность применения этих агрегированных контекстов даже при поиске в общей поисковой системе.

Как SEO-специалисту использовать знания из этого патента на практике?

Необходимо фокусироваться на двух направлениях. Первое — четкое разделение контента по контекстам (информационным потребностям), таким как выбор, покупка, техподдержка. Второе — построение авторитета и репутации среди ключевых экспертов и вертикальных сайтов в вашей нише, чтобы ваш контент получал положительные «аннотации» от них.

Какова связь этого патента с E-E-A-T и Topical Authority?

Связь прямая. Система полагается на экспертизу Vertical Content Sites (Topical Authority). Их аннотации являются сигналами доверия (Trustworthiness) и экспертизы (Expertise). Агрегируя эти данные, Google получает механизм для масштабируемой оценки E-E-A-T, основанный на коллективном мнении экспертного сообщества.

Может ли агрегация контекста привести к понижению моего сайта в выдаче?

Да. Если агрегированные данные от авторитетных вертикальных сайтов содержат негативные аннотации вашего контента (например, низкий Rank или метки низкого качества), система может использовать эту информацию для фильтрации (Restriction) вашего сайта из выдачи или его понижения при переранжировании.

Что такое «Knowledge Base File» в этом патенте?

Это структурированный файл, содержащий факты о сущностях и их отношениях в предметной области (например, что «Nikon D100» это «DigitalSLRCamera»). Система использует эту базу знаний для понимания того, что обозначают термины в запросе пользователя (понимание сущностей), и для соответствующего выбора контекста или изменения запроса.

Похожие патенты

Как Google позволяет внешним экспертам настраивать поисковую выдачу и таргетировать рекламу с помощью контекстных файлов
Google использует систему, позволяющую владельцам тематических (вертикальных) сайтов программно управлять поведением поисковой системы с помощью «Файлов Контекста». Эти файлы содержат инструкции по модификации запроса, выбору коллекций документов для поиска, фильтрации и аннотированию результатов. Это позволяет адаптировать поиск под конкретный интент пользователя (например, покупка или техподдержка) и использовать этот же контекст для более точного таргетинга рекламы.
  • US20160299983A1
  • 2016-10-13
  • Семантика и интент

  • SERP

  • Персонализация

Как Google агрегирует поисковые подсказки из нескольких специализированных поисковых сервисов одновременно
Патент Google описывает инфраструктуру для улучшения поисковых подсказок (Autocomplete). Когда пользователь вводит текст, система одновременно опрашивает несколько специализированных поисковых сервисов (например, веб-поиск, вертикальный поиск или сервис прямых URL). Полученные результаты агрегируются и отображаются в отдельных секциях интерфейса, а выбор пользователя направляется строго в соответствующий сервис.
  • US8533173B2
  • 2013-09-10
Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
  • US8832083B1
  • 2014-09-09
  • Поведенческие сигналы

  • SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников
Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.
  • US8745067B2
  • 2014-06-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google агрегирует и ранжирует пользовательские метки для идентификации объектов в Визуальном поиске (Google Lens)
Google использует этот механизм для повышения точности идентификации объектов при поиске по изображению. Система находит множество визуально похожих изображений, загруженных пользователями (UGC), и анализирует их текстовые метки. Метки группируются по смыслу, а затем эти группы ранжируются на основе совокупной визуальной релевантности. Это позволяет определить наиболее вероятное название объекта, опираясь на коллективное мнение.
  • US9424279B2
  • 2016-08-23
  • Мультимедиа

  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL
Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
  • US20140280133A1
  • 2014-09-18
  • Семантика и интент

  • Поведенческие сигналы

  • Knowledge Graph

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

seohardcore