Как Google автоматически понимает контекст запросов, заданных во время просмотра видео, используя временные метки и анализ N-грамм

CONTEXTUAL SEARCH ON MULTIMEDIA CONTENT (Контекстный поиск по мультимедийному контенту)

US9852188B2
Google LLC
2014-06-23
2017-12-26

Google использует систему для автоматического уточнения запросов, заданных во время просмотра мультимедиа (например, «Кто это?»). Система определяет сущности (людей, объекты), присутствующие на экране в момент запроса, используя временные метки и анализ истории поисковых запросов (N-грамм). Затем она переписывает запрос, добавляя релевантный контекст, чтобы предоставить точный ответ без прерывания просмотра.

Какую проблему решает

Патент решает проблему неоднозначности и нехватки контекста в запросах, которые пользователи задают во время потребления мультимедийного контента (например, потокового видео). Когда пользователь спрашивает «Что это за машина?» или «Кто этот человек?», он не предоставляет контекст в самом запросе. Изобретение автоматизирует добавление этого контекста, извлекая его из контента, воспроизводимого в данный момент, что улучшает точность поиска и пользовательский опыт, устраняя необходимость прерывать просмотр.

Что запатентовано

Запатентована система и метод для контекстного переписывания запросов (Query Rewrite) при поиске по мультимедийному контенту. Система извлекает сущности (Entities) из контента и связанных данных, определяет их релевантность в момент запроса и генерирует кандидатов на уточненный запрос. Ключевым механизмом является двухэтапная оценка: сначала оцениваются сущности на основе временных меток (timestamps) и анализа истории запросов (N-grams), а затем оцениваются сгенерированные кандидаты на основе качества их поисковой выдачи.

Как это работает

Система работает в несколько этапов:

Извлечение сущностей: Система анализирует мультимедийный контент, его метаданные и комментарии для извлечения сущностей (люди, объекты) и времени их появления.
Обработка запроса: Когда пользователь задает запрос во время просмотра, система фиксирует точное время.
Оценка сущностей (Entity Scoring): Сущности оцениваются на основе их временной близости к моменту запроса И/ИЛИ вероятности их связи с терминами запроса (на основе анализа N-grams в Query Repository).
Генерация и оценка кандидатов: Исходный запрос комбинируется с лучшими сущностями для создания Query Rewrite Candidates. Эти кандидаты отправляются в поисковую систему.
Ранжирование и ответ: Кандидаты ранжируются на основе качества полученных результатов (например, количества, разнообразия). Лучший переписанный запрос используется для предоставления ответа пользователю без прерывания просмотра.

Актуальность для SEO

Высокая. Технология крайне актуальна в эпоху доминирования видеоконтента (YouTube, стриминговые сервисы) и развития голосовых ассистентов (Google Assistant, Smart TV). Способность понимать контекст внутри видео и реагировать на запросы в реальном времени является ключевой функцией для улучшения UX.

Важность для SEO

Патент имеет минимальное влияние на традиционное SEO веб-сайтов, но высокое значение для Video SEO (VSEO). Он демонстрирует, что Google стремится понять содержание видео на гранулярном, посекундном уровне. Для обеспечения видимости контента в таких контекстуальных поисках критически важно предоставлять четкие сигналы (метаданные, временные метки, транскрипты), позволяющие системе точно извлекать и идентифицировать сущности внутри видео.

Термины и определения

Entities (Сущности): Значения, характеризующие объекты, представленные в мультимедийном контенте (например, имена людей, названия продуктов, локации). Извлекаются из контента, метаданных, комментариев или аннотаций.
Entity Extractor (Экстрактор сущностей): Компонент, отвечающий за идентификацию и извлечение сущностей из мультимедийного контента и связанных данных.
Multimedia Content (Мультимедийный контент): Контент, включающий видео, аудио, текст или их комбинацию. В патенте часто подразумевается потоковое видео (streaming video).
N-grams (N-граммы): Непрерывные последовательности из N элементов (например, слов) из текста или речи. Используются для анализа истории запросов и определения вероятных связей между терминами запроса и типами сущностей.
Query Repository (Репозиторий/Хранилище запросов): База данных или логи, хранящие историю поисковых запросов. Используется для анализа совместной встречаемости (co-occurrences) N-grams.
Query Rewrite Candidates (Кандидаты на переписанный запрос): Варианты уточненных запросов, сгенерированные путем комбинирования исходного запроса пользователя с извлеченными контекстными сущностями.
Timestamps / Time Annotation (Временные метки / Временная аннотация): Информация о времени, когда конкретная сущность появляется или упоминается в контенте. Критична для определения контекста в момент запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод контекстного поиска по мультимедийному контенту.

Система извлекает сущности (Entities) из мультимедийного контента.
Система получает запрос от пользователя во время потребления этого контента.
Автоматически генерируются кандидаты на переписывание запроса (Query Rewrite Candidates). Генерация включает ключевой механизм (ядро патента):
- Оценка (Scoring) извлеченных сущностей. Оценка базируется на одном или нескольких факторах: (a) Времени, когда сущности аннотированы в контенте (временная релевантность), ИЛИ (b) Совместной встречаемости N-grams в репозитории запросов (вероятностная релевантность на основе истории поиска).
- Ранжирование сущностей по этой оценке.
- Комбинирование терминов запроса с высоко оцененными сущностями для создания кандидатов.
Кандидаты отправляются в поисковую систему.
Оценка кандидатов на основе характеристик полученных наборов результатов.
Ранжирование кандидатов.
Переписывание исходного запроса с использованием лучшего кандидата.
Предоставление набора результатов по переписанному запросу.

Изобретение защищает двухэтапный процесс оценки. Сначала оценивается релевантность самих сущностей (с учетом времени И/ИЛИ истории запросов), а затем оценивается качество результатов, которые генерируют переписанные запросы.

Claim 2 (Зависимый от 1): Уточняет критерии оценки кандидатов (Шаг 5).

Характеристики наборов результатов, используемые для оценки, включают: количество результатов, релевантность результатов терминам запроса и разнообразие (diversity) результатов (например, наличие текста, видео, аудио).

Claim 18 (Независимый пункт): Описывает систему, реализующую метод в конкретном сценарии.

Система получает запрос, относящийся к потоковому мультимедийному контенту. Уточняется, что запрос может быть предоставлен через голосовой ввод во время потребления. Процесс генерации и оценки аналогичен Claim 1. Система предоставляет результаты без прерывания потребления контента. Этот пункт подчеркивает важность бесшовной интеграции поиска в процесс просмотра.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, связывая понимание контента с пониманием и переписыванием запроса.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка мультимедийного контента. Entity Extractor анализирует контент, метаданные, комментарии и аннотации для извлечения сущностей и их временных меток (timestamps). Также происходит анализ Query Repository для построения моделей N-grams.

QUNDERSTANDING – Понимание Запросов
Основной этап применения патента. Когда пользователь задает запрос во время просмотра, система в реальном времени использует контекст (время просмотра) для извлечения релевантных сущностей. Происходит оценка этих сущностей (с использованием времени и N-grams) и генерация Query Rewrite Candidates. Это пример глубокой контекстуализации запроса.

RANKING / METASEARCH – Ранжирование / Метапоиск
Система выполняет предварительные поиски по сгенерированным кандидатам и анализирует характеристики полученных SERP (количество, разнообразие), чтобы выбрать лучший переписанный запрос. Финальные результаты отображаются пользователю.

Входные данные:

Мультимедийный контент и связанные данные (метаданные, UGC).
Запрос пользователя (текстовый или голосовой).
Точное время запроса относительно временной шкалы контента.
Query Repository (история поисковых запросов).

Выходные данные:

Переписанный запрос, обогащенный контекстными сущностями.
Набор поисковых результатов, предоставленный пользователю без прерывания потребления контента.

На что влияет

Типы контента: Наибольшее влияние на видеоконтент, потоковое мультимедиа, прямые трансляции (Video SEO).
Специфические запросы: Влияет на расплывчатые, неоднозначные или дейктические запросы (указывающие на контекст), заданные во время просмотра: «Кто это?», «Сколько это стоит?», «Где он играл?».
Конкретные ниши: Фильмы, сериалы, обзоры продуктов (ecommerce), спорт, образовательный контент – везде, где важна идентификация объектов и людей на экране.

Когда применяется

Триггеры активации: Пользователь отправляет поисковый запрос (текстом или голосом) во время активного потребления мультимедийного контента через поддерживаемый интерфейс.
Условия работы: Наличие достаточного количества извлеченных и аннотированных сущностей, связанных с контентом, для генерации релевантных кандидатов.

Пошаговый алгоритм

Процесс А: Предварительная обработка (Офлайн / Индексирование)

Сбор данных: Анализ мультимедийного контента, метаданных, комментариев и аннотаций.
Извлечение сущностей: Идентификация сущностей (объекты, люди и т.д.).
Временное аннотирование: Присвоение временных меток моментам появления или упоминания каждой сущности в контенте.
Анализ логов запросов: Обработка Query Repository для определения совместной встречаемости N-grams.

Процесс Б: Обработка запроса (Реальное время)

Получение запроса и контекста: Система получает запрос от пользователя и фиксирует точное время запроса (T).
Оценка сущностей (Entity Scoring): Каждая извлеченная сущность оценивается на основе:
- Временной релевантности: Насколько близко временная метка сущности находится ко времени T.
- Вероятностной релевантности (N-gram analysis): Анализ Query Repository для определения вероятности того, что термины запроса относятся к типу данной сущности.
Ранжирование сущностей: Сущности сортируются по полученным оценкам.
Генерация кандидатов: Термины исходного запроса комбинируются с топовыми сущностями для создания Query Rewrite Candidates.
Оценка кандидатов (Candidate Scoring): Кандидаты отправляются в поисковую систему. Полученные результаты анализируются по характеристикам качества (количество, разнообразие, релевантность).
Ранжирование кандидатов: Кандидаты сортируются по их оценкам.
Переписывание запроса: Выбирается кандидат с наивысшим рейтингом. Исходный запрос заменяется этим кандидатом.
Предоставление результатов: Результаты поиска отображаются пользователю без прерывания потребления контента.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Мультимедиа факторы: Видео и аудио контент, из которого могут быть извлечены сущности.
Контентные и Структурные факторы (Метаданные): Названия файлов, описания видео, теги, транскрипты, временные метки (timestamps).
Временные факторы: Временные метки, указывающие, когда сущность появляется в контенте. Точное время, когда пользователь задал запрос.
Пользовательские данные (UGC): Комментарии и аннотации пользователей к контенту (user generated content), используемые для извлечения сущностей.
Поведенческие факторы (Исторические данные): Query Repository – логи предыдущих поисковых запросов, используемые для анализа N-grams.
Пользовательские факторы (Ввод): Исходный запрос пользователя (текст или голос).

Какие метрики используются и как они считаются

В патенте описаны две основные стадии оценки:

1. Entity Score (Оценка Сущности)
Метрика, определяющая релевантность извлеченной сущности к текущему контексту и запросу. Рассчитывается на основе:

Temporal Relevance Score: Оценка, основанная на близости временной аннотации сущности к моменту запроса. Сущности на экране в момент запроса получают более высокую оценку.
N-gram Co-occurrence Score: Оценка, основанная на анализе Query Repository. Определяет, насколько вероятно, что данная сущность или ее тип совместно встречается с терминами из запроса пользователя в исторических данных.

2. Query Rewrite Candidate Score (Оценка Кандидата на Переписывание)
Метрика, определяющая качество переписанного запроса. Рассчитывается на основе характеристик набора результатов, полученных при отправке кандидата в поисковую систему:

Result Quantity: Количество полученных результатов.
Result Diversity: Разнообразие типов результатов (видео, текст, изображения).
Result Relevance: Релевантность полученных результатов.

Временной контекст критичен для Video SEO: Патент демонстрирует, как Google использует точную временную привязку (timestamps) для разрешения неоднозначности запросов. Релевантность сущности напрямую зависит от того, присутствует ли она на экране в момент запроса.
Двухэтапная валидация релевантности: Система использует сложный механизм оценки. Сначала оцениваются сами сущности (используя время и исторические данные N-grams), а затем валидируется качество результатов, которые генерируют переписанные запросы. Это обеспечивает высокую точность.
Использование исторических данных (Big Data) для понимания интента: Анализ N-grams в Query Repository позволяет системе предсказать, о каком типе сущности спрашивает пользователь, даже если запрос расплывчат.
Зависимость от качества метаданных и аннотаций: Эффективность системы напрямую зависит от качества и полноты извлеченных сущностей. Метаданные, транскрипты, комментарии и временные метки являются ключевыми источниками данных.
Приоритет бесшовного UX: Ключевой целью системы является предоставление информации без прерывания потребления контента (как указано в Claim 18), что важно для удержания пользователя на платформе.

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию видеоконтента (VSEO), чтобы помочь системе корректно извлекать и аннотировать сущности.

Используйте временные метки и главы (Chapters): Активно структурируйте видео с помощью точных временных меток и описательных названий глав (например, на YouTube). Это напрямую помогает системе аннотировать сущности и привязывать их ко времени, что является ключевым сигналом (Temporal Relevance Score).
Загружайте качественные транскрипты и субтитры: Наличие точного транскрипта позволяет системе извлекать сущности непосредственно из аудиодорожки и точно привязывать их ко времени.
Предоставляйте точные и полные метаданные: Убедитесь, что описание и название видео точно отражают его содержание и упоминают ключевые сущности (имена людей, названия продуктов, локации).
Четкая идентификация сущностей в видео: При создании контента убедитесь, что ключевые сущности четко произносятся или отображаются на экране. Это увеличивает шансы на их корректное извлечение.
Стимулируйте качественные комментарии (UGC): Патент упоминает использование пользовательского контента. Комментарии, упоминающие конкретные сущности и моменты видео, также являются источником данных для извлечения сущностей.

Worst practices (это делать не надо)

Игнорирование структуры и транскриптов: Загрузка видео без субтитров и временных меток делает контент менее понятным для системы контекстного поиска, так как затрудняет извлечение сущностей и определение временной релевантности.
Кликбейтные или нерелевантные метаданные: Использование метаданных, не соответствующих содержанию, может привести к извлечению неверных сущностей и нерелевантным результатам контекстного поиска, ухудшая UX.
Слабое представление ключевых сущностей: Если продукт или эксперт плохо видны или их имена не упоминаются, система не сможет использовать их для контекстуализации запросов.

Стратегическое значение

Патент подтверждает стратегический курс Google на интеграцию поиска в мультимедийный опыт и глубокое понимание контента за пределами текста. Для VSEO это означает, что оптимизация переходит на уровень структурирования самого содержания и его временной структуры. Способность Google понимать контент на гранулярном уровне (сущность + время) открывает новые возможности для видимости контента через контекстные и голосовые запросы. Стратегии должны фокусироваться на максимальной ясности и структурированности мультимедиа для машинного понимания.

Практические примеры

Сценарий: Оптимизация видеообзора продукта для контекстного поиска

Ситуация: Публикация видеообзора нового смартфона «PhoneModel X».

Действия по оптимизации:
- Транскрипт и главы: Создается точный транскрипт. Видео разбивается на главы с временными метками: «0:00 Вступление», «1:30 Дизайн PhoneModel X», «3:00 Тест камеры».
- Метаданные: В описании и названии четко указано «Обзор PhoneModel X».
Работа системы (Индексирование): Google извлекает сущность «PhoneModel X» и связывает ее с временными сегментами, основываясь на главах и транскрипте.
Взаимодействие пользователя: Пользователь смотрит видео и на отметке 1:45 спрашивает голосом: «Сколько стоит этот телефон?».
Обработка запроса (Реальное время):
- Система определяет контекст: время 1:45.
- Извлекает релевантную сущность: «PhoneModel X» (высокий Temporal Relevance Score).
- Генерирует и оценивает кандидата: «Сколько стоит PhoneModel X».
Результат: Система выполняет поиск по уточненному запросу и показывает ответ (цену), не прерывая видео.

Какое значение этот патент имеет для Video SEO на YouTube?

Он имеет высокое значение. Патент показывает, что для захвата трафика из контекстных (включая голосовые) запросов во время просмотра видео необходимо, чтобы Google мог легко идентифицировать сущности (продукты, людей) в вашем видео и знать точное время их появления. Это достигается за счет качественных метаданных, временных меток (глав) и транскриптов.

Как система определяет, какая сущность самая важная в данный момент?

Используется оценка сущностей (Entity Scoring), основанная на двух ключевых факторах. Первый — временная релевантность: насколько близко по времени сущность аннотирована к моменту запроса. Второй — анализ N-grams: система проверяет историю поисковых запросов, чтобы понять, насколько вероятно, что запрос пользователя относится к типу данной сущности.

Что такое оценка на основе совместной встречаемости N-грамм (co-occurrences of n-grams)?

Это статистический анализ истории поисковых запросов (Query Repository). Например, если пользователи часто вводят запросы, содержащие фразу «следующая игра» вместе с названиями спортивных команд, то при получении запроса «Когда следующая игра?» система повысит приоритет сущностей типа «Спортивная команда», присутствующих в видео в этот момент.

Откуда система берет сущности для анализа?

В патенте упоминается извлечение сущностей из самого мультимедийного контента, его метаданных (название, описание), а также из пользовательского контента (UGC), такого как комментарии и аннотации. Качественные субтитры или транскрипты также являются важным источником.

Как система убеждается, что переписанный запрос лучше исходного?

Система проводит валидацию. Она генерирует несколько кандидатов на переписывание (Query Rewrite Candidates), отправляет их в поисковую систему и оценивает качество полученных результатов. Оценка основывается на количестве, разнообразии (diversity) и релевантности результатов. Используется кандидат, давший наилучшую выдачу.

Работает ли это, если пользователь задает запрос голосом?

Да. В патенте (Claim 18) явно упоминается возможность получения запроса через голосовой ввод во время потребления потокового мультимедийного контента. Это ключевой сценарий для голосовых ассистентов и Smart TV.

Что делать создателям контента, чтобы оптимизировать видео под этот механизм?

Ключевая рекомендация — структурировать данные вашего видео. Используйте точные временные метки (например, YouTube Chapters) для разметки ключевых моментов и упоминания сущностей. Загружайте качественные транскрипты (субтитры) и предоставляйте подробные метаданные.

Насколько важны комментарии (UGC) для работы этого механизма?

Они важны. Патент указывает (Claim 8), что пользовательский контент является одним из источников для извлечения сущностей. Если пользователи упоминают в комментариях объекты или людей из видео, это помогает системе лучше понять контекст и содержание.

Влияет ли этот патент на ранжирование моего сайта в обычном поиске Google?

Напрямую нет. Этот патент описывает механизм улучшения понимания запросов в контексте потребления мультимедийного контента. Он не описывает алгоритмы ранжирования стандартной веб-выдачи, но может влиять на видимость вашего видеоконтента в специализированных интерфейсах.

Требуется ли прерывать просмотр видео для получения ответа?

Нет. Одной из главных целей изобретения является предоставление результатов поиска без прерывания потребления мультимедийного контента. Результаты обычно отображаются в виде оверлея, всплывающего окна или озвучиваются ассистентом.

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов

Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).

US9244977B2
2016-01-26

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует аудиовизуальный контекст (то, что пользователь смотрит в данный момент) для уточнения поисковых запросов

Google использует технологию для понимания запросов о медиаконтенте, который воспроизводится в данный момент (например, "Кто этот актер?"). Система идентифицирует программу и точный момент с помощью аудио/видео отпечатков, определяет, какие сущности (актеры, объекты) сейчас на экране, и использует эту информацию как контекст для точного ответа на запрос пользователя.

US10002191B2
2018-06-19

Мультимедиа
Семантика и интент

Как Google использует историю запросов в текущей сессии для понимания контекста и переписывания неоднозначных запросов

Google анализирует предыдущие запросы пользователя в рамках текущей сессии, чтобы понять контекст нового запроса. Если новый запрос неоднозначен или содержит отсылки (например, местоимения типа «он», «это»), система пытается объединить его с сущностями из предыдущих запросов. Это позволяет переписать запрос более точно (например, заменить «он» на имя человека), чтобы предоставить результаты, соответствующие истинному намерению пользователя.

US9547690B2
2017-01-17

Семантика и интент

Как Google использует одновременный ввод видео и аудио (Multimodal Search) для понимания сложных запросов

Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.

US20240403362A1
2024-12-05

Мультимедиа
Семантика и интент
Индексация

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя

Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.

US8909655B1
2014-12-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах

Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.

US8086599B1
2011-12-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы