SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google планирует использовать аудио-отпечатки для поиска по голосовым запросам без распознавания речи (ASR)

AUGMENTING RETRIEVAL SYSTEMS WITH USER-PROVIDED PHONETIC SIGNALS (Дополнение поисковых систем фонетическими сигналами, предоставленными пользователем)
  • US20250069593A1
  • Google LLC
  • 2023-08-22
  • 2025-02-27
  • Семантика и интент
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.

Описание

Какую проблему решает

Патент решает проблемы, связанные с традиционным подходом к голосовому поиску, который полагается на автоматическое распознавание речи (Automatic Speech Recognition, ASR). Существующие системы сначала транскрибируют голос в текст, а затем используют этот текст для поиска. Это создает несколько ограничений:

  • Точность: Качество поиска напрямую зависит от точности ASR, которая может страдать при наличии акцентов, фонового шума или редких слов.
  • Ресурсоемкость: Модели ASR требуют обширного обучения для поддержки широкого разнообразия запросов и языков.
  • Конфиденциальность и Эффективность: Передача необработанных аудиоданных на сервер потребляет трафик и вызывает вопросы конфиденциальности.

Изобретение предлагает метод поиска, который полностью обходит необходимость транскрибации речи.

Что запатентовано

Запатентована система поиска, которая обрабатывает голосовые запросы без использования ASR. Вместо транскрибации речи система использует Audio Signature (аудио-отпечаток или фонетический сигнал) — компактное, фиксированной длины векторное представление голосового запроса. Этот отпечаток напрямую сопоставляется с Document Tokens (токенами документов) в общем пространстве эмбеддингов с помощью специально обученной нейронной сети (Joint Embedding Model).

Как это работает

Система работает следующим образом:

  1. Генерация отпечатка: Когда пользователь произносит запрос, устройство (часто локально) извлекает Audio Signature из аудиоданных. Этот отпечаток не позволяет реконструировать исходную речь.
  2. Передача: На сервер отправляется только компактный Audio Signature, а не сами аудиоданные.
  3. Сопоставление: Нейронная сеть (Joint Embedding Model) обрабатывает отпечаток, чтобы найти Document Tokens, которые находятся близко к нему в общем векторном пространстве (Shared Embedding Space).
  4. Поиск: Система извлекает результаты поиска, используя идентифицированные Document Tokens.

Актуальность для SEO

Высокая. Это очень недавняя заявка на патент (подана в августе 2023 г., опубликована в феврале 2025 г.). Она отражает современные тенденции в машинном обучении, такие как использование совместных эмбеддингов для мультимодальных данных (аудио и текст) и стремление к повышению конфиденциальности (обработка данных на устройстве, невозможность реконструкции исходных данных). Обход ограничений ASR является актуальной задачей в развитии голосовых интерфейсов.

Важность для SEO

Влияние на SEO минимальное (Инфраструктурное). Патент описывает внутренний механизм Google для обработки голосовых запросов, а не изменения в факторах ранжирования. Он меняет способ, которым система понимает голосовой ввод (переход от ASR к прямому фонетическому сопоставлению), но не меняет то, какой контент система считает ценным. Для SEO-специалистов это важно для понимания инфраструктуры поиска, но не дает прямых практических рекомендаций по оптимизации контента.

Детальный разбор

Термины и определения

Audio Signature (Аудио-отпечаток / Фонетический сигнал)
Компактное векторное представление аудиоданных голосового запроса. Обычно это вектор фиксированной длины. Важная особенность: исходные аудиоданные не могут быть реконструированы из этого отпечатка, что обеспечивает конфиденциальность.
Audio Signature Generator (Генератор аудио-отпечатков)
Компонент (часто работающий на устройстве пользователя), который извлекает Audio Signature из необработанных аудиоданных. Этот генератор обучается в процессе тренировки всей системы.
ASR (Automatic Speech Recognition / Автоматическое распознавание речи)
Традиционная технология преобразования речи в текст. Данный патент предлагает метод, который НЕ использует ASR для поиска.
Document Tokens (Токены документа)
Термины, извлеченные из документа в процессе индексирования, которые представляют его содержание. В патенте упоминаются токены из заголовка, описания, автора, даты публикации, категории или ключевых слов.
Joint Embedding Model (Модель совместного эмбеддинга)
Нейронная сеть, обученная размещать разнородные данные (в данном случае Audio Signatures и Document Tokens) в общем векторном пространстве.
Shared Embedding Space (Общее пространство эмбеддингов)
Векторное пространство, в котором Audio Signatures и релевантные им Document Tokens расположены близко друг к другу.
Page Ranker
Компонент поисковой системы (упомянутый в патенте), отвечающий за ранжирование документов, найденных с помощью Document Tokens.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

  1. Получение Audio Signature с устройства пользователя (отпечаток извлечен из аудио голосового запроса).
  2. Обработка Audio Signature с помощью нейронной сети (Joint Embedding Model).
  3. Идентификация Document Tokens, которые соответствуют Audio Signature в общем пространстве эмбеддингов (Shared Embedding Space). Нейронная сеть обучена совместно размещать эти два типа данных в этом пространстве.
  4. Извлечение набора результатов поиска для запроса с использованием этих Document Tokens.
  5. Предоставление результатов пользователю.

Claim 4 (Зависимый): Уточняет критически важное свойство конфиденциальности.

Аудиоданные, соответствующие запросу пользователя, не могут быть реконструированы из Audio Signature.

Claim 5 (Зависимый): Уточняет механизм передачи данных.

Система получает Audio Signature с устройства пользователя, не получая при этом сами аудиоданные.

Claim 6 (Зависимый): Подчеркивает ключевое отличие от существующих систем.

Набор результатов поиска извлекается без выполнения распознавания речи (ASR) на аудиоданных.

Claim 7 (Зависимый): Описывает процесс обучения нейронной сети для совместного эмбеддинга.

  1. Получение множества обучающих образцов. Каждый образец содержит обучающие аудиоданные (голосовой запрос) и соответствующие обучающие документы (результаты поиска для этого запроса).
  2. Для каждого образца:
    • Извлечение обучающего Audio Signature с помощью Audio Signature Generator.
    • Индексирование обучающих документов для извлечения Document Tokens.
    • Обработка Audio Signature и Document Tokens нейронной сетью для ее обучения совместному размещению этих данных в Shared Embedding Space.

Claim 8 (Зависимый от 7): Определяет источники Document Tokens.

Токены, извлеченные из обучающих документов, представляют термины, включающие как минимум одно из следующего: заголовок, описание, автор, дата публикации, категория или ключевое слово, связанное с документом.

Где и как применяется

Изобретение радикально меняет этап понимания запроса для голосового поиска и влияет на этап извлечения кандидатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует документы и извлекает Document Tokens (ключевые слова, заголовки, метаданные). Эти токены затем преобразуются в эмбеддинги для использования в Shared Embedding Space.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Вместо традиционного пути (Аудио -> ASR -> Текст -> Интерпретация), система использует новый путь: Аудио -> Audio Signature Generator -> Audio Signature. Процесс интерпретации происходит путем сопоставления этого отпечатка с токенами документов.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Joint Embedding Model использует Audio Signature для идентификации релевантных Document Tokens. Эти токены затем используются для быстрого отбора кандидатов (документов), которые содержат эти токены.

RANKING – Ранжирование (L2/L3)
После отбора кандидатов компонент Page Ranker выполняет ранжирование этих документов (вероятно, используя стандартные сигналы ранжирования, хотя патент это не детализирует) и определяет финальный набор результатов.

Входные данные:

  • Необработанные аудиоданные голосового запроса (обрабатываются локально на устройстве).
  • Audio Signature (передается на сервер).

Выходные данные:

  • Набор Document Tokens, идентифицированных как релевантные аудио-отпечатку.
  • Финальный набор ранжированных результатов поиска.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на обработку голосовых запросов. Это может быть особенно полезно для запросов, содержащих имена собственные, редкие термины или произнесенных с сильным акцентом, где традиционные системы ASR часто ошибаются.
  • Языковые ограничения: Потенциально этот подход может упростить развертывание голосового поиска для языков с ограниченными ресурсами (low-resource languages), для которых сложно собрать достаточно данных для обучения надежных ASR моделей.
  • Конкретные типы контента: Влияет на весь контент, который может быть проиндексирован и представлен через Document Tokens (статьи, товары, медиа и т.д.).

Когда применяется

  • Условия работы: Алгоритм применяется, когда пользователь инициирует голосовой поиск через совместимое приложение (например, Search Application).
  • Триггеры активации: Получение аудиоданных от пользователя, предназначенных для поиска.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени (Inference)

  1. Сбор аудиоданных: Устройство пользователя захватывает голосовой запрос.
  2. Генерация отпечатка: Audio Signature Generator (обычно на устройстве) обрабатывает аудиоданные и извлекает Audio Signature (вектор фиксированной длины).
  3. Передача данных: Устройство отправляет Audio Signature поисковой системе (на сервер). Необработанное аудио может не передаваться.
  4. Обработка отпечатка: Поисковая система использует Joint Embedding Model для обработки полученного Audio Signature.
  5. Идентификация токенов: Модель идентифицирует Document Tokens, которые находятся близко к Audio Signature в Shared Embedding Space.
  6. Извлечение результатов: Система извлекает набор документов, соответствующих этим Document Tokens.
  7. Ранжирование: Компонент Page Ranker ранжирует извлеченные документы.
  8. Предоставление результатов: Наиболее высоко ранжированные результаты предоставляются пользователю.

Процесс Б: Обучение системы (Training)

  1. Сбор данных: Собираются пары обучающих данных: (Голосовой запрос) + (Релевантные документы).
  2. Извлечение токенов: Индексатор (Indexer) обрабатывает документы для извлечения Training Document Tokens (заголовки, ключевые слова и т.д.).
  3. Генерация отпечатков: Audio Signature Generator обрабатывает голосовые запросы для извлечения Training Audio Signatures.
  4. Совместное обучение: Joint Embedding Model обрабатывает пары (Отпечаток + Токены). Модель обучается таким образом, чтобы минимизировать расстояние между релевантными отпечатками и токенами в Shared Embedding Space. Одновременно с этим обучается и сам Audio Signature Generator, чтобы научиться извлекать наиболее полезные отпечатки.

Какие данные и как использует

Данные на входе

Патент фокусируется на интерпретации запроса и механизме извлечения, а не на ранжировании. Он использует следующие типы данных:

  • Аудио данные (Phonetic Factors): Необработанные аудиоданные голосового запроса являются основным входом для Audio Signature Generator.
  • Контентные факторы (для документов): В процессе обучения и индексирования используются контентные данные документов для генерации Document Tokens. Патент явно упоминает (Claim 8):
    • Заголовки (Title)
    • Описания (Description)
    • Ключевые слова (Keyword)
  • Метаданные (для документов): Также используются для генерации Document Tokens:
    • Автор (Author)
    • Дата публикации (Publication date)
    • Категория (Category)

Патент не упоминает использование ссылочных, поведенческих, технических или других традиционных SEO-факторов в контексте описанного механизма понимания запросов.

Какие метрики используются и как они считаются

Конкретные метрики и формулы расчета в патенте не указаны, но описанный механизм подразумевает использование следующих концепций:

  • Векторное расстояние: Основной механизм работы Shared Embedding Space заключается в измерении близости между вектором Audio Signature и векторами Document Tokens. Хотя это не указано явно, обычно используются метрики расстояния, такие как косинусное сходство (cosine similarity) или евклидово расстояние (Euclidean distance).
  • Алгоритмы машинного обучения: Используются нейронные сети (Neural Networks) для реализации Joint Embedding Model и Audio Signature Generator. Обучение происходит путем оптимизации функции потерь, которая штрафует за большое расстояние между релевантными парами аудио и текста.

Выводы

  1. Обход ASR в голосовом поиске: Google активно исследует методы прямого сопоставления звука с контентом, минуя этап транскрибации речи в текст (ASR). Это может привести к более быстрому и точному голосовому поиску, особенно в сложных акустических условиях или для редких запросов.
  2. Эмбеддинги как универсальный язык: Патент подтверждает стратегическую ставку на векторные эмбеддинги. Joint Embedding Model создает общее пространство, где звук и текст могут быть напрямую сопоставлены, что является мощным механизмом семантического понимания.
  3. Приоритет конфиденциальности и эффективности: Описанный метод значительно повышает конфиденциальность. Audio Signature может генерироваться локально, не позволяет восстановить речь и имеет малый размер, что снижает нагрузку на сеть и ускоряет обработку.
  4. Обучаемый генератор отпечатков: Audio Signature Generator не является фиксированным алгоритмом, он обучается вместе с основной моделью, чтобы извлекать наиболее релевантные фонетические признаки для задачи поиска.
  5. Зависимость от текстовых токенов: Несмотря на инновационный подход к обработке аудио, система по-прежнему полагается на традиционные Document Tokens (заголовки, описания, ключевые слова) для представления документов. Это означает, что базовая текстовая оптимизация остается критически важной.

Практика

Практическое применение в SEO

ВАЖНО: Этот патент является инфраструктурным и описывает внутренние процессы обработки голосовых запросов Google. Он не дает прямых практических выводов для изменения стратегий SEO-оптимизации контента.

Best practices (это мы делаем)

  • Поддержание качества базовой текстовой оптимизации: Поскольку система в конечном итоге сопоставляет аудио-отпечаток с Document Tokens, извлеченными из текста (заголовки, описания, ключевые слова), фундаментальные принципы SEO остаются неизменными. Контент должен быть четко структурирован, а ключевые элементы должны точно описывать содержание страницы.
  • Использование естественного языка и ключевых фраз: Хотя механизм интерпретации меняется, пользователи по-прежнему будут использовать естественный язык в голосовых запросах. Оптимизация под релевантные ключевые фразы и интенты гарантирует, что система сможет извлечь необходимые Document Tokens для сопоставления.

Worst practices (это делать не надо)

Патент не направлен против каких-либо конкретных SEO-тактик или манипуляций. Он не вводит новых ограничений для оптимизаторов. Бесполезно пытаться заниматься "фонетической оптимизацией" текста, так как система работает с абстрактными векторными представлениями звука.

Стратегическое значение

Стратегическое значение этого патента для SEO заключается в понимании эволюции голосового поиска. Если этот метод будет широко внедрен, он может повысить надежность и скорость голосового поиска, что потенциально приведет к увеличению объема голосового трафика. Это подтверждает долгосрочную необходимость адаптации контента под естественные запросы. Также это подчеркивает, что Google все больше полагается на сложные нейросетевые модели и эмбеддинги на всех этапах поиска, от понимания запроса до ранжирования.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает технологию обработки ввода, а не факторы ранжирования контента.

Вопросы и ответы

Меняет ли этот патент подход к оптимизации контента для SEO?

Нет, не меняет. Хотя система использует новый способ понимания голосового запроса (Audio Signature), она по-прежнему сопоставляет его с Document Tokens, извлеченными из вашего контента (заголовки, описания, ключевые слова). Это означает, что качественная текстовая оптимизация остается такой же важной, как и всегда.

Что такое Audio Signature (Аудио-отпечаток) и почему он важен?

Audio Signature — это компактное векторное представление голосового запроса фиксированной длины. Он важен по двум причинам: во-первых, он позволяет системе понять запрос без транскрибации в текст (без ASR). Во-вторых, он обеспечивает конфиденциальность, так как исходную речь невозможно восстановить из этого отпечатка, и само аудио может не покидать устройство пользователя.

Означает ли это, что Google отказывается от ASR (распознавания речи)?

Не обязательно. ASR по-прежнему необходим для многих задач, таких как диктовка, транскрибация видео или работа голосовых ассистентов. Описанный метод, вероятно, будет использоваться как альтернативный или дополнительный механизм специально для ускорения и повышения точности поисковых запросов.

Что такое Document Tokens в контексте этого патента?

Document Tokens — это термины, извлеченные из ваших веб-страниц во время индексации. Патент явно указывает, что они могут включать элементы из заголовка (Title), описания (Description), ключевых слов (Keywords), а также метаданные, такие как автор, дата публикации или категория.

Как работает Joint Embedding Model (Модель совместного эмбеддинга)?

Это нейронная сеть, которая обучается размещать разнородные данные в общем векторном пространстве. В данном случае она учится размещать Audio Signatures (звук) и Document Tokens (текст) так, чтобы релевантные пары находились близко друг к другу. Это позволяет системе найти текстовые токены, соответствующие звуковому отпечатку, просто измерив расстояние между ними.

Повлияет ли это на локальный поиск или поиск на разных языках?

Потенциально, да. Традиционные системы ASR могут испытывать трудности с локальными названиями, акцентами или языками с ограниченными обучающими данными. Метод прямого фонетического сопоставления может оказаться более надежным в таких сценариях, улучшая качество голосового поиска в этих областях.

Этот патент описывает новый фактор ранжирования?

Нет. Патент описывает механизм понимания запроса (Query Understanding) и первичного извлечения кандидатов (Retrieval). После того как кандидаты найдены с помощью Document Tokens, они ранжируются компонентом Page Ranker, который, вероятно, использует стандартные факторы ранжирования.

Каковы основные преимущества этого метода для Google?

Преимущества включают повышенную конфиденциальность пользователей (аудио может не отправляться на сервер), эффективность (малый размер отпечатка снижает трафик и задержки) и потенциально более высокую точность за счет устранения ошибок, вносимых системами ASR.

Если система не транскрибирует запрос, как она понимает, что я сказал?

Она не "понимает" в традиционном смысле транскрибации. Вместо этого она сопоставляет звуковой паттерн (фонетический сигнал) вашего голоса напрямую с документами, которые ранее были ассоциированы с похожими звуковыми паттернами во время обучения. Система учится связывать звук с результатом, минуя промежуточный текстовый слой.

Внедрена ли эта технология в поиске Google сейчас?

Это недавняя заявка на патент (публикация в 2025 году). Это указывает на активные исследования и разработки в этой области, но не гарантирует, что технология уже используется в продакшене или будет внедрена именно в таком виде.

Похожие патенты

Как Google использует одновременный ввод видео и аудио (Multimodal Search) для понимания сложных запросов
Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.
  • US20240403362A1
  • 2024-12-05
  • Мультимедиа

  • Семантика и интент

  • Индексация

Как Google выбирает, синтезирует и озвучивает прямые ответы для голосового поиска с учетом контекста пользователя
Google обрабатывает голосовые запросы, идентифицируя стандартный результат (ссылка и сниппет) и одновременно находя или синтезируя прямой ответ в форме законченного предложения. Этот ответ адаптируется под контекст пользователя (например, местоположение), конвертируется в аудиоформат и озвучивается вместе с отображением визуальной выдачи.
  • US20170235827A1
  • 2017-08-17
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов и механизм импутации
Google патентует высокоэффективную систему нейронного поиска (Contextualized Token Retriever). Она обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных контекстуализированных токенов между запросом и документом. Ключевое нововведение — механизм импутации, который позволяет рассчитывать релевантность, используя только предварительно извлеченные векторы, что радикально снижает вычислительные затраты.
  • US20250217373A1
  • 2025-07-03
  • Семантика и интент

  • Индексация

  • SERP

Как Google улучшает интерфейс голосового поиска, предлагая альтернативные варианты распознавания при ошибке ввода
Google использует механизм улучшения пользовательского опыта в голосовом поиске. Если система неверно распознала голосовой запрос и пользователь кликает в строку поиска для исправления, Google автоматически показывает другие вероятные варианты распознавания (n-best list) в области подсказок, облегчая коррекцию ошибки.
  • US8249876B1
  • 2012-08-21
  • Семантика и интент

  • Поведенческие сигналы

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Популярные патенты

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей
Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.
  • US20210232659A1
  • 2021-07-29
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.
  • US7953720B1
  • 2011-05-31
  • Knowledge Graph

  • EEAT и качество

  • Семантика и интент

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)
Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.
  • US9116996B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
  • US8131754B1
  • 2012-03-06
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

seohardcore