SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует механизм "Push-to-Talk" и жесты для оптимизации голосового ввода на мобильных устройствах

MOBILE DEVICE VOICE ACTIVATION (Активация голосом на мобильном устройстве)
  • US8543397B1
  • Google LLC
  • 2012-10-11
  • 2013-09-24
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий интерфейс "Push-to-Talk" для голосового ввода. Пользователь удерживает кнопку во время произнесения запроса и отпускает для завершения ввода. Также описан механизм жестов для направления распознанного текста в конкретное приложение. Патент фокусируется на UI/UX и не содержит информации об алгоритмах ранжирования.

Описание

Какую проблему решает

Патент решает проблему сложности и неэффективности ввода текста на мобильных устройствах, особенно при использовании виртуальных клавиатур. Он направлен на устранение необходимости в многоэтапном взаимодействии для запуска голосового ввода. Кроме того, он решает техническую проблему надежного определения момента окончания фразы (endpoint detection) в шумной обстановке, когда анализ тишины неэффективен.

Что запатентовано

Запатентован метод взаимодействия пользователя с мобильным устройством для голосового ввода и выполнения действий. Ядром изобретения является использование механизма "Push-to-Talk" (PTT), где удержание элемента инициирует запись голоса, а отпускание — завершает её. Также запатентован специфический интерфейс (описанный в основных Claims), требующий от пользователя выполнения скользящего жеста (Sliding Gesture) для связи распознанного текста с иконкой конкретного приложения.

Как это работает

Система работает на стороне клиентского устройства:

  • Инициация (Push): Пользователь нажимает и удерживает кнопку или графический элемент.
  • Запись (Talk): Устройство записывает речь, пока элемент удерживается.
  • Завершение (Release): Пользователь отпускает элемент, что служит сигналом об окончании фразы.
  • Распознавание и Отображение: Речь преобразуется в текст, варианты (Candidate Text Search Phrases) отображаются на экране.
  • Направление действия (Жест): Пользователь выполняет жест скольжения (Sliding Gesture), перетаскивая распознанный текст на иконку нужного приложения (например, Поиск, Карты, СМС).
  • Выполнение: Система генерирует запрос или команду для этого приложения.

Актуальность для SEO

Средняя. Механизмы "Push-to-Talk" используются в современных интерфейсах (например, в голосовых помощниках). Однако конкретная реализация UI, требующая перетаскивания распознанного текста на иконки приложений (как описано в Claims 1 и 9), не является доминирующим паттерном взаимодействия в 2025 году. Современные интерфейсы тяготеют к более контекстным и диалоговым моделям.

Важность для SEO

Минимальное влияние (1/10). Патент описывает исключительно элементы пользовательского интерфейса (UI) и взаимодействия (UX) на стороне клиента (мобильного устройства). Он не содержит никакой информации о том, как Google обрабатывает запросы, ранжирует контент, индексирует сайты или оценивает их качество. Для разработки SEO-стратегии этот патент не несет практической ценности.

Детальный разбор

Термины и определения

Push-to-Talk (PTT) (Нажать, чтобы говорить)
Механизм ввода, при котором запись голоса активна только тогда, когда пользователь удерживает кнопку или элемент интерфейса.
Actuation (Активация)
Действие пользователя (нажатие и удержание элемента), инициирующее операцию голосового ввода. (Например, Button Actuation или Graphical Element Actuation).
Termination of the Actuation (Прекращение активации)
Действие пользователя (отпускание элемента), сигнализирующее о завершении устной фразы и окончании записи.
Spoken Search Phrase (Произнесенная поисковая фраза)
Аудиоданные (речь), полученные от пользователя во время PTT.
Candidate Text Search Phrases (Кандидаты текстовых поисковых фраз)
Варианты текста, полученные в результате преобразования речи в текст и предлагаемые пользователю.
Sliding Gesture / Gesture Sliding (Скользящий жест)
Жест пользователя на сенсорном экране (перетаскивание или свайп). В Claims 1 и 9 используется для связи распознанного текста с конкретным приложением путем перетаскивания текста на иконку приложения.
Speech-to-Text Module (Модуль преобразования речи в текст)
Компонент ПО, отвечающий за конвертацию аудио в текст.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы взаимодействия с мобильным устройством без прямых рекомендаций для SEO.

Claim 1 (Независимый пункт): Описывает метод взаимодействия для выполнения голосового поиска через специфический UI.

  1. Система получает первый ввод: активация (actuation) графического элемента на сенсорном дисплее.
  2. В ответ на активацию и до её прекращения: система инициирует голосовой ввод и получает устную поисковую фразу (user-spoken search phrase).
  3. Система отображает один или несколько кандидатов текстовых фраз (candidate text search phrases).
  4. Система получает индикацию скользящего жеста (gesture sliding) от области с текстом к области с иконкой приложения (icon for an application).
  5. Система получает второй ввод: прекращение активации (termination of the actuation), что указывает на завершение устной фразы.
  6. В ответ на второй ввод система генерирует поисковый запрос для указанного приложения.

Этот Claim определяет конкретный UI поток, объединяющий механизм PTT (шаги 1, 2, 5) с обязательным жестовым взаимодействием (шаг 4) для направления вывода в конкретное приложение.

Claim 9 (Независимый пункт): Описывает схожий процесс, но фокусируется на выполнении произвольного "действия" (action).

  1. Система получает первый ввод (активация графического элемента), инициирующий Push-to-Talk.
  2. Система получает устную фразу.
  3. Система отображает кандидатов текста.
  4. Система получает жест скольжения (gesture sliding) от области текста к области, связанной с иконкой (at least one icon).
  5. Система получает второй ввод, завершающий Push-to-Talk.
  6. В ответ на второй ввод система выполняет действие, связанное с иконкой, используя термины из устной фразы (например, поиск, отправка СМС, email, как указано в Claim 10).

Где и как применяется

Этот патент не описывает работу поисковой системы Google (CRAWLING, INDEXING, RANKING, RERANKING). Он описывает исключительно работу клиентского приложения на мобильном устройстве пользователя.

QUNDERSTANDING – Понимание Запросов
Патент затрагивает только самый первый этап — физический ввод запроса и его преобразование из аудио в текст с помощью Speech-to-Text Module. Он не описывает семантический анализ или переписывание запроса.

Компоненты и взаимодействие:

  • Система взаимодействует с аппаратными компонентами устройства: микрофоном, сенсорным экраном (Presence-sensitive display) или физическими кнопками (упомянутыми в описании).
  • Используется модуль преобразования речи в текст (Speech-to-Text Module).
  • Взаимодействует с другими приложениями на устройстве для передачи им распознанного текста и инициации действий.

Входные данные:

  • Аудиосигнал (речь пользователя).
  • Данные сенсорного экрана или кнопок (нажатия, отпускания, жесты скольжения).

Выходные данные:

  • Текстовое представление запроса.
  • Команда на выполнение действия в определенном приложении.

На что влияет

Алгоритм влияет исключительно на пользовательский опыт (UX) и способ ввода данных на мобильных устройствах. Он не влияет на ранжирование контента, специфические ниши, форматы контента или обработку запросов поисковой системой.

Когда применяется

  • Условия применения: Когда пользователь инициирует голосовой ввод с помощью описанного механизма PTT.
  • Триггер активации: Нажатие и удержание пользователем определенного элемента. В описании патента (не в Claims 1 и 9) упоминаются варианты: графический элемент на экране, элемент на экране блокировки или комбинация физических кнопок (например, одновременно Volume Up + Volume Down).
  • Триггер завершения: Отпускание пользователем элемента. Это позволяет точно определить конец фразы независимо от пауз или фонового шума.

Пошаговый алгоритм

Процесс работы интерфейса на мобильном устройстве (согласно Claims 1 и 9):

  1. Инициация (Push): Пользователь нажимает и удерживает графический элемент на сенсорном экране для запуска режима PTT.
  2. Запись речи (Talk): Устройство активирует микрофон и начинает запись аудиосигнала.
  3. Завершение записи (Release): Пользователь отпускает элемент. Устройство прекращает запись аудиосигнала.
  4. Преобразование (Speech-to-Text): Записанная речь обрабатывается и преобразуется в текстовые данные.
  5. Отображение кандидатов: Система отображает один или несколько вариантов распознанного текста (Candidate Text Search Phrases).
  6. Направление действия (Жест): Пользователь выполняет Sliding Gesture, перетаскивая текст от области его отображения к иконке нужного приложения.
  7. Выполнение: Система определяет целевое приложение по жесту и генерирует для него соответствующий запрос или команду, используя распознанный текст.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на данных, связанных с интерфейсом пользователя. Он не использует данные, релевантные для SEO.

  • Мультимедиа факторы: Аудиосигнал с микрофона (устная речь пользователя).
  • Пользовательские факторы (Ввод): Данные ввода с сенсорного экрана или физических кнопок (нажатие, удержание, отпускание, жесты перетаскивания/скольжения).

Патент не упоминает использование контентных, технических, ссылочных, поведенческих (в контексте SEO) или временных факторов.

Какие метрики используются и как они считаются

Патент не описывает никаких метрик, формул, алгоритмов расчета, весовых коэффициентов или пороговых значений, связанных с поисковым ранжированием или оценкой качества контента. Описаны только логические условия для работы пользовательского интерфейса (состояние кнопки: нажата/отпущена; наличие аудиосигнала; координаты жеста).

Выводы

  1. Патент является чисто техническим (UI/UX): Он описывает реализацию пользовательского интерфейса на мобильном устройстве. Он не дает практических выводов для SEO.
  2. Фокус на механизме Push-to-Talk (PTT): Основная цель изобретения — упростить и ускорить голосовой ввод, используя удержание элемента для четкого определения начала и конца фразы. Это решает проблему использования голосового ввода в шумной среде.
  3. Специфический UI с жестами: Ключевой особенностью основных Claims (1 и 9) является интерфейс, требующий от пользователя выполнения скользящего жеста (Sliding Gesture) для перетаскивания распознанного текста на иконку приложения.
  4. Отсутствие информации о поиске: Патент не содержит абсолютно никакой информации об алгоритмах ранжирования Google, процессах индексирования или системах оценки качества контента.

Практика

ВАЖНО: Патент является инфраструктурным (в части UI/UX) и не дает практических выводов для SEO.

Best practices (это мы делаем)

В патенте нет информации для формирования лучших практик SEO.

Worst practices (это делать не надо)

В патенте нет информации о неэффективных или опасных SEO-тактиках.

Стратегическое значение

Стратегическое значение для SEO отсутствует. Патент интересен с точки зрения истории развития UI и подтверждает, что Google активно работал над улучшением интерфейсов голосового и мобильного ввода, но не раскрывает механизмов работы самой поисковой системы.

Практические примеры

Практических примеров для SEO нет. Патент описывает только пользовательский интерфейс.

Пример использования описанного UI (согласно Claim 1):

  1. Действие: Пользователь нажимает и удерживает экранную кнопку "Голосовой поиск".
  2. Ввод: Пользователь говорит: "Погода в Лондоне завтра".
  3. Завершение: Пользователь отпускает кнопку.
  4. Интерфейс: На экране появляется распознанный текст "Погода в Лондоне завтра". Рядом отображаются иконки приложений (Поиск, Новости, Карты).
  5. Жест: Пользователь выполняет Sliding Gesture, перетаскивая этот текст на иконку приложения "Поиск".
  6. Результат: Приложение "Поиск" запускается и выполняет запрос.

Вопросы и ответы

Описывает ли этот патент, как работает голосовой поиск Google?

Нет. Патент описывает только пользовательский интерфейс (UI) для инициации голосового ввода на мобильном устройстве. Он объясняет механизм "Push-to-Talk" и жесты для управления вводом, но не раскрывает алгоритмы, которые используются для ранжирования результатов поиска или понимания запроса.

Поможет ли этот патент оптимизировать сайт под голосовой поиск?

Нет. В патенте нет информации о том, как Google интерпретирует голосовые запросы или какой контент предпочитает. Оптимизация под голосовой поиск требует работы над семантикой и интентом пользователя, о чем в данном документе не говорится.

Что такое механизм "Push-to-Talk" (PTT) в контексте этого патента?

Это способ ввода, при котором устройство записывает голос только тогда, когда пользователь удерживает кнопку или элемент интерфейса. Нажатие инициирует запись, а отпускание её завершает. Это помогает системе точно определить, когда пользователь закончил говорить фразу, особенно в шумной обстановке.

Описывает ли патент, как Google преобразует речь в текст?

Нет. Патент упоминает использование модуля Speech-to-Text, но не детализирует алгоритмы его работы. Он фокусируется на том, когда начинается и заканчивается ввод для этого модуля, и что происходит с результатом его работы в пользовательском интерфейсе.

Что такое "Sliding Gesture" (скользящий жест), описанный в основных Claims?

Это обязательный элемент интерфейса, описанный в Claims 1 и 9. Пользователь должен перетащить (сделать свайп или Sliding Gesture) от отображаемого распознанного текста к иконке приложения (например, браузера, карт или СМС), чтобы выполнить действие именно в этом приложении.

Используется ли этот интерфейс с жестами в современных устройствах Google (на 2025 год)?

Механизм PTT используется повсеместно. Однако конкретный UI, требующий перетаскивания распознанного текста на иконки приложений (Sliding Gesture), не стал стандартом и встречается редко. Современные системы используют более продвинутые диалоговые и контекстные интерфейсы.

Влияет ли этот патент на E-E-A-T или оценку качества сайта?

Нет. Патент полностью сосредоточен на клиентской стороне и интерфейсе ввода данных. Он не имеет никакого отношения к системам оценки качества контента, авторитетности сайтов или факторам E-E-A-T.

Какую основную проблему решает этот патент?

Он решает проблему сложности ввода текста на небольших экранах и предлагает техническое решение для надежного определения момента окончания голосовой фразы (endpoint detection). Это устраняет зависимость от пауз в речи, что критично в шумной обстановке.

Есть ли в патенте информация о факторах ранжирования?

Нет. В патенте нет упоминаний о PageRank, ссылочных факторах, анализе контента или любых других сигналах, используемых Google для ранжирования веб-страниц в поисковой выдаче.

Какова ценность этого патента для SEO-специалиста?

Ценность минимальна. Патент полезен для понимания истории развития пользовательских интерфейсов Google и подтверждает важность мобильного ввода для компании, но не содержит прикладных рекомендаций или инсайтов для поисковой оптимизации.

Похожие патенты

Как Google использует жесты рук (например, "щипок") для запуска визуального поиска на носимых устройствах
Патент описывает интерфейс для носимых устройств (например, AR-очков), позволяющий инициировать визуальный поиск с помощью жеста. Система распознает, когда пользователь сначала очерчивает объект пальцами, а затем перекрывает (окклюдирует) его. Это действие интерпретируется как команда для идентификации объекта и запуска поиска информации о нем.
  • US9052804B1
  • 2015-06-09
  • Мультимедиа

Как Google использует жесты на экране (например, «Circle to Search») для генерации мультимодальных поисковых запросов
Google использует технологию, позволяющую инициировать поиск жестами (например, обведением объекта на экране). Система анализирует выбранный контент (текст, изображения, видео), извлекает ключевые темы, учитывает контекст страницы и пользователя (местоположение, время), взвешивает эти данные и автоматически формирует релевантный поисковый запрос.
  • US9916396B2
  • 2018-03-13
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google интегрирует предсказание и выполнение поиска непосредственно в клавиатуру (Gboard) на основе контекста ввода
Google использует клавиатурное приложение (например, Gboard) для анализа текста, вводимого пользователем в реальном времени (например, в чате). Система идентифицирует поисковые сущности или триггерные фразы, автоматически генерирует релевантные поисковые запросы и предлагает их прямо в интерфейсе клавиатуры. Это позволяет пользователю мгновенно выполнить поиск и получить результаты, не покидая текущее приложение.
  • US10305828B2
  • 2019-05-28
  • Семантика и интент

  • Персонализация

Как Google определяет и предлагает следующие шаги в голосовом поиске для построения разговорного диалога
Патент Google, описывающий механизм для облегчения разговорного поиска, в первую очередь на носимых устройствах. Система анализирует исходный запрос и определяет связанные темы (ключевые слова), основываясь на популярных поисковых запросах и семантических связях. Эти ключевые слова отображаются пользователю и одновременно активируются как голосовые команды для быстрого выполнения следующего связанного поиска.
  • US9305064B1
  • 2016-04-05
  • Семантика и интент

Как Google выбирает, синтезирует и озвучивает прямые ответы для голосового поиска с учетом контекста пользователя
Google обрабатывает голосовые запросы, идентифицируя стандартный результат (ссылка и сниппет) и одновременно находя или синтезируя прямой ответ в форме законченного предложения. Этот ответ адаптируется под контекст пользователя (например, местоположение), конвертируется в аудиоформат и озвучивается вместе с отображением визуальной выдачи.
  • US20170235827A1
  • 2017-08-17
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Популярные патенты

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию
Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.
  • US8321463B2
  • 2012-11-27
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска
Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.
  • US8583675B1
  • 2013-11-12
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
  • US20140372873A1
  • 2014-12-18
  • Структура сайта

  • Техническое SEO

  • Ссылки

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи
Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.
  • US20130246381A1
  • 2013-09-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

seohardcore