Как Google исправляет грамматически некорректные запросы пользователей, изучающих язык, предлагая альтернативы

PROVIDING A WELL-FORMED ALTERNATE PHRASE AS A SUGGESTION IN LIEU OF A NOT WELL-FORMED PHRASE (Предоставление хорошо сформированной альтернативной фразы в качестве предложения вместо плохо сформированной фразы)

US12019999B2
Google LLC
2021-06-18
2024-06-25

Патент описывает систему, преимущественно для голосовых ассистентов, которая определяет, что пользователь сформулировал запрос грамматически некорректно («плохо сформированная фраза») на неродном для него языке. Вместо выполнения команды система предлагает корректный вариант («хорошо сформированную фразу»), используя для этого предварительно рассчитанные векторные представления (embeddings) и анализ языковой компетентности пользователя.

Какую проблему решает

Патент решает проблему обработки запросов, которые содержат грамматические ошибки, неправильное использование терминов или неестественные формулировки (not well-formed phrase), особенно когда пользователь взаимодействует с системой (например, автоматизированным ассистентом) на языке, не являющемся для него основным (non-primary language). Цель — улучшить взаимодействие, избежать неправильной интерпретации команды и способствовать обучению пользователя, предлагая корректную альтернативу. Это экономит вычислительные ресурсы, предотвращая выполнение неверных задач или обработку повторных попыток пользователя.

Что запатентовано

Запатентован метод идентификации плохо сформированных фраз и подбора хорошо сформированных альтернатив. Система может заранее (офлайн) определять некорректные фразы и находить для них корректные варианты с тем же намерением, используя, в частности, embeddings. В момент получения запроса (онлайн) система проверяет уровень владения языком пользователя. Если фраза некорректна и уровень владения низкий (или язык не основной), система предлагает подобранную альтернативу.

Как это работает

Система работает в двух основных режимах:

Офлайн (Подготовка, например, Claim 1):

Определение некорректности: Фразы анализируются на предмет «хорошей сформированности» с использованием исторических данных от носителей языка, анализа авторитетных документов или оценки перплексивности (perplexity score).
Подбор альтернатив: Для некорректных фраз ищутся корректные альтернативы. Ключевой метод — использование машинного обучения для генерации векторных представлений (embeddings) и поиск семантически близких фраз в векторном пространстве.
Скоринг и выбор: Альтернативы оцениваются, выбирается лучшая и сохраняется.

Онлайн (Обработка запроса):

Получение запроса: Пользователь произносит запрос голосовому ассистенту.
Проверка компетентности: Определяется, является ли язык запроса основным для пользователя или уровень владения им (language proficiency measure) ниже порога.
Предложение альтернативы: Если запрос некорректен и пользователь недостаточно компетентен в языке, система предлагает альтернативу (найденную заранее или рассчитанную на лету, согласно Claim 11). В некоторых вариантах система воздерживается от выполнения исходной команды до выбора альтернативы.

Актуальность для SEO

Высокая. Патент опубликован в 2024 году. Технологии обработки естественного языка (NLP), векторные представления (embeddings) и определение намерений являются фундаментальными для современных поисковых систем и ассистентов. Улучшение мультиязычного взаимодействия является приоритетным направлением.

Важность для SEO

Влияние на традиционное SEO минимальное (3/10). Патент не описывает механизмы ранжирования или оценки качества контента на сайтах. Он сосредоточен на интерфейсе взаимодействия пользователя с автоматизированным ассистентом (automated assistant interface) и улучшении понимания запросов с ошибками. Для SEO специалистов он представляет интерес как пример использования Google векторных представлений (embeddings) для определения семантической близости и методов оценки «естественности» языка.

Термины и определения

Automated Assistant (Автоматизированный ассистент): Программное обеспечение (например, голосовой помощник), которое принимает запросы пользователя (часто голосовые) и выполняет задачи или предоставляет информацию.
Embedding (Векторное представление): Низкоразмерное представление текста (слова или фразы) в векторном пространстве. Используется для определения семантической близости: похожие фразы располагаются рядом в этом пространстве.
Language Proficiency Measure (Мера языковой компетентности): Оценка, отражающая уровень владения пользователем определенным языком. Используется для принятия решения о необходимости предложить альтернативную фразу.
Not Well-Formed Phrase (Плохо сформированная фраза): Фраза или запрос, который содержит грамматические ошибки, неправильное использование терминов или не соответствует принятым нормам языка.
Perplexity Score (Оценка перплексивности): Метрика в NLP. Высокая перплексивность указывает на то, что последовательность слов неестественна или маловероятна для данного языка (т.е. фраза плохо сформирована).
Primary Language (Основной язык): Язык, указанный пользователем как предпочтительный или определенный системой как родной/основной язык пользователя.
Query Database (База данных запросов): Хранилище, которое может содержать плохо сформированные фразы, сопоставленные с их хорошо сформированными альтернативами.
Well-Formed Phrase (Хорошо сформированная фраза): Фраза, которая является грамматически корректной и соответствует нормам языка.

Ключевые утверждения (Анализ Claims)

Патент содержит ключевые независимые пункты (1, 11, 14), которые описывают офлайн и онлайн процессы.

Claim 1 (Независимый пункт): Описывает полный цикл работы системы, включающий предварительную подготовку (офлайн) и реакцию на запрос пользователя (онлайн).

Часть А: Офлайн-процесс (выполняется ДО получения запроса пользователя):

Определяется, что конкретная фраза является not well-formed.
Фраза обрабатывается для поиска альтернативных, well-formed фраз.
Ключевой механизм идентификации альтернатив: Исходная фраза обрабатывается моделью машинного обучения для генерации embedding. Этот embedding сравнивается в векторном пространстве с ранее сгенерированными embeddings других фраз. Альтернативы идентифицируются на основе этого сравнения (близости).
Для каждой альтернативы генерируется оценка (score), и выбирается лучшая.

Часть Б: Онлайн-процесс (выполняется ПОСЛЕ выбора альтернативы):

Система получает аудиоданные голосового запроса через интерфейс ассистента, содержащие исходную (плохую) фразу.
Определяется, что язык фразы НЕ является основным (primary language) для пользователя.
В ответ на (1) и (2):
- Система воздерживается (refraining) от визуального отображения ответа на исходную фразу.
- Система отображает выбранную альтернативную (хорошую) фразу в качестве предложения.
В ответ на выбор пользователем предложения:
- Отображается ответ на языке запроса (particular language response).
- Отображается ответ на основном языке пользователя (primary language response).

Система использует предварительно вычисленные данные (определение плохих фраз и их альтернатив через embeddings) для быстрой реакции в реальном времени. Механизм активируется только для пользователей, использующих неродной язык, и модифицирует интерфейс, скрывая результат исходного запроса и предлагая замену с последующим двуязычным ответом.

Claim 11 (Независимый пункт): Описывает альтернативный вариант, где весь процесс (включая поиск альтернатив) происходит в реальном времени в ответ на запрос пользователя.

Получение голосового запроса на не основном языке (non-primary language).
В ответ на получение:
- Определяется language proficiency measure пользователя для этого языка.
- Определяется, что фраза not well-formed.
- Определяется, что language proficiency measure не достигает порога.
Если все условия выполнены:
- Фраза обрабатывается для поиска альтернатив (используя embeddings, как описано в Claim 1).
- Выбирается конкретная альтернатива.
- Система воздерживается от отображения ответа на исходную фразу и отображает альтернативу как предложение.
- При выборе альтернативы пользователем отображается ответ на нее.

В отличие от Claim 1, здесь идентификация альтернатив происходит после получения запроса, а триггером служит конкретная мера компетентности пользователя ниже порога.

Где и как применяется

Изобретение в первую очередь относится к системам обработки запросов в автоматизированных ассистентах (голосовой поиск), а не к традиционному веб-поиску.

INDEXING / Офлайн-обработка данных
Значительная часть работы может происходить офлайн (как описано в Claim 1 и 14). Система анализирует большие объемы данных.

Оценка фраз: Система определяет, какие фразы являются well-formed, а какие нет. Это включает анализ исторических логов запросов носителей языка, анализ авторитетных текстовых корпусов (например, новостных сайтов) и вычисление Perplexity Scores.
Генерация Embeddings: Система использует модели машинного обучения для генерации векторных представлений фраз.
Поиск альтернатив: Для not well-formed фраз ищутся well-formed альтернативы путем сравнения их embeddings.

QUNDERSTANDING – Понимание Запросов
Основной этап применения патента в реальном времени.

ASR и Токенизация: Голосовой запрос преобразуется в текст.
Оценка компетентности: Система определяет Primary Language пользователя или вычисляет Language Proficiency Measure (на основе прошлых взаимодействий, настроек аккаунта, запросов на перевод и т.д.).
Проверка фразы: Система проверяет, является ли запрос not well-formed (путем поиска в базе данных или анализа в реальном времени).
Триггер: Если фраза плохая И пользователь не компетентен в языке, активируется логика подстановки.

RERANKING / Уровень UI
Патент влияет на этот этап тем, что модифицирует пользовательский интерфейс: он может заблокировать отображение ответа на исходный запрос (refraining) и отобразить предложение альтернативного запроса.

Входные данные:

Аудиоданные голосового запроса.
Данные о пользователе (настройки аккаунта, история взаимодействий).
База данных сопоставлений плохих и хороших фраз.
Векторные представления (Embeddings) фраз.

Выходные данные:

Предложение альтернативной, хорошо сформированной фразы в UI.
(После подтверждения) Ответ на альтернативную фразу (возможно, на двух языках).

На что влияет

Специфические запросы: Влияет на запросы, сформулированные с грамматическими или синтаксическими ошибками.
Пользовательские факторы: Механизм специфичен для пользователей, взаимодействующих с системой на неродном или изучаемом языке.
Типы контента: В первую очередь влияет на ответы автоматизированных ассистентов (прямые ответы, выполнение команд). Не влияет на ранжирование веб-документов.

Когда применяется

Триггеры активации: Комбинация двух условий:
1. Запрос идентифицирован как not well-formed.
2. Язык запроса не является Primary Language пользователя ИЛИ Language Proficiency Measure пользователя для этого языка ниже определенного порога.
Исключения: Механизм не активируется, если запрос хорошо сформирован, или если пользователь является носителем языка (или высококомпетентным), даже если запрос плохо сформирован (предполагается, что это может быть намеренное сокращение или сленг).

Пошаговый алгоритм

Процесс А: Офлайн-генерация базы данных (Claim 1, 14)

Сбор данных: Сбор фраз из различных источников (логи запросов, документы).
Оценка сформированности: Анализ каждой фразы для определения, является ли она well-formed. Методы включают: проверку частоты использования носителями языка, анализ в авторитетных (trusted) источниках, расчет Perplexity Score, синтаксический анализ.
Генерация Embeddings: Обработка фраз моделями машинного обучения для создания векторных представлений.
Идентификация альтернатив: Для not well-formed фраз поиск кандидатов путем поиска фраз, чьи embeddings находятся на расстоянии, не превышающем пороговое значение, от embedding исходной фразы.
Скоринг альтернатив: Оценка кандидатов на основе схожести терминов, частоты использования и языковой компетентности источников, где они были найдены.
Сохранение: Сохранение пары (плохая фраза -> лучшая альтернатива).

Процесс Б: Обработка запроса в реальном времени (Claim 1)

Получение запроса: Получение и транскрипция аудиоданных от пользователя.
Проверка сформированности: Определение, является ли фраза not well-formed (например, путем поиска в базе данных).
Проверка языка пользователя: Определение, является ли язык запроса основным для пользователя.
Принятие решения:
- Если фраза well-formed ИЛИ язык основной: обработать запрос стандартно.
- Если фраза not well-formed И язык не основной: перейти к шагу 5.
Подстановка и отображение:
- Воздержаться от отображения ответа на исходный запрос.
- Получить заранее выбранную альтернативу.
- Отобразить альтернативу пользователю как предложение.
Обработка выбора пользователя: Если пользователь выбирает альтернативу:
- Обработать альтернативный запрос.
- Отобразить ответ на языке запроса и на основном языке пользователя.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для офлайн-анализа и онлайн-обработки.

Контентные/Лингвистические данные:
- Авторитетные документы (trusted documents) на разных языках (например, новостные сайты). Используются как эталон для определения того, насколько естественно звучит фраза.
Поведенческие факторы (Логи):
- Исторические записи взаимодействий (historical interaction records) пользователей. Особое внимание уделяется логам носителей языка для определения стандартов well-formed фраз.
- Данные о прошлых взаимодействиях конкретного пользователя для определения его языковой компетентности (выбор слов, ошибки произношения, грамматические ошибки в прошлом).
Пользовательские факторы:
- Настройки аккаунта (указанный Primary Language).
- Взаимодействие с приложениями для изучения языков.
- Запросы на перевод или поиск информации об изучении языка.

Какие метрики используются и как они считаются

Well-Formed Score (Оценка сформированности, подразумеваемая): Агрегированная метрика, определяющая корректность фразы. Основывается на:
- Частоте встречаемости в логах носителей языка и авторитетных документах.
- Perplexity Score: рассчитывается языковой моделью. Если оценка превышает порог, фраза считается плохо сформированной.
- Наличии синтаксических ошибок.
Language Proficiency Measure (Мера языковой компетентности): Оценка уровня владения языком пользователем или источником текста. Рассчитывается на основе анализа прошлых взаимодействий пользователя, его запросов и настроек.
Distance Metric (Метрика расстояния): Используется в векторном пространстве для измерения расстояния между embeddings фраз. Если расстояние меньше порога, фразы считаются семантически близкими.
Alternate Phrase Score (Оценка альтернативной фразы): Метрика для выбора лучшей замены. Учитывает Well-Formed Score альтернативы, ее семантическую близость к оригиналу (Distance Metric) и схожесть используемых терминов.

Фокус на Автоматизированных Ассистентах и AEO: Патент описывает механизм улучшения пользовательского опыта при взаимодействии с голосовыми ассистентами, особенно для пользователей, изучающих язык. Он не имеет прямого отношения к ранжированию в веб-поиске.
Разделение на Офлайн и Онлайн: Система может полагаться на предварительные вычисления (определение плохих фраз, генерация embeddings, поиск альтернатив) для обеспечения быстрой работы в реальном времени, но также способна выполнять анализ на лету.
Embeddings как основа семантической близости: Ключевым механизмом для поиска альтернативных фраз с тем же намерением является сравнение векторных представлений (embeddings) в общем пространстве. Это подтверждает центральную роль векторных технологий в задачах NLP Google.
Персонализация на основе языковой компетентности: Система адаптирует свое поведение в зависимости от того, насколько хорошо пользователь владеет языком запроса (Language Proficiency Measure). Исправление ошибок активируется только для не носителей языка или пользователей с низким уровнем владения.
Критерии «Хорошей сформированности»: Google использует комплексный подход для определения естественности и корректности языка, включая анализ поведения носителей языка, авторитетные источники и метрики языковых моделей (Perplexity Score).
Модификация интерфейса: Патент описывает конкретную логику интерфейса: скрытие ответа на исходный (плохой) запрос и предложение альтернативы, что указывает на стремление обучить пользователя, а не просто выполнить команду.

Стратегическое значение

Патент имеет низкое практическое значение для стандартных задач SEO, таких как оптимизация контента для веб-поиска или линкбилдинг. Он описывает внутренние процессы обработки запросов в интерфейсе автоматизированного ассистента.

Однако он предоставляет важный контекст о том, как Google оценивает естественность языка и использует векторные технологии.

Best practices (это мы делаем)

Использование естественного и грамматически корректного языка: Хотя патент фокусируется на запросах пользователей, он демонстрирует наличие у Google сложных систем (анализ Perplexity Score, сравнение с авторитетными источниками) для определения not well-formed контента. Контент на сайте должен быть написан естественно и корректно, чтобы соответствовать ожиданиям этих систем.
Понимание семантики через Embeddings: Патент подчеркивает, что семантическая близость определяется через embeddings. SEO-стратегия должна фокусироваться на создании контента, который семантически богат и покрывает намерения пользователей, обеспечивая близость в векторном пространстве к целевым запросам.
Оптимизация под голосовой поиск (VSO/AEO) и Ассистентов: Для проектов, ориентированных на трафик из голосовых ассистентов, важно использовать четкие, хорошо сформированные фразы (well-formed), которые система легко распознает как стандартные команды или вопросы.

Worst practices (это делать не надо)

Использование неестественных конструкций (Keyword Stuffing): Использование переоптимизированного текста с неестественной последовательностью слов может привести к высокому Perplexity Score. Системы Google, способные определить not well-formed запросы, вероятно, также способны определить и not well-formed контент на страницах.
Игнорирование грамматики и качества языка при локализации: При переводе контента на другие языки критически важно привлекать носителей языка. Низкокачественный или машинный перевод может быть классифицирован как not well-formed, что потенциально может повлиять на восприятие качества контента системами Google.

Практические примеры

Практических примеров для применения в SEO нет, так как патент описывает функционал интерфейса голосового ассистента.

Пример работы механизма (в контексте Ассистента):

Пользователь: Основной язык — Испанский. Изучает Английский.
Офлайн-подготовка: Система заранее определила, что фраза "time it is" (на английском) является not well-formed, а "What time is it?" — корректная альтернатива (их embeddings близки).
Запрос: Пользователь говорит ассистенту (на английском): "time it is".
Анализ: Система определяет, что фраза not well-formed и что английский не является основным языком пользователя.
Реакция: Вместо того чтобы попытаться ответить на "time it is", ассистент отображает предложение: "Suggestion: What time is it?".
Выбор пользователя: Пользователь нажимает на предложение.
Ответ (согласно Claim 1): Ассистент отвечает: "It is two thirty" (на английском) и "Son las dos y media" (на испанском).

Влияет ли этот патент на ранжирование сайтов в Google Поиске?

Нет, этот патент не описывает механизмы ранжирования веб-документов. Он сосредоточен на обработке запросов пользователей в интерфейсе автоматизированных ассистентов (например, Google Assistant). Его цель — исправить грамматически некорректные команды пользователя, особенно если он использует неродной язык, а не оценить качество контента на сайтах.

Что такое «плохо сформированная фраза» (not well-formed phrase) по этому патенту?

Это фраза, которая содержит грамматические или синтаксические ошибки, неправильное использование слов или звучит неестественно для носителя языка. Система определяет это, анализируя, как часто такие фразы используют носители языка, проверяя авторитетные источники (например, новости) или используя языковые модели для расчета метрики перплексивности (Perplexity Score).

Как Google использует Embeddings в этом патенте?

Embeddings (векторные представления) используются как основной механизм для поиска альтернативных фраз. Система преобразует исходную (плохую) фразу в вектор и ищет в векторном пространстве хорошо сформированные фразы, которые находятся поблизости. Близость векторов указывает на семантическую схожесть и схожесть намерений (intent).

Будет ли Google исправлять любой некорректный запрос?

Нет. Механизм, описанный в патенте, активируется только при выполнении двух условий: фраза является not well-formed, И пользователь взаимодействует на языке, который не является для него основным (или его уровень владения языком низкий). Если носитель языка использует некорректную фразу (например, сокращение), система обработает ее стандартно.

Как система определяет уровень владения языком пользователя (Language Proficiency Measure)?

Патент упоминает несколько методов: анализ прошлых взаимодействий пользователя (грамматические ошибки, произношение, словарный запас), настройки аккаунта (указанный основной язык), а также активность пользователя, связанная с изучением языка (запросы на перевод, использование обучающих приложений).

Что такое Perplexity Score и как он связан с SEO?

Perplexity Score — это метрика, показывающая, насколько предсказуемой или «естественной» является последовательность слов с точки зрения языковой модели. Высокий балл означает неестественность. Хотя в этом патенте он используется для анализа запросов, наличие таких систем у Google подчеркивает важность написания естественного, грамматически корректного контента на сайте и избегания переоптимизации (keyword stuffing).

Происходит ли анализ фраз в реальном времени?

Патент описывает оба варианта. В одном варианте (Claim 1) идентификация плохих фраз и поиск альтернатив происходят заранее (офлайн). В реальном времени система только предлагает готовую альтернативу. В другом варианте (Claim 11) весь процесс, включая поиск альтернатив, может происходить в реальном времени после получения запроса.

Какое значение этот патент имеет для международной SEO-стратегии?

Он косвенно подчеркивает важность качественной локализации. Если контент сайта переведен плохо и содержит not well-formed фразы, он не будет соответствовать стандартам качества языка, которые Google активно измеряет. Необходимо привлекать носителей языка для создания и проверки контента.

Что произойдет, если пользователь введет плохо сформированный запрос?

Согласно патенту, если механизм активируется, система может воздержаться (refrain) от предоставления ответа на исходный запрос. Вместо этого она покажет хорошо сформированную альтернативу в качестве предложения. Только если пользователь выберет эту альтернативу, система выполнит команду или предоставит ответ.

Может ли этот механизм использоваться для оценки качества контента на сайтах?

Патент не описывает использование этого механизма для оценки сайтов. Однако технологии, лежащие в его основе (анализ грамматики, Perplexity Score, сравнение с авторитетными источниками), безусловно, могут применяться Google для оценки качества и естественности языка в контенте веб-страниц в рамках других алгоритмов.

Как Google исправляет ошибки распознавания голосовых запросов с помощью последующих уточнений пользователя

Google позволяет пользователям исправлять ошибки распознавания голоса естественным образом (например, фразой «Нет, я имел в виду...»). Система анализирует исходный запрос и последующее уточнение, генерирует кандидатов на исправление, оценивает их популярность и фонетическое сходство, и формирует новый, корректный поисковый запрос.

US9514743B2
2016-12-06

Семантика и интент

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам

Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.

US8868587B1
2014-10-21

Семантика и интент

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

US8762358B2
2014-06-24

Мультиязычность
Семантика и интент

Как Google находит и предлагает более эффективные формулировки запросов через каноникализацию и оценку полезности

Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.

US8868591B1
2014-10-21

Семантика и интент

Как Google оптимизирует проверку орфографии в длинных запросах, приоритизируя исправление наиболее вероятных ошибок

Google использует систему для эффективной проверки орфографии в длинных запросах, чтобы избежать задержек (latency). Вместо детальной проверки каждого слова система быстро оценивает вероятность ошибки для всех терминов, используя языковые и N-граммные модели. Затем она выбирает только ограниченное подмножество наиболее подозрительных терминов для ресурсоемкой коррекции, обеспечивая баланс скорости и точности.

US9317606B1
2016-04-19

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

US8572096B1
2013-10-29

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений

Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.

US9645980B1
2017-05-09

Индексация
Ссылки
Техническое SEO

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы