Как Google Autocomplete использует статистические модели для нормализации разных фонетических написаний одного запроса

AUTOCOMPLETION FOR PARTIALLY ENTERED QUERY (Автозаполнение для частично введенного запроса)

US8996550B2
Google LLC
2010-06-03
2015-03-31

Мультиязычность

Google решает проблему неоднозначности ввода в языках без стандартной романизации (например, кантонский диалект). Система строит статистические языковые модели на основе предпочтений пользователей, чтобы распознавать разные фонетические варианты ввода латиницей (например, "lauta" и "lauda") как один и тот же иероглифический запрос, обеспечивая унифицированные подсказки автозаполнения.

Какую проблему решает

Патент решает проблему неоднозначности ввода в системах автозаполнения (Autocomplete/Google Suggest) для языков, не имеющих общепринятой стандартной системы романизации. В качестве основного примера используется кантонский диалект китайского языка. Разные пользователи могут фонетически записывать один и тот же иероглиф по-разному (например, "tak" или "dak" для 德). Стандартные системы не справляются с такой вариативностью. Изобретение позволяет предлагать корректный итоговый запрос независимо от того, какой фонетический вариант использует пользователь.

Что запатентовано

Запатентована система автозаполнения, которая использует статистическую языковую модель (Language Specific Model) для нормализации различных вариантов фонетического ввода. Модель строится на основе анализа реальных предпочтений пользователей в романизации (например, Kongping для кантонского). Это позволяет системе предлагать идентичные завершенные запросы в ответ на разные частично введенные строки, если они фонетически эквивалентны.

Как это работает

Система функционирует в двух режимах:

Офлайн (Подготовка): Сначала строится языковая модель путем анализа данных о том, как пользователи фонетически записывают слова (User Survey Data, Custom Data). Модель определяет варианты романизации и их популярность. Затем, анализируя логи запросов (Query Logs) и используя эту модель, система генерирует все возможные фонетические префиксы для популярных запросов и сохраняет их в Таблице завершения запросов (Query Completion Table).
Онлайн (Обработка ввода): Когда пользователь вводит частичный запрос латиницей, система ищет его в Query Completion Table. Поскольку таблица содержит разные фонетические варианты, разные вводы (например, "lauta" и "lauda") могут быть связаны с одним и тем же завершенным запросом (например, 劉德華), который и предлагается пользователю.

Актуальность для SEO

Высокая. Обработка неоднозначного ввода, фонетических вариаций и интернационализация поиска остаются ключевыми задачами Google. Хотя конкретные статистические методы могли эволюционировать в сторону нейросетевых подходов, фундаментальные принципы нормализации ввода и использования языковых моделей для сложных сценариев (например, диалектов без стандарта романизации) крайне актуальны.

Важность для SEO

Влияние на SEO умеренное (5/10). Патент не описывает алгоритмы ранжирования, но критически важен для понимания работы Google Autocomplete и этапа Понимания Запросов (Query Understanding). Он влияет на видимость (discoverability) брендов и ключевых запросов в поисковых подсказках, особенно на мультиязычных рынках. Он подтверждает стратегию фокуса на интенте и сущностях, а не на конкретных вариантах написания.

Термины и определения

Kongping (KP): Фонетическая репрезентация (романизация) китайской фразы или иероглифа в кантонском диалекте с использованием латинских символов. Не имеет единого стандарта.
Jyutping (JP): Стандартизированная схема романизации кантонского диалекта. В патенте используется как эталонное произношение для анализа и группировки пользовательских вариантов Kongping.
Language Model Builder: Компонент, создающий статистическую языковую модель на основе различных источников данных.
Model File (Language-Specific Model File): Структура данных, хранящая вероятностную модель: соответствие между нелатинскими строками (иероглифами) и вариантами их фонетической репрезентации латиницей (Kongping), а также оценки популярности (Popularity Scores) для каждого варианта.
Query Completion Table (Таблица завершения запросов): Индекс автозаполнения. Структура данных, оптимизированная для быстрого поиска полных запросов по частичному префиксу. Содержит латинские префиксы и связанные с ними полные запросы.
Ordered Set Builder: Компонент, который анализирует Query Logs и использует Model File для генерации фонетических префиксов и заполнения Query Completion Table.
Popularity Score (Оценка популярности): Вероятностная метрика, указывающая, насколько часто определенное фонетическое написание используется носителями языка для конкретной фразы или иероглифа.
User Survey Data, Custom Data, 3rd Party Data: Источники данных для построения Model File: опросы пользователей, авторитетные кастомные данные (например, географические названия) и данные из веба.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы автозаполнения с учетом фонетических вариаций.

Система поддерживает базу данных языковой модели (language specific model), которая связывает нелатинские строки с несколькими вариантами латинских строк (фонетическими представлениями). Модель строится на основе данных (опросы, кастомные данные и т.д.) и отражает персональные предпочтения разных пользователей в написании.
Система получает две разные строки латинских символов от двух пользователей (Строка 1 и Строка 2). Различия обусловлены разными предпочтениями пользователей в фонетической записи одной и той же нелатинской строки.
Используя языковую модель и исторические запросы, система получает наборы предсказанных полных запросов (Набор 1 и Набор 2).
Наборы содержат идентичные запросы, так как и Строка 1, и Строка 2 с помощью модели были связаны с одной и той же базовой нелатинской строкой.
Система передает пользователям подмножества этих наборов, причем оба подмножества включают этот идентичный предсказанный запрос.

Ядро изобретения — использование статистической модели, основанной на реальных вариациях пользовательского ввода, для нормализации различных фонетических написаний и предоставления унифицированных результатов автозаполнения.

Claim 2 (Зависимый): Уточняет, что Строка 1 и Строка 2 являются двумя различными фонетическими представлениями одного и того же запроса на кантонском диалекте.

Claims 7 и 8 (Зависимые): Описывают ранжирование подсказок. Каждая подсказка имеет Popularity Score, и подсказки передаются в порядке убывания этой оценки. При этом один и тот же идентичный запрос может занимать разные позиции в Наборе 1 и Наборе 2, так как вероятность этого запроса может быть разной в зависимости от популярности исходного написания (Строки 1 или Строки 2).

Где и как применяется

Изобретение применяется на стыке инфраструктурных процессов (индексирования) и обработки запросов в реальном времени.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит предварительная обработка данных:

Построение языковой модели: Language Model Builder анализирует данные из разных источников для создания Model File.
Генерация таблиц автозаполнения: Ordered Set Builder анализирует Query Logs и использует Model File для генерации Query Completion Tables. Это включает синтез возможных фонетических префиксов для популярных запросов.

QUNDERSTANDING – Понимание Запросов (Runtime / Autocomplete)
Это основная область применения патента в реальном времени. Когда пользователь вводит частичный запрос, Prediction Server получает его и выполняет поиск в предварительно созданных Query Completion Tables. Система интерпретирует ввод с учетом возможных фонетических вариаций, заложенных в таблицах.

Входные данные (Офлайн): Логи запросов, данные опросов пользователей, кастомные словари, данные из веба.
Входные данные (Онлайн): Частичный запрос пользователя (строка латинских символов).
Выходные данные: Упорядоченный список предсказанных полных запросов (может включать запросы на разных языках).

На что влияет

Специфические языки и диалекты: Наибольшее влияние на языки без стандартизированной системы романизации (кантонский диалект как пример).
Типы запросов: Влияет на запросы, которые пользователи вводят фонетически латиницей (имена собственные, бренды, локации).
Географические ограничения: Актуально в регионах, где распространены такие языки (например, Гонконг), и где система идентифицирует пользователя как носителя (по IP, настройкам языка).

Когда применяется

Триггеры активации: Алгоритм активируется в реальном времени каждый раз при вводе символов в строку поиска (Autocomplete/Google Suggest).
Условия работы: Специфическая логика фонетической обработки применяется, когда ввод интерпретируется как потенциальное фонетическое представление (например, Kongping).

Пошаговый алгоритм

Алгоритм состоит из трех основных процессов.

Процесс А: Построение языковой модели (Model File) (Офлайн)

Сбор данных: Сбор фонетических представлений (Kongping, kp) из User Survey Data, Custom Data и 3rd Party Data.
Анализ частотности (F): Вычисление частоты использования конкретного kp для конкретного произношения (Jyutping, jp) у каждого пользователя.
Агрегация популярности (G): Вычисление средней популярности kp для jp по всем пользователям.
Расчет оценки для символа (H): Вычисление популярности kp для конкретного символа/иероглифа (C), учитывая все его возможные произношения (jp).
Взвешивание и сохранение (P): Объединение данных из всех источников с учетом их весов достоверности (r_i) и сохранение итоговой оценки популярности в Model File.

Процесс Б: Построение таблиц завершения запросов (Query Completion Table) (Офлайн)

Анализ логов: Извлечение популярного запроса из Query Log.
Проверка языка: Определение, является ли запрос нелатинским (например, китайским).
Поиск в модели: Поиск запроса в Model File для извлечения Kongpings и их оценок популярности.
Рекурсивное деление и Синтез (если не найдено): Если запрос не найден, он разбивается на подзапросы. Для компонентов ищутся Kongpings, а затем синтезируются общие Kongpings для фразы путем комбинации и перемножения их оценок популярности.
Генерация префиксов: Создание всех возможных латинских префиксов из полученных Kongpings.
Расчет оценок префиксов: Для каждого префикса суммируются оценки популярности всех Kongpings, начинающихся с этого префикса.
Фильтрация: Отбор префиксов, чья совокупная оценка популярности превышает заданный порог.
Сохранение: Добавление префикса, полного запроса и его оценки ранжирования в Query Completion Table.

Процесс В: Обработка частичного запроса (Онлайн)

Получение ввода: Прием частичного запроса от клиента.
Хеширование: Применение хеш-функции к частичному запросу (или его префиксу, если используется чанкинг) для создания "отпечатка" (fingerprint).
Поиск в таблице: Использование отпечатка для поиска соответствующей записи в Query Completion Table.
Извлечение и Упорядочивание: Получение набора предсказанных полных запросов и их сортировка по оценкам ранжирования (Ranking Score).
Передача результатов: Отправка упорядоченного списка клиенту для отображения.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Query Logs используются для определения популярных запросов и их частотности. User Survey Data (данные опросов) используются для построения языковой модели, фиксируя предпочтения пользователей в фонетическом написании.
Лингвистические/Географические данные: Custom Data (например, устоявшиеся географические названия Гонконга) используются для уточнения языковой модели авторитетными данными.
Контентные факторы: 3rd Party Data (данные, извлеченные из веба, содержащие пары Фраза -> Романизация) используются для пополнения языковой модели.

Какие метрики используются и как они считаются

Патент детально описывает расчет метрик популярности для построения вероятностной языковой модели:

F(user, jp, kp) – Частота использования пользователем: Отношение числа раз, когда пользователь ввел Kongping (kp) для данного произношения Jyutping (jp), к общему числу вводов для этого произношения. $F = K/T$ .
G(jp, kp) – Агрегированная популярность произношения: Среднее значение F по всем пользователям (N). $G = (\sum F) / N$ .
H(C, kp) – Популярность для иероглифа: Взвешенная сумма G для всех возможных произношений (jp) данного иероглифа (C). $H = \sum (w_i * G(jp_i))$ .
P(C, kp) – Итоговая оценка популярности: Взвешенная комбинация оценок H из разных источников данных (с весами достоверности r_i), нормализованная по сумме всех оценок для данного иероглифа (C).
Synthesized Popularity Score: При синтезе Kongping для фразы из компонентов, итоговая оценка рассчитывается как произведение оценок популярности компонентов (Score(A+B) = Score(A) * Score(B)).

Нормализация неоднозначного ввода: Патент демонстрирует сложный механизм, позволяющий Google статистически обрабатывать и нормализовать различия в фонетическом написании запросов. Система признает, что разные строки ввода могут представлять один и тот же интент или сущность.
Data-driven подход к языку: Вместо использования строгих лингвистических правил, Google применяет вероятностный подход, основанный на реальных данных о предпочтениях пользователей (User Survey Data) и авторитетных источниках (Custom Data).
Комплексная офлайн-обработка для скорости онлайн: Эффективность системы автозаполнения в реальном времени обеспечивается масштабной предварительной обработкой — построением сложных языковых моделей, рекурсивным анализом запросов и синтезом фонетических представлений для заполнения Query Completion Tables.
Приоритет сущности/интента над написанием: Механизм подчеркивает переход от буквального сопоставления ключевых слов к пониманию базовой сущности или интента еще на этапе ввода запроса.
Мультиязычность автозаполнения: Система способна одновременно интерпретировать ввод латиницей и как префикс слова (например, английского), и как фонетическое представление (например, Kongping), предлагая смешанные подсказки на разных языках.

Best practices (это мы делаем)

Анализ фонетического спроса в целевых регионах (International SEO): При работе на рынках, где используются языки без стандартной романизации (например, Гонконг), необходимо исследовать, как пользователи фонетически записывают латиницей ключевые термины и бренды. Не полагайтесь только на официальную транслитерацию.
Мониторинг Google Autocomplete: Регулярно проверяйте Google Suggest по различным популярным фонетическим вариантам написания вашего бренда или ключевых запросов. Это позволяет убедиться, что система корректно ассоциирует эти варианты с вашим контентом/брендом.
Использование устоявшихся романизаций в контенте: Патент указывает, что Google придает больший вес авторитетным данным (Custom Data). Использование общепринятых или официальных вариантов романизации в контенте сайта может укреплять ассоциацию в моделях Google.
Оптимизация под сущности и интент: Подтверждается важность фокуса на сущностях и удовлетворении интента. Поскольку Google нормализует различные варианты написания к одной базовой сущности, контент должен быть авторитетным источником по этой сущности, а не набором ключевых слов.

Worst practices (это делать не надо)

Чрезмерная оптимизация под фонетические написания: Не стоит пытаться оптимизировать контент под конкретные варианты Kongping или другие фонетические транслитерации. Google нормализует их самостоятельно. Усилия должны быть направлены на основную тему или сущность.
Игнорирование локальных особенностей ввода: Ошибочно предполагать, что ввод латинскими символами в регионе типа Гонконга означает поиск на английском языке. Система активно интерпретирует такой ввод как фонетический и предлагает результаты на локальном языке.
Игнорирование данных Suggest: Создание контент-стратегии без учета популярных формулировок из Suggest является неэффективным, так как подсказки основаны на реальных логах и сложных лингвистических моделях.

Стратегическое значение

Патент подтверждает стратегию Google по глубокому пониманию языка и нормализации данных на этапе Query Understanding. Он показывает, как Google решает проблемы неоднозначности ввода с помощью статистических моделей. Для SEO это сигнал о том, что система становится все более устойчивой к вариациям ключевых слов (опечаткам, синонимам, фонетическим различиям). Долгосрочная стратегия должна строиться вокруг тематического авторитета и удовлетворения интента пользователя.

Практические примеры

Сценарий: Оптимизация видимости бренда в Гонконге

Задача: Убедиться, что бренд 寶馬 (BMW) появляется в Autocomplete при вводе латиницей в Гонконге.
Исследование (на основе патента): Известно, что пользователи могут вводить название фонетически как "boma" или "poma". Google использует статистическую модель для обработки этих вариантов.
Действия SEO-специалиста:
- Проверить Autocomplete (используя локальный поиск Гонконга) для ввода "bo", "bom", "boma", а также "po", "pom", "poma".
- Проанализировать, появляется ли бренд 寶馬 в подсказках для обоих вариантов.
Ожидаемый результат: Бренд должен появляться в подсказках для обоих вариантов ввода, так как система распознает их как фонетические репрезентации 寶馬. Если бренд не появляется для популярного варианта, это может указывать на необходимость усиления ассоциации этого написания с брендом в авторитетных внешних источниках (которые Google может использовать как 3rd Party Data).

Какую основную проблему решает этот патент?

Он решает проблему автозаполнения для языков без единого стандарта фонетического написания латиницей (например, кантонский диалект). Пользователи вводят одно и то же слово по-разному (например, "tak" и "dak"). Система позволяет им получать одинаковые популярные иероглифические подсказки, несмотря на разницу в способе ввода.

Влияет ли этот патент на органическое ранжирование?

Нет, напрямую не влияет. Патент описывает механизм работы поисковых подсказок (Google Autocomplete/Suggest), то есть этап до отправки запроса на ранжирование. Он не затрагивает алгоритмы, которые определяют позиции сайтов в поисковой выдаче, но косвенно влияет на то, какие запросы пользователи в итоге используют.

Как Google определяет, какой вариант фонетического написания более популярен?

Google строит статистическую языковую модель (Language-Specific Model File), анализируя несколько источников: User Survey Data (опросы пользователей о предпочтениях), Custom Data (например, устоявшиеся географические названия) и 3rd Party Data (анализ веба). Каждому варианту присваивается оценка популярности (Popularity Score) на основе частоты использования и веса источника.

Что такое синтез фонетических представлений (Kongpings)?

Если в языковой модели нет записи для целой фразы, система разбивает её на компоненты (слова или иероглифы), находит их фонетические представления и комбинирует их. Оценки популярности компонентов перемножаются. Это позволяет генерировать подсказки для сложных или редких фраз, которых нет в обучающих данных целиком.

Может ли один и тот же запрос быть на разных позициях в Autocomplete при разных вариантах ввода?

Да. Это описано в патенте (Claims 7 и 8). Хотя разные варианты ввода (например, "boma" и "poma") могут вести к одному и тому же полному запросу (寶馬), их статистическая популярность может отличаться. Если "boma" является более популярным способом ввода, связанный с ним запрос может появиться выше в списке подсказок, чем при вводе менее популярного "poma".

Может ли система предлагать подсказки на разных языках одновременно?

Да. Патент указывает, что Query Completion Table индексирует латинские префиксы, которые могут указывать на полные запросы на разных языках. Например, ввод "la" может предложить и английский запрос ("las vegas"), и китайский (劉德華), если он интерпретируется как Kongping.

Что это значит для SEO: фокусироваться на сущностях, а не на ключевых словах?

Это означает, что не нужно пытаться охватить все возможные варианты написания ключевого слова, включая фонетические вариации или опечатки. Google нормализует их самостоятельно. Ваша задача – создать лучший контент, отвечающий на запрос о базовой сущности (человеке, месте, концепции), к которой относятся все эти варианты написания.

Что делать, если мой бренд не появляется в Suggest при вводе популярного фонетического варианта?

Это может означать, что в статистической модели Google эта связь недостаточно сильна. Необходимо увеличить количество сигналов, связывающих этот фонетический вариант с вашим брендом в авторитетных источниках в вебе (справочники, СМИ), которые Google может использовать как 3rd Party Data или Custom Data.

Учитывает ли система пробелы или дефисы при фонетическом вводе?

Да. При генерации Query Completion Table система может создавать и индексировать префиксы как в слитном написании (например, "lautak"), так и с разделителями (например, "lau tak"). Это обеспечивает максимальный охват различных стилей ввода, используемых пользователями.

Как система обеспечивает скорость работы при такой сложной логике?

Вся сложная работа по построению языковой модели, анализу логов, синтезу фонетических представлений и генерации префиксов выполняется офлайн. В реальном времени система использует оптимизированные структуры данных (Query Completion Table) и быстрое хеширование для поиска предсказаний, что обеспечивает мгновенный отклик.

Как Google Autocomplete обрабатывает запросы, смешивающие разные языки и форматы ввода (например, иероглифы, пиньинь и английский)

Google использует механизм для генерации поисковых подсказок (Autocomplete), когда пользователь вводит запрос, смешивая разные языки или системы письма. Система создает альтернативные, "неоднозначные" представления ввода, запрашивает подсказки и фильтрует их. Это позволяет корректно интерпретировать сложный ввод (например, сочетание китайских иероглифов, пиньиня и английских слов) и предлагать релевантные варианты.

US20120203541A1
2012-08-09

Мультиязычность
Семантика и интент

Как Google формирует и ранжирует подсказки в Autocomplete на основе исторических данных о запросах пользователей

Google использует систему, которая анализирует логи исторических запросов пользователей для предсказания полного запроса при вводе частичного. Система генерирует упорядоченный набор вероятных завершений, ранжируя их по популярности (частоте использования) или другим критериям. Это позволяет пользователям быстрее находить информацию и показывает, какие формулировки запросов наиболее распространены в сообществе.

US7487145B1
2009-02-03

Как Google использует анализ окончаний запросов (суффиксов) для улучшения работы Автокомплита, игнорируя начало запроса

Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.

US8417718B1
2013-04-09

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы

Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

US7475063B2
2009-01-06

Мультиязычность
Семантика и интент
Индексация

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

US8762358B2
2014-06-24

Мультиязычность
Семантика и интент

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей

Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.

US9552430B1
2017-01-24

Local SEO
Поведенческие сигналы

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа