SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

QUERY LANGUAGE DETERMINATION USING QUERY TERMS AND INTERFACE LANGUAGE (Определение языка запроса с использованием терминов запроса и языка интерфейса)
  • US8762358B2
  • Google LLC
  • 2006-04-19
  • 2014-06-24
  • Мультиязычность
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

Описание

Какую проблему решает

Патент решает проблему обработки языковой неопределенности в поисковых запросах. Пользователи часто вводят запросы без диакритических знаков (акцентов, умляутов и т.д.) из-за ограничений устройств ввода или неудобства. При этом ожидается получение результатов с правильной орфографией. Система должна определить истинный язык запроса и понять, какие именно варианты написания (с диакритическими знаками или лигатурами) следует искать. Проблема усугубляется тем, что правила замены символов различаются в разных языках (например, 'ue' может заменять 'ü' в немецком, но не в турецком), и тем, что язык запроса может отличаться от языка интерфейса пользователя.

Что запатентовано

Запатентована система и метод для определения языка поискового запроса путем анализа как самих терминов запроса, так и языка пользовательского интерфейса (Interface Language), через который запрос был получен. Изобретение включает механизм использования этого определенного языка (Query Language) для точного расширения запроса синонимами (вариантами написания). Это достигается за счет создания и использования Synonyms Map — базы данных, которая хранит статистику частотности различных вариантов слова в разных языках.

Как это работает

Система работает в двух режимах: офлайн (индексирование) и онлайн (обработка запроса).

Офлайн: Создается Synonyms Map. Документы в корпусе анализируются, определяется их язык. Слова приводятся к «общей форме» (Common Form) с помощью языкозависимых правил (например, удаление акцентов). Для каждой общей формы сохраняются все оригинальные варианты (Variants) и частота их встречаемости в каждом языке.

Онлайн: При получении запроса система определяет вероятный язык запроса, учитывая язык интерфейса и сами термины. Термины запроса упрощаются (Simplified Query Term). Затем система ищет варианты в Synonyms Map. Выбор конкретного варианта для добавления в запрос зависит от вероятности языка запроса и относительной частоты этого варианта в данном языке.

Актуальность для SEO

Высокая. Точное определение языка запроса критически важно для качества поиска, особенно в мультиязычном интернете и для языков с богатой диакритикой. Хотя методы определения языка могли эволюционировать (например, с использованием нейронных сетей), фундаментальный подход — использование контекста (интерфейс) и статистики по терминам для разрешения неоднозначности и правильного расширения запроса — остается центральным элементом международного поиска.

Важность для SEO

Патент имеет высокое значение для международного и локализованного SEO. Он раскрывает, как Google обрабатывает запросы с диакритическими знаками и без них, и подчеркивает важность контекстуальных сигналов (таких как язык интерфейса) для определения интента пользователя. Понимание этих механизмов критично для разработки стратегий таргетинга на пользователей в разных странах и с разными языковыми настройками, гарантируя, что контент будет найден независимо от того, как пользователь сформулировал запрос.

Детальный разбор

Термины и определения

Common Form (Общая форма)
Ключ в Synonyms Map. Представляет собой упрощенную, стандартизированную или каноническую форму слова, полученную путем применения языкозависимых правил (например, удаление акцентов) к оригинальным словам из корпуса документов.
Interface Language (Язык интерфейса)
Язык, на котором пользовательский интерфейс (например, страница поиска Google) отображает информацию пользователю. Является важным сигналом для определения вероятного языка запроса.
Query Language (Язык запроса)
Определенный системой естественный язык, на котором, вероятнее всего, сформулирован поисковый запрос. Может отличаться от языка интерфейса.
Synonyms Map (Карта синонимов)
Структура данных, созданная на основе анализа корпуса документов. Связывает Common Form (ключ) с одним или несколькими Variants (значения). Для каждого варианта хранится статистика его использования в разных языках.
Variant (Вариант)
Оригинальное слово, найденное в корпусе документов, которое было приведено к определенной Common Form. Например, 'éléphant' и 'eléphant' могут быть вариантами для общей формы 'elephant'.
Variant-Language Score (Оценка варианта для языка)
Метрика, указывающая относительную частоту (Relative Frequency) данного варианта среди всех вариантов той же общей формы в конкретном языке.
Collapsible Digraphs (Сворачиваемые диграфы)
Комбинации из двух символов, которые в некоторых языках могут быть представлены одним символом, часто с диакритикой (например, 'ue' и 'ü' в немецком языке).
Simplified Query Term (Упрощенный термин запроса)
Форма термина из запроса пользователя, полученная после применения правил упрощения (удаление акцентов, транслитерация). Используется для поиска ключей в Synonyms Map.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод определения языка запроса.

  1. Система получает поисковый запрос, состоящий из одного или нескольких терминов, через пользовательский интерфейс.
  2. Определяется язык интерфейса (Interface Language).
  3. Определяются языки, связанные с выбором результатов поиска для множества ранее отправленных запросов, которые совпадают с текущим запросом.
  4. Для каждого идентифицированного языка определяется вероятность того, что текущий запрос написан на этом языке, основываясь на языках, связанных с выбором результатов предыдущих запросов.
  5. Вероятность для языка, совпадающего с языком интерфейса, выбирается как вероятность того, что запрос написан на языке интерфейса.
  6. Для каждого термина запроса определяется вектор вероятностей того, что этот термин принадлежит к различным языкам.
  7. Векторы терминов перемножаются для получения результирующего вектора.
  8. Результирующий вектор умножается на вероятность того, что запрос написан на языке интерфейса, для получения вектора вероятностей запроса (Query Probability Vector).
  9. Язык запроса (Query Language) выбирается на основе этого вектора вероятностей.

Ядро изобретения — это метод определения языка запроса, который комбинирует три источника данных: (1) анализ самих терминов запроса (векторы вероятностей), (2) язык интерфейса пользователя и (3) анализ поведения пользователей по аналогичным запросам в прошлом (язык кликнутых результатов). Система вычисляет итоговый вектор вероятностей для запроса, объединяя эти сигналы.

Claim 2 (Зависимый от 1): Описывает использование определенного языка запроса для расширения запроса.

  1. На основе языкозависимых правил (language-specific mapping) для терминов запроса определяется их общая форма (Common Form).
  2. Для терминов запроса идентифицируются синонимы (Variants) на основе их общих форм.
  3. Поисковый запрос переписывается (расширяется) с использованием идентифицированных синонимов.

После определения языка запроса система использует эту информацию для корректного выбора правил нормализации и последующего поиска релевантных вариантов написания (например, добавления правильных акцентов) для расширения запроса.

Claim 4 (Зависимый от 2): Детализирует процесс выбора синонимов.

  1. Идентифицируются потенциальные синонимы для термина.
  2. Для каждого потенциального синонима определяется относительная вероятность синонима (relative synonym probability) для каждого языка.
  3. Синоним выбирается на основе этих вероятностей.

Claim 5 (Зависимый от 4): Детализирует расчет вероятности синонима.

  1. Определяется относительная частота (Relative Frequency) синонима среди документов на каждом языке.
  2. Для каждого языка вычисляется оценка (language estimate) на основе относительной частоты синонима в этом языке и вероятности того, что запрос написан на этом языке (из Claim 1).
  3. Оценки для всех языков агрегируются для определения итоговой вероятности синонима.

Система не просто добавляет все возможные варианты написания. Она использует вероятностную модель, чтобы выбрать наиболее подходящие варианты. Выбор зависит от того, насколько вероятен данный язык для текущего запроса (из Claim 1) и насколько часто этот вариант используется в этом языке (статистика из Synonyms Map).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, функционируя как в офлайн, так и в онлайн режимах.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных для создания Synonyms Map:

  • Определение языка документов в тренировочном корпусе.
  • Применение языкозависимых правил (language-dependent mappings) для преобразования слов в Common Form.
  • Сбор статистики частотности слов (Variants) по языкам.
  • Построение и сохранение Synonyms Map.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента в онлайн режиме. При получении запроса система выполняет:

  • Определение языка запроса: Анализ терминов запроса, языка интерфейса и исторических данных о поведении пользователей для вычисления Query Probability Vector и выбора Query Language.
  • Упрощение запроса: Применение правил (которые могут отличаться от правил индексирования) для генерации Simplified Query Terms.
  • Расширение запроса (Query Augmentation): Поиск вариантов в Synonyms Map и вероятностный отбор наиболее подходящих синонимов на основе Query Language и частотных характеристик вариантов.

RANKING – Ранжирование
Система ранжирования получает на вход расширенный запрос (например, "(eléphant OR elephant OR éléphant) trunk") и использует его для поиска в основном индексе, который содержит документы в их оригинальной форме.

Входные данные (Онлайн):

  • Исходный запрос пользователя.
  • Язык интерфейса (Interface Language).
  • Synonyms Map (со статистикой частотности вариантов).
  • Исторические данные о языке кликнутых результатов для схожих запросов.

Выходные данные (Онлайн):

  • Определенный язык запроса (Query Language) и вектор вероятностей (Query Probability Vector).
  • Расширенный (аугментированный) поисковый запрос с добавленными релевантными вариантами написания.

На что влияет

  • Типы контента и ниши: Наибольшее влияние оказывается на контент на языках, активно использующих диакритические знаки, лигатуры или транслитерацию (например, французский, испанский, немецкий, скандинавские языки, транслитерированные индийские языки (Roman Indic)).
  • Специфические запросы: Влияет на запросы, где пользователи склонны опускать диакритику. Особенно важно для запросов, содержащих имена собственные, бренды или технические термины, где точное написание может быть критичным.
  • Языковые и географические ограничения: Механизм критичен для обеспечения качественного поиска в мультиязычных регионах и для пользователей, использующих интерфейс на одном языке, а ищущих контент на другом.

Когда применяется

  • Условия работы: Алгоритм применяется при обработке поисковых запросов, особенно когда термины запроса могут иметь различные варианты написания (с диакритикой или без) в разных языках.
  • Триггеры активации: Активируется, когда упрощенная форма термина запроса (Simplified Query Term) находит соответствие в Synonyms Map, для которого существует более одного варианта написания (Variant).
  • Исключения: В патенте упоминается, что для «малых языков» (языков, слабо представленных в корпусе документов) может применяться особая логика. Если язык интерфейса «малый», и исходный термин отличается от упрощенной формы, то используется исходный термин как есть, без синонимов. Если исходный термин идентичен упрощенной форме, то синонимы ищутся. Это делается для предотвращения «зашумления» выдачи результатами на других языках.

Пошаговый алгоритм

Процесс А: Создание Synonyms Map (Офлайн)

  1. Сбор данных: Идентификация тренировочного корпуса документов.
  2. Определение языка: Определение языка каждого документа в корпусе.
  3. Создание словаря: Создание словаря всех уникальных слов в корпусе и запись частоты их встречаемости в разрезе языков.
  4. Нормализация (Mapping to Common Form): Применение языкозависимых правил конвертации к каждому слову для получения его Common Form. Правила могут включать удаление акцентов, сворачивание диграфов и т.д.
  5. Построение карты: Создание Synonyms Map, где ключи — это Common Form, а значения — оригинальные слова (Variants) с их статистикой по языкам.
  6. Фильтрация и расчет метрик:
    1. Удаление записей, где есть только один вариант, совпадающий с общей формой.
    2. Удаление вариантов, частота которых ниже абсолютного порога для данного языка (фильтрация опечаток).
    3. Расчет относительной частоты (Relative Frequency) каждого варианта внутри языка для данной общей формы.
    4. Удаление вариантов, чья относительная частота ниже заданного порога.

Процесс Б: Обработка и расширение запроса (Онлайн)

  1. Получение запроса и контекста: Получение поискового запроса и определение языка интерфейса (Interface Language).
  2. Определение языка запроса:
    1. Расчет вероятности того, что запрос написан на языке интерфейса (используя исторические данные о кликах).
    2. Расчет векторов вероятностей для каждого термина запроса (в каких языках он встречается).
    3. Комбинирование этих данных для получения Query Probability Vector и выбора наиболее вероятного Query Language.
  3. Упрощение запроса (Simplification): Применение правил конвертации (обычно языконезависимых, но иногда зависящих от Query Language) к каждому термину для получения Simplified Query Term.
  4. Поиск вариантов: Использование упрощенных терминов как ключей для поиска в Synonyms Map.
  5. Оценка и отбор вариантов: Для каждого найденного варианта рассчитывается оценка (Estimate), которая является суммой по всем языкам произведения вероятности языка (из Query Probability Vector) и относительной частоты варианта в этом языке (из Synonyms Map).
    Estimate=∑Language(P(Language

    Выводы

    1. Язык интерфейса — сильный сигнал контекста: Google активно использует язык интерфейса пользователя как ключевой сигнал для разрешения языковой неоднозначности запроса. Это влияет на определение Query Language и, следовательно, на то, какие варианты написания будут добавлены в запрос.
    2. Вероятностное расширение запроса: Система не просто ищет все возможные варианты написания. Она использует сложную вероятностную модель, чтобы определить, какие варианты (например, с какими акцентами) наиболее релевантны для данного пользователя и контекста, основываясь на статистике использования слов в разных языках.
    3. Нормализация при индексировании vs. Упрощение при запросе: Патент подчеркивает различие между тем, как контент нормализуется для создания Synonyms Map (языкозависимые правила), и тем, как упрощается запрос пользователя (часто языконезависимые правила). Это позволяет системе связывать разные орфографические конвенции.
    4. Защита от некорректных замен: Система имеет механизмы защиты от нежелательных замен. Например, она учитывает Collapsible Digraphs (вроде 'ue' для 'ü') и может снижать вес (penalty) для таких вариантов, чтобы избежать ошибок, если такая замена не принята в определенном языке.
    5. Особая обработка «малых языков»: Для языков, слабо представленных в индексе, система может ограничивать расширение запроса, чтобы избежать доминирования результатов на более распространенных языках и повысить точность выдачи на «малом языке».

    Практика

    Best practices (это мы делаем)

    • Обеспечение корректной идентификации языка контента: Критически важно, чтобы Google правильно определял язык ваших документов во время индексирования, так как это влияет на формирование Synonyms Map. Используйте чистый HTML, корректные атрибуты lang, и следуйте рекомендациям по hreflang для мультиязычных сайтов.
    • Использование канонической орфографии: Всегда используйте правильные диакритические знаки и орфографию для целевого языка (например, пишите 'éléphant' на французском). Этот патент описывает механизм, который помогает пользователям найти ваш контент, даже если они ищут без акцентов ('elephant'), но полагается он на то, что в индексе присутствует каноническая форма.
    • Анализ международного трафика с учетом настроек интерфейса: При анализе эффективности ключевых слов учитывайте, что пользователи с интерфейсом на английском языке, ищущие на французском, могут получать иную выдачу, чем пользователи с интерфейсом на французском. Стратегия должна учитывать эти контекстуальные различия.
    • Создание контента для транслитерированных запросов: В нишах, где распространена транслитерация (например, Roman Indic), убедитесь, что ваш контент может быть корректно обработан системой. Понимание того, как Google применяет правила транслитерации (Conversion Maps), помогает оптимизировать контент под такие запросы.

    Worst practices (это делать не надо)

    • Игнорирование диакритических знаков в контенте: Создание контента без правильных акцентов или умляутов в надежде, что он будет лучше ранжироваться по запросам без диакритики, является плохой практикой. Это снижает качество контента и может привести к тому, что система не сможет корректно связать неканоническую форму с запросами пользователей.
    • Смешивание языков на одной странице без четкого разделения: Это может затруднить корректное определение языка документа и привести к ошибкам при построении Synonyms Map, так как система применяет языкозависимые правила нормализации.
    • Манипуляции с орфографией для охвата вариантов: Не нужно создавать отдельные страницы или наполнять текст разными вариантами написания (например, с акцентами и без). Система Google предназначена для автоматического связывания этих вариантов через механизм, описанный в патенте.

    Стратегическое значение

    Этот патент подчеркивает стратегическую важность точного языкового таргетинга в SEO. Он демонстрирует, что Google не рассматривает язык как бинарный фактор, а использует вероятностную модель, учитывающую контекст пользователя (язык интерфейса) для интерпретации запроса. Для глобальных SEO-стратегий это означает, что оптимизация должна быть направлена на обеспечение четких и последовательных языковых сигналов на сайте, чтобы система могла корректно классифицировать контент и связать его с запросами пользователей, независимо от их локации и настроек интерфейса.

    Практические примеры

    Сценарий: Оптимизация для французского рынка с учетом английского интерфейса

    Предположим, мы оптимизируем страницу о слонах на французском языке. Ключевое слово: 'éléphant'.

    1. Действие: Мы создаем качественный контент, используя правильное написание 'éléphant'. Обеспечиваем, чтобы страница была четко идентифицирована как французская (HTML lang="fr").
    2. Процесс Google (Индексирование): Google индексирует страницу, определяет язык как французский. Слово 'éléphant' нормализуется в Common Form 'elephant'. В Synonyms Map записывается, что 'elephant' во французском языке часто встречается как 'éléphant'.
    3. Сценарий пользователя 1 (Французский интерфейс): Пользователь с французским интерфейсом ищет 'elephant'. Google определяет высокую вероятность французского языка. Система проверяет Synonyms Map и видит, что 'éléphant' является высокочастотным вариантом во французском языке. Запрос расширяется до (elephant OR éléphant). Наша страница высоко ранжируется.
    4. Сценарий пользователя 2 (Английский интерфейс): Пользователь с английским интерфейсом ищет 'elephant'. Google определяет высокую вероятность английского языка. Система проверяет Synonyms Map. Хотя 'éléphant' существует и в английском (как заимствование), его относительная частота низка по сравнению с 'elephant'. Запрос, скорее всего, не будет расширен или расширение получит низкий вес. Наша французская страница не будет мешать английской выдаче.
    5. Результат: Мы обеспечили максимальную видимость на целевом рынке без ущерба для других языков, следуя орфографическим стандартам.

    Вопросы и ответы

    Как Google определяет язык документа для построения Synonyms Map?

    Патент указывает на использование статистических теорий обучения, в частности, моделей классификации Naive Bayes. Эти модели вычисляют вероятность принадлежности документа к определенному классу (пара язык/кодировка) на основе текста и, опционально, URL документа (например, домена верхнего уровня). Система анализирует частотность слов в тексте и сравнивает ее с эталонными моделями языков, чтобы определить наиболее вероятный язык документа.

    В чем разница между Common Form при индексировании и Simplified Query Term при обработке запроса?

    Common Form создается во время индексирования с использованием языкозависимых правил (language-dependent mappings), так как язык документа известен. Simplified Query Term создается во время обработки запроса, часто с использованием языконезависимых правил, так как язык запроса еще точно не определен или может быть смешанным. В некоторых случаях правила для этих двух процессов могут отличаться, что позволяет системе связывать разные конвенции написания.

    Насколько сильно язык интерфейса влияет на определение языка запроса?

    Влияние значительно. Язык интерфейса используется как один из ключевых множителей при расчете итогового вектора вероятностей запроса (Query Probability Vector). Система рассчитывает вероятность того, что запрос написан на языке интерфейса (основываясь на исторических данных о поведении пользователей), и комбинирует ее с вероятностями, полученными из анализа самих терминов запроса.

    Если я напишу контент без диакритических знаков, поможет ли это ранжироваться по запросам без них?

    Нет, это плохая стратегия. Система предназначена для того, чтобы находить контент с правильной орфографией (с диакритикой), даже если пользователь ищет без нее. Google индексирует ваш контент и создает Synonyms Map, полагаясь на то, что контент написан правильно. Использование неканонической орфографии снижает качество контента и может ухудшить его обработку системой.

    Как система решает, какие именно акценты добавить, если слово пишется по-разному в разных языках (например, в испанском и португальском)?

    Это решается с помощью вероятностной модели. Система сначала определяет наиболее вероятный язык запроса (используя язык интерфейса и сами термины). Затем она проверяет Synonyms Map, чтобы увидеть, какой вариант написания (с какими акцентами) наиболее часто встречается в этом конкретном языке. Вариант с наибольшей взвешенной вероятностью будет использован для расширения запроса.

    Что такое «малые языки» и как они обрабатываются?

    «Малые языки» (Small Languages) — это языки, которые слабо представлены в общем корпусе документов (индексе). Для них система может ограничивать расширение запроса синонимами. Это делается для того, чтобы предотвратить ситуацию, когда результаты на более распространенном языке подавляют релевантные результаты на «малом языке» из-за автоматического добавления вариантов.

    Учитывает ли система опечатки при создании Synonyms Map?

    Система пытается фильтровать опечатки. В патенте описан механизм использования абсолютных порогов частотности (absolute threshold) на уровне языка. Если слово встречается очень редко в данном языке, оно, вероятно, является опечаткой и не включается в Synonyms Map как валидный вариант.

    Как обрабатываются слова, которые выглядят одинаково, но имеют разное значение в разных языках (омографы)?

    Патент предлагает использовать языкозависимые черные списки слов (blacklists). Если слово находится в черном списке для определенного языка, оно не может быть ассоциировано с этим языком в Synonyms Map. Например, если 'the' находится во французском черном списке, это предотвращает путаницу между английским 'the' (артикль) и французским 'thé' (чай).

    Что такое сворачиваемые диграфы и как они влияют на SEO?

    Сворачиваемые диграфы — это пары символов, заменяющие один символ с диакритикой (например, 'ae' вместо 'æ'). Система умеет распознавать их и сворачивать в Common Form. При расширении запроса система может применять штраф (penalty) к относительной частоте таких вариантов, чтобы снизить риск некорректной замены, если она не принята в данном языке. SEO-специалистам важно знать о таких конвенциях на целевых рынках.

    Влияет ли этот патент на работу Hreflang?

    Прямого влияния нет, но оба механизма работают на улучшение международного поиска. Hreflang помогает Google понять структуру мультиязычного сайта и показать правильный URL в выдаче. Этот патент помогает Google правильно интерпретировать сам запрос пользователя и определить, на каком языке он ищет. Корректное использование Hreflang помогает гарантировать, что после того, как Google определил язык запроса и расширил его, он покажет пользователю наиболее подходящую версию страницы.

    Похожие патенты

    Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
    Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
    • US7475063B2
    • 2009-01-06
    • Мультиязычность

    • Семантика и интент

    • Индексация

    Как Google использует язык интерфейса и статистику корпуса для обработки акцентов, диграфов и транслитерации в запросах
    Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте Синонимов». Это позволяет находить документы с правильной орфографией, даже если пользователь ввел упрощенный вариант. Также описан механизм защиты для «малых языков», ограничивающий подбор синонимов для сохранения точности выдачи.
    • US7835903B2
    • 2010-11-16
    • Мультиязычность

    • Семантика и интент

    Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей
    Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.
    • US8442965B2
    • 2013-05-14
    • Мультиязычность

    • Поведенческие сигналы

    Как Google исправляет запросы, введенные с неправильной раскладкой клавиатуры, используя контекст пользователя
    Google использует механизм для автоматического определения и исправления запросов, введенных с ошибочной раскладкой клавиатуры. Если исходный запрос возвращает неудовлетворительные результаты, система анализирует контекст пользователя (язык интерфейса, местоположение, историю поиска), чтобы определить предполагаемый язык. Затем запрос перекодируется в правильный скрипт, и пользователю показываются релевантные результаты.
    • US8676824B2
    • 2014-03-18
    • Мультиязычность

    • Поведенческие сигналы

    Как Google определяет язык смешанных запросов с помощью посимвольного анализа на стороне клиента
    Google использует легковесный механизм для определения языка поисковых подсказок, который может выполняться на стороне клиента. Система анализирует каждый символ подсказки и оценивает, насколько он уникален для разных языков, используя локальную базу данных. Это позволяет точно определить исходный язык даже для смешанных запросов (например, Английский + Китайский) и обеспечить качественный машинный перевод кросс-язычных подсказок.
    • US20120330989A1
    • 2012-12-27
    • Мультиязычность

    Популярные патенты

    Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL
    Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
    • US20140280133A1
    • 2014-09-18
    • Семантика и интент

    • Поведенческие сигналы

    • Knowledge Graph

    Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
    Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
    • US8423538B1
    • 2013-04-16
    • Семантика и интент

    • Поведенческие сигналы

    • SERP

    Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
    Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
    • US8577893B1
    • 2013-11-05
    • Антиспам

    • Ссылки

    • Семантика и интент

    Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
    Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
    • US8738612B1
    • 2014-05-27
    • Семантика и интент

    • Поведенческие сигналы

    • SERP

    Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
    Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
    • US7454417B2
    • 2008-11-18
    • Персонализация

    • Поведенческие сигналы

    • SERP

    Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
    Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
    • US9244977B2
    • 2016-01-26
    • Персонализация

    • Семантика и интент

    • Поведенческие сигналы

    Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи
    Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.
    • US9092510B1
    • 2015-07-28
    • Свежесть контента

    • Поведенческие сигналы

    • SERP

    Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента
    Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.
    • US9098511B1
    • 2015-08-04
    • Поведенческие сигналы

    • Мультимедиа

    • SERP

    Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
    Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
    • US8392429B1
    • 2013-03-05
    • Ссылки

    • SERP

    • EEAT и качество

    Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
    Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
    • US8447760B1
    • 2013-05-21
    • Поведенческие сигналы

    • Персонализация

    • Семантика и интент

    seohardcore