Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет предпочитаемый язык пользователя, анализируя текст запроса и его местоположение

    DETERMINING USER LANGUAGE INTENT (Определение языкового намерения пользователя)
    • US8874599B2
    • Google LLC
    • 2014-10-28
    • 2011-11-30
    2011 Мультиязычность Патенты Google

    Google использует механизм для определения языка, на котором пользователь хочет видеть результаты поиска, особенно когда язык запроса отличается от языка региона. Система сравнивает текст запроса с его переводом на местный язык. Чем больше лингвистических различий, тем сильнее сигнал о том, что пользователь предпочитает язык запроса, и выдача переключается на него.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему предоставления результатов поиска на языке, который не соответствует намерению пользователя, особенно в ситуациях, когда пользователь находится за границей (путешественник, экспат) или использует устройство с настройками языка, отличными от его предпочтений (например, публичный компьютер). Система стремится определить истинное языковое намерение (language intent) пользователя, анализируя сам запрос в контексте местоположения пользователя.

    Что запатентовано

    Запатентован метод определения языкового намерения пользователя на основе анализа введенного запроса и местоположения. Ключевым элементом является расчет strength of the language usage signal (силы сигнала использования языка). Эта сила определяется путем сравнения текста исходного запроса с его переводом на язык, ассоциированный с местоположением пользователя. Критически важно: чем больше разница (amount of variation) между оригиналом и переводом, тем сильнее сигнал о том, что пользователь намеренно использовал язык запроса.

    Как это работает

    Система работает следующим образом:

    • Получение данных: Принимается запрос (текст) и определяется местоположение пользователя.
    • Идентификация языков: Определяется язык текста запроса (Первый язык) и язык, связанный с местоположением (Второй язык).
    • Перевод: Текст запроса переводится с Первого языка на Второй.
    • Расчет силы сигнала: Система вычисляет степень различия (amount of variation) между исходным текстом и переводом (например, различия в написании слов или структуре адреса). Большая разница дает более сильный сигнал.
    • Принятие решения: Если сила сигнала превышает порог, система корректирует язык вывода (output language) результатов поиска, приводя его в соответствие с Первым языком.
    • Выдача результатов: Результаты поиска и связанная информация (например, реклама) предоставляются на скорректированном языке.

    Актуальность для SEO

    Высокая. Понимание языкового намерения пользователя остается критически важной задачей для глобальных поисковых систем, особенно с ростом мобильного поиска и международных путешествий. Описанный механизм предоставляет точный метод для динамической адаптации языка выдачи на лету, что напрямую влияет на пользовательский опыт и эффективность международного SEO.

    Важность для SEO

    Влияние на SEO значительное (65/100), особенно для международного SEO. Хотя патент не описывает алгоритм ранжирования контента по качеству или релевантности, он определяет фундаментальный механизм того, какой языковой индекс будет использоваться для ответа на запрос. Если система неверно определит языковое намерение, релевантный контент на нужном языке может быть не показан пользователю. Понимание этого механизма критично для стратегий таргетинга на многоязычную аудиторию и путешественников.

    Детальный разбор

    Термины и определения

    User Query (Пользовательский запрос)
    Входные данные от пользователя, включающие текст и информацию о местоположении (user location).
    Language Usage Signal (Сигнал использования языка)
    Индикатор, извлеченный из текста запроса (слово, фраза или структура данных, например, формат адреса), который указывает на конкретный язык (first language).
    First Language (Первый язык)
    Язык, идентифицированный на основе текста запроса.
    Second Language (Второй язык)
    Язык, ассоциированный с местоположением пользователя (местный язык).
    Strength of the Language Usage Signal (Сила сигнала использования языка)
    Метрика, определяющая уверенность системы в том, что пользователь намеренно использовал Первый язык. Рассчитывается на основе Amount of Variation.
    Amount of Variation (Степень различия)
    Мера разницы между текстом исходного запроса и его переводом с Первого языка на Второй. Включает различия в написании (количество разных, пропущенных или добавленных букв).
    Output Language (Язык вывода)
    Язык, на котором система предоставляет результаты поиска и рекламу. Корректируется, если сила сигнала превышает порог.
    Geographically Biased Proper Terms (Географически обусловленные имена собственные)
    Термины (например, названия городов), написание которых различается в разных языках (например, Munich и München).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод определения языкового намерения.

    1. Система получает запрос (текст и местоположение).
    2. Идентифицируется language usage signal на основе текста, связанный с Первым языком.
    3. Идентифицируется Второй язык, связанный с местоположением.
    4. Генерируется перевод текста запроса с Первого языка на Второй.
    5. Определяется strength of the language usage signal на основе amount of variation между текстом запроса и его переводом.
    6. Ключевой механизм: Сила сигнала увеличивается по мере увеличения степени различия.
    7. Если сила сигнала превышает порог (predetermined threshold), Первый язык выбирается в качестве output language.
    8. Результаты возвращаются в соответствии с output language.

    Ядро изобретения заключается в методе расчета силы сигнала. Вместо простого сравнения языков система использует степень различия в написании конкретных терминов после перевода. Если пользователь в Германии (Язык 2 = Немецкий) ищет «dog» (Язык 1 = Английский), перевод на немецкий — «hund». Различие («dog» vs «hund») велико, следовательно, сила сигнала того, что пользователь хотел использовать английский, высока. Если пользователь ищет «supermarket», перевод — «supermarkt». Различие мало, сила сигнала низкая, и система может предпочесть местный язык, предполагая, что термин интернационален или пользователь адаптируется.

    Claim 2 и 3 (Зависимые): Уточняют, что amount of variation основана на различиях в написании (spelling), включая количество разных, пропущенных или добавленных букв между оригиналом и переводом.

    Claim 4 (Зависимый): Уточняет, что идентификация language usage signal может основываться на использовании разных языков для общих терминов или на использовании geographically biased proper terms.

    Claim 5 и 6 (Зависимые): Описывают альтернативный метод идентификации сигнала на основе структуры данных. Например, порядок компонентов адреса (улица, город, индекс, страна) различается в разных регионах и используется как языковой сигнал.

    Claim 7 и 8 (Зависимые): Указывают, что ассоциированная информация, такая как веб-реклама (web-based advertisements), также предоставляется в соответствии с установленным output language.

    Claim 9 (Зависимый): Система может вернуться к языку по умолчанию (default language), если прошло определенное время (predetermined time threshold) с момента последней корректировки языка (тайм-аут сессии).

    Где и как применяется

    Изобретение применяется на ранних стадиях обработки запроса для определения контекста пользователя.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Система анализирует входящий запрос и контекстуальные сигналы (местоположение) в реальном времени, чтобы определить истинное языковое намерение пользователя.

    • Входные данные: Текст запроса, данные геолокации пользователя (IP-адрес и т.д.).
    • Процесс: Идентификация языков, перевод, расчет amount of variation и strength of the language usage signal.
    • Выходные данные: Определение Output Language. Это решение определяет, к какому языковому индексу будет направлен запрос на следующих этапах.

    RANKING – Ранжирование
    На этот этап влияет решение, принятое на этапе QUNDERSTANDING. Ранжирование будет происходить внутри индекса того языка, который был определен как Output Language.

    METASEARCH / RERANKING
    Определенный Output Language используется для форматирования SERP, выбора языка рекламных объявлений и может сохраняться в течение сессии пользователя для персонализации.

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие термины, написание которых сильно различается в разных языках, а также на запросы с именами собственными (названия мест) и структурированными данными (адреса).
    • Географические факторы: Механизм критичен для пользователей, находящихся в регионе, язык которого отличается от языка их запроса (путешественники, экспаты).
    • Конкретные ниши: Особенно важно для тематик туризма, гостеприимства и международной электронной коммерции.
    • Типы контента и Реклама: Влияет на все типы контента и язык рекламных объявлений, так как определяет язык выдачи в целом.

    Когда применяется

    • Триггеры активации: Алгоритм активируется при получении запроса, особенно когда система обнаруживает потенциальный конфликт между языком запроса (First Language) и языком местоположения (Second Language).
    • Условия срабатывания: Корректировка языка вывода происходит только тогда, когда рассчитанная strength of the language usage signal превышает предопределенный порог. Это происходит, когда система уверена, что пользователь намеренно использовал свой язык, а не местный.

    Пошаговый алгоритм

    Процесс определения языкового намерения

    1. Получение входных данных: Система получает пользовательский запрос (текст) и данные о местоположении пользователя.
    2. Идентификация Второго языка: Определяется язык, ассоциированный с местоположением (Язык 2).
    3. Идентификация Первого языка: Анализируется текст запроса для идентификации language usage signal и определения языка запроса (Язык 1). Это может включать анализ общих терминов, имен собственных или структуры данных (например, формата адреса).
    4. Генерация перевода: Текст запроса переводится с Языка 1 на Язык 2.
    5. Расчет степени различия (Amount of Variation): Сравнивается исходный текст запроса и его перевод. Оцениваются различия в написании (количество измененных, добавленных, удаленных символов).
    6. Определение силы сигнала (Strength of Signal): Рассчитывается strength of the language usage signal. Сила прямо пропорциональна степени различия (чем больше разница, тем сильнее сигнал).
    7. Сравнение с порогом: Сила сигнала сравнивается с предопределенным порогом.
    8. Корректировка языка вывода:
      • Если сила сигнала > порога: Output Language устанавливается равным Языку 1.
      • Если сила сигнала ≤ порога: Output Language остается по умолчанию (вероятно, Язык 2).
    9. Возврат результатов: Поиск выполняется, и результаты (а также связанная реклама) возвращаются на установленном Output Language.
    10. Управление сессией (Опционально): Скорректированный язык сохраняется на определенный период времени. По истечении этого времени система возвращается к языку по умолчанию.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст запроса. Анализируется написание слов, использование общих терминов и имен собственных (geographically biased proper terms).
    • Структурные факторы: Порядок компонентов в структурированных данных, таких как адреса (например, формат улица/номер дома, индекс/город), используется как сигнал языка.
    • Географические факторы: Местоположение пользователя (user location), используемое для определения Второго языка (местного языка).
    • Системные данные: Данные машинного перевода между различными языками и данные о региональных форматах адресов.

    Какие метрики используются и как они считаются

    • Amount of Variation (Степень различия): Ключевая метрика. Рассчитывается как разница между исходным текстом запроса и его переводом на язык местоположения. В патенте упоминаются конкретные методы расчета:
      • Различия в написании (differences in a spelling).
      • Количество разных букв (number of different letters).
      • Количество пропущенных букв (number of omitted letters).
      • Количество добавленных букв (number of additional letters).

      (Это концептуально схоже с расчетом редакционного расстояния, например, расстояния Левенштейна).

    • Strength of the Language Usage Signal (Сила сигнала использования языка): Производная метрика, которая увеличивается по мере увеличения Amount of Variation.
    • Predetermined Threshold (Предопределенный порог): Пороговое значение для силы сигнала, необходимое для активации смены языка вывода.

    Выводы

    1. Языковое намерение определяется контекстуально: Система не полагается слепо только на местоположение или настройки браузера. Она активно анализирует текст запроса в контексте местоположения, чтобы определить реальное намерение пользователя в данный момент.
    2. Инновационный расчет силы сигнала (Уверенности): Ключевая особенность патента — метод расчета strength of the language usage signal. Уверенность в языковом намерении тем выше, чем сильнее написание термина в языке запроса отличается от его перевода на местный язык.
    3. Интернационализмы и схожие термины генерируют слабый сигнал: Термины, которые пишутся одинаково или очень похоже в разных языках (например, «hotel», «taxi»), генерируют низкий Amount of Variation и, следовательно, слабый сигнал. В таких случаях система с большей вероятностью предпочтет местный язык.
    4. Структура данных как языковой сигнал: Патент учитывает не только слова, но и структуру данных (например, формат адресов) как индикатор языкового намерения и региональных предпочтений.
    5. Комплексное влияние на SERP: Механизм влияет не только на органические результаты, но и на язык рекламных объявлений (web-based advertisements), обеспечивая целостный пользовательский опыт.

    Практика

    Best practices (это мы делаем)

    • Использование однозначных и идиоматических языковых сигналов: При таргетинге на определенный язык используйте терминологию и идиомы, характерные именно для этого языка, особенно если они сильно отличаются от аналогов в других языках. Это поможет вашему контенту соответствовать запросам пользователей, которые генерируют сильный language usage signal (высокий Amount of Variation).
    • Локализация имен собственных (Geographically Biased Proper Terms): Используйте локализованные названия мест на соответствующих языковых версиях сайта (например, «Cologne» на английском сайте, «Köln» на немецком). Это соответствует ожиданиям пользователей и сигналам, которые они генерируют в запросах.
    • Структурирование адресов согласно локальным стандартам: При указании адресов на сайте следуйте формату, принятому в целевом регионе/языке страницы. Патент явно указывает, что формат адреса используется как language usage signal (Claim 5).
    • Правильное использование Hreflang: Убедитесь, что все языковые версии сайта четко размечены. Это помогает поисковой системе предоставить правильную версию страницы в Output Language, определенном алгоритмом.

    Worst practices (это делать не надо)

    • Принудительное перенаправление по IP (Forced Geotargeting): Перенаправление пользователя на основе его местоположения без учета языка запроса противоречит логике этого патента. Если пользователь ищет на английском в Германии, а вы принудительно отправляете его на немецкую версию, это ухудшает UX и игнорирует его явное намерение.
    • Использование только интернационализмов: Полагаться только на термины, которые одинаково пишутся во многих языках (например, в B2B или технических нишах), рискованно. Если пользователь находится в другой стране, система может предпочесть местный язык из-за слабого сигнала (низкого Amount of Variation).
    • Смешивание языков в контенте: Избегайте использования терминов из разных языков на одной странице без необходимости. Это может запутать систему при определении основного языка и ослабить language usage signal.
    • Игнорирование локальных форматов данных: Использование американского формата адреса или дат на сайте, ориентированном на Европу, может посылать неверные сигналы о языковом и географическом таргетинге страницы.

    Стратегическое значение

    Патент подчеркивает важность точного понимания контекста пользователя (локация + язык) в международном поиске. Google способен на лету определять, какой язык предпочтительнее для пользователя в данный момент, основываясь на нюансах введенного запроса, а не только на статических настройках. Это подтверждает необходимость глубокой локализации контента, включая лексику и форматы данных, а не простого перевода.

    Практические примеры

    Сценарий 1: Сильный языковой сигнал (на основе примера из патента)

    Пользователь находится в Берлине, Германия (Язык 2 = Немецкий).

    1. Запрос: «bar Munich».
    2. Анализ: Язык 1 = Английский.
    3. Перевод на Язык 2: «bar München».
    4. Сравнение (Variation): «Munich» vs «München». Различие значительное.
    5. Результат: Strength of the language usage signal высокая (в патенте пример 90/100). Output Language переключается на Английский.
    6. SEO Вывод: Англоязычные сайты должны использовать «Munich» для таргетинга на таких пользователей.

    Сценарий 2: Слабый сигнал (Интернациональный термин)

    Турист в Испании (Язык 2 = Испанский) ищет «hotel reservation».

    1. Анализ: Язык 1 = Английский.
    2. Перевод на Язык 2: «reserva de hotel».
    3. Сравнение (Variation): «hotel» vs «hotel» (одинаково), «reservation» vs «reserva» (похоже). Различие низкое.
    4. Результат: Strength of signal может быть ниже порога. Система может предпочесть Испанский язык.
    5. SEO Вывод: Для надежного таргетинга на англоязычную аудиторию стоит также оптимизировать контент под термины с большей вариативностью (например, «booking accommodation»).

    Вопросы и ответы

    Что такое «Сила сигнала использования языка» (Strength of the Language Usage Signal) и как она рассчитывается?

    Это мера уверенности системы в том, что пользователь намеренно использовал язык запроса. Она рассчитывается на основе степени различия (Amount of Variation) между текстом запроса и его переводом на местный язык. Чем сильнее отличается написание слов (больше разных, пропущенных или добавленных букв), тем выше эта сила.

    Как система обрабатывает слова, которые пишутся одинаково в разных языках (интернационализмы)?

    Такие слова, как «hotel» или «taxi», генерируют очень низкую степень различия (Amount of Variation) при переводе. Следовательно, Strength of the Language Usage Signal будет слабой. В таких случаях система с меньшей вероятностью переключит язык выдачи и может предпочесть язык региона, в котором находится пользователь.

    Влияет ли этот патент на ранжирование моего сайта?

    Прямого влияния на расчет релевантности или качества сайта нет. Однако он имеет критическое косвенное влияние, так как определяет, в каком языковом индексе будет происходить ранжирование для данного пользователя. Если система выберет английский язык выдачи, ваш англоязычный контент будет конкурировать; если немецкий — то немецкий.

    Как этот патент влияет на международное SEO?

    Он подчеркивает необходимость глубокой локализации. Чтобы надежно таргетироваться на пользователей определенного языка, особенно путешественников, важно использовать лексику, идиомы и написание имен собственных, характерные для этого языка. Это помогает генерировать сильный языковой сигнал, если эти термины значительно отличаются от аналогов в местном языке.

    Использует ли система формат адресов для определения языка?

    Да, патент явно упоминает (Claim 5), что порядок компонентов в адресе используется как индикатор языкового намерения. Например, разница между форматом «Улица, Номер дома» (Германия) и «Номер дома, Улица» (США) служит сигналом для определения предпочтительного языка и региональных настроек пользователя.

    Что произойдет, если я использую «Munich» на моем немецком сайте?

    Использование английского написания на немецком сайте посылает смешанные сигналы. Если пользователь в Германии ищет «Munich», система определит сильный английский сигнал и может переключить выдачу на английский язык. В результате ваш немецкий сайт может не появиться в этой выдаче или ранжироваться ниже англоязычных ресурсов.

    Влияет ли этот механизм на показ рекламы?

    Да. Патент утверждает (Claim 7 и 8), что после определения языка вывода (Output Language) не только результаты поиска, но и связанная с ними веб-реклама (web-based advertisements) будет предоставлена на этом языке. Это важно для настройки международных рекламных кампаний.

    Должен ли я принудительно перенаправлять пользователей на основе их IP (Geotargeting)?

    Нет. Это плохая практика, которая прямо противоречит цели этого патента. Патент стремится уважать языковое намерение пользователя, выраженное в запросе, а не его физическое местоположение. Принудительное перенаправление ухудшает пользовательский опыт и должно использоваться с осторожностью.

    Как долго сохраняется скорректированный язык выдачи?

    Патент предусматривает (Claim 9), что система может вернуться к языку по умолчанию (default language) по истечении определенного времени (predetermined time threshold) с момента последней корректировки. Это гарантирует, что временные изменения не сохранятся навсегда, что удобно при использовании общих устройств.

    Что важнее для системы: язык запроса или местоположение пользователя?

    Оба фактора анализируются вместе для определения намерения. Местоположение определяет контекст (Второй язык), а язык запроса дает сигнал (Первый язык). Решение принимается на основе того, насколько сильно сигнал намерения (рассчитанный через Amount of Variation) отличается от контекста местоположения.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.