Google использует многоуровневую систему для точного определения всех языков, которыми владеет пользователь, не полагаясь только на настройки аккаунта. Система анализирует историю посещений с помощью моделей машинного обучения (Language Recognition Model) и изучает языки топовых результатов по текущему запросу. Это позволяет Google показывать пользователю наиболее релевантный контент (включая рекламу или персонализированные результаты) на любом из языков, которыми он владеет.
Описание
Какую задачу решает
Патент решает проблему неточного определения языковых предпочтений многоязычных пользователей. Традиционные методы полагаются на явные настройки аккаунта или браузера, которые пользователи редко заполняют полностью, или на язык самого запроса, который часто бывает коротким и неоднозначным (например, слово «taxi» существует во многих языках). Это ограничивает пул доступного контента (например, рекламы или персонализированных результатов) только одним языком, снижая релевантность, эффективность взаимодействия и вынуждая пользователей повторять запросы.
Что запатентовано
Запатентована система автоматического определения набора языков, которыми владеет пользователь, путем агрегации и анализа множества имплицитных (неявных) сигналов. Ядром изобретения является комбинирование долгосрочного анализа истории посещений (browsing history) с помощью модели распознавания языка (Language Recognition Model) и анализа текущего контекста – языков веб-ресурсов, найденных по ключевым словам запроса. Система генерирует confidence scores для разных языков и формирует обновленный языковой профиль пользователя.
Как это работает
Система работает следующим образом:
- Анализ истории (Set 1): Система анализирует историю посещений пользователя (log record), применяя Language Recognition Model к контенту посещенных страниц, введенным запросам и взаимодействиям. На основе частоты использования (number of occurrences) рассчитываются confidence scores и формируется первый набор языков-кандидатов.
- Анализ контекста (Set 2): Система анализирует языки информационных ресурсов, связанных с ключевыми словами текущего запроса (например, топовые результаты поиска). Для этих языков также рассчитываются confidence scores, учитывая ранжирование ресурсов.
- Обновление профиля: Первый набор языков обновляется на основе второго набора (и опционально на основе явных настроек – Set 3). Языки с высокими confidence scores из контекста добавляются или усиливаются в профиле пользователя.
- Выбор контента: Система ищет подходящий контент на любом из языков в обновленном профиле и выбирает наилучший вариант (например, через аукцион), независимо от того, на каком из этих языков он представлен.
Актуальность для SEO
Высокая. Понимание многоязычия пользователей критически важно для глобальных платформ. Точное профилирование пользователей для персонализации контента и рекламы является ключевым направлением развития поисковых систем. Механизмы, описанные в патенте, отражают современные подходы к использованию ML для анализа поведения пользователей и соответствуют инициативам Google по многоязычному пониманию (например, MUM).
Важность для SEO
Влияние на SEO оценивается как высокое (75/100), особенно для международного SEO. Хотя патент фокусируется на Content Selection (часто подразумевающем рекламу), описанные механизмы профилирования языка пользователя критичны для этапа Query Understanding. Понимание того, что Google активно строит детальный языковой профиль пользователя на основе его поведения, меняет подход к созданию контента в многоязычных регионах. Это открывает возможности для ранжирования контента на одном языке, даже если запрос был сделан на другом, при условии высокой уверенности системы во владении пользователем обоими языками.
Детальный разбор
Термины и определения
- Account Profile (Профиль аккаунта)
- Набор данных, связанных с пользователем, который может включать явные языковые настройки (language settings).
- Browsing History / Log Record (История посещений / Журнал записей)
- Записи о предыдущих действиях пользователя, включая поисковые запросы, посещенные ресурсы (Information Resources) и взаимодействия с элементами на страницах.
- Candidate Languages (Языки-кандидаты)
- Языки, которые система определила как потенциально понятные пользователю на основе анализа различных сигналов (Set 1, Set 2, Set 3).
- Confidence Score (Оценка уверенности)
- Метрика, указывающая на вероятность или степень уверенности системы в том, что пользователь действительно владеет определенным языком. Рассчитывается на основе частоты встречаемости языка в истории посещений или его присутствия в релевантных результатах поиска.
- Content Item (Единица контента)
- Контент (текст, изображение, видео), предназначенный для показа пользователю. В контексте патента часто подразумевает рекламные объявления или персонализированные блоки.
- Content Selection Protocol (Протокол выбора контента)
- Механизм выбора наилучшей единицы контента из доступных кандидатов (например, аукцион в реальном времени).
- Information Resource (Информационный ресурс)
- Веб-страница или другой документ, доступный в сети.
- Language Recognition Model (Модель распознавания языка)
- Модель машинного обучения (например, нейронная сеть, n-gram модель, SVM), обученная на корпусах текстов для определения языка предоставленного контента.
- Selection Value (Значение выбора)
- Метрика, используемая для ранжирования кандидатов контента в процессе выбора (например, ставка в аукционе или оценка релевантности).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения языков пользователя.
- Система получает запрос на контент, включающий ключевые слова и идентификатор Account Profile.
- Определяется первый набор языков-кандидатов (Set 1). Это делается путем анализа browsing history профиля с помощью Language Recognition Model (которая предварительно обучена на корпусах текстов).
- Определяется второй набор языков-кандидатов (Set 2). Он основан на information resources, связанных с ключевыми словами запроса (например, на языках результатов поиска).
- Рассчитываются confidence scores для языков из второго набора.
- Первый набор языков обновляется на основе confidence scores второго набора.
Claim 2 и 3 (Зависимые): Детализируют расчет оценок для первого набора (Set 1).
Confidence score для языка в первом наборе генерируется на основе количества вхождений (number of occurrences) этого языка в browsing history. Язык включается в первый набор, если его оценка превышает пороговое значение (threshold score).
Claim 4 (Зависимый): Детализирует процесс обновления.
Язык из второго набора (Set 2) включается в обновленный первый набор, если его confidence score превышает пороговое значение. Это означает, что контекст текущего запроса может добавить новые языки в профиль пользователя или подтвердить существующие.
Claim 5 и 6 (Зависимые): Описывают использование обновленного языкового профиля.
Система идентифицирует контент (content items), доступный на языках из обновленного профиля (например, на Языке А и Языке Б). Для этих единиц контента определяется Selection Value. Система выбирает и предоставляет пользователю контент (на Языке А или Языке Б) в соответствии с Content Selection Protocol (например, аукционом).
Claim 7 (Зависимый): Вводит дополнительные источники данных (третий набор – Set 3).
Третий набор языков-кандидатов может быть определен на основе: (i) контента и ранжирования (ranking) результатов поиска, (ii) языковых настроек приложения (браузера), (iii) языковых настроек профиля аккаунта. Первый набор также обновляется на основе этого третьего набора.
Где и как применяется
Изобретение в первую очередь относится к этапам понимания пользователя и выбора контента для показа.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна определять язык каждого Information Resource. Language Recognition Model используется для анализа контента и присвоения языковых меток документам в индексе. Эти данные критичны для последующих этапов.
QUNDERSTANDING – Понимание Запросов (и Понимание Пользователя)
Основное применение патента. Система строит детальный языковой профиль пользователя (User Language Profile), который затем используется для интерпретации запроса и определения интента в многоязычном контексте.
- Офлайн/Фоновый анализ: Система постоянно анализирует Browsing History пользователей для построения и обновления долгосрочного языкового профиля (Set 1).
- Онлайн-анализ: При получении запроса система учитывает явные настройки (Set 3) и анализирует контекст запроса (Set 2) для корректировки профиля в реальном времени.
RANKING / METASEARCH – Ранжирование и Метапоиск
Результаты языкового профилирования используются для выбора контента.
- Реклама (Ad Serving): Наиболее вероятное применение. Система может выбрать рекламное объявление на любом из языков, которыми владеет пользователь.
- Персонализация органической выдачи: Система может использовать языковой профиль для смешивания результатов на разных языках или предпочтения результатов на языке, который пользователь знает, даже если он отличается от языка запроса.
Входные данные:
- Запрос пользователя (Keywords).
- Идентификатор Account Profile.
- Browsing History (Log Record) пользователя.
- Настройки языка приложения/браузера и аккаунта.
- Результаты поиска по запросу (Information Resources) и их ранжирование.
Выходные данные:
- Обновленный набор языков, которыми владеет пользователь.
- Выбранная единица контента (Content Item) на одном из этих языков.
На что влияет
- Специфические запросы: Влияет на обработку неоднозначных или коротких запросов, где язык сложно определить по тексту запроса (например, навигационные или брендовые запросы).
- Конкретные ниши или тематики: Влияет на тематики, где контент часто потребляется на разных языках (например, программирование, наука, туризм).
- Географические ограничения: Критически важно в многоязычных регионах (например, Индия, Швейцария, Канада) или для пользователей-экспатов.
Когда применяется
- Триггеры активации: Алгоритм активируется при каждом запросе на контент, где доступна идентификация пользователя (Account Profile) и его история (Browsing History).
- Пороговые значения: Система использует пороги для Confidence Scores. Язык добавляется в профиль, только если уверенность в его знании превышает определенный порог, основанный на частоте использования в истории или релевантности в текущем контексте.
Пошаговый алгоритм
Процесс А: Обучение модели (Офлайн)
- Сбор данных: Сбор корпусов текстов на разных языках (Training Dataset).
- Обучение: Language Recognition Model обучается распознавать языки путем анализа корпусов, генерации результатов, сравнения с метками и корректировки весов модели на основе ошибки.
Процесс Б: Обработка запроса и профилирование (Онлайн)
- Получение запроса: Система получает запрос с ключевыми словами и идентификатором Account Profile.
- Анализ Истории (Генерация Set 1):
- Извлекается Browsing History пользователя.
- Language Recognition Model применяется к контенту из истории (посещенные страницы, запросы, взаимодействия).
- Рассчитываются первые Confidence Scores на основе частоты (number of occurrences) каждого языка.
- Формируется первый набор языков-кандидатов (Set 1) путем фильтрации по пороговому значению.
- Анализ контекста (Генерация Set 2):
- Выполняется поиск по ключевым словам запроса для получения Information Resources (результатов поиска) и их ранжирования.
- Определяются языки этих ресурсов (используя Language Recognition Model или данные из индекса).
- Рассчитываются вторые Confidence Scores для языков ресурсов, учитывая их частоту и ранжирование (ranking).
- Формируется второй набор языков-кандидатов (Set 2).
- Анализ явных настроек (Генерация Set 3 — Опционально, Claim 7):
- Извлекаются языковые настройки браузера/приложения и аккаунта.
- Формируется третий набор языков-кандидатов (Set 3).
- Обновление языкового профиля:
- Первый набор (Set 1) обновляется на основе второго (Set 2) и третьего (Set 3).
- Языки из Set 2/Set 3 добавляются в Set 1, если их Confidence Scores превышают порог. Формируется финальный набор языков пользователя.
- Выбор контента:
- Идентифицируются Content Items, доступные на любом из языков финального набора.
- Для каждого кандидата рассчитывается Selection Value.
- Выполняется Content Selection Protocol (например, аукцион) для выбора наилучшего контента.
- Предоставление результата: Выбранный Content Item отправляется на клиентское устройство.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Ключевые данные): Browsing History (история посещений). Включает предыдущие поисковые запросы, посещенные информационные ресурсы (URL и контент), взаимодействия с элементами на странице (например, ввод текста в формы).
- Контентные факторы: Контент посещенных страниц и контент результатов поиска по текущему запросу. Используется как входные данные для Language Recognition Model.
- Пользовательские факторы: Account Profile, языковые настройки аккаунта, языковая конфигурация приложения (language configuration) или браузера.
- Системные данные: Ранжирование (Ranking) результатов поиска используется для взвешивания языков при анализе SERP (Set 2).
- Временные факторы: История посещений может анализироваться за определенный временной промежуток.
Какие метрики используются и как они считаются
- Confidence Score (Set 1): Рассчитывается для языков, найденных в истории посещений. Основан на number of occurrences (частоте) языка в истории.
- Confidence Score (Set 2): Рассчитывается для языков, найденных в результатах поиска по текущему запросу. Учитывает частоту и ранжирование (ranking) ресурсов на этом языке.
- Пороговые значения (Threshold score): Используются для фильтрации языков. Язык включается в набор кандидатов, только если его Confidence Score превышает порог.
- Selection Value: Метрика для финального выбора контента. Патент не детализирует ее расчет, но указывает, что она используется в Content Selection Protocol (например, может быть комбинацией релевантности и ставки в аукционе).
- Алгоритмы машинного обучения: Language Recognition Model. Патент упоминает конкретные типы моделей: нейронные сети, n-gram модели, Байесовские сети, случайный лес, SVM, деревья решений.
Выводы
- Google активно профилирует многоязычие пользователей: Система не полагается на заявленные пользователем настройки. Она строит детальный языковой профиль, анализируя долгосрочное поведение (историю) и текущий контекст (SERP).
- История посещений – ключевой источник данных о языке: То, какие сайты и на каких языках посещает пользователь, является основным сигналом (Set 1) для определения его языковых компетенций. Для этого используется обученная ML-модель.
- Контекст SERP корректирует профиль: Языки топовых результатов по текущему запросу (Set 2) используются для валидации и обновления долгосрочного профиля. Если по запросу ранжируются качественные ресурсы на определенном языке, система повышает уверенность в том, что пользователь им владеет.
- Агрегация сигналов через Confidence Scores: Система использует Confidence Scores и пороговые значения для взвешивания и объединения сигналов из разных источников (история, контекст, настройки).
- Контент выбирается независимо от языка запроса: Финальная цель – выбрать наилучший контент (по Selection Value) среди всех языков, которыми владеет пользователь, а не только на языке запроса или основном языке интерфейса.
- Значение для международного SEO: Подтверждается важность создания контента на языках, которые реально использует целевая аудитория в регионе, а не только на официальном языке страны.
Практика
Best practices (это мы делаем)
- Анализ языкового поведения аудитории: Изучайте, на каких языках ваша целевая аудитория реально потребляет контент, помимо основного языка региона. Не делайте предположений, основанных только на географии.
- Создание многоязычного контента для многоязычной аудитории: Если ваша аудитория многоязычна (например, в Канаде, Индии или среди экспатов), создавайте высококачественный контент на всех релевантных языках. Google сможет показать ваш контент пользователю, даже если его текущий запрос сделан на другом языке, которым он владеет.
- Оптимизация под интент, а не только язык: Сосредоточьтесь на качестве и релевантности контента для удовлетворения интента пользователя. Если ваш контент на Языке Б лучше отвечает на запрос, сделанный на Языке А, у него есть шанс быть показанным (особенно в персонализированной выдаче), если Google знает, что пользователь владеет обоими языками.
- Обеспечение четких языковых сигналов на странице: Убедитесь, что язык каждой страницы очевиден для Language Recognition Model (используйте атрибут lang, избегайте смешивания языков в основном контенте). Это поможет Google корректно классифицировать вашу страницу при анализе истории посещений пользователей.
- Консистентность языка рекламы и лендинга: В описании патента ([0082]) упоминается проверка соответствия языка Content Item (рекламы) и связанного ресурса (посадочной страницы). Убедитесь, что язык рекламы совпадает с языком лендинга.
Worst practices (это делать не надо)
- Игнорирование второстепенных языков в регионе: Ограничение сайта только основным (официальным) языком страны, если значительная часть населения активно использует другие языки. Это приводит к потере потенциального трафика от многоязычных пользователей.
- Автоматический перевод низкого качества: Создание низкокачественных языковых версий. Language Recognition Model определит язык, но если качество контента низкое, он не будет высоко ранжироваться и не будет выбран системой Content Selection.
- Смешивание языков на одной странице: Создание страниц, где основной контент представлен на нескольких языках без четкого разделения, может затруднить работу Language Recognition Model и привести к неверной классификации.
Стратегическое значение
Патент подчеркивает движение Google к глубокому пониманию пользователя (User Understanding как часть Query Understanding). Язык рассматривается не как настройка, а как поведенческая характеристика, вычисляемая с помощью ML. Для SEO это означает, что стратегии должны быть ориентированы на реальное поведение аудитории. В долгосрочной перспективе это усиливает важность международного и мультирегионального SEO, где точное соответствие контента языковому профилю пользователя может стать решающим фактором видимости и персонализации.
Практические примеры
Сценарий: Продвижение сайта в многоязычном регионе (Канада)
- Ситуация: Пользователь в Квебеке (Канада). Его основной язык интерфейса – французский (Set 3).
- Поведение пользователя: Он часто посещает англоязычные сайты по тематике «инвестиции в технологии» (Browsing History). Google (Set 1) определяет высокий Confidence Score для английского языка.
- Запрос: Пользователь вводит запрос на французском: «meilleures actions technologiques 2025» (лучшие технологические акции 2025).
- Анализ контекста (Set 2): Google видит, что по этому запросу есть высокоранжируемые результаты и на французском, и на английском.
- Обновление профиля: Финальный профиль подтверждает владение французским и английским.
- Действие SEO-специалиста: SEO-специалист канадского банка создал высококачественный экспертный анализ рынка на английском языке.
- Результат: Система Content Selection определяет, что английский анализ банка имеет более высокий Selection Value (более релевантен/авторитетен), чем доступные французские результаты. Google может показать этот английский результат пользователю в ответ на французский запрос.
Вопросы и ответы
Как Google определяет, какими языками я владею, если я не указал их в настройках аккаунта?
Google использует сложную систему, основанную в первую очередь на вашей истории посещений (Browsing History). Система анализирует контент страниц, которые вы посещаете, и запросы, которые вы вводите, используя модель машинного обучения (Language Recognition Model). Если вы часто посещаете сайты на определенном языке, система присваивает этому языку высокую оценку уверенности (Confidence Score) и добавляет его в ваш языковой профиль.
Влияет ли язык результатов поиска на определение моих языковых предпочтений?
Да, это второй ключевой компонент системы (Set 2). Google анализирует языки топовых результатов по вашему текущему запросу, учитывая их ранжирование. Если система видит, что по вашему запросу есть высокорелевантные результаты на определенном языке, это используется для подтверждения или обновления вашего языкового профиля в реальном времени.
Может ли Google показать мне результаты на английском, если я ввел запрос на русском?
Да, это возможно. Если система уверена, что вы владеете обоими языками (на основе вашей истории посещений и настроек), и если она определит, что англоязычный контент лучше отвечает на ваш запрос (имеет более высокий Selection Value), она может показать его вам или смешать результаты на обоих языках.
Этот патент про органический поиск или про рекламу?
Патент описывает механизм Content Selection и упоминает Content Selection Protocol (например, аукцион), что часто указывает на системы показа рекламы (Ad Serving). Однако механизмы определения языка пользователя универсальны и критически важны для этапа Query Understanding в любом поиске. Эти данные используются как для рекламы, так и для персонализации органической выдачи.
Как это влияет на мою стратегию международного SEO?
Это подчеркивает необходимость анализа реального языкового поведения вашей аудитории. Недостаточно ориентироваться только на официальный язык страны. Если ваша аудитория в России активно потребляет англоязычный контент по вашей тематике, создание качественного контента на английском может быть оправданным для охвата этой аудитории.
Что такое Language Recognition Model?
Это модель машинного обучения, специально обученная для определения языка текстового фрагмента. Она анализирует текст (будь то веб-страница из истории посещений или результат поиска) и определяет, на каком языке он написан. Патент упоминает, что это может быть нейронная сеть, n-gram модель или другие типы ML-алгоритмов.
Что важнее для определения языка: история посещений или текущий запрос?
Патент описывает систему, где история посещений формирует базовый профиль (Set 1), а контекст текущего запроса (языки результатов поиска, Set 2) используется для его обновления и валидации. Оба элемента важны: история дает долгосрочное понимание, а контекст позволяет адаптироваться к текущим потребностям пользователя.
Нужно ли мне использовать атрибуты hreflang, если Google и так понимает языки пользователя?
Да, обязательно. Атрибуты hreflang помогают Google понять структуру вашего сайта и связь между различными языковыми версиями одной и той же страницы. Это сигналы на уровне сайта, в то время как патент описывает сигналы на уровне пользователя. Использование hreflang помогает гарантировать, что Google покажет правильную версию страницы пользователю, чей язык был определен системой.
Что произойдет, если язык рекламы не совпадает с языком посадочной страницы?
В описательной части патента ([0082]) указано, что система может проверять соответствие языка элемента контента (рекламы) и языка связанного информационного ресурса (посадочной страницы). Если языки не совпадают, система может исключить этот элемент контента из числа кандидатов на показ.
Учитывается ли геолокация пользователя в этом алгоритме?
В основном алгоритме (Claim 1), основанном на анализе истории и результатов поиска, геолокация напрямую не упоминается. Однако в описании патента геолокация упоминается как фактор, который может использоваться для установки языка по умолчанию в конфигурации приложения, а также как один из возможных критериев для выбора контента в целом.