Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует поведенческие сигналы языковых групп для ранжирования контента на других языках

    LANGUAGE-SPECIFIC SEARCH RESULTS (Поисковые результаты с учетом языка)
    • US9275113B1
    • Google LLC
    • 2016-03-01
    • 2010-12-30
    2010 Ashutosh Garg Kedar Dhamdhere Мультиязычность Патенты Google Персонализация Поведенческие сигналы

    Google анализирует, какой контент популярен среди пользователей с определенными языковыми предпочтениями, независимо от языка самого контента. Если англоязычная страница часто выбирается пользователями, предпочитающими хинди, система повысит эту страницу в выдаче для других пользователей с предпочтением хинди. Это достигается через расчет весового коэффициента (Language Selection Weight), основанного на истории кликов и CTR конкретной языковой группы.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограничения поисковой выдачи исключительно контентом на языке, предпочитаемом пользователем. Такое ограничение может исключать релевантный контент на других языках, который, тем не менее, интересен пользователю. Это особенно актуально для многоязычных пользователей (например, носители хинди, часто потребляющие английский контент) или для тематик, где язык вторичен по отношению к ценности контента (например, техническая документация, загрузка ПО, мультимедиа).

    Что запатентовано

    Запатентована система и метод для корректировки ранжирования результатов поиска на основе исторических данных о выборе пользователей (кликах и показах), сегментированных по языковым предпочтениям. Система вычисляет Language Selection Weight (Вес выбора языка) для элементов контента. Этот вес позволяет повысить в выдаче контент, который исторически популярен среди пользователей с тем же языковым предпочтением, даже если язык контента отличается.

    Как это работает

    Система работает в двух режимах: офлайн и онлайн.

    • Офлайн (Агрегация данных): Система регистрирует клики (selections) и показы (presentations) результатов поиска, ассоциируя каждое действие с языковым предпочтением пользователя (явным или неявным). Эти данные агрегируются для каждого URL или домена, формируя Language Statistics.
    • Онлайн (Ранжирование): При поступлении запроса определяется его языковое предпочтение (Query Language Preference). Для кандидатов в результаты поиска извлекается историческая статистика взаимодействий именно этой языковой группы. На основе этой статистики (включая CTR) рассчитывается Language Selection Weight по специальной формуле, который затем корректирует итоговый рейтинг документа.

    Актуальность для SEO

    Высокая. В условиях глобализации и роста числа многоязычных пользователей понимание кросс-языковой релевантности критически важно. Этот механизм позволяет Google адаптировать выдачу на основе реальных поведенческих паттернов лингвистических групп, а не только на основе формального совпадения языка контента и предпочтений пользователя, что остается актуальным в 2025 году.

    Важность для SEO

    Патент имеет существенное значение (7.5/10) для международного SEO. Он демонстрирует конкретный механизм, позволяющий контенту ранжироваться для аудитории, чьи языковые предпочтения отличаются от языка контента, при условии высокой популярности (CTR) этого контента внутри данной лингвистической группы. Это подчеркивает важность анализа поведенческих факторов в разрезе различных языковых сегментов и открывает возможности для привлечения многоязычной аудитории контентом на одном языке (например, английском).

    Детальный разбор

    Термины и определения

    Language Preference (Языковое предпочтение)
    Язык, который предпочитает пользователь. Может быть указан явно (настройки профиля, cookie, браузера) или неявно (язык запроса, история запросов).
    Query Language Preference (Языковое предпочтение запроса)
    Языковое предпочтение, связанное с текущим поисковым запросом. Обычно совпадает с Language Preference пользователя.
    Language Presentation Count (Счетчик показов по языку)
    Статистика, показывающая, сколько раз элемент контента был показан (presentations/impressions) пользователям с определенным языковым предпочтением.
    Language Selection Count (Счетчик выборов по языку)
    Статистика, показывающая, сколько раз элемент контента был выбран (selections/клики) пользователями с определенным языковым предпочтением.
    Language Selection Statistics (Статистика выбора по языкам)
    Агрегированные данные о Language Presentation Counts и Language Selection Counts.
    Language Selection Weight (Вес выбора языка)
    Ключевая метрика патента. Коэффициент, вычисляемый для корректировки ранжирования. Отражает популярность контента среди пользователей с определенным языковым предпочтением. Рассчитывается на основе Метрик A и B.
    Метрика A (Доля аудитории)
    Процент пользователей, кликнувших на элемент контента, чье языковое предпочтение совпадает с языком запроса, от общего числа пользователей, кликнувших на этот элемент.
    Метрика B (Языковой CTR)
    Процент кликов (CTR) на элемент контента среди пользователей, чье языковое предпочтение совпадает с языком запроса.
    Domain-aggregated statistics (Статистика, агрегированная на уровне домена)
    Возможность агрегировать счетчики показов и выборов не только для отдельного URL, но и для всего домена.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования с учетом языковой статистики.

    1. Система получает поисковый запрос и определяет его язык (query language).
    2. Получаются результаты поиска (элементы контента).
    3. Для каждого элемента доступны исторические данные: Language presentation counts (показы) и Language selection counts (клики), сегментированные по языковым предпочтениям пользователей.
    4. Для каждого элемента вычисляется Language Selection Weight для языка текущего запроса. Вес основан на счетчиках показов и выборов, соответствующих этому языку.
    5. Вычисляется итоговая оценка (score) на основе этого веса.
    6. Генерируется ранжирование и предоставляются результаты.

    Claim 3 (Зависимый от 1): Уточняет механизм применения веса.

    Вычисление итоговой оценки включает корректировку исходной оценки ранжирования (initial ranking score) элемента контента с помощью его Language Selection Weight.

    Claim 4 (Зависимый от 1): Описывает агрегацию на уровне домена.

    Система может вычислять агрегированные счетчики показов и выборов для контента на определенном домене (domain-aggregated). Language Selection Weight для отдельных элементов на этом домене может рассчитываться на основе этих агрегированных доменных статистик.

    Claim 7 (Зависимый от 1): Предоставляет конкретную формулу для расчета Language Selection Weight.

    Вес рассчитывается как: bias1 + (A — bias2) + (B — bias3).

    • A (Метрика A) = Процент от общего числа пользователей, кликнувших на элемент, которые имеют языковое предпочтение, соответствующее языку запроса.
    • B (Метрика B) = Процент кликов (CTR) элемента среди пользователей, имеющих языковое предпочтение, соответствующее языку запроса.
    • bias1, bias2, bias3 = Смещающие факторы (biasing factors), используемые для калибровки.

    Где и как применяется

    Изобретение затрагивает этапы сбора данных, индексирования (обработки статистики) и ранжирования.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит обработка поведенческих данных. Система анализирует логи взаимодействий (клики и показы), сегментирует их по языковым предпочтениям пользователей и агрегирует Language Presentation Counts и Language Selection Counts. Эти агрегированные статистики сохраняются в ассоциации с каждым URL или доменом в индексе (Content Item Index) или репозитории (Selection Data Repository). Это преимущественно офлайн-процесс.

    QUNDERSTANDING – Понимание Запросов
    Система определяет Query Language Preference для входящего запроса на основе явных настроек пользователя или неявных сигналов (язык запроса, история).

    RANKING / RERANKING – Ранжирование / Переранжирование
    Основное применение патента. Во время ранжирования Ranking Engine извлекает предварительно рассчитанные Language Selection Statistics для документов-кандидатов. Используя Query Language Preference, система вычисляет Language Selection Weight (используя формулу из Claim 7). Этот вес применяется для корректировки Initial Ranking Score кандидатов перед финальной сортировкой.

    Входные данные:

    • Поисковый запрос и его Query Language Preference.
    • Набор документов-кандидатов с их Initial Ranking Scores.
    • Исторические Language Selection Statistics (счетчики показов и выборов по языкам) для каждого кандидата.

    Выходные данные:

    • Финальный ранжированный список результатов со скорректированными оценками.

    На что влияет

    • Специфические запросы и ниши: Наибольшее влияние оказывается на тематики, где наблюдается кросс-языковое потребление контента: IT, программирование, загрузка ПО (пример «software downloads» в патенте), мультимедиа, международные бренды или события (пример «Nürburgring» в патенте).
    • Конкретные типы контента: Контент на универсальных языках (например, английском), который полезен пользователям по всему миру.
    • Языковые и географические особенности: Особенно актуально в регионах с высоким уровнем многоязычия (например, Индия, страны Европы), где пользователи часто потребляют контент на языке, отличном от их основного предпочтения.

    Когда применяется

    • Условия работы: Алгоритм применяется при обработке запросов, для которых доступна достаточная статистика Language Selection Statistics по релевантным результатам и можно определить Query Language Preference пользователя.
    • Триггеры активации: Влияние наиболее заметно, когда исторические данные показывают значительный интерес к определенному контенту со стороны пользователей с таким же языковым предпочтением (высокие значения метрик A и B).

    Пошаговый алгоритм

    Процесс А: Офлайн-обработка данных

    1. Сбор данных: Сбор записей из логов поисковой системы. Каждая запись содержит URL, языковое предпочтение пользователя, факт показа и факт клика.
    2. Агрегация: Агрегация данных по каждому URL и/или домену.
    3. Вычисление статистики: Для каждого URL/домена и каждого языка (L) рассчитываются Language Presentation Counts и Language Selection Counts.
    4. Хранение: Сохранение рассчитанной Language Selection Statistics в индексе.

    Процесс Б: Обработка запроса в реальном времени

    1. Получение запроса и предпочтения: Определение Query Language Preference (L_query).
    2. Первичное ранжирование: Генерация списка кандидатов с исходными Initial Ranking Scores.
    3. Расчет веса: Для каждого элемента контента (Y):
      1. Извлечение Language Selection Statistics для L_query.
      2. Расчет Метрики A (Доля аудитории L_query в общих кликах на Y).
      3. Расчет Метрики B (CTR элемента Y для аудитории L_query).
      4. Вычисление Language Selection Weight по формуле: Weight = bias1 + (A — bias2) + (B — bias3).
    4. Корректировка оценок: Применение Language Selection Weight к Initial Ranking Score (например, путем умножения).
    5. Финальное ранжирование и отображение: Сортировка результатов по скорректированным оценкам. Результаты могут быть перемешаны или разделены на секции по языкам (предпочитаемый язык и другие языки).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании поведенческих и пользовательских данных для корректировки ранжирования.

    • Поведенческие факторы: Ключевые данные – это исторические записи о показах (presentations/impressions) и кликах (selections/clicks) пользователей на конкретные результаты поиска.
    • Пользовательские факторы: Языковое предпочтение (Language Preference) пользователя, совершающего действие. Используется для сегментации поведенческих данных.
    • Технические факторы: URL или домен элемента контента, используемые как идентификаторы для агрегации статистики.

    Какие метрики используются и как они считаются

    Система вычисляет следующие ключевые метрики:

    • Метрика A (Доля языковой группы в аудитории):
      A = (Кол-во кликов от пользователей с предпочтением X на элемент Y) / (Общее кол-во кликов на элемент Y).
      Показывает, какую часть аудитории контента составляет данная языковая группа.
    • Метрика B (CTR языковой группы):
      B = (Кол-во кликов от пользователей с предпочтением X на элемент Y) / (Общее кол-во показов элемента Y пользователям с предпочтением X).
      Показывает уровень вовлеченности (CTR) данной языковой группы для данного контента.
    • Language Selection Weight (Вес выбора языка):
      Формула: Weight = bias1 + (A — bias2) + (B — bias3).
      Агрегированная метрика для корректировки ранжирования. bias1, bias2, bias3 – это смещающие факторы, настраиваемые экспериментально или с помощью машинного обучения. В патенте упомянуты примерные значения, используемые для калибровки: bias1=0.05, bias2=5, bias3=2.

    Выводы

    1. Поведенческие сигналы определяют кросс-языковую релевантность: Google активно использует данные о кликах (CTR), сегментированные по языковым предпочтениям, чтобы понять, какой контент релевантен для конкретной лингвистической группы, даже если язык контента отличается.
    2. Популярность может быть важнее языка контента: Высокая популярность (высокий CTR) контента внутри определенной языковой группы является сильным сигналом, который может компенсировать несоответствие языка контента предпочтениям пользователя.
    3. Двойная метрика вовлеченности: Формула Language Selection Weight учитывает два аспекта: насколько велика доля данной языковой группы в общей аудитории страницы (Метрика A) и насколько высок CTR внутри этой группы (Метрика B).
    4. Возможность агрегации на уровне домена: Патент предусматривает расчет статистики на уровне домена (Claim 4). Это означает, что общая популярность сайта у определенной языковой группы может влиять на ранжирование всех его страниц для этой группы.
    5. Персонализация на основе группы: Это форма групповой персонализации. Система предсказывает интересы пользователя на основе поведения других пользователей с аналогичными языковыми предпочтениями.

    Практика

    Best practices (это мы делаем)

    • Создание контента с широкой привлекательностью (Удовлетворение Интента): Разрабатывайте контент, который решает проблемы пользователей настолько хорошо, что они готовы потреблять его независимо от языка. Качественный контент на основном языке (например, английском) в технических или глобальных нишах может успешно привлекать международную аудиторию, генерируя положительные поведенческие сигналы (Метрики A и B).
    • Оптимизация под CTR для целевых лингвистических групп: Фокусируйтесь на повышении кликабельности (CTR). Используйте привлекательные и понятные сниппеты (Title/Description). Высокий CTR от пользователей с определенным языковым предпочтением (Метрика B) напрямую увеличивает Language Selection Weight для этой группы.
    • Анализ демографии и поведения трафика: Изучайте аналитику (например, Google Search Console в разрезе стран и языков), чтобы выявить, какие языковые группы посещают ваш контент. Если вы видите хорошую вовлеченность от определенной языковой группы, это сигнал о кросс-языковой релевантности.
    • Построение авторитетности домена в сегментах: Поскольку статистика может агрегироваться на уровне домена, работайте над общей привлекательностью сайта для целевых языковых групп. Высокая вовлеченность на уровне всего сайта может положительно сказаться на ранжировании отдельных страниц.

    Worst practices (это делать не надо)

    • Принудительные редиректы по IP или языку браузера: Автоматическое перенаправление пользователей на локализованную версию без возможности выбора может быть вредным. Если пользователь предпочитает глобальную версию, принудительный редирект ухудшает опыт и лишает глобальную версию позитивных поведенческих сигналов от этой аудитории.
    • Фокус на низкокачественном или машинном переводе: Создание автоматически переведенного контента в надежде захватить трафик. Такой контент вряд ли обеспечит высокую вовлеченность (Метрика B), что делает стратегию неэффективной. Качественный оригинал часто лучше плохого перевода.
    • Игнорирование поведенческих сигналов разных сегментов: Не анализировать CTR и показатели вовлеченности в разрезе языковых предпочтений пользователей. Низкий CTR от определенной языковой группы приведет к низкому Language Selection Weight для этой группы.

    Стратегическое значение

    Патент подтверждает стратегическую важность поведенческих факторов в ранжировании и их применение для решения сложных задач международного поиска. Он демонстрирует переход от простого сопоставления языка контента и языка пользователя к более сложному анализу релевантности на основе группового поведения. Для SEO это означает, что стратегия должна учитывать реальные паттерны потребления контента целевыми лингвистическими группами, а не только формальные сигналы.

    Практические примеры

    Сценарий: Ранжирование англоязычного технического ресурса для пользователей, предпочитающих немецкий.

    1. Контекст: Существует авторитетный англоязычный сайт с инструкциями по настройке сложного ПО (например, Stack Overflow).
    2. Поведение пользователей: Пользователи в Германии (предпочтение – немецкий язык) часто ищут решения технических проблем. Несмотря на языковое предпочтение, они активно кликают на этот англоязычный сайт, так как он предоставляет качественное решение.
    3. Сбор данных Google: Система фиксирует высокий Language Selection Count и высокий CTR (Метрика B) для этого сайта среди пользователей с предпочтением немецкого языка.
    4. Обработка нового запроса: Новый пользователь с предпочтением немецкого языка вводит соответствующий запрос.
    5. Ранжирование: Google рассчитывает высокий Language Selection Weight для англоязычного сайта на основе исторических данных.
    6. Результат: Англоязычный сайт получает бустинг в ранжировании и отображается высоко в выдаче для этого пользователя, опережая менее полезные ресурсы на немецком языке.

    Вопросы и ответы

    Как именно система определяет языковое предпочтение пользователя (Language Preference)?

    Патент указывает, что предпочтение может быть определено явно или неявно. Явные сигналы включают настройки профиля пользователя в Google, настройки языка в браузере (cookies) или параметры запроса. Неявные сигналы могут включать язык, используемый в текущем и предыдущих запросах, историю поиска и общие паттерны использования языка пользователем.

    Что такое Метрика A и Метрика B в формуле Language Selection Weight?

    Метрика A — это процент от общего числа кликов на документ, который приходится на пользователей с определенным языковым предпочтением. Она измеряет относительную популярность (долю аудитории). Метрика B — это CTR документа среди пользователей с этим же языковым предпочтением. Она измеряет прямой интерес и вовлеченность. Обе метрики используются для расчета итогового веса.

    Означает ли этот патент, что CTR является фактором ранжирования?

    Да, в контексте определения межъязыковой релевантности. Патент явно использует Click Through Percentage (Метрика B), сегментированный по языковым предпочтениям, как компонент формулы для расчета Language Selection Weight. Высокий CTR внутри языковой группы приводит к повышению результата для этой группы.

    Что значит агрегация статистики на уровне домена (Claim 4)?

    Это означает, что система может рассчитывать Language Selection Statistics не только для отдельных URL, но и для всего сайта. Если сайт в целом очень популярен среди пользователей с определенным языковым предпочтением, все страницы этого сайта могут получить буст при ранжировании для этой аудитории, включая новые страницы, которые еще не накопили собственной статистики.

    Стоит ли переводить сайт на множество языков в свете этого патента?

    Это зависит от ниши и качества. Патент показывает, что качественный контент на одном языке может хорошо ранжироваться для многоязычной аудитории, если он удовлетворяет интент и имеет хорошие поведенческие сигналы. Создание низкокачественных переводов не рекомендуется, так как они не соберут высокий CTR (Метрика B). Иногда лучше сфокусироваться на одной сильной версии.

    Как я могу улучшить Language Selection Weight для моего сайта?

    Необходимо улучшать Метрики A и B. Для этого нужно создавать контент, который будет интересен вашей целевой международной аудитории, и оптимизировать сниппеты (Title/Description), чтобы повысить CTR среди этой аудитории. Чем выше вовлеченность целевой языковой группы, тем выше будет вес.

    Как этот механизм влияет на использование атрибута hreflang?

    hreflang помогает Google понять структуру сайта и показать правильную языковую версию. Этот патент работает независимо от hreflang и основан на поведении. Он может повысить в ранжировании страницу на английском для немецкого пользователя, даже если существует немецкая версия, если исторические данные показывают, что пользователи предпочитают английский оригинал.

    Применяется ли этот механизм к новым сайтам или страницам?

    Механизм основан на исторических данных (Language presentation/selection counts). Для новых страниц или сайтов, по которым еще не накоплена статистика взаимодействий, этот механизм применяться не будет или его влияние будет минимальным, если только не используется агрегация на уровне домена (если домен уже имеет статистику).

    В каких нишах этот механизм наиболее активен?

    Он наиболее активен в нишах, где язык контента вторичен по отношению к его содержанию или где доминируют универсальные языки. Примеры включают техническую документацию, IT, загрузку программного обеспечения, сайты с мультимедиа, а также запросы по международным брендам, событиям или личностям.

    Что такое bias1, bias2, bias3 в формуле?

    Это калибровочные константы (смещения). Они используются для настройки чувствительности формулы. Например, они могут устанавливать минимальные пороги для метрик A и B, чтобы избежать шума от случайных кликов, или регулировать общую силу влияния этого фактора на итоговое ранжирование. Точные значения определяются Google экспериментально или через машинное обучение.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.