Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует частоту употребления слов в поиске и на сайтах для локализованного перевода ключевых слов

    TRANSLATING KEYWORDS FROM A SOURCE LANGUAGE TO A TARGET LANGUAGE (Перевод ключевых слов с исходного языка на целевой язык)
    • US8484218B2
    • Google LLC
    • 2013-07-09
    • 2011-04-21
    2011 Мультиязычность Патенты Google

    Google использует систему для автоматического перевода ключевых слов (например, для рекламы или тегирования контента), учитывая локальные особенности языка. Система переводит исходное слово, находит синонимы и проверяет, какие варианты чаще всего используются носителями языка в поисковых запросах, на сайтах и в социальных сетях. Наиболее частотный вариант выбирается как лучший локализованный перевод.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неадекватности прямого машинного перевода (Machine Translation) или словарных соответствий при переводе ключевых слов (например, для рекламных кампаний или метаданных контента). Стандартный перевод часто игнорирует локальные нюансы, идиомы или общепринятое словоупотребление в целевом языке. Например, буквальный перевод может дать формальный термин, тогда как носители языка используют более разговорный. Патент предлагает метод автоматизированного Localized Translation (локализованного перевода), который заменяет дорогостоящую и медленную ручную работу экспертов по локализации.

    Что запатентовано

    Запатентована система для локализованного перевода ключевых слов с исходного языка на целевой. Система использует машинный перевод для генерации набора кандидатов, расширяет этот набор связанными терминами, а затем валидирует кандидатов с помощью Corpus (корпуса текстов), отражающего реальное использование языка (поисковые логи, веб-документы, социальные сети) в целевом регионе. Выбор наилучшего перевода основывается на частоте встречаемости (Frequency of Occurrence) кандидатов в этом корпусе.

    Как это работает

    Ключевой механизм заключается в использовании данных о реальном поведении пользователей для определения наилучшего перевода:

    • Генерация кандидатов: Исходные ключевые слова переводятся на целевой язык с помощью машинного перевода.
    • Расширение (Augmentation): Список кандидатов дополняется синонимами, связанными терминами из Word Clusters или терминами, извлеченными из целевых страниц (Landing Pages).
    • Анализ корпуса: Система анализирует Corpus на целевом языке (например, логи поисковых запросов).
    • Определение частотности: Подсчитывается, как часто каждый кандидат встречается в корпусе.
    • Выбор: Кандидаты с наибольшей частотностью выбираются как наиболее релевантный локализованный перевод.

    Актуальность для SEO

    Высокая. Понимание локализованного языка и намерений пользователей остается критически важной задачей для Google. Хотя этот патент фокусируется на генерации ключевых слов (вероятно, для Google Ads или внутреннего тегирования контента), лежащий в его основе принцип — использование данных о реальном словоупотреблении для понимания языка — является фундаментальным для современного NLP и поиска.

    Важность для SEO

    Влияние на SEO умеренное и в основном косвенное (6.5/10), но патент имеет высокое стратегическое значение для международного SEO и SEM/PPC. Он не описывает алгоритм органического ранжирования. Он описывает, как Google генерирует локализованные ключевые слова. Это подчеркивает, что Google в значительной степени полагается на фактическое поведение пользователей (Search Query Logs) и веб-корпус для определения «правильной» или наиболее эффективной терминологии на данном рынке.

    Детальный разбор

    Термины и определения

    Corpus (Корпус)
    Набор данных, используемый для анализа частотности ключевых слов и отражающий реальное использование языка. В патенте упоминаются три типа: Search Query Logs (логи поисковых запросов), Electronic Documents (веб-страницы, проиндексированные поисковой системой) и Social Network Content (контент социальных сетей).
    First Keywords (Первые ключевые слова)
    Исходные ключевые слова на Source Language, требующие перевода.
    Frequency of Occurrence (Частота встречаемости)
    Метрика, показывающая, как часто ключевое слово появляется в Corpus. Является основным критерием для выбора локализованного перевода.
    Keyword Augmentation Module (Модуль расширения ключевых слов)
    Компонент системы, который дополняет список кандидатов связанными терминами (синонимами, терминами из кластеров или целевых страниц).
    Keyword Grouping Module (Модуль группировки ключевых слов)
    Компонент, который группирует связанные ключевые слова (как на исходном, так и на целевом языке) для сохранения контекста и устранения неоднозначности при переводе.
    Landing Pages (Целевые страницы)
    Веб-страницы, связанные с ключевыми словами (например, целевые страницы рекламы). Используются как источник для извлечения дополнительных кандидатов перевода.
    Localized Translation (Локализованный перевод)
    Перевод ключевых слов, который передает смысл исходного термина с учетом общепринятого использования и нюансов целевого языка и региона.
    Machine Translation Process (Процесс машинного перевода)
    Автоматизированный процесс перевода текста с исходного языка на целевой, используемый для генерации первоначальных кандидатов.
    Second Keywords (Вторые ключевые слова)
    Ключевые слова-кандидаты на Target Language, полученные в результате перевода и расширения.
    Word Clusters (Кластеры слов)
    Предварительно определенные группы семантически схожих ключевых слов. Используются для расширения списка кандидатов и сохранения контекста.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает полный цикл процесса, применяемый к рекламной системе.

    1. Группировка первого ключевого слова (L1) в одну или несколько первых групп связанных ключевых слов (для контекста).
    2. Машинный перевод L1 в несколько вторых ключевых слов (L2-кандидаты).
    3. Группировка L2-кандидатов во вторые группы на основе первых групп (сохранение контекста).
    4. Идентификация предопределенных Word Clusters на основе вторых групп.
    5. Расширение (Augmenting) L2-кандидатов дополнительными ключевыми словами, которые имеют пороговую ассоциацию с L2-кандидатами, основанную на их включении в эти Word Clusters.
    6. Определение частоты встречаемости (Frequencies) каждого расширенного L2-кандидата в Corpus, связанном с целевым языком. Уточняется, что Corpus включает один или несколько корпусов, используемых поисковой системой, и определение частоты включает проведение поиска по каждому ключевому слову.
    7. Выбор конкретного ключевого слова из L2-кандидатов на основе частот.
    8. Ассоциирование выбранного ключевого слова с рекламой на целевом языке.
    9. Получение поискового запроса на целевом языке.
    10. Определение необходимости показа рекламы вместе с результатами поиска на основе сравнения выбранного ключевого слова и поискового запроса.
    11. Показ рекламы.

    Ядром изобретения является комбинация использования контекста (группировка), расширения семантики (через кластеры) и валидации через реальное использование языка (частотность в корпусе), применяемая специфично для оптимизации показа рекламы. Особого внимания заслуживает метод определения частотности путем проведения реальных поисков в системе.

    Claim 3 (Зависимый от 1): Уточняет, что расширение (Augmentation) может включать извлечение дополнительных ключевых слов из Landing Pages на целевом языке, связанных с рекламой.

    Claim 7 (Зависимый от 1): Уточняет, что выбор Corpus может зависеть от географического региона, указанного в запросе на перевод.

    Где и как применяется

    Изобретение описывает систему, которая функционирует на стыке анализа данных и прикладных систем (таких как реклама), используя данные, собранные на разных этапах поиска.

    INDEXING – Индексирование и извлечение признаков
    Система полагается на проиндексированные данные. Electronic Documents (веб-страницы) и Social Network Content индексируются и формируют часть Corpus, который используется для анализа частотности.

    QUNDERSTANDING – Понимание Запросов (Системный/Офлайн уровень)
    Система анализирует Search Query Logs (логи запросов), которые также являются частью Corpus. Этот анализ позволяет понять, как пользователи формулируют запросы на целевом языке. Также система использует предварительно рассчитанные Word Clusters для семантического расширения.

    RANKING / AD SERVING (Прикладной уровень)
    Патент явно не описывает влияние на органическое ранжирование. Однако он детально описывает применение в рекламной системе (Claim 1). Переведенные и локализованные ключевые слова используются для таргетинга рекламы: система ассоциирует их с рекламными объявлениями и использует для принятия решения о показе рекламы в ответ на поисковый запрос пользователя.

    Входные данные:

    • Ключевые слова на исходном языке (First Keywords).
    • Указание исходного и целевого языков.
    • (Опционально) Географический регион для локализации.
    • (Опционально) Связанные Landing Pages или рекламные объявления.

    Выходные данные:

    • Локализованные ключевые слова на целевом языке (Selected Subset of Second Keywords).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на рекламные ключевые слова (SEM/PPC) и метаданные контента (теги для изображений, видео, статей), которые требуют точной локализации для эффективности.
    • Специфические запросы и Ниши: Наибольшее влияние оказывается на запросы и тематики, где локальная терминология существенно отличается от буквального перевода (например, технические термины, потребительские товары, услуги).
    • Географические ограничения: Система специально разработана для учета географических различий в использовании языка (например, испанский в Испании и Мексике), используя разные корпуса данных для разных регионов.

    Когда применяется

    • Условия работы: Алгоритм применяется, когда требуется перевести набор ключевых слов из одного языка в другой с целью их дальнейшего использования для таргетинга аудитории или описания контента на новом рынке.
    • Триггеры активации: Запрос на перевод от пользователя (например, рекламодателя, расширяющего кампанию) или внутренней системы Google (например, при автоматическом тегировании контента).

    Пошаговый алгоритм

    Процесс локализованного перевода ключевых слов:

    1. Получение запроса: Система получает запрос на перевод Первых ключевых слов (L1) с исходного языка на целевой язык (L2), возможно, с указанием региона.
    2. (Опционально) Группировка L1: Исходные ключевые слова группируются для определения контекста (например, чтобы отличить «Jaguar» (машина) от «jaguar» (животное)).
    3. Машинный перевод: L1 переводятся в первоначальный набор Вторых ключевых слов (L2-кандидаты).
    4. (Опционально) Группировка L2: L2-кандидаты группируются на основе исходных групп L1 для сохранения контекста.
    5. Расширение (Augmentation): Список L2-кандидатов расширяется. Источники расширения:
      • Синонимы на языке L2.
      • Связанные термины из Word Clusters, идентифицированных на основе групп L2.
      • Термины, извлеченные из связанных Landing Pages или рекламных креативов на языке L2.
    6. Выбор корпуса: Система выбирает один или несколько Corpora (Search Logs, Web Docs, Social Media), соответствующих целевому языку L2 и указанному региону.
    7. Определение частотности: Для каждого L2-кандидата определяется Frequency of Occurrence в выбранном корпусе. Это может включать проведение поисковых запросов или анализ индексов. Встречаемость может быть взвешенной (например, слово в заголовке важнее, чем в футере; первое слово в запросе важнее последнего).
    8. Выбор: Система выбирает подмножество L2-кандидатов с наибольшей частотностью.
    9. Предоставление/Использование: Локализованные ключевые слова предоставляются заказчику или используются для таргетинга рекламы.
    10. (Опционально) Ручная проверка: Результаты могут быть отправлены на проверку человеку, владеющему целевым языком.

    Какие данные и как использует

    Данные на входе

    Система использует обширные наборы данных для обеспечения локализации:

    • Контентные факторы: Сами ключевые слова; текст, извлеченный из связанных Landing Pages и рекламных креативов (используется для расширения).
    • Поведенческие факторы: Search Query Logs (логи поисковых запросов). Это критически важный источник данных для понимания того, как пользователи реально формулируют запросы на данном языке и в данном регионе.
    • Географические и Пользовательские факторы: Целевой язык и географический регион (используются для выбора релевантного Corpus).
    • Структурные данные (Системные):
      • Electronic Documents Corpus (индекс веб-страниц).
      • Social Network Content Corpus (индекс контента соцсетей).
      • Word Clusters (предварительно рассчитанные семантические группы).
      • Словари и модели машинного перевода.

    Какие метрики используются и как они считаются

    • Frequency of Occurrence (Частота встречаемости): Ключевая метрика локализации. Подсчитывается количество появлений ключевого слова в Corpus. Патент упоминает возможность взвешивания частоты:
      • Вес в зависимости от места в документе (заголовок vs. boilerplate).
      • Вес в зависимости от позиции в поисковом запросе (первое слово vs. последнее).
      • Вес на основе сессионных данных (если пользователь переформулировал запрос с А на Б, Б может получить больший вес).
    • Threshold Association (Пороговая ассоциация): Метрика, используемая на этапе расширения (Augmentation), чтобы определить, достаточно ли тесно связан синоним или слово из кластера с исходным кандидатом.

    Выводы

    1. Приоритет локального использования над буквальным переводом: Google считает, что наиболее часто используемый термин в целевом регионе является лучшим переводом, даже если он отличается от словарного или буквального соответствия.
    2. Логи поисковых запросов как источник истины: Search Query Logs являются одним из основных источников для понимания того, как носители языка реально ищут информацию. Это подтверждает важность анализа реального спроса при SEO.
    3. Автоматизация SEM/PPC и тегирования: Система в первую очередь предназначена для автоматизации создания эффективных наборов ключевых слов для рекламы (как явно указано в Claim 1) или для тегирования контента (например, изображений, видео).
    4. Важность контекста (Disambiguation): Опциональные шаги группировки ключевых слов на исходном и целевом языках критически важны для сохранения исходного смысла и устранения неоднозначности при переводе.
    5. Комплексный анализ языка: Google не полагается только на логи запросов, но также использует веб-корпус (Electronic Documents) и данные социальных сетей (Social Network Content) для формирования полного понимания использования языка.
    6. Региональная специфика: Система явно учитывает географические различия в языке, позволяя выбирать специфичные для региона корпуса данных.

    Практика

    Best practices (это мы делаем)

    • Валидация семантики локальными данными: При выходе на международные рынки не полагайтесь на перевод ваших существующих ключевых слов. Проводите исследование ключевых слов, используя инструменты, отражающие реальный объем поиска в целевом рынке (например, Google Keyword Planner для этого региона/языка). Это соответствует подходу патента к использованию локальных Search Query Logs.
    • Анализ локального корпуса (SERP и Конкуренты): Тщательно изучайте терминологию, используемую лидерами локальной органической выдачи, местными СМИ и в локальных социальных сетях. Это позволит вам понять, какие термины имеют наибольшую Frequency of Occurrence в местном Corpus.
    • Оптимизация Landing Pages под локальную терминологию: Убедитесь, что ваши целевые страницы используют общепринятые локальные термины, а не формальные или буквальные переводы. Патент предполагает, что система может извлекать ключевые слова из Landing Pages во время фазы расширения, что подтверждает важность релевантного контента на странице.
    • Использование кластеризации для сохранения контекста: При работе с большими списками ключевых слов группируйте их по темам и интентам. Это поможет сохранить контекст при локализации, что соответствует логике Keyword Grouping Module в патенте.

    Worst practices (это делать не надо)

    • Буквальный перевод ключевых слов: Использование Google Translate или словарей для генерации семантического ядра для нового рынка. Патент разработан именно потому, что этот подход неэффективен и не учитывает локальные особенности.
    • Игнорирование региональных различий: Предположение, что язык монолитен (например, использование одинаковых терминов для Испании и Мексики, или для Франции и Канады). Патент явно предусматривает выбор Corpus в зависимости от региона.
    • Приоритет формального языка над общепринятым: Использование словарных или слишком формальных терминов, если анализ локального корпуса показывает, что пользователи предпочитают более разговорные варианты.

    Стратегическое значение

    Патент подтверждает критическую необходимость локализованных, специфичных для рынка стратегий в международном SEO и SEM. Он демонстрирует, как Google использует свои обширные наборы данных (Corpus), чтобы интерпретировать языковые нюансы на уровне, недоступном для стандартных инструментов перевода. Стратегический успех зависит от глубокого понимания фактического использования языка целевой аудиторией, а не от знания словарных определений.

    Практические примеры

    Сценарий: Локализация ключевых слов для страховой компании (США -> Франция)

    1. Исходный запрос (L1, English): «car insurance».
    2. Машинный перевод (L2-кандидаты, French): «l’assurance automobile» (буквальный перевод).
    3. Расширение (Augmentation): Система добавляет синонимы и связанные термины, например, «l’assurance voiture».
    4. Анализ корпуса (Corpus, French): Система анализирует французские логи поисковых запросов и веб-документы.
    5. Определение частотности: Обнаруживается, что «l’assurance voiture» используется значительно чаще, чем «l’assurance automobile».
    6. Выбор: Система выбирает «l’assurance voiture» как лучший локализованный перевод для таргетинга рекламы.
    7. Действие SEO/SEM специалиста: При оптимизации сайта для Франции необходимо использовать термин «l’assurance voiture» в качестве основного ключевого слова, а не буквальный перевод.

    Вопросы и ответы

    Описывает ли этот патент алгоритм ранжирования в органическом поиске?

    Нет, этот патент не описывает, как Google ранжирует веб-страницы. Он описывает систему для перевода и локализации ключевых слов. В Claim 1 явно указано, что конечной целью является использование этих локализованных ключевых слов для таргетинга и показа рекламы в ответ на поисковые запросы.

    Какое значение этот патент имеет для SEO, если он про рекламу?

    Он имеет важное стратегическое значение для международного SEO. Патент раскрывает, как Google понимает локальные особенности языка. Он показывает, что Google отдает приоритет терминам, которые реально используются людьми (на основе Frequency of Occurrence в Corpus), а не буквальным переводам. SEO-специалисты должны применять тот же принцип: оптимизировать контент под реальный локальный спрос, а не под переведенные ключи.

    Что такое Corpus и почему он важен?

    Corpus — это база данных реального использования языка. В патенте он включает логи поисковых запросов (Search Query Logs), индекс веб-страниц (Electronic Documents) и контент социальных сетей (Social Network Content). Он важен, потому что позволяет системе определить, какие слова являются наиболее общепринятыми и часто используемыми в конкретном языке и регионе.

    Как система учитывает контекст, чтобы не перепутать значения слов (например, «замок» как здание и «замок» как устройство)?

    Патент описывает опциональный шаг группировки (Keyword Grouping). Исходные ключевые слова группируются до перевода. Если слово «замок» находится в группе со словами «дверь», «ключ», это задает контекст. После перевода кандидаты также группируются, что позволяет выбрать правильные Word Clusters для расширения и сохранить исходный смысл.

    Что такое расширение (Augmentation) ключевых слов в этом патенте?

    Это процесс добавления связанных терминов к первоначальному списку кандидатов перевода. Система ищет синонимы, семантически близкие слова из Word Clusters или извлекает термины из связанных Landing Pages. Это увеличивает шансы найти тот термин, который наиболее популярен среди носителей языка.

    Как система обрабатывает региональные различия в языке (например, испанский в Испании и Мексике)?

    Система позволяет выбрать Corpus, специфичный для географического региона (Claim 7). Если рекламодатель таргетируется на Мексику, система будет анализировать частоту встречаемости слов в логах запросов и документах, преимущественно из Мексики, что позволяет выявить локальную специфику.

    Упоминается, что частота встречаемости может быть взвешенной. Что это значит?

    Это означает, что не все появления слова одинаково важны. Патент предполагает, что слово,出现在 в заголовке документа, может иметь больший вес, чем слово в футере. Аналогично, первое слово в поисковом запросе может быть важнее последнего. Также учитываются переформулировки запросов в рамках одной сессии.

    Как я могу применить принципы этого патента в своем международном SEO?

    Ключевой принцип — отказ от буквального перевода семантики. Необходимо проводить исследование ключевых слов непосредственно в целевом регионе, анализировать локальную выдачу (SERP), изучать язык местных конкурентов и СМИ. Используйте терминологию, которая имеет наибольшую частотность в этом регионе.

    Может ли система извлекать ключевые слова из моего сайта?

    Да. В патенте упоминается возможность извлечения ключевых слов из Landing Pages (целевых страниц) на целевом языке во время фазы расширения (Augmentation). Это подчеркивает важность наличия качественного, локализованного контента на ваших страницах.

    Является ли этот процесс полностью автоматическим?

    В основном да, но патент также упоминает возможность отправки результатов на ручную проверку (Human Review). Человек, владеющий целевым языком, может проверить, соответствуют ли выбранные ключевые слова контенту (например, рекламе или целевой странице), даже если он не знает исходного языка.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.