Google использует механизм автоматического создания вероятностных словарей для перевода между разными языками и наборами символов. Система анализирует «выровненный текст», в первую очередь анкорные тексты ссылок (Parallel Anchor Text), указывающих на одну и ту же страницу. Если английские анкоры используют «House», а испанские анкоры на ту же страницу используют «Casa», система статистически учится связывать эти термины. Это позволяет Google понимать и расширять запросы переводами и синонимами.
Описание
Какую задачу решает
Патент решает проблему кросс-языкового поиска — как найти релевантные документы, если запрос сформулирован на языке или в наборе символов (формате), отличном от целевых документов (например, запрос в Romaji для поиска документов в Kanji). Система устраняет зависимость от традиционных статических словарей, которые часто неточны из-за неоднозначности слов и не покрывают сленг, идиомы или имена собственные. Также затрагивается проблема обработки неоднозначного ввода (например, с цифровых клавиатур).
Что запатентовано
Запатентован метод автоматического создания Probabilistic Dictionary (вероятностного словаря) для перевода терминов между разными форматами. Ядром изобретения является использование Aligned Text (выровненного текста), в частности Parallel Anchor Text (параллельных анкорных текстов). Система статистически определяет вероятность перевода одного термина в другой, анализируя анкоры на разных языках, которые указывают на один и тот же документ.
Как это работает
Ключевой механизм — автоматическое построение Probabilistic Dictionary:
- Идентификация параллельных данных: Система находит Aligned Text, преимущественно анкоры на Языке А и анкоры на Языке Б, которые указывают на одну и ту же веб-страницу.
- Статистический анализ: Анализируется частота использования терминов в этих параллельных наборах. Если Термин 1 (Язык А) часто встречается в анкорах на Страницу Х, а Термин 2 (Язык Б) также часто встречается в анкорах на ту же Страницу Х, система устанавливает вероятностную связь между ними.
- Создание словаря: Генерируется Probabilistic Dictionary, где каждому переводу присваивается вероятность.
- Применение: Словарь используется для перевода запроса на другие языки или для его расширения (Query Expansion).
- Уточнение: Вероятности в словаре уточняются на основе поведения пользователей (клики на результаты поиска) и истории запросов.
Актуальность для SEO
Высокая. Хотя аспект, связанный с вводом с цифровых клавиатур (T9), устарел, механизм автоматического изучения переводов и семантических связей через анализ структуры веба (анкорный текст) остается фундаментальным для международного поиска и Query Understanding. Способность Google понимать эквивалентность терминов на разных языках без ручного курирования критически важна в 2025 году.
Важность для SEO
Патент имеет высокое стратегическое значение (8.5/10), особенно для международного SEO. Он подтверждает, что анкорный текст используется не только для передачи ссылочного веса, но и как обучающий набор данных для систем перевода и понимания языка Google. Это напрямую влияет на то, как Google интерпретирует контент сайта и по каким запросам (включая их переводы и синонимы) он может ранжироваться.
Детальный разбор
Термины и определения
- Aligned Text (Выровненный текст)
- Два набора текста на разных языках или в разных форматах, которые связаны между собой (являются эквивалентными или вероятно эквивалентными). Например, статья и ее перевод, или анкоры на разных языках, указывающие на одну страницу.
- Anchor Text (Анкорный текст)
- Кликабельный текст гиперссылки. В патенте подчеркивается его важность как источника данных для перевода, так как он часто точно описывает целевую страницу, а его структура близка к пользовательским запросам.
- Parallel Anchor Text (Параллельный анкорный текст)
- Частный случай Aligned Text. Наборы анкоров на разных языках (форматах), указывающие на один и тот же целевой документ.
- Probabilistic Dictionary (Вероятностный словарь)
- Структура данных, которая отображает термины из одного формата в другой и связывает вероятность с каждым отображением (переводом). Например, английское «House» соответствует испанскому «Casa» с вероятностью 0.75.
- Query Expansion (Расширение запроса)
- Процесс дополнения исходного запроса новыми терминами (например, переводами из Probabilistic Dictionary) для улучшения полноты поиска.
- Format (Формат)
- Используется для обозначения языка (например, английский) и/или набора символов (например, Kanji, Romaji, Pinyin).
Ключевые утверждения (Анализ Claims)
Патент является продолжением (divisional application) более ранних заявок и фокусируется на методе создания вероятностного словаря.
Claim 1 (Независимый пункт): Описывает метод создания Probabilistic Dictionary для отображения терминов из первого формата во второй.
- Для заданного термина идентифицируется первый набор данных в первом формате.
- Идентифицируется второй набор данных во втором формате, который aligned (выровнен) с первым набором.
- Второй набор данных анализируется для определения одной или нескольких вероятностей, с которыми заданный термин отображается на один или несколько терминов во втором наборе данных.
Claim 4 (Зависимый от 1): Уточняет природу выровненных данных.
Первый и второй наборы данных представляют собой наборы anchor text, указывающие на один и тот же набор веб-страниц. Это ключевой механизм: использование анкоров на разных языках, ведущих на одну цель, как обучающих данных для перевода.
Claim 5 (Зависимый от 1): Предлагает альтернативный источник данных.
Первый набор данных — это текст на первом языке, а второй набор — тот же текст на втором языке (параллельные корпусы, например, официальные переводы).
Claim 6 (Зависимый от 1): Определяет базовый метод расчета вероятности.
Вероятность рассчитывается путем деления количества вхождений термина во втором наборе данных на общее количество терминов во втором наборе данных (частотный анализ).
Claim 7 и 8 (Зависимые от 1): Описывают механизмы обратной связи.
Вероятность модифицируется на основе анализа выбора пользователем результатов поиска (Claim 7) или на основе анализа предыдущих запросов пользователя (Claim 8). Это позволяет системе самообучаться на основе поведения пользователей.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, связывая данные, извлеченные при индексировании, с процессом понимания запросов.
CRAWLING & INDEXING – Сканирование, Индексирование и извлечение признаков
На этих этапах система собирает и индексирует анкорный текст и структуру ссылок. Критически важно сохранение информации о языке/формате анкора и целевой странице. Эти данные служат «сырьем» для построения словаря.
Построение словаря (Офлайн-процесс)
Основная часть работы алгоритма происходит офлайн. Система анализирует индекс анкоров для выявления Parallel Anchor Text и выполняет статистический анализ для генерации и обновления Probabilistic Dictionary.
QUNDERSTANDING – Понимание Запросов
На этом этапе изобретение применяется в реальном времени. Когда поступает запрос, система использует предварительно созданный Probabilistic Dictionary для:
- Перевода запроса: Генерация эквивалентного запроса в другом формате.
- Расширения запроса (Query Expansion): Добавление вероятных переводов или синонимов к исходному запросу.
- Разрешения неоднозначности (Disambiguation): Выбор правильного значения многозначного термина, возможно, с учетом истории запросов пользователя.
RANKING & RERANKING – Ранжирование и Переранжирование
Переведенные/расширенные запросы используются для поиска документов. Взаимодействие пользователя с результатами (клики) собирается и используется как обратная связь для уточнения Probabilistic Dictionary.
На что влияет
- Международный SEO: Критически влияет на то, как контент ранжируется по запросам на языках, отличных от основного языка контента, и как Google интерпретирует локализованные термины.
- Специфические запросы: Влияет на перевод имен собственных, брендов, сленга и новых терминов, которых нет в стандартных словарях.
- Разные наборы символов: Влияет на поиск в языках, использующих несколько систем письма (например, японский, корейский, китайский).
Когда применяется
- Условия работы (Офлайн): При наличии достаточного количества Aligned Text (особенно Parallel Anchor Text) для проведения статистического анализа.
- Триггеры активации (Онлайн): Когда система определяет возможность кросс-языкового поиска или необходимость расширения запроса синонимами/переводами.
- Уточнение: Активируется, когда статистических данных недостаточно (data sparsity) и требуется анализ поведения пользователей для уточнения вероятностей.
Пошаговый алгоритм
Процесс А: Автоматическое построение Probabilistic Dictionary (Офлайн)
- Сбор данных: Извлечение анкорных текстов, их форматов (язык) и целевых URL из индекса.
- Выбор термина: Выбор термина в Формате 1 для перевода (например, «house»).
- Идентификация исходных анкоров: Поиск всех анкоров в Формате 1, содержащих этот термин.
- Идентификация целевых страниц: Определение набора страниц (Set P), на которые указывают эти анкоры.
- Идентификация выровненных анкоров: Поиск всех анкоров в целевом Формате 2 (например, испанский), которые также указывают на страницы из набора Set P. Это Parallel Anchor Text.
- Частотный анализ: Подсчет частоты встречаемости каждого уникального термина в выровненных анкорах Формата 2 (например, «casa» — 15 раз, «grande» — 5 раз).
- Расчет вероятностей: Расчет вероятности перевода путем деления частоты термина на общее количество терминов в выровненных анкорах (например, если всего слов 20, P(house=casa) = 15/20 = 0.75).
- Сохранение: Запись соответствия и его вероятности в Probabilistic Dictionary.
Процесс Б: Уточнение словаря (Обратная связь)
- Обработка запроса: Пользователь вводит запрос. Система использует словарь для генерации нескольких вероятных переводов.
- Представление результатов: В выдачу подмешиваются результаты для разных вариантов перевода.
- Мониторинг поведения: Система отслеживает, на какие результаты кликает пользователь.
- Корректировка вероятностей: Если пользователи предпочитают один вариант перевода, его вероятность в Probabilistic Dictionary увеличивается.
Какие данные и как использует
Данные на входе
- Ссылочные факторы (Ключевые): Anchor Text (анкорный текст) входящих ссылок, язык анкорного текста, URL целевой страницы. Это основной источник данных для построения словаря.
- Структурные факторы (Link Graph): Структура ссылок используется для идентификации Parallel Anchor Text.
- Поведенческие факторы: Данные о кликах (Click Data) на результаты поиска используются для уточнения вероятностей перевода (Claim 7). История запросов пользователя (Query History) используется для разрешения неоднозначности (Claim 8).
- Контентные факторы: Другие виды Aligned Text (например, параллельные переводы документов), хотя анкоры являются предпочтительным источником.
Какие метрики используются и как они считаются
- Частота термина (Term Frequency): Количество вхождений термина в наборе выровненных текстов.
- Вероятность перевода (Translation Probability): Метрика, определяющая вероятность соответствия терминов. Базовый расчет (Claim 6): (Occurrences of Target Term) / (Total terms in the aligned dataset).
- Корректировка на основе поведения: Модификация вероятности с учетом данных о кликах и истории поиска.
- Вес анкора (Anchor Weighting): В описании упоминается возможность присвоения большего веса анкорам, длина которых (количество терминов) схожа с длиной исходного термина или других выровненных анкоров.
Выводы
- Анкорный текст как лингвистический ресурс: Патент демонстрирует, что Google использует Anchor Text не только как сигнал ранжирования, но и как массивный корпус данных для обучения своих систем машинного перевода и понимания языка (NLP). То, как вебмастера ссылаются на контент на разных языках, напрямую учит Google значению и переводу терминов.
- Автоматическое обнаружение синонимов и переводов: Система способна автоматически обнаруживать переводы, синонимы и связанные термины (например, House -> Casa, Casita) без использования традиционных словарей. Это критически важно для имен собственных, брендов и сленга.
- Важность Aligned Data: Ключевым условием работы системы является наличие достаточного количества параллельных данных (Aligned Text). Для веб-страниц это означает наличие входящих ссылок с анкорами на разных языках.
- Поведенческие данные как валидатор: Если статистических данных недостаточно (data sparsity), Google использует клики пользователей и историю поиска для валидации и уточнения вероятностей перевода в Probabilistic Dictionary.
- Основа для Query Expansion: Описанный механизм является фундаментом для расширения запросов переводами и синонимами, что увеличивает полноту поиска (Recall).
Практика
Best practices (это мы делаем)
- Стратегия анкорного текста в международном SEO: При получении ссылок с сайтов на разных языках убедитесь, что анкорный текст семантически согласован и точно описывает содержание целевой страницы на соответствующем языке. Это помогает Google правильно установить соответствие между терминами в Probabilistic Dictionary.
- Локализованный линкбилдинг: При продвижении в конкретном регионе фокусируйтесь на получении естественных ссылок из этого региона на соответствующем языке. Эти ссылки предоставляют качественные данные для обучения системы.
- Использование точных анкоров во внутренней перелинковке (Особенно в переключателях языков): Убедитесь, что ссылки между языковыми версиями используют точные анкоры на целевом языке. Например, с английской страницы «About Us» ссылка на испанскую версию должна иметь анкор «Quiénes Somos» (а не просто «Español»). Это создает качественный Aligned Text.
- Создание параллельного контента (Aligned Content): При наличии мультиязычного сайта убедитесь, что версии контента точно переведены и четко связаны (например, с помощью hreflang). Это увеличивает вероятность получения Parallel Anchor Text.
Worst practices (это делать не надо)
- Несогласованный анкорный текст на разных языках: Если на страницу о «страховании автомобилей» ведут английские анкоры «car insurance», а испанские анкоры «cheap loans», это запутает систему и приведет к неверным ассоциациям в Probabilistic Dictionary.
- Спам и манипуляции с анкорами: Попытки искусственно создать большое количество ссылок для влияния на систему перевода. Система полагается на статистический анализ больших данных, и неестественное распределение анкоров может быть проигнорировано.
- Игнорирование локальных ссылок: Фокусировка только на англоязычных ссылках при игнорировании локальных может привести к нехватке данных для построения точных переводов терминов, связанных с вашим сайтом.
Стратегическое значение
Патент подтверждает стратегию Google по использованию структуры веба (анкоров) и поведения пользователей для решения сложных лингвистических задач. Для международного SEO это означает, что стратегия построения ссылок и использования анкорного текста должна быть тщательно продумана и локализована, чтобы обеспечить правильную интерпретацию контента в разных языковых контекстах. Сигналы, которые вебмастера генерируют через анкоры, напрямую питают системы Query Understanding.
Практические примеры
Сценарий 1: Обучение Google переводу названия продукта
Компания запускает продукт «Widget X» в США и его локализованную версию «Widget Y» в Германии.
- Цель: Убедиться, что Google понимает, что «Widget X» (EN) и «Widget Y» (DE) — это один и тот же продукт.
- Действия (Создание Aligned Signals):
- Создать страницы продукта: example.com/en/widget-x и example.com/de/widget-y.
- При линкбилдинге в США стимулировать использование анкоров «Widget X», ведущих на английскую страницу.
- При линкбилдинге в Германии стимулировать использование анкоров «Widget Y», ведущих на немецкую страницу.
- Ожидаемый результат: Анализируя Parallel Anchor Text, Google обновит свой Probabilistic Dictionary, установив высокую вероятность соответствия между «Widget X» и «Widget Y».
Сценарий 2: Изучение синонимов на одном языке
- Ситуация: Существует страница об автомобилях.
- Действие: Естественные внешние ссылки указывают на эту страницу, используя разные анкоры: «обзор автомобилей» и «тест-драйв машин».
- Механизм Google: Система видит, что анкоры с разными терминами ведут на одну и ту же страницу.
- Ожидаемый результат: Система статистически определяет, что «обзор автомобилей» и «тест-драйв машин» с определенной вероятностью являются эквивалентными терминами, и может использовать это для Query Expansion.
Вопросы и ответы
Что такое «Aligned Text» и «Parallel Anchor Text»?
Aligned Text (выровненный текст) — это любые параллельные данные на разных языках, которые эквивалентны по содержанию (например, переводы документа). Parallel Anchor Text — это частный случай: анкорные тексты на разных языках, которые указывают на одну и ту же веб-страницу. Это ключевой источник данных, позволяющий Google автоматически изучать переводы, сравнивая, как люди описывают один и тот же контент.
Как этот патент влияет на стратегию использования анкорного текста в SEO?
Он подтверждает, что анкоры выполняют двойную функцию: передают ссылочный вес и обучают языковые модели Google. Для SEO это означает, что анкоры должны быть семантически точны и согласованы на разных языках. В международном SEO критически важно иметь естественные анкоры на местных языках, чтобы Google правильно интерпретировал термины, связанные с вашим сайтом.
Что такое «Probabilistic Dictionary»?
Это автоматически создаваемая база данных, которая хранит возможные переводы терминов между разными языками или форматами, присваивая каждому переводу вероятность. Например, английское слово «Bank» может соответствовать «Финансовое учреждение» с вероятностью 0.4 и «Берег реки» с вероятностью 0.3. Это позволяет Google работать с неоднозначностью языка.
Может ли Google понять сленг или новые термины с помощью этого механизма?
Да, это одно из ключевых преимуществ. Поскольку система обучается на реальном использовании языка в интернете (через анкорный текст), она может быстро обнаруживать и изучать переводы сленга, идиом, имен собственных и новых терминов, которых нет в официальных словарях. Если вебмастера активно используют новый термин в анкорах, Google его изучит.
Как поведение пользователей влияет на этот механизм?
Патент описывает механизм обратной связи (Claims 7 и 8). Если система не уверена в переводе и предлагает несколько вариантов в выдаче, она отслеживает клики пользователей. Если пользователи систематически предпочитают один вариант, Google увеличивает вероятность этого перевода в Probabilistic Dictionary. Клики служат валидацией.
Используется ли этот механизм только для перевода между разными языками?
Нет. Он также используется для перевода между разными форматами или наборами символов в рамках одного языка. Например, для перевода японского текста из Romaji (латиница) в Kanji (иероглифы). Также этот механизм применим для выявления синонимов на одном языке.
Как этот патент связан с расширением запросов (Query Expansion)?
Probabilistic Dictionary, созданный с помощью этого механизма, напрямую используется для расширения запросов. Когда пользователь вводит запрос, Google может автоматически дополнить его переводами и синонимами, найденными в словаре, чтобы найти больше релевантных документов, даже если они написаны на другом языке.
Что делать, если Google неправильно переводит название моего бренда или ключевой термин?
Необходимо провести аудит входящих ссылок и анкорного текста на разных языках. Убедитесь, что на ваши страницы ведут качественные ссылки с семантически правильными и согласованными анкорами на соответствующих языках. Создание сильных и четких параллельных сигналов (Aligned Signals) поможет Google скорректировать свой Probabilistic Dictionary.
Как лучше всего организовать внутреннюю перелинковку на многоязычном сайте с учетом этого патента?
Лучшая практика — использовать в качестве анкоров для ссылок на другие языковые версии (например, в переключателе языков) точное название или ключевую фразу целевой страницы на ее языке, а не просто название языка. Например, ссылаться с анкором «Buy car», а не «English version». Это создает качественный Aligned Text.
Актуален ли этот патент в эпоху нейронных сетей и BERT/MUM?
Патент описывает фундаментальный принцип использования параллельных данных для обучения. Хотя конкретные статистические методы могут быть устаревшими по сравнению с нейросетями (BERT/MUM), сама идея использования анкорного текста как источника обучающих данных остается крайне актуальной. Современные модели также нуждаются в больших объемах качественных данных для обучения.