Google идентифицирует «параллельные ресурсы» — высококачественные переводы или оригинальный контент на ту же тему на разных языках. Когда мультиязычный пользователь выполняет поиск, система определяет его предпочтительный язык и повышает в ранжировании те результаты, которые имеют соответствующие параллельные ресурсы на этом языке. Количество доступных параллельных ресурсов влияет на ранжирование. Система также отображает сниппеты параллельного ресурса прямо в выдаче.
Описание
Какую задачу решает
Патент решает проблему доступа к информации для мультиязычных пользователей. Часто пользователи ищут информацию на языке, отличном от их предпочтительного (например, на английском, чтобы получить больше результатов), но им сложно потреблять этот контент. Существующие методы, такие как автоматический машинный перевод результатов, часто дают низкое качество. Система направлена на то, чтобы предоставить пользователю доступ к высококачественному контенту на его предпочтительном языке (L2), даже если запрос был сделан на другом языке (L1).
Что запатентовано
Запатентована система для идентификации и использования «параллельных ресурсов» (Parallel Resources) в поиске. Параллельный ресурс определяется как высококачественный перевод (человеческий или высококачественный автоматический) исходного ресурса ИЛИ оригинальный ресурс на другом языке, посвященный той же теме. Система строит карту соответствий между этими ресурсами. При обработке запроса система определяет предпочтительный язык пользователя и не только показывает ссылки на параллельные ресурсы, но и использует их наличие и количество как фактор ранжирования для исходных результатов.
Как это работает
Система работает в двух режимах: офлайн и онлайн.
- Офлайн: Система идентифицирует параллельные ресурсы в интернете и строит Parallel Resource Map, связывающую ресурсы на разных языках (L1 и L2).
- Онлайн (Во время запроса):
- Система определяет предпочтительный язык пользователя (L2) на основе явных настроек или неявных сигналов (IP-адрес, история поиска).
- Пользователь вводит запрос на языке L1.
- Система генерирует результаты поиска (ресурсы на L1).
- Система проверяет Parallel Resource Map. Если для результата на L1 существует параллельный ресурс на L2, этот результат на L1 получает повышение в ранжировании. Ранжирование зависит от количества найденных параллельных ресурсов.
- Для отображения в SERP система генерирует Visual Alert — сниппет параллельного ресурса на L2. Для этого запрос L1 переводится на L2, и в параллельном ресурсе ищутся релевантные фрагменты.
Актуальность для SEO
Высокая. Обслуживание пользователей на их предпочтительном языке и кросс-языковой поиск (Cross-Lingual Information Retrieval) являются ключевыми направлениями развития Google. Механизмы, позволяющие связывать контент между языками и улучшать международную выдачу, активно развиваются.
Важность для SEO
Патент имеет значительное влияние на международное SEO. Он описывает механизм, при котором наличие высококачественного перевода или параллельного контента на другом языке становится фактором ранжирования для оригинального контента. Это означает, что инвестиции в профессиональную локализацию могут напрямую улучшить видимость сайта в поиске для мультиязычной аудитории.
Детальный разбор
Термины и определения
- L1 (First Language)
- Первый язык. В контексте обработки запроса — это язык, на котором пользователь ввел запрос.
- L2 (Second Language / Preferred Language)
- Второй язык. В контексте обработки запроса — это предпочтительный язык пользователя, отличный от языка запроса.
- Parallel Resource (Параллельный ресурс)
- Ресурс на языке L2, который связан с ресурсом на языке L1. Он должен соответствовать одному из критериев: быть высококачественным переводом (High-Quality Translation) ресурса L1, ИЛИ быть оригинальным ресурсом на языке L2, посвященным той же теме, что и ресурс L1. Стандартный машинный перевод низкого качества НЕ является параллельным ресурсом.
- High-Quality Translation (Высококачественный перевод)
- Перевод, выполненный человеком (Human Translation) или высококачественный автоматический перевод (HQ Automatic Translation), который превосходит по качеству стандартный машинный перевод.
- Parallel Resource Map (Карта параллельных ресурсов)
- Структура данных или индекс, который связывает идентификаторы ресурсов на языке L1 с идентификаторами их параллельных ресурсов на языке L2 (и других языках). Создается офлайн.
- Resource Information Database (База данных информации о ресурсах)
- Хранилище метаданных о ресурсах (URL, язык, качество). Может включать в себя Parallel Resource Map.
- Visual Alert (Визуальное оповещение)
- Элемент интерфейса в результатах поиска, который информирует пользователя о наличии параллельного ресурса. Включает заголовок, URL и сниппет параллельного ресурса на языке L2.
Ключевые утверждения (Анализ Claims)
Анализ фокусируется на Claim 1, который определяет ядро изобретения, сосредоточенное на механизме ранжирования.
Claim 1 (Независимый пункт): Описывает метод обработки поискового запроса и ранжирования результатов.
- Система получает поисковый запрос на первом языке (L1).
- Система получает набор результатов поиска, отвечающих на запрос.
- Эти результаты делятся на две категории:
- «Первые результаты поиска» (First search results): идентифицируют документ на L1 И соответствующий документ на втором языке (L2). (Т.е. те, для которых найден параллельный ресурс).
- «Вторые результаты поиска» (Second search results): идентифицируют только документ на L1. (Т.е. те, для которых параллельный ресурс не найден).
- Ключевой шаг: Система упорядочивает (ранжирует) результаты поиска, основываясь, по крайней мере, на соответствующем количестве документов, идентифицированных каждым из результатов поиска.
- Система предоставляет упорядоченные результаты поиска.
Этот пункт патента утверждает, что ранжирование напрямую зависит от наличия и количества связанных документов на другом языке (параллельных ресурсов). Результаты, имеющие больше параллельных ресурсов, будут ранжироваться иначе (предположительно выше), чем результаты без них.
Claim 2 и 3 (Зависимые): Уточняют, что такое соответствующий документ на L2.
- Claim 2: Документ на L2 является переводом документа на L1.
- Claim 3: Документ на L2 является оригинальным документом на L2, посвященным теме, аналогичной теме документа на L1.
Claim 5 (Зависимый): Описывает генерацию Visual Alert, включающего сниппет документа на L2.
Claim 7 (Зависимый): Описывает процесс определения второго языка (L2) на основе предпочтений пользователя (language preference).
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры, интегрируя данные о кросс-языковых связях в процесс ранжирования и генерации SERP.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка. Система должна идентифицировать связи между ресурсами на разных языках (используя методы для идентификации параллельных документов) и построить Parallel Resource Map. Эта карта может быть интегрирована в основную Resource Information Database.
QUNDERSTANDING – Понимание Запросов (и пользователя)
На этом этапе система должна определить контекст пользователя, в частности, его предпочтительный язык (L2). Это делается путем анализа явных сигналов (настройки языка браузера/аккаунта) и неявных сигналов (геолокация IP-адреса, история предыдущих поисков).
RANKING / RERANKING – Ранжирование и Переранжирование
Это ключевой этап применения патента для влияния на порядок результатов. При расчете Ranking Score для ресурса на L1 система проверяет Parallel Resource Map. Если для данного пользователя предпочтителен язык L2, и в карте есть записи о параллельных ресурсах на L2, то ресурс на L1 получает дополнительный вес (бустинг). Согласно Claim 1, этот вес зависит от количества найденных параллельных ресурсов.
METASEARCH / Генерация выдачи
На этапе формирования финальной выдачи система генерирует Visual Alert. Это требует дополнительной обработки: перевод исходного запроса с L1 на L2 и поиск релевантных фрагментов (сниппетов) внутри параллельного ресурса на L2.
Входные данные:
- Запрос пользователя (L1).
- Языковые предпочтения пользователя (определение L2).
- Parallel Resource Map.
- Индекс ресурсов (L1).
- Контент параллельных ресурсов (L2) для генерации сниппетов.
Выходные данные:
- Отсортированный список результатов поиска, где порядок изменен с учетом наличия параллельных ресурсов.
- Visual Alerts (сниппеты на L2), ассоциированные с результатами на L1.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на контент, который часто переводится или имеет аналоги на разных языках: новостные статьи (освещение одного события), техническая документация, научные исследования, энциклопедический контент (например, Wikipedia).
- Специфические запросы: Информационные и исследовательские запросы, где пользователь заинтересован в получении максимально полной информации, независимо от языка источника.
- Географические и языковые аспекты: Система критически важна для пользователей в регионах с высоким уровнем мультиязычности, а также для пользователей, ищущих информацию за пределами своего основного языкового пространства.
Когда применяется
- Триггеры активации: Система активируется, когда обнаруживается, что пользователь предпочитает язык (L2), отличный от языка запроса (L1) или языка интерфейса поиска.
- Условия работы: Применяется только в том случае, если для найденных результатов поиска существуют идентифицированные параллельные ресурсы, записанные в Parallel Resource Map.
Пошаговый алгоритм
Процесс А: Офлайн-построение карты параллельных ресурсов
- Идентификация кандидатов: Система сканирует ресурсы на разных языках и выявляет потенциальные пары параллельных документов (используя известные методы идентификации переводов или схожести тем).
- Валидация качества: Система проверяет, что связь соответствует критериям Parallel Resource. Если это перевод, он должен быть высококачественным (человеческий или HQ автоматический). Машинные переводы низкого качества отбрасываются.
- Оценка параллелизма и надежности: Потенциальные параллельные ресурсы могут оцениваться по степени параллелизма/схожести и надежности источника публикации.
- Построение карты: Идентифицированные связи сохраняются в Parallel Resource Map, связывая идентификатор ресурса L1 с идентификаторами ресурсов L2.
Процесс Б: Обработка запроса в реальном времени
- Определение предпочтений: Система определяет предпочтительный язык пользователя (L2) на основе явных или неявных сигналов.
- Получение запроса: Система получает запрос на языке L1.
- Генерация первичных результатов: Система генерирует набор результатов поиска на языке L1.
- Применение фактора параллельных ресурсов (Ранжирование): Для каждого результата L1 система обращается к Parallel Resource Map для поиска соответствующих ресурсов на языке L2.
- Результаты, имеющие один или несколько параллельных ресурсов на L2, получают дополнительный вес в ранжировании.
- Ранжирование корректируется на основе количества доступных параллельных ресурсов.
- Получение информации о параллельных ресурсах: Для топовых результатов извлекается информация о связанных с ними параллельных ресурсах L2.
- Генерация Visual Alert (Сниппеты):
- Исходный запрос L1 переводится на язык L2.
- Выполняется поиск по контенту параллельного ресурса L2 с использованием переведенного запроса.
- Извлекаются релевантные фрагменты контента.
- Генерируется Visual Alert, включающий заголовок, URL и сниппет на L2.
- Презентация: Система предоставляет пользователю отсортированные результаты L1 вместе с ассоциированными Visual Alerts L2.
Какие данные и как использует
Данные на входе
- Пользовательские факторы: Данные для определения предпочтительного языка (L2):
- Явные: Настройки языка в браузере или аккаунте пользователя.
- Неявные: История поиска пользователя (языки предыдущих запросов).
- Географические факторы: IP-адрес пользователя (для геолокации и определения преобладающего языка в регионе) используется как неявный сигнал для определения предпочтительного языка.
- Контентные факторы: Содержимое ресурсов на разных языках используется для идентификации параллелизма (офлайн) и для генерации сниппетов (онлайн).
- Системные данные: Parallel Resource Map, данные о качестве и надежности источников (source reliability).
Какие метрики используются и как они считаются
- Наличие параллельного ресурса: Бинарный фактор, указывающий, существует ли хотя бы один параллельный ресурс на предпочтительном языке пользователя.
- Количество параллельных ресурсов: Ключевая метрика для ранжирования, согласно Claim 1. Чем больше параллельных ресурсов связано с результатом L1, тем выше может быть его позиция.
- Степень параллелизма/Схожести (Parallelism/Similarity Score): Метрика, оценивающая, насколько близок по содержанию ресурс L2 к ресурсу L1 (используется при построении карты).
- Качество перевода: Метрика для определения, является ли перевод высококачественным (High-Quality Translation). Патент не уточняет методы расчета, но отличает его от стандартного машинного перевода.
- Надежность источника (Source Reliability): Оценка авторитетности сайта, на котором размещен параллельный ресурс. Может использоваться для ранжирования самих параллельных ресурсов, если их несколько.
Выводы
- Наличие высококачественного перевода как фактор ранжирования: Ключевой вывод патента (особенно Claim 1) заключается в том, что существование и количество Parallel Resources (высококачественных переводов или оригиналов на ту же тему) на предпочтительном языке пользователя является фактором ранжирования для исходного контента.
- Качество перевода имеет значение: Патент явно исключает стандартные машинные переводы низкого качества из определения Parallel Resource. Учитываются только человеческие или высококачественные автоматические переводы. Это подчеркивает фокус Google на качестве контента.
- Активная идентификация предпочтений пользователя: Система не полагается только на язык запроса. Она активно пытается определить предпочтительный язык пользователя (L2) с помощью явных и неявных сигналов (геолокация, история поиска), чтобы активировать этот механизм.
- Улучшение SERP через кросс-языковые сниппеты: Механизм генерации Visual Alert включает перевод запроса и извлечение релевантных сниппетов из параллельного ресурса. Это позволяет пользователю оценить релевантность контента на языке L2, не покидая выдачу на языке L1.
- Стратегия для мультиязычного поиска: Google стремится предоставить лучший контент на предпочтительном языке пользователя, даже если пользователь ищет на другом языке, тем самым улучшая пользовательский опыт для мультиязычной аудитории.
Практика
Best practices (это мы делаем)
- Инвестируйте в высококачественную локализацию: Обеспечьте ключевые страницы сайта профессиональным человеческим переводом или высококачественным машинным переводом. Поскольку наличие High-Quality Translation является фактором ранжирования для оригинала, качественная локализация улучшает видимость всего сайта.
- Обеспечьте индексируемость и связь переводов: Переведенный контент должен быть доступен для сканирования и индексирования. Необходимо помочь поисковой системе установить связь между оригиналом и переводом, чтобы она могла построить Parallel Resource Map. (Хотя патент не упоминает конкретные технические средства, на практике это реализуется через чистую структуру URL и использование hreflang).
- Создавайте качественный оригинальный контент на разных языках: Если компания работает на нескольких рынках, создание оригинального контента на локальных языках (а не только перевод) также учитывается как Parallel Resource. Это усиливает авторитетность бренда на международном уровне.
- Мониторинг международной выдачи: Анализируйте выдачу в разных языковых версиях, чтобы понять, как Google интерпретирует языковые предпочтения пользователей и какие сайты распознаются как имеющие качественные параллельные ресурсы.
Worst practices (это делать не надо)
- Использование низкокачественного автоматического перевода: Создание страниц с помощью стандартных инструментов машинного перевода (например, плагинов автоматического перевода сайта) не принесет пользы в рамках этого алгоритма. Патент явно исключает такие переводы из определения Parallel Resource.
- Скрытие переводов от индексации: Если качественные переводы существуют, но закрыты от индексации или их связь с оригиналом неочевидна для робота, система не сможет использовать их для улучшения ранжирования.
- Игнорирование мультиязычной аудитории: Фокус исключительно на одном языке (например, английском) ограничивает потенциал ранжирования для пользователей, предпочитающих другие языки.
Стратегическое значение
Патент подтверждает стратегическую важность международного SEO и качественной локализации. Он демонстрирует, что для Google связь между языковыми версиями контента является сигналом качества и релевантности. Долгосрочная стратегия должна включать создание и поддержание высококачественных параллельных ресурсов для ключевых рынков. Это не просто улучшает UX для локальных пользователей, но и напрямую способствует ранжированию основного контента.
Практические примеры
Сценарий: Улучшение ранжирования технической документации для мультиязычных разработчиков
- Ситуация: Компания выпускает API с документацией на английском языке (L1). Разработчики по всему миру используют ее, но многие предпочитают свой родной язык (например, китайский, L2).
- Действия SEO/Компании: Компания инвестирует в профессиональный перевод документации на китайский язык и размещает его на поддомене (cn.example.com), используя hreflang для связи с оригиналом (en.example.com).
- Работа алгоритма Google:
- Офлайн: Google индексирует обе версии и благодаря качеству перевода и связям добавляет их в Parallel Resource Map.
- Онлайн: Китайский разработчик (L2 определен по IP и настройкам) ищет на английском «example API authentication» (L1).
- Ранжирование: Документация en.example.com получает бустинг в выдаче для этого пользователя, так как система знает о наличии высококачественного параллельного ресурса на китайском.
- SERP: Пользователь видит английский результат на высокой позиции, а под ним Visual Alert с китайским заголовком и сниппетом.
- Результат: Повышается видимость английской документации для международной аудитории, и пользователи быстро получают доступ к качественному контенту на предпочтительном языке.
Вопросы и ответы
Является ли наличие перевода страницы фактором ранжирования согласно этому патенту?
Да, является. Claim 1 патента прямо указывает, что упорядочивание (ранжирование) результатов поиска основывается на количестве идентифицированных связанных документов (параллельных ресурсов). Если система определяет, что пользователь предпочитает язык L2, а результат поиска на языке L1 имеет высококачественный перевод на L2, этот результат L1 получит преимущество в ранжировании.
Поможет ли автоматический перевод сайта через Google Translate улучшить ранжирование?
Нет. Патент четко разграничивает типы переводов. В качестве Parallel Resource учитываются только высококачественные переводы (High-Quality Translation) — человеческие или высококачественные автоматические. Стандартный машинный перевод низкого качества явно исключается из этого определения и не даст преимуществ в рамках данного алгоритма.
Что такое «Параллельный ресурс» помимо перевода?
Помимо высококачественного перевода, Parallel Resource может быть оригинальным документом на другом языке, который посвящен той же теме. Например, статья в испанской газете и статья в английской газете, независимо написанные об одном и том же международном событии, могут считаться параллельными ресурсами друг для друга.
Как Google определяет предпочтительный язык пользователя (L2)?
Патент описывает два способа. Первый — явное указание (Explicit indication): настройки языка в браузере или аккаунте пользователя. Второй — неявное определение (Implicit indication): анализ истории поиска пользователя (на каких языках он искал ранее) или геолокация его IP-адреса для определения преобладающего языка в регионе.
Как Google генерирует сниппет для параллельного ресурса на другом языке?
Система использует специальный процесс. Сначала она переводит исходный запрос пользователя с языка L1 на предпочтительный язык L2. Затем она ищет этот переведенный запрос в тексте параллельного ресурса L2. Релевантные фрагменты, найденные в ресурсе L2, извлекаются и используются для формирования сниппета (Visual Alert).
Как помочь Google понять, что мои переводы являются высококачественными?
Патент не детализирует методы оценки качества перевода. Однако на практике для SEO-специалистов это означает необходимость обеспечения высокого качества текста (грамматика, стиль, точность передачи смысла), а также размещение переводов на авторитетных, хорошо структурированных сайтах. Использование профессиональных переводчиков является лучшей стратегией.
Нужно ли использовать hreflang для работы этого механизма?
Патент не упоминает атрибут hreflang. Он описывает, что система использует различные методы для идентификации параллельных документов и построения Parallel Resource Map офлайн. Однако в современной практике SEO использование hreflang является стандартным и наиболее надежным способом явно указать Google на связь между языковыми версиями страниц, что поможет системе корректно построить эту карту.
Влияет ли авторитетность сайта, на котором размещен перевод, на работу системы?
Да, патент упоминает, что при ранжировании параллельных ресурсов (если их несколько) может учитываться надежность источника публикации (reliability of the publication source). Размещение перевода на авторитетном ресурсе повышает его ценность для системы.
Может ли мой английский сайт ранжироваться лучше в США, если у него есть перевод на испанский?
Да, если система идентифицирует пользователя в США как предпочитающего испанский язык (например, на основе истории поиска или настроек браузера). В этом случае наличие испанского параллельного ресурса даст бустинг английскому результату в выдаче для этого конкретного пользователя.
Где хранится информация о связях между переводами?
Патент описывает Parallel Resource Map — специальную карту или индекс, который хранит связи между идентификаторами ресурсов на разных языках. Эта карта может быть отдельным модулем или частью основной базы данных информации о ресурсах (Resource Information Database).