Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует анкорный текст и контекст сайта для перевода и индексирования контента на разных языках

    CROSS-LINGUAL INDEXING AND INFORMATION RETRIEVAL (Кросс-языковое индексирование и информационный поиск)
    • US9477656B1
    • Google LLC
    • 2016-10-25
    • 2003-08-21
    2003 EEAT и качество Google Shopping Мультиязычность Патенты Google

    Google патентует систему кросс-языкового поиска, которая заранее переводит документы и ссылающийся на них анкорный текст. Для повышения точности перевода используется контекстно-зависимая модель, анализирующая анкорный текст входящих ссылок и структуру сайта. Это позволяет пользователям находить релевантный контент независимо от языка оригинала.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему информационного поиска в многоязычной среде: пользователи обычно вводят запрос на одном языке и получают результаты преимущественно на этом же языке. Это ограничивает доступ к релевантной информации, существующей на других языках. Изобретение направлено на создание инфраструктуры Cross-Language Information Retrieval (CLIR), позволяющей искать информацию по всему глобальному корпусу документов.

    Что запатентовано

    Запатентована система кросс-языкового индексирования и поиска, основанная на предварительном (офлайн) машинном переводе документов и связанного с ними анкорного текста (anchor text). Ключевым элементом является использование context-specific translation model (контекстно-зависимой модели перевода). Эта модель повышает точность перевода, используя контекст, полученный из анкорного текста входящих ссылок, а также из других страниц на том же сайте или связанных страниц.

    Как это работает

    Система предпочитает перевод документов (Document Translation), а не перевод запросов (Query Translation), так как перевод больших объемов текста обеспечивает лучшую точность за счет большего контекста. Процесс включает:

    • Сбор контекста: Анализируется документ, связанные страницы (на том же сайте, входящие/исходящие ссылки) и anchor text.
    • Контекстный перевод: Документ и его анкорный текст переводятся на целевые языки с использованием context-specific translation model, которая учитывает собранный контекст для разрешения неоднозначностей.
    • Индексирование: Все переведенные версии документа и анкорного текста индексируются.
    • Поиск: Когда поступает запрос на языке L, система ищет совпадения среди документов, изначально написанных на языке L, а также среди контента и анкоров, переведенных на язык L.

    Актуальность для SEO

    Высокая. Кросс-языковой поиск является основой работы Google в глобальном масштабе. Хотя технологии машинного перевода значительно продвинулись (например, NMT) с момента приоритетной даты патента (2003 год), описанная архитектура и принципы использования контекста (включая анкорный текст и структуру сайта) для лучшего понимания, перевода и индексирования контента остаются фундаментальными. Участие Jeffrey Dean подчеркивает инфраструктурную важность изобретения.

    Важность для SEO

    (8/10). Патент имеет высокое значение, особенно для международного SEO. Он раскрывает, как Google обрабатывает многоязычный контент, и подчеркивает критическую двойную роль anchor text: он используется не только как сигнал релевантности, но и как ключевой контекстуальный элемент для повышения точности перевода целевой страницы. Это означает, что качество и релевантность входящих ссылок, в том числе с сайтов на других языках, напрямую влияют на глобальную видимость контента.

    Детальный разбор

    Термины и определения

    Anchor text (Анкорный текст)
    Текст, связанный с гиперссылкой. В патенте играет двойную роль: 1) используется как контекст для улучшения перевода документа, на который он указывает; 2) сам переводится и индексируется для поиска.
    Context-specific translation model (Контекстно-зависимая модель перевода)
    Модель машинного перевода, которая использует дополнительную информацию (контекст) помимо самого переводимого текста для повышения точности. Контекст может включать anchor text, другие страницы сайта, связанные страницы.
    Cross-Language Information Retrieval (CLIR) (Кросс-языковой информационный поиск)
    Процесс поиска информации в корпусе документов на разных языках с использованием запроса на одном языке.
    Document Translation Approach (Подход с переводом документов)
    Стратегия CLIR, при которой документы заранее переводятся и индексируются. Патент указывает этот метод как предпочтительный из-за большей точности.
    Query Translation Approach (Подход с переводом запросов)
    Стратегия CLIR, при которой запрос пользователя переводится на разные языки во время поиска. Менее точен из-за нехватки контекста в коротких запросах.
    Target languages (Целевые языки)
    Языки, на которые переводятся документы и anchor text для индексации.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод кросс-языкового поиска, основанный на предварительном переводе документов с использованием контекста.

    1. Система получает группу документов и идентифицирует ссылки и связанный с ними anchor text.
    2. Каждый документ переводится на несколько целевых языков с использованием context-specific translation model.
    3. Критически важно: Контекст для этой модели зависит, по крайней мере частично, от anchor text ссылок, указывающих на переводимый документ.
    4. Anchor text ссылок также переводится на целевые языки.
    5. Переведенные anchor text индексируются.
    6. Оригинальные и переведенные документы индексируются.
    7. После завершения перевода и индексации система получает запрос на первом языке (одном из целевых).
    8. Выполняется поиск по: (а) оригинальным документам на первом языке, (б) переведенным документам на первом языке и (в) переведенным anchor text на первом языке.

    Claims 2 и 3 (Зависимые): Уточняют дополнительные источники контекста для context-specific translation model. Контекст может также зависеть от текста других страниц на том же веб-сайте, текста страниц, на которые ссылается документ (исходящие ссылки), или текста страниц, которые ссылаются на документ (входящие ссылки), как прямо, так и косвенно.

    Claim 4 (Зависимый): Уточняет процесс перевода самого anchor text. Для перевода анкора в качестве контекста используется либо веб-страница, на которую он указывает (цель ссылки), либо веб-страница, на которой он расположен (источник ссылки), либо и то, и другое.

    Где и как применяется

    Изобретение является инфраструктурным и затрагивает в основном этапы сбора и обработки данных.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе система собирает документы, идентифицирует ссылки и извлекает anchor text. Строится граф ссылок и структура сайта, необходимые для последующего анализа контекста.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Здесь происходит офлайн-обработка:

    1. Анализ контекста: Система определяет контекст для каждого документа на основе его окружения (сайт, входящие/исходящие ссылки, anchor text).
    2. Машинный перевод: Translation Engine выполняет перевод документов и анкорных текстов, используя context-specific translation model.
    3. Индексирование переводов: Переведенные версии сохраняются и индексируются в соответствующих языковых индексах.

    RANKING – Ранжирование (Retrieval)
    Во время выполнения запроса система обращается к уже подготовленному индексу. Если запрос на языке А, система извлекает кандидатов из индекса языка А, который включает документы и анкоры, переведенные с других языков.

    Входные данные:

    • Сырой контент документов (веб-страниц).
    • Граф ссылок, включая структуру сайта и внешние ссылки.
    • Anchor text ссылок.

    Выходные данные:

    • Переведенные версии документов на target languages.
    • Переведенные версии anchor text.
    • Обновленные индексы, включающие эти переводы.

    На что влияет

    • Конкретные типы контента: Влияет на все типы индексируемого текстового контента, особенно на веб-страницы, где доступен богатый ссылочный контекст.
    • Специфические запросы: Наибольшее влияние оказывается на запросы, по которым основная масса релевантной информации существует на языке, отличном от языка пользователя.
    • Географические и языковые аспекты: Является основой для международного поиска, позволяя контенту ранжироваться глобально, независимо от языка оригинала.

    Когда применяется

    Временные рамки: Процессы перевода и индексирования происходят непрерывно в офлайн-режиме по мере сканирования и обновления контента (во время фазы INDEXING). Это делается для обеспечения быстрого ответа во время поиска.

    Условия применения: Механизм поиска по переведенным данным активируется при обработке запросов, для которых в индексе существуют релевантные переведенные документы или анкоры.

    Пошаговый алгоритм

    Процесс А: Кросс-языковое индексирование (Офлайн)

    1. Сбор данных и анализ связей: Система получает группу документов и идентифицирует гиперссылки и связанный с ними anchor text.
    2. Определение контекста документа: Для каждого документа D определяется контекст для перевода. Он обязательно включает anchor text входящих ссылок. Дополнительно может включать контент других страниц того же сайта, контент ссылающихся страниц или контент страниц, на которые ссылается D.
    3. Контекстно-зависимый перевод документа: Документ D переводится на целевые языки {L1..Ln}. Для перевода используется context-specific translation model, которая опирается на контекст из шага 2 для повышения точности.
    4. Определение контекста анкора: Для каждого анкора A определяется контекст (например, страница-источник и/или целевая страница).
    5. Перевод анкорного текста: Anchor text A переводится на целевые языки {L1..Ln} с использованием контекста из шага 4.
    6. Индексирование: Оригинальный документ D, все его переведенные версии и все переведенные версии анкоров A индексируются в соответствующих языковых индексах.

    Процесс Б: Обработка запроса (Онлайн)

    1. Получение запроса: Система получает запрос Q на языке L.
    2. Поиск в индексе: Система выполняет поиск по индексу, соответствующему языку L.
    3. Извлечение результатов: Идентифицируются совпадения среди документов, изначально написанных на L, документов, переведенных на L, и anchor text, переведенных на L.
    4. Возврат результатов: Релевантные документы возвращаются пользователю.

    Какие данные и как использует

    Данные на входе

    Система использует следующие факторы для обеспечения контекстного перевода и кросс-языкового поиска:

    • Контентные факторы: Полный текст документа, который подлежит переводу.
    • Ссылочные факторы: Критически важные данные.
      • Анкорный текст (Anchor text): Используется как основной источник контекста для улучшения перевода целевого документа и как самостоятельный индексируемый элемент.
      • Входящие ссылки: Страницы, ссылающиеся на документ, могут использоваться как источник контекста.
      • Исходящие ссылки: Страницы, на которые ссылается документ, также могут использоваться как контекст.
    • Структурные факторы (Контекст сайта): Текст других страниц на том же сайте используется для формирования контекста (общая тематика, грамматика, синтаксис), помогающего в переводе.

    Какие метрики используются и как они считаются

    Патент не описывает конкретных метрик ранжирования, а фокусируется на механизмах перевода и индексирования.

    • Точность перевода (Translation Accuracy): Основная цель использования context-specific translation model. Патент утверждает, что точность машинного перевода выше при работе с большими объемами текста (документами) с контекстом, чем с короткими (запросами) без контекста.
    • Статистические методы и Валидация: В описании упоминается возможность использования статистических моделей (например, скрытых Марковских моделей, Hidden Markov Models), построенных на корпусе текстов на целевом языке (например, из многоязычных документов, ссылающихся на страницу). Эти модели помогают выбирать между вариантами перевода: предпочтение отдается комбинациям слов, которые чаще встречаются в корпусе целевого языка.

    Выводы

    1. Приоритет офлайн-перевода документов: Google предпочитает заранее переводить и индексировать документы (Document Translation Approach), а не переводить запросы на лету. Это обеспечивает большую точность перевода за счет доступа к полному контексту.
    2. Анкорный текст как ключ к точному переводу: Anchor text является центральным элементом изобретения. Он используется не просто как сигнал релевантности, а как обязательный контекстуальный сигнал для context-specific translation model. Качество анкоров напрямую влияет на точность перевода целевой страницы.
    3. Двойное использование анкоров: Anchor text сам по себе переводится и индексируется. Это усиливает его роль в поиске, позволяя документу быть найденным по переводу его анкоров на других языках.
    4. Важность структуры сайта и ссылочного окружения: Контекст для перевода не ограничивается анкорами. Другие страницы на том же сайте, а также страницы, связанные входящими и исходящими ссылками, помогают системе точнее интерпретировать и переводить контент. Тематическая целостность сайта улучшает качество перевода.
    5. Ценность кросс-языковых ссылок: Патент подчеркивает ценность ссылок с сайтов на других языках. Анкорный текст на языке А, указывающий на страницу на языке Б, предоставляет ценную лингвистическую информацию для кросс-языкового понимания и перевода.

    Практика

    Best practices (это мы делаем)

    • Оптимизация анкорного текста (внутреннего и внешнего): Используйте описательный, контекстуально релевантный и грамматически правильный anchor text. Поскольку он используется для улучшения перевода и индексируется сам по себе, качественные анкоры напрямую влияют на кросс-языковое понимание вашего контента и его видимость в международном поиске.
    • Стратегический международный линкбилдинг: Активно получайте релевантные ссылки с сайтов на ваших целевых языках. Anchor text этих ссылок предоставляет Google ценный лингвистический контекст для перевода вашей страницы на язык источника ссылки. Например, ссылка с немецкого сайта с немецким анкором помогает Google лучше перевести и ранжировать вашу страницу для немецких пользователей.
    • Обеспечение тематической целостности и четкой структуры сайта: Поддерживайте логичную архитектуру сайта и четкую внутреннюю перелинковку. Патент указывает, что другие страницы на сайте используются как контекст для перевода отдельной страницы. Сильный и последовательный контекст сайта улучшает качество машинного перевода.
    • Оптимизация контента для переводимости (Translatability): Пишите ясно, используйте консистентную терминологию и избегайте двусмысленностей, которые могут быть неправильно интерпретированы системами машинного перевода.

    Worst practices (это делать не надо)

    • Использование генерических или вводящих в заблуждение анкоров: Анкоры типа «нажмите здесь», нерелевантные ключевые слова или спамные анкоры предоставляют плохой контекст для context-specific translation model, что может ухудшить качество перевода страницы и снизить ее релевантность в кросс-языковом поиске.
    • Смешивание несвязанных тематик на сайте: Создание сайтов с разрозненным контентом ослабляет контекст сайта. Это может привести к ошибкам в машинном переводе, так как системе сложнее определить правильную терминологию и тематику.
    • Игнорирование международного ссылочного профиля: Фокус только на ссылках из своего региона может ограничить глобальную видимость. Отсутствие кросс-языковых ссылок лишает систему контекста, необходимого для качественного перевода.

    Стратегическое значение

    Патент подтверждает, что Google рассматривает веб как единое информационное пространство, независимо от языка. Для международного SEO стратегическое значение заключается в понимании того, что сигналы, традиционно используемые для ранжирования (в первую очередь anchor text и структура сайта), также играют критическую роль в том, как контент интерпретируется и переводится для разных языковых рынков. Anchor text является мостом, который позволяет Google переносить контекст с одного языка на другой.

    Практические примеры

    Сценарий: Улучшение видимости англоязычной статьи в немецком поиске

    1. Исходная ситуация: Компания опубликовала техническую статью на английском языке о «renewable energy solutions». Она плохо ранжируется в Германии.
    2. Действие (Стратегия линкбилдинга): Компания получает ссылку с авторитетного немецкого энергетического портала. Ссылка размещена с анкором «Leitfaden für erneuerbare Energiequellen» (Руководство по возобновляемым источникам энергии).
    3. Обработка Google (согласно патенту):
      • При переводе английской статьи на немецкий, Google использует этот немецкий anchor text как ключевой контекст для context-specific translation model.
      • Это помогает системе точно перевести терминологию и понять суть статьи в контексте немецкого языка.
      • Немецкий анкор также индексируется и связывается со статьей.
    4. Результат: Вероятность того, что переведенная версия английской статьи появится в выдаче по запросу «Leitfaden für erneuerbare Energiequellen» в Германии, значительно возрастает, так как перевод точен, а релевантные анкоры на немецком также проиндексированы.

    Вопросы и ответы

    Какой из методов кросс-языкового поиска предпочитает Google согласно этому патенту: перевод запроса или перевод документов?

    Патент явно отдает предпочтение предварительному (офлайн) переводу документов (Document Translation Approach). Обоснование заключается в том, что машинный перевод работает точнее, когда ему предоставляется больший объем текста (документ), так как это дает больше контекста для разрешения неоднозначностей по сравнению с коротким текстом запроса.

    Какова роль анкорного текста в этом патенте?

    Анкорный текст играет центральную роль и выполняет две функции. Во-первых, он используется как ключевой компонент context-specific translation model для улучшения точности перевода документа, на который он указывает. Во-вторых, сам анкорный текст переводится и индексируется, служа сигналом релевантности для поиска на целевом языке.

    Влияет ли структура моего сайта на то, как Google переводит его страницы?

    Да, напрямую. Патент указывает (Claim 2), что текст других страниц на том же веб-сайте используется для формирования контекста при переводе отдельной страницы. Четкая структура, тематическая целостность и сильные внутренние связи помогают установить правильный контекст и повысить точность перевода.

    Имеют ли значение ссылки с сайтов на других языках?

    Да, они критически важны для международного SEO. Ссылка с сайта на языке А, указывающая на ваш контент на языке Б, предоставляет ценный кросс-языковой контекст. Anchor text этой ссылки помогает Google понять, о чем ваш контент на языке А, и улучшает перевод вашего контента на этот язык.

    Как Google определяет контекст для перевода?

    Система использует context-specific translation model. Контекст определяется на основе нескольких источников: anchor text входящих ссылок (обязательный фактор согласно Claim 1), других страниц на том же сайте, контента страниц, которые ссылаются на документ, и контента страниц, на которые ссылается документ.

    Означает ли это, что мне не нужно создавать локализованные версии сайта, если Google все равно переводит мой контент?

    Нет. Хотя Google и переводит контент для индексации, профессиональная локализация обычно обеспечивает лучшее качество, релевантность и пользовательский опыт. Наличие качественных локализованных версий с правильной реализацией hreflang остается лучшей практикой. Этот патент объясняет, как Google может ранжировать ваш контент, даже если локализация отсутствует.

    Что такое «контекст» при переводе самого анкорного текста?

    Когда система переводит anchor text, она также нуждается в контексте (Claim 4). Патент указывает, что контекстом для перевода анкора может служить либо страница, на которой этот анкор расположен (источник ссылки), либо страница, на которую он указывает (цель ссылки), либо и то, и другое.

    Если я получу много спамных ссылок с нерелевантным анкорным текстом, может ли это испортить перевод моей страницы?

    Теоретически, да. Поскольку context-specific translation model использует anchor text как контекст, вводящий в заблуждение или нерелевантный анкорный текст может внести шум в модель и потенциально снизить точность автоматического перевода. Это подчеркивает важность мониторинга и отклонения спамных ссылок.

    Как этот патент связан с современными технологиями перевода, такими как Neural Machine Translation (NMT)?

    Патент описывает инфраструктуру и источники данных, а не конкретный алгоритм перевода. Хотя алгоритмы эволюционировали от статистических моделей (упомянутых в патенте) к NMT, потребность в высококачественных контекстуальных сигналах (таких как anchor text и контент сайта) остается высокой для обучения и точной настройки этих современных моделей.

    Влияет ли этот патент на использование атрибута hreflang?

    В патенте нет информации об атрибуте hreflang. Hreflang используется для указания на существующие локализованные версии. Описанный в патенте механизм, скорее всего, используется, когда hreflang отсутствует или для языков, которые не покрыты локализацией, позволяя Google самостоятельно создавать и индексировать переведенные версии.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.