Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует кросс-языковой поиск для добавления локальных перспектив в международные новости

    TRANSLATED NEWS (Переводные новости)
    • US9569429B2
    • Google LLC
    • 2017-02-14
    • 2012-02-03
    2012 Индексация Мультиязычность Патенты Google

    Google автоматически определяет географические регионы, связанные с новостным событием. Если язык региона отличается от языка пользователя, система переводит ключевые слова сюжета, ищет релевантные локальные статьи и интегрирует их в выдачу через машинный перевод, предоставляя локальную точку зрения на международные события.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности языкового охвата в новостных агрегаторах. Традиционные сервисы кластеризуют новости по языкам, из-за чего пользователи упускают локальную перспективу (local perspective) событий, происходящих в регионах, где доминируют другие языки. Например, пользователь в США, читающий о событии во Франции, может не увидеть освещение этого события французскими СМИ. Изобретение автоматизирует поиск и представление этих локальных точек зрения.

    Что запатентовано

    Запатентована система для автоматического кросс-языкового поиска (Cross-Lingual Information Retrieval — CLIR) и дополнения кластеров новостных статей (cluster of news articles). Система определяет географические регионы (geographical regions), связанные с новостным событием. Если язык региона отличается от языка презентации пользователя (presentation language), система переводит ключевые слова кластера, ищет статьи на локальном языке и интегрирует лучшие из них в основной новостной результат.

    Как это работает

    Ключевой механизм работает следующим образом:

    • Кластеризация и Характеризация: Новостной сервис группирует статьи и определяет характеристики кластера: ключевые слова (terms) и релевантные географические регионы (region data).
    • Триггер: Система проверяет, отличаются ли языки релевантных регионов от presentation language.
    • Кросс-языковой поиск (CLIR): Если отличаются, ключевые слова переводятся на языки этих регионов с помощью Translation Service.
    • Вторичный поиск: Генерируются запросы для поиска местных новостных кластеров (second clusters) с использованием переведенных ключевых слов.
    • Отбор и Интеграция: Выбираются лучшие статьи из наиболее авторитетного локального кластера (highest-scoring cluster).
    • Дедупликация: Система проверяет, не дублирует ли найденная статья контент, уже присутствующий на языке презентации.
    • Представление: Отобранные статьи добавляются в новостной результат, часто с переведенным заголовком и ссылкой на машинный перевод.

    Актуальность для SEO

    Высокая. Предоставление разнообразных точек зрения и преодоление языковых барьеров остаются фундаментальными задачами для Google, особенно с развитием технологий кросс-языкового понимания (например, MUM). Описанный механизм поиска локальных перспектив остается крайне актуальным для Google News и блоков Top Stories в 2025 году.

    Важность для SEO

    Влияние на SEO значительное (65/100), но специфичное для издателей новостей (News SEO). Патент описывает механизм, который значительно расширяет потенциальный охват для локальных издателей: их контент может быть показан международной аудитории без необходимости перевода со стороны издателя. Это подчеркивает стратегическую важность уникального локального репортажа и построения авторитетности в своем регионе и на своем языке.

    Детальный разбор

    Термины и определения

    Cluster of news articles (Кластер новостных статей)
    Набор электронно опубликованных новостных статей, сгруппированных новостным сервисом, так как они относятся к одному и тому же событию. Кластеры обычно моноязычны.
    Edition (Редакция)
    Версия новостного сервиса, ориентированная на определенный географический регион и язык (например, Google News France).
    Geographical Region (Географический регион)
    Регион (страна, город и т.д.), релевантный новостному событию (место события или происхождение участников).
    Highest-scoring cluster (Кластер с наивысшей оценкой)
    Вторичный кластер на иностранном языке, получивший наивысшую оценку релевантности/качества по результатам кросс-языкового поиска.
    News Service (Новостной сервис)
    Система, которая сканирует, кластеризует и представляет новости (например, Google News).
    Presentation Language (Язык презентации)
    Язык, на котором новостной результат представляется пользователю и на котором написаны статьи в основном (первом) кластере.
    Region Data (Данные о регионе)
    Данные, характеризующие кластер и идентифицирующие релевантные Geographical Regions.
    Second Cluster (Вторичный кластер)
    Кластер новостных статей на языке региона, найденный в результате поиска по переведенным терминам.
    Terms / Keywords (Термины / Ключевые слова)
    Слова на Presentation Language, характеризующие кластер. Используются как основа для перевода.
    Translation Service (Сервис перевода)
    Сервис, предоставляющий машинный перевод (например, Google Translate).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс кросс-языкового дополнения новостного кластера в ответ на запрос.

    1. Система получает запрос на новостные статьи на presentation language.
    2. Идентифицируется соответствующий кластер (particular cluster) на этом языке.
    3. Получаются данные, характеризующие кластер: terms (ключевые слова) и region data (идентифицирующие географический регион).
    4. Определяются языки (region languages), соответствующие этому региону.
    5. Проверяется условие: отличается ли язык региона от presentation language.
    6. Если ДА:
      • Генерируются translated terms путем перевода ключевых слов на язык региона.
      • Система получает новостные статьи на языке региона в ответ на поисковый запрос, созданный из translated terms.

    Claim 2 (Зависимый от 1): Уточняет, что поиск происходит по кластерам.

    В ответ на поисковый запрос система получает новостные результаты, каждый из которых идентифицирует respective second cluster (второй кластер) статей на иностранном языке. Статьи выбираются из этих результатов.

    Claim 6 (Зависимый от 2): Описывает механизм выбора лучших статей.

    Система идентифицирует highest-scoring cluster среди вторых кластеров на основе присвоенных им оценок (scores). Статьи выбираются именно из этого лучшего кластера.

    Claim 7 (Зависимый от 6): Добавляет контроль качества.

    Выбор происходит при условии, что оценка highest-scoring cluster превышает заданное пороговое значение (specified threshold value).

    Claim 8 (Зависимый от 1): Описывает результат работы.

    Генерируется новостной результат (news result) для основного кластера, который включает данные, идентифицирующие полученные иностранные статьи.

    Claims 11, 12, 13 (Зависимые от 8): Детализируют формат представления.

    Данные могут включать ссылку на машинный перевод статьи (Claim 11), ссылку, которая инициирует запрос к translation service для перевода по клику (Claim 12), или перевод заголовка (translation of a title) статьи (Claim 13).

    Claim 14 (Зависимый от 1): Описывает критически важный механизм дедупликации.

    1. Система получает машинный перевод найденной иностранной статьи на presentation language.
    2. Система определяет, что этот перевод недостаточно совпадает (does not sufficiently match) ни с одной статьей, уже находящейся в основном кластере. Это гарантирует добавление уникальной перспективы, а не дубликата.

    Где и как применяется

    Изобретение применяется в рамках специализированного новостного поиска (например, Google News) и затрагивает несколько этапов.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит подготовка данных. Новостной сервис сканирует статьи на разных языках, выполняет кластеризацию (clustering) по языкам и событиям. Критически важно извлечение признаков для характеристики кластеров: определение ключевых слов (terms) и идентификация связанных географических регионов (region data).

    METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
    Это основной этап применения патента. При генерации новостной презентации (в ответ на запрос или для категории новостей) система анализирует топовые кластеры и запускает процесс кросс-языковой аугментации:

    1. Проверка триггера: Определение языкового несоответствия между регионом события и presentation language.
    2. Вторичный поиск (Метапоиск): Выполнение поиска на других языках с использованием переведенных терминов. Это метапоиск по другим языковым индексам или региональным редакциям (Editions) новостного сервиса.
    3. Смешивание (Blending) и Переранжирование: Отбор лучших иностранных результатов (из highest-scoring cluster) и их интеграция в финальный новостной блок после дедупликации.

    Входные данные:

    • Данные, характеризующие основной кластер (Terms, Region Data).
    • Presentation language пользователя.
    • Данные о соответствии регионов и языков.
    • Индексы новостей на разных языках.
    • Доступ к Translation Service.

    Выходные данные:

    • Дополненный News Result, включающий ссылки на выбранные статьи на иностранных языках с опциями перевода.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на новостные статьи, обрабатываемые News Service (Google News, Top Stories).
    • Специфические запросы: Наибольшее влияние на международные новости, где локальная перспектива важна (политика, спорт, стихийные бедствия, крупные международные события).
    • Языковые и географические ограничения: Патент напрямую направлен на преодоление этих ограничений, соединяя контент из разных языковых и географических сегментов.

    Когда применяется

    Алгоритм применяется при выполнении строго определенных условий:

    • Триггер активации: Когда новостной кластер связан с географическим регионом, и язык этого региона отличается от presentation language.
    • Условия применения (Валидация): Когда вторичный поиск возвращает результаты (иностранные кластеры), чья оценка (score) превышает specified threshold value (Claim 7).
    • Исключения (Дедупликация): Алгоритм не добавляет результат, если найденная иностранная статья дублирует контент, уже присутствующий в основном кластере (Claim 14).

    Пошаговый алгоритм

    Процесс аугментации новостного кластера:

    1. Получение данных кластера: Система получает данные, характеризующие кластер на presentation language (ключевые слова и регионы).
    2. Идентификация языков регионов: Определяются языки, соответствующие этим географическим регионам.
    3. Проверка языкового несоответствия: Система проверяет, отличается ли какой-либо из языков регионов от presentation language.
      • Если НЕТ: Процесс прекращается.
      • Если ДА: Перейти к шагу 4.
    4. Перевод ключевых слов: Система переводит ключевые слова кластера на соответствующие иностранные языки с помощью Translation Service.
    5. Генерация и выполнение вторичных запросов: Для каждого иностранного языка генерируется поисковый запрос на основе переведенных слов. Запрос выполняется (например, в соответствующей языковой Edition), возвращая second clusters.
    6. Отбор кластеров: Система идентифицирует highest-scoring cluster среди полученных результатов. Проверяется, превышает ли его оценка пороговое значение.
    7. Отбор статей: Из лучшего кластера выбираются одна или несколько новостных статей.
    8. Дедупликация (Валидация уникальности): Система получает машинный перевод выбранных статей на presentation language и сравнивает заголовки/сниппеты с статьями в основном кластере. Если найдено существенное совпадение (substantially similar) (Claim 14/15), статья исключается.
    9. Генерация финального результата: Система генерирует итоговый News Result, включающий выбранные иностранные статьи (например, в виде переведенного заголовка и ссылки на перевод).

    Какие данные и как использует

    Данные на входе

    • Географические факторы: Критически важные данные. Используется Region Data, связанная с кластером (местоположение события, происхождение участников). Также используются данные о соответствии регионов и языков.
    • Контентные факторы: Ключевые слова (Terms), характеризующие кластер, используются для перевода и вторичного поиска. Заголовки (titles) и сниппеты текста (snippet of text) используются в процессе дедупликации (Claim 15).
    • Временные факторы: Диапазон дат (date range) публикации статей в кластере может использоваться для ограничения вторичного поиска по времени (Claim 16).

    Какие метрики используются и как они считаются

    • Scores assigned to clusters (Оценки кластеров): Метрики, присваиваемые новостным сервисом кластерам в ответ на поисковый запрос. Используются для идентификации highest-scoring cluster.
    • Specified threshold value (Пороговое значение): Минимальная оценка, которую должен иметь иностранный кластер, чтобы его статьи были включены (Claim 7).
    • Similarity match (Совпадение/Сходство): Метрика для дедупликации. Определяется на основе того, являются ли заголовок и сниппет переведенной статьи существенно похожими (substantially similar) на статьи в основном кластере (Claim 15).
    • Minimum size for clusters (Минимальный размер кластера): Опциональный параметр для вторичного поиска (Claim 16), гарантирующий значимость найденных новостей.

    Выводы

    1. Кросс-языковой поиск для разнообразия перспектив: Google активно использует автоматический кросс-языковой поиск (CLIR) в новостях для предоставления пользователю локального взгляда на события, независимо от языка источника.
    2. Географическая привязка как ключевой триггер: Идентификация географических регионов (Region Data), связанных с событием, является триггером для запуска всего механизма. Система стремится найти контент именно из этих регионов.
    3. Использование существующей инфраструктуры кластеризации: Система ищет не отдельные статьи, а уже сформированные кластеры (second clusters) на других языках и выбирает лучший из них (highest-scoring cluster). Это указывает на то, что оценка качества новостей происходит независимо для каждого языка/региона.
    4. Критичность дедупликации контента: Механизм дедупликации (Claim 14) гарантирует, что добавляемый контент предлагает уникальную ценность, а не является переводом статьи, уже доступной пользователю (например, от международного агентства).
    5. Расширение охвата для локальных издателей: Механизм позволяет авторитетным локальным издателям получить международную видимость без необходимости самостоятельно переводить свой контент.

    Практика

    Best practices (это мы делаем)

    Данный патент имеет прямое отношение к стратегиям для новостных издателей (News SEO).

    • Фокус на уникальном локальном репортаже: Создавайте контент, который предлагает уникальную локальную перспективу. Такой контент с большей вероятностью пройдет фильтр дедупликации (Claim 14) и будет выбран системой для показа международной аудитории как ценное дополнение.
    • Построение авторитетности в своем регионе/языке: Система выбирает статьи из highest-scoring cluster на локальном языке. Это означает, что издатель должен быть лидером в своем локальном новостном пространстве. Работа над общим качеством сайта и авторитетностью критически важна.
    • Четкая географическая релевантность: Убедитесь, что в статьях четко указана географическая привязка событий. Упоминание конкретных городов и локальных сущностей помогает системе корректно определить Region Data, что увеличивает шансы на активацию кросс-языкового поиска.
    • Ясность заголовков и текста: Поскольку заголовки автоматически переводятся (Claim 13) и используются для дедупликации (Claim 15), они должны быть ясными и точными. Весь текст должен быть написан грамматически правильно, чтобы обеспечить качество машинного перевода.

    Worst practices (это делать не надо)

    • Публикация авто-переводов или синдикация международных новостей: Если издатель публикует прямой перевод контента международных агентств без добавления локального контекста, этот контент будет отфильтрован механизмом дедупликации (Claim 14), так как оригинал уже может присутствовать в кластере пользователя.
    • Игнорирование локальных событий: Если локальный издатель фокусируется только на глобальной повестке, он упускает возможность быть выбранным в качестве авторитетного локального источника для международной аудитории.
    • Сложный язык и идиомы: Использование формулировок, которые плохо поддаются машинному переводу, может снизить эффективность механизма как на этапе поиска (перевод ключевых слов), так и на этапе представления пользователю.

    Стратегическое значение

    Патент подтверждает стратегию Google по устранению языковых барьеров и стремление к разнообразию источников в новостной выдаче. Для SEO-специалистов, работающих с издателями, это подчеркивает ценность инвестиций в качественную локальную журналистику как способ достижения глобальной видимости. Уникальный контент, созданный «на месте событий», получает дополнительный канал дистрибуции через механизмы кросс-языкового поиска Google.

    Практические примеры

    Сценарий: Получение международного трафика локальным издателем

    1. Событие: В Бангкоке (Таиланд) происходит крупное наводнение.
    2. Действия издателя (Тайский язык): Авторитетное локальное издание в Бангкоке публикует эксклюзивный репортаж о ситуации. Статья формирует highest-scoring cluster в тайской редакции Google News.
    3. Обработка запроса (Английский язык): Пользователь в США ищет новости о наводнении. Google News формирует кластер на английском (Presentation Language).
    4. Активация механизма: Система определяет, что событие происходит в Таиланде (регион), а язык региона (тайский) отличается от английского.
    5. Кросс-языковой поиск: Система переводит ключевые слова («наводнение Бангкок») на тайский и находит кластер с репортажем бангкокского издания.
    6. Дедупликация: Система проверяет, что содержание репортажа уникально и не является переводом статьи Reuters, уже присутствующей в английском кластере.
    7. Результат: Пользователь в США видит в своем новостном блоке ссылку: «Из Таиланда: [Переведенный заголовок репортажа] (Перевести)». Локальное издание получает международный трафик.

    Вопросы и ответы

    Какое значение этот патент имеет для обычных сайтов, не являющихся новостными издателями?

    Прямое влияние минимально, так как патент специфичен для архитектуры News Service (Google News или Top Stories), который обрабатывает clusters of news articles. Однако он демонстрирует возможности Google в области кросс-языкового информационного поиска (CLIR) и важность географических сигналов, что является частью более широкой стратегии Google.

    Как система определяет, какие географические регионы связаны с новостным событием?

    Патент не детализирует этот механизм, но указывает, что Region Data является частью данных, характеризующих кластер. На практике это определяется путем анализа текста статей в кластере, извлечения географических сущностей (Named Entity Recognition — NER) и определения их роли в событии (местоположение события, происхождение участников).

    Как система выбирает, какие именно иностранные статьи показать?

    Система не выбирает статьи случайным образом. Она ищет уже сформированные кластеры на иностранном языке, используя переведенные ключевые слова. Затем она выбирает кластер с наивысшей оценкой (highest-scoring cluster), который превышает порог качества/релевантности. Из этого лучшего кластера выбираются топовые статьи.

    Что такое механизм дедупликации (Claim 14) и зачем он нужен?

    Это процесс проверки уникальности найденной иностранной статьи. Система переводит ее на язык пользователя и сравнивает со статьями, уже присутствующими в выдаче. Если статья является дубликатом (например, переводом статьи международного агентства), она не включается. Это гарантирует, что пользователь получает новую перспективу, а не повтор информации.

    Должен ли я как издатель переводить свои статьи, чтобы получить международный трафик?

    Нет, основное преимущество этого механизма в том, что он снимает эту необходимость с издателя. Google автоматически находит ваш контент на языке оригинала и предоставляет пользователю инструменты для его перевода (Translation Service). Лучше сосредоточиться на создании качественного контента на вашем основном языке.

    Как я могу оптимизировать свои статьи для этого механизма?

    Ключевая стратегия — это создание уникальных локальных репортажей и построение авторитетности в вашем регионе. Убедитесь, что географическая привязка событий в статьях четко указана. Чем авторитетнее ваш ресурс в локальной выдаче, тем выше вероятность, что ваш кластер будет выбран как highest-scoring cluster.

    Что такое «Edition» в контексте этого патента?

    Edition – это региональная версия новостного сервиса (например, Google News France). Патент (Claim 5 и 6) указывает, что при поиске иностранных статей система может целенаправленно выполнять поиск в соответствующей региональной Edition, чтобы найти источники, релевантные для местных жителей этого региона.

    Как система выбирает ключевые слова для перевода?

    Патент указывает, что используются термины (Terms), характеризующие кластер. В описании патента упоминается, что система может выбирать ключевые слова с наивысшим рангом, которые новостной сервис определил как наиболее репрезентативные для данного новостного события.

    Может ли этот механизм выбрать статьи из нескольких разных стран?

    Да. Если событие затрагивает несколько регионов с разными языками (например, международный саммит), система может выполнить кросс-языковой поиск для каждого языка и включить лучшие статьи из каждого релевантного региона, если они соответствуют критериям качества и уникальности.

    Что важнее для этого механизма: качество сайта или уникальность статьи?

    Оба фактора критичны. Качество сайта и его авторитетность влияют на то, будет ли его контент формировать highest-scoring cluster в локальной выдаче. Уникальность статьи необходима для того, чтобы пройти проверку на дедупликацию (Claim 14) и быть включенной в международную выдачу.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.