SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google кластеризует документы на разных языках для улучшения поиска и выявления переводов

MULTI-LANGUAGE DOCUMENT CLUSTERING (Мультиязычная кластеризация документов)
  • US8639698B1
  • Google LLC
  • 2012-07-16
  • 2014-01-28
  • Мультиязычность
  • Индексация
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует метод для объединения документов на разных языках в общие тематические кластеры. Все документы переводятся на единый базовый язык, затем анализируются ключевые слова, и на этой основе формируются кластеры. Это позволяет находить релевантные результаты независимо от языка запроса и определять, являются ли два документа переводом друг друга.

Описание

Какую проблему решает

Патент решает проблему ограниченности традиционных методов кластеризации документов, которые обычно функционируют в рамках одного языка, опираясь на ключевые слова этого языка. Это не позволяет эффективно группировать тематически связанные документы, написанные на разных языках, и ограничивает результаты поиска преимущественно языком запроса, исключая релевантный контент на других языках.

Что запатентовано

Запатентована система и метод для мультиязычной кластеризации документов. Суть изобретения заключается в нормализации коллекции документов путем перевода их всех на единый «базовый язык» (Base Language). После перевода извлекаются признаки (ключевые слова), которым присваиваются языконезависимые индексы. На основе этих индексов документы группируются в общие кластеры, независимо от их исходного языка.

Как это работает

Система работает следующим образом:

  • Сбор данных: Идентифицируется коллекция документов на разных языках.
  • Нормализация: Все документы, язык которых отличается от базового, переводятся (например, с помощью машинного перевода) на базовый язык.
  • Извлечение признаков: Из всех документов (теперь на базовом языке) извлекаются ключевые слова.
  • Индексация: Ключевым словам присваивается Language-Agnostic Keyword Index (например, числовые идентификаторы).
  • Кластеризация: Документы группируются в кластеры на основе сходства их индексов.
  • Выявление переводов: Внутри кластера анализируется близость (Distance) между документами на разных языках. Очень близкие документы идентифицируются как переводы друг друга (параллельные тексты).

Актуальность для SEO

Высокая. Кросс-языковой поиск (Cross-Language Information Retrieval, CLIR) и тематическая организация глобального индекса являются фундаментальными задачами для Google. Методы, описанные в патенте, обеспечивают механизм для понимания контента вне зависимости от языка. Учитывая значительные улучшения в машинном переводе и моделях типа MUM, актуальность и эффективность этой технологии только возрастает.

Важность для SEO

Патент имеет значительное влияние (75/100), особенно для международного SEO. Он описывает конкретный механизм, как Google может тематически связывать контент через языковые барьеры. Это критически важно для понимания того, как могут валидироваться сигналы hreflang и как авторитетный контент на одном языке может быть использован для ответа на запросы на другом языке (CLIR).

Детальный разбор

Термины и определения

Base Language (Базовый язык)
Единый язык (например, английский), выбранный системой, на который переводятся все документы в коллекции для целей нормализации и кластеризации.
Distance Function (Функция расстояния)
Метрика, используемая для определения степени сходства (или различия) между двумя документами в кластере. Может учитывать количество общих ключевых слов, их частотность, расположение и метаданные.
Document Cluster (Кластер документов)
Группа документов, объединенных на основе общих признаков. В контексте патента кластер содержит тематически связанные документы на разных языках.
Duplicate Document Determination Module (Модуль определения дубликатов документов)
Компонент системы, который использует функцию расстояния для анализа близости документов на разных языках внутри кластера. Цель — определить, являются ли они переводами друг друга.
Foreign Language Documents (Документы на иностранном языке)
Документы в коллекции, язык которых отличается от базового языка.
Language-Agnostic Keyword Index (Языконезависимый индекс ключевых слов)
Система индексации (часто числовая), присваиваемая ключевым словам после их перевода на базовый язык. Позволяет сравнивать документы независимо от их исходного языка.
Parallel Text (Параллельные тексты)
Документы на разных языках, идентифицированные системой как прямые переводы друг друга. Могут использоваться для обучения систем машинного перевода.
Predetermined Threshold (Предопределенное пороговое значение)
Минимальный уровень сходства (или максимальное расстояние), необходимый для того, чтобы система считала два документа переводом друг друга или достаточно релевантными для CLIR.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько ключевых утверждений, описывающих как процесс генерации кластеров, так и способы их использования.

Claim 4 (Зависимый, но описывает ядро изобретения – генерацию кластеров): Детализирует процесс создания мультиязычного кластера (используемого в других Claims).

  1. Идентификация коллекции документов, включающей документы на базовом и иностранных языках.
  2. Перевод документов на иностранных языках на базовый язык.
  3. Определение ключевых слов во всех документах (оригинальных и переведенных).
  4. Кластеризация документов на основе определенных ключевых слов, в результате чего формируются общие кластеры, содержащие документы на разных языках.
  5. Сохранение кластеров в базе данных.

Claim 2 (Независимый, описывает применение для Поиска - CLIR): Описывает метод использования созданных кластеров для улучшения результатов поиска.

  1. Получение поискового запроса на первом языке.
  2. Идентификация документов на первом языке, релевантных запросу, и соответствующих кластеров.
  3. Оценка кластера для выявления второго документа на втором языке, который находится в пределах предопределенного порога сходства (Predetermined Threshold) с первым документом (метрика Distance определяет уровень сходства).
  4. Предоставление списка результатов поиска, включающего документы как на первом, так и на втором языках (если порог сходства достигнут).

Claim 1 (Независимый, описывает применение для Перевода): Описывает метод использования кластеров для обработки запросов на перевод.

  1. Получение запроса на перевод первого документа с первого языка на второй.
  2. Идентификация кластера, содержащего первый документ.
  3. Оценка кластера для поиска второго документа на втором языке, который находится в пределах предопределенного порога сходства с первым документом.
  4. Если такой документ найден, он предоставляется пользователю в ответ на запрос о переводе (вместо выполнения машинного перевода на лету).

Где и как применяется

Изобретение затрагивает в первую очередь этап индексирования и оказывает прямое влияние на этап ранжирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе собирается мультиязычная коллекция документов (Document Collection Module).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Происходит вся обработка:

  1. Перевод: Base Language Translation Module переводит все документы на базовый язык.
  2. Извлечение признаков: Document Indexing Module определяет ключевые слова и присваивает Language-Agnostic Keyword Index.
  3. Кластеризация: Clustering Module группирует документы на основе этих индексов.
  4. Анализ дубликатов: Duplicate Document Determination Module выявляет переводы внутри кластеров.

RANKING / RERANKING – Ранжирование и Переранжирование
Созданные кластеры используются для улучшения выдачи. Система может использовать кластеры для реализации кросс-языкового поиска (CLIR), позволяя документу на Языке А ранжироваться по запросу на Языке Б, если они находятся в одном тематическом кластере и удовлетворяют порогу сходства.

METASEARCH – Метапоиск (Сервисы перевода)
Механизм используется для оптимизации сервисов перевода путем предоставления заранее идентифицированных переводов (Claim 1).

Входные данные:

  • Коллекция документов на разных языках.
  • Доступ к механизму перевода (Translation Engine).

Выходные данные:

  • Мультиязычные кластеры документов, сохраненные в базе данных.
  • Идентификация параллельных текстов (переводов).
  • Данные (параллельные тексты) для обучения алгоритмов машинного обучения (Machine Learning Algorithm Engine).

На что влияет

  • Международное SEO: Влияет на все типы контента и запросов на сайтах, ориентированных на несколько языков или регионов. Обеспечивает механизм для понимания связи между языковыми версиями.
  • Специфические запросы (CLIR): Влияет на запросы, для которых высококачественный контент может существовать на языке, отличном от языка запроса.
  • E-commerce: Патент явно упоминает применение к базам данных продуктов электронной коммерции (e-commerce product databases) для кластеризации связанных товаров, даже если их описания на разных языках.

Когда применяется

  • Во время индексирования: Процесс генерации кластеров происходит как часть конвейера индексирования (офлайн или в пакетном режиме).
  • Во время выполнения запроса (Поиск): Кластеры используются, когда система определяет целесообразность кросс-языкового поиска (CLIR) для улучшения качества или полноты выдачи.
  • При обработке запросов на перевод: Система проверяет кластеры на наличие уже существующих переводов документа.

Пошаговый алгоритм

Процесс А: Генерация мультиязычных кластеров (Индексирование)

  1. Сбор данных: Идентификация коллекции документов на разных языках.
  2. Определение базового языка: Выбор единого языка для нормализации.
  3. Перевод и нормализация: Перевод всех не-базовых документов на базовый язык.
  4. Извлечение признаков: Определение ключевых слов для всех документов (теперь на базовом языке). Незначительные слова (stop words) могут быть опущены.
  5. Языконезависимая индексация: Присвоение числовых идентификаторов (Language-Agnostic Keyword Index) ключевым словам.
  6. Кластеризация: Применение алгоритмов кластеризации для группировки документов на основе сходства их индексов.
  7. Ранжирование внутри кластера и выявление переводов: Расчет функции расстояния (Distance Function) между документами в кластере. Документы на разных языках, расстояние между которыми меньше предопределенного порога, помечаются как переводы.
  8. Сохранение и очистка: Сохранение кластеров и индексов. Патент указывает, что временные переводы документов могут быть удалены после завершения индексации.

Процесс Б: Использование кластеров (Поиск/CLIR)

  1. Получение запроса: Получение запроса на Языке 1.
  2. Идентификация документов: Поиск релевантных документов на Языке 1 и определение соответствующих кластеров.
  3. Оценка кластера: Анализ кластера на наличие документов на других языках (Язык 2, Язык 3), которые тематически близки (в пределах порога сходства) к релевантным документам.
  4. Генерация выдачи: Формирование SERP, которая может включать результаты на разных языках или предоставлять пользователю опцию просмотра связанных иноязычных документов.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Основной текст документов является критически важным, так как он используется для машинного перевода и последующего извлечения ключевых слов. Также упоминается, что метаданные (metadata) могут учитываться при индексации и расчете расстояния.

Какие метрики используются и как они считаются

  • Keywords (Ключевые слова): Извлекаются из документов после их перевода на базовый язык.
  • Language-Agnostic Keyword Index: Числовые идентификаторы, присвоенные ключевым словам для обеспечения языковой независимости при сравнении.
  • Distance Function (Функция расстояния): Метрика для расчета сходства между документами. Патент предлагает несколько факторов, которые могут учитываться при её расчете:
    • Количество общих ключевых слов.
    • Частотность терминов (frequency of terms).
    • Нормализация относительно общего количества слов в документе.
    • Местоположение ключевых слов (keyword location).
    • Метаданные (metadata).
  • Predetermined Threshold (Пороговое значение): Конкретное значение функции расстояния. Используется для принятия решения о том, являются ли документы переводами или достаточно ли они релевантны для включения в кросс-язычную выдачу.

Выводы

  1. Тематическая организация индекса важнее лингвистической: Google стремится организовать информацию по темам (кластерам), преодолевая языковые барьеры. Язык документа становится скорее атрибутом, чем основным принципом организации.
  2. Нормализация через «Базовый язык»: Использование единого базового языка и машинного перевода является ключевым механизмом для сравнения релевантности и тематики контента, созданного на разных языках.
  3. Автоматическое выявление переводов (Параллельные тексты): Система активно ищет переводы путем анализа семантической близости внутри кластеров. Это позволяет Google не только находить существующие переводы, но и валидировать пользовательские сигналы, такие как hreflang.
  4. Основа для CLIR: Мультиязычная кластеризация является технической основой для кросс-языкового поиска (CLIR). Если авторитетный контент существует на другом языке, он может быть показан пользователю, так как находится в том же тематическом кластере.
  5. Использование данных для обучения ML: Идентифицированные параллельные тексты используются не только в поиске и переводе, но и для обучения и улучшения собственных систем машинного перевода Google.
  6. Зависимость от качества перевода: Эффективность всей системы напрямую зависит от точности машинного перевода, используемого для нормализации на базовый язык.

Практика

Best practices (это мы делаем)

  • Точная реализация Hreflang: Корректная настройка hreflang остается критически важной. Данный патент описывает механизм, который Google может использовать для семантической валидации этих сигналов. Если страницы, заявленные как переводы, не попадают в один кластер или находятся слишком далеко друг от друга внутри него (большое Distance), сигналы hreflang могут быть проигнорированы.
  • Консистентность и полнота переводов: При локализации контента необходимо обеспечивать максимальную точность, полноту и сохранение структуры оригинала. Значительные изменения, сокращения или вольные интерпретации увеличат «расстояние» (Distance) между языковыми версиями в кластере, что затруднит их идентификацию как параллельных текстов.
  • Семантическая и структурная целостность: Убедитесь, что ключевые сущности, терминология и структура (заголовки, списки) консистентны во всех языковых версиях. Это поможет системе корректно извлечь признаки после перевода на базовый язык и минимизировать расстояние между версиями.
  • Использование ясного языка для облегчения машинного перевода: Пишите контент, который легко поддается машинному переводу. Это повышает точность нормализации на базовый язык и, как следствие, корректность кластеризации.
  • Построение тематического авторитета (Topical Authority): Создание высококачественного, авторитетного контента на одном языке может потенциально улучшить видимость на других языках через механизм CLIR, если контент попадает в сильный мультиязычный тематический кластер.

Worst practices (это делать не надо)

  • Манипуляции с Hreflang: Указание в hreflang страниц, которые не являются прямыми переводами или эквивалентами (например, указание главной страницы вместо соответствующей статьи). Описанная система кластеризации и анализа расстояний легко выявит такое несоответствие по содержанию.
  • Поверхностная локализация и некачественный машинный перевод: Публикация для пользователей низкокачественных автоматических переводов или сильно сокращенных версий контента. Это может привести к тому, что языковые версии будут слабо связаны в кластере, а также к низким оценкам качества контента.
  • Игнорирование семантических различий при локализации: Использование дословного перевода без учета локальных нюансов может привести к ошибкам кластеризации, если после перевода на базовый язык смысл искажается.

Стратегическое значение

Патент подтверждает стратегию Google по созданию единого, семантически связанного индекса, где язык является лишь одним из фильтров, а не барьером для понимания контента. Это подчеркивает важность глобальной контент-стратегии, основанной на темах и интентах, а не просто на переводе ключевых слов. Для международного SEO это означает, что техническая реализация (hreflang) должна быть подкреплена реальной семантической и структурной консистентностью контента во всех версиях.

Практические примеры

Сценарий: Валидация Hreflang и консистентность контента

  1. Ситуация: Компания запускает статью о новом продукте на английском (EN) и немецком (DE) языках. Hreflang настроен.
  2. Действия SEO-специалиста: Необходимо убедиться, что немецкая версия является точным переводом английской.
    • Проверить, что все разделы и ключевые тезисы сохранены.
    • Убедиться, что используется консистентная терминология для названия продукта и его функций.
    • Сохранить аналогичную структуру заголовков.
  3. Как работает Google (согласно патенту):
    • Google переводит обе статьи на Базовый язык (допустим, внутренний универсальный формат).
    • Извлекает ключевые слова и присваивает Language-Agnostic Keyword Index.
    • Кластеризует статьи. Если они сделаны качественно, они попадут в один кластер.
    • Рассчитывает расстояние (Distance) между EN и DE версиями.
  4. Ожидаемый результат: Если расстояние минимально (ниже порога), система подтверждает, что документы являются переводами (Parallel Text), и сигналы hreflang принимаются. Если немецкая версия сильно отличается (например, является кратким маркетинговым текстом, а не полной статьей), расстояние будет большим, и связь может быть не установлена или ослаблена.

Вопросы и ответы

Что такое «Базовый язык» (Base Language) и обязательно ли это английский?

Это единый язык, который система использует для нормализации всех документов перед кластеризацией. Все документы переводятся на него, чтобы можно было сравнивать их признаки напрямую. В патенте английский используется как пример, но система может использовать любой язык, для которого доступны качественные модели перевода, или даже внутреннее машинно-ориентированное представление.

Означает ли это, что Google хранит полный перевод каждой страницы в индексе?

Нет. Патент указывает, что переводы могут храниться временно (temporarily storing) и могут быть удалены (deleting) после того, как ключевые слова и индексы были определены. Главное, что сохраняется — это языконезависимый индекс и структура кластеров, а не сам текст перевода.

Как этот патент связан с атрибутом hreflang?

Патент предоставляет механизм для автоматической валидации сигналов hreflang на основе содержания. Если вы указываете, что две страницы являются переводами, система может проверить это, проанализировав их близость (Distance) внутри мультиязычного кластера. Если они семантически далеки друг от друга, сигналы hreflang могут быть отклонены.

Может ли моя страница на английском языке ранжироваться по запросу на французском?

Да. Это называется кросс-языковой поиск (CLIR), и данный патент описывает инфраструктуру для его реализации (Claim 2). Если ваша английская страница находится в том же тематическом кластере и удовлетворяет порогу сходства с релевантными результатами по французскому запросу, она может быть включена в выдачу.

Как система определяет, что два документа являются переводом друг друга?

Это делает Duplicate Document Determination Module. Он рассчитывает функцию расстояния (Distance Function) между двумя документами на разных языках внутри одного кластера. Если расстояние меньше определенного порогового значения (Predetermined Threshold), документы считаются переводами (параллельными текстами).

Влияет ли качество моего перевода на эту кластеризацию?

Да, косвенно. Чтобы две языковые версии были идентифицированы как переводы, они должны быть семантически и структурно очень близки. Точные и полные переводы будут иметь меньшее расстояние между собой в кластере, чем неполные или неточные локализации, что укрепляет связь между ними.

Применяется ли этот механизм только к веб-страницам?

Нет. Патент явно упоминает возможность применения к закрытым системам, таким как базы данных продуктов электронной коммерции (e-commerce product database). Это позволяет группировать связанные товары, даже если их описания на разных языках.

Что такое «языконезависимый индекс» (Language-Agnostic Keyword Index)?

Это способ представления ключевых слов, извлеченных из документов после перевода на базовый язык. Чаще всего это числовые идентификаторы, представляющие концепции. Это позволяет системе сравнивать документы, не оперируя словами разных языков напрямую.

Если я использую машинный перевод на своем сайте, использует ли Google его для кластеризации?

Нет. Для целей кластеризации Google использует свой собственный внутренний механизм перевода (Translation Engine), чтобы перевести ваш контент на базовый язык. Качество машинного перевода, который вы публикуете для пользователей, влияет на другие факторы ранжирования (например, Helpful Content System, поведенческие факторы).

Что произойдет, если внутренний перевод Google на базовый язык будет неточным?

Если перевод неточен, извлеченные признаки (ключевые слова и индексы) будут некорректно отражать содержание документа. Это может привести к ошибкам в кластеризации: документ может попасть не в тот тематический кластер или не будет идентифицирован как перевод существующего документа.

Похожие патенты

Как Google использует машинный перевод для поиска контента на иностранных языках (Cross-Language Information Retrieval)
Google использует механизмы Cross-Language Information Retrieval (CLIR) для поиска релевантного контента независимо от языка запроса. Система может перевести запрос пользователя на другие языки и искать в индексах этих языков (Query Translation), либо заранее перевести контент сайтов на язык пользователя (Document Translation). Это позволяет предоставлять пользователю лучшие результаты, даже если они изначально опубликованы на иностранном языке.
  • US7890493B2
  • 2011-02-15
  • Мультиязычность

  • Индексация

Как Google оптимизирует сортировку данных в базах данных для поддержки множества языков
Патент Google, описывающий инфраструктурный метод повышения эффективности баз данных при сортировке одного и того же набора данных по правилам разных языков. Система создает вспомогательный индекс сортировки, генерируя ключи сортировки для всех поддерживаемых языков и устраняя дубликаты. Это позволяет ускорить запросы на сортировку (например, алфавитный порядок) в многоязычных приложениях.
  • US8682644B1
  • 2014-03-25
  • Индексация

  • Мультиязычность

Как Google эффективно сортирует данные на разных языках с помощью единого многоязычного индекса
Патент Google, описывающий инфраструктурный механизм для эффективной сортировки данных (например, контактов или записей в базе данных) с учетом правил разных языков. Система создает единый многоязычный индекс сортировки и использует технику параллельной генерации ключей для его быстрого наполнения. Это позволяет системе быстро предоставлять отсортированные списки на любом поддерживаемом языке без избыточного потребления ресурсов.
  • US9509757B2
  • 2016-11-29
  • Мультиязычность

  • Индексация

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента
Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.
  • US8090717B1
  • 2012-01-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Популярные патенты

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
  • US8825646B1
  • 2014-09-02
  • Ссылки

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей
Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.
  • US10110701B2
  • 2018-10-23
  • Knowledge Graph

  • Поведенческие сигналы

  • Персонализация

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore