SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности

CROSS-LANGUAGE SEARCH (Кросс-языковой поиск)
  • US20090083243A1
  • Google LLC
  • 2008-09-22
  • 2009-03-26
  • Мультиязычность
  • Семантика и интент
  • SERP
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.

Описание

Какую проблему решает

Патент решает проблему дефицита качественного и релевантного контента в интернете для определенных языков. Пользователи, ищущие информацию на языке с ограниченным корпусом веб-документов, могут не найти нужные данные, даже если они в изобилии присутствуют на другом, более распространенном языке (например, английском). Система призвана предоставить доступ к лучшей информации, не требуя от пользователя знания иностранного языка.

Что запатентовано

Запатентована система кросс-языкового поиска (Cross-Language Search System), которая оценивает целесообразность перевода исходного запроса на другой язык для улучшения результатов поиска. Система использует многоступенчатый процесс оценки (Query Evaluation Module), включающий анализ локальных/иностранных сущностей, проверку качества перевода и сравнение оценок релевантности (Relevance Scores) между разными языковыми корпусами. Если результаты по переведенному запросу лучше, они предоставляются пользователю.

Как это работает

Система работает следующим образом:

  • Получение и Перевод: Запрос на Языке 1 переводится на Язык 2 (например, английский). Оценивается уверенность в переводе (Translation Confidence).
  • Оценка Кандидатуры (Evaluation): Система проверяет, стоит ли продолжать. Она ищет Local Entities (что может заблокировать кросс-поиск) и Foreign Entities (что может его активировать).
  • Параллельный Поиск: Выполняется поиск по исходному и переведенному запросам в соответствующих индексах.
  • Сравнение Релевантности: Сравниваются Relevance Scores результатов на Языке 1 и Языке 2. Также проверяется минимальный порог релевантности для Языка 2.
  • Выдача Результатов: На основе сравнения система решает, какие результаты показать: только на Языке 1, только на Языке 2 (переведенные обратно на Язык 1) или их смесь (Aggregate Results).

Актуальность для SEO

Высокая. Хотя патент датирован 2009 годом и технологии перевода и оценки релевантности значительно эволюционировали (например, с помощью нейронных сетей и моделей типа MUM), описанные фундаментальные принципы кросс-языкового поиска (CLIR) остаются актуальными. Логика фильтрации запросов по сущностям и сравнение качества выдачи между языками по-прежнему лежат в основе глобального поиска Google.

Важность для SEO

Патент имеет значительное влияние на международное SEO (7.5/10). Он описывает механизм, который определяет, будет ли Google предпочитать локальный контент или заменять его более релевантным иностранным контентом. Это напрямую влияет на стратегию локализации: для глобальных тем критически важно иметь авторитетный контент на основном языке (часто английском), а для локальных тем — качественный контент на местном языке для защиты позиций.

Детальный разбор

Термины и определения

Cross-Language Search System (Система кросс-языкового поиска)
Система, которая определяет, следует ли использовать переведенный запрос для поиска информации на другом языке с целью улучшения релевантности выдачи.
Foreign Entity (Иностранная сущность)
Сущность (человек, место, вещь), которая ассоциируется с языком, отличным от языка запроса. Например, "Yankee Stadium" для арабского языка. Обнаружение такой сущности может активировать кросс-языковой поиск.
Local Entity (Локальная сущность)
Сущность, тесно связанная с языком запроса и регионом, где этот язык используется (физически, логически или исторически). Например, "Эйфелева башня" для французского языка. Обнаружение такой сущности обычно блокирует кросс-языковой поиск.
Query Evaluation Module (Модуль оценки запроса)
Компонент, который анализирует запрос, используя различные фильтры (сущности, уверенность перевода, релевантность), чтобы решить, является ли запрос кандидатом на кросс-языковой поиск и какие результаты предоставлять.
Relevance Score (Оценка релевантности)
Числовая метрика релевантности результата запросу. Может включать IR scores (Information Retrieval scores), PageRank и поведенческие сигналы. Патент предполагает, что эти оценки сопоставимы (commensurable) между разными языковыми корпусами.
Threshold Relevancy (Пороговая релевантность)
Минимальный уровень Relevance Score, необходимый для того, чтобы результаты переведенного запроса рассматривались для показа.
Translation Confidence Score (Оценка уверенности в переводе)
Метрика, предоставляемая службой перевода (Translator), указывающая на вероятность корректности автоматического перевода запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс сравнения релевантности.

  1. Получение запроса на первом языке (L1).
  2. Получение переведенного запроса на втором языке (L2).
  3. Получение первого набора результатов (R1) с оценками релевантности (S1) для L1 и второго набора (R2) с оценками (S2) для L2.
  4. Сравнение S1 и S2.
  5. Предоставление страницы результатов, включающей часть R1 и/или R2, на основе этого сравнения.

Ядро изобретения — это возможность сравнивать метрики релевантности, полученные из разных языковых корпусов, и принимать решение о формировании выдачи.

Claim 16 (Независимый пункт): Описывает стратегию смешивания (Blending) результатов.

  1. Получение R1/S1 и R2/S2.
  2. Объединение R1 и R2 в единый порядковый список (ordinal list).
  3. Определение порядка (от наиболее к наименее релевантному) на основе S1 и S2.
  4. Предоставление страницы результатов из этого объединенного списка.

Этот пункт защищает метод формирования смешанной выдачи, где результаты из разных языков ранжируются вместе.

Claim 21 (Независимый пункт): Описывает стратегию выбора лучшего результата.

  1. Получение лучшего результата R1/S1 и лучшего результата R2/S2.
  2. Сравнение S1 и S2.
  3. Предоставление R1, если S1 > S2, и предоставление R2, если S2 > S1.

Этот пункт описывает бинарный выбор между лучшим результатом на исходном языке и лучшим результатом на иностранном языке.

Claim 42 (Независимый пункт): Описывает комбинацию предварительной оценки и сравнения.

  1. Получение исходного и переведенного запросов.
  2. Оценка переведенного запроса для определения, является ли он кандидатом (candidate) на кросс-языковой поиск.
  3. Если ДА: Сравнение S1 и S2 и предоставление результатов на основе сравнения.
  4. Если НЕТ: Предоставление результатов только для исходного запроса.

Этот пункт интегрирует предварительную фильтрацию (которая может включать проверку сущностей, качества перевода и т.д.) с механизмом сравнения релевантности.

Где и как применяется

Изобретение задействовано на нескольких этапах поисковой архитектуры.

QUNDERSTANDING – Понимание Запросов
На этом этапе происходит основная работа по анализу запроса:

  • Определение языка запроса (L1).
  • Перевод запроса на L2 и получение Translation Confidence Score.
  • Сравнение токенов запроса с базами данных Local Entities и Foreign Entities.
  • Работа Query Evaluation Module для определения кандидатуры на кросс-языковой поиск.

RANKING – Ранжирование
Если запрос признан кандидатом, система инициирует параллельное ранжирование: один процесс для исходного запроса в индексе L1, второй — для переведенного запроса в индексе L2. На выходе получаются два набора результатов с их Relevance Scores (S1 и S2).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этом этапе происходит сравнение S1 и S2 (Cross-Corpus Relevance Comparison). Система принимает решение о формировании финальной выдачи: использовать только R1, только R2 или смешивать их. Если используются результаты R2, они могут быть переведены на L1 для отображения пользователю.

Входные данные:

  • Исходный запрос и его язык.
  • Базы данных локальных и иностранных сущностей.
  • Данные от службы перевода (переведенный запрос, Translation Confidence Score).
  • Оценки релевантности (S1, S2) от системы ранжирования.

Выходные данные:

  • Финальный набор результатов поиска (SERP), который может включать документы из разных языковых индексов.

На что влияет

  • Специфические запросы: Наибольшее влияние на информационные запросы по глобальным темам (наука, технологии, международные события, знаменитости), где контент на языке пользователя может быть скудным.
  • Конкретные ниши: Ниши, где авторитетные источники часто публикуются только на одном доминирующем языке (например, академические исследования, техническая документация).
  • Языковые и географические ограничения: Система особенно полезна для языков с ограниченным количеством качественного веб-контента.

Когда применяется

Алгоритм применяется выборочно при выполнении условий, оцениваемых Query Evaluation Module:

  • Отсутствие локального интента (Фильтр): Запрос не должен содержать Local Entities. Если они есть, предполагается, что локальные результаты будут лучше.
  • Наличие иностранного интента (Триггер): Присутствие Foreign Entities является сильным сигналом для активации кросс-языкового поиска.
  • Высокое качество перевода: Translation Confidence Score должен превышать порог.
  • Достаточная релевантность: Relevance Scores (S2) результатов переведенного запроса должны превышать минимальный порог (Threshold Relevancy).
  • Превосходство результатов: S2 должны быть выше, чем S1 (оценки релевантности исходного запроса). В патенте упоминается возможность дисконтирования S2, чтобы учесть сложность чтения переведенного контента (предпочтение родному языку).

Пошаговый алгоритм

Детальный процесс работы системы (на основе FIG. 2 и описания):

  1. Получение запроса: Система получает запрос (Q) на Языке 1.
  2. Фильтрация по Локальным Сущностям: Проверка Q на наличие Local Entities.
    • Если ДА: Прекратить кросс-поиск, использовать Q (нативный поиск).
  3. Фильтрация по Иностранным Сущностям: Проверка Q на наличие Foreign Entities.
    • Если ДА: Это сильный сигнал в пользу кросс-поиска. Переход к шагу 4.
  4. Перевод и Оценка Качества: Запрос Q переводится в Q' (Язык 2). Получается Translation Confidence Score.
  5. Фильтрация по Качеству Перевода: Сравнение оценки с порогом.
    • Если НЕТ (качество низкое): Прекратить кросс-поиск, использовать Q.
  6. Выполнение Поиска и Оценка Релевантности: Выполняется поиск по Q'. Получаются результаты R2 и оценки S2.
  7. Фильтрация по Пороговой Релевантности: Сравнение S2 с минимальным порогом.
    • Если НЕТ (релевантность низкая): Прекратить кросс-поиск, использовать Q.
  8. Сравнение Релевантности: Выполняется поиск по Q (получаем R1 и S1). Сравниваются S1 и S2.
  9. Принятие Решения и Вывод:
    • Если S2 > S1 (с учетом возможного дисконта): Использовать результаты R2 (переведенные на Язык 1) или смешать R1 и R2.
    • Если S1 > S2: Использовать результаты R1.

Какие данные и как использует

Данные на входе

  • Лингвистические данные: Токены исходного запроса, используемые для перевода и сопоставления с сущностями.
  • Данные о сущностях (Entity Data): Предварительно составленные базы данных Local Entities и Foreign Entities. Источниками могут быть энциклопедии, location servers. Из списков удаляются общие термины (generic words).
  • Поведенческие факторы:
    • Статистика запросов (Query statistics): Используется для определения частотности (query frequency) запроса или сущности. Сущности, которые редко запрашиваются, могут быть исключены из баз данных.
    • Анализ кликов (Click analysis): Упоминается использование активности пользователей (клики, dwell time/время пребывания) по результатам предыдущих запросов как индикаторов удовлетворенности и релевантности.
  • Географические/Пользовательские факторы: Язык интерфейса пользователя или домен верхнего уровня (например, google.ru) используются для определения исходного языка.

Какие метрики используются и как они считаются

  • Translation Confidence Score: Метрика качества перевода запроса. Сравнивается с пороговым значением (Confidence Threshold).
  • Relevance Scores (S1 и S2): Основные метрики ранжирования (IR-оценки, PageRank). Используются для сравнения с порогом (Threshold Relevancy) и для сравнения между корпусами.
  • Агрегированные оценки релевантности: Сумма Relevance Scores для набора результатов. Используется для сравнения общего качества выдачи между двумя языками (Claim 3).
  • Query Frequency (Частотность запроса): Количество предыдущих запросов. Используется для оценки популярности темы.
  • Readability Factor (Фактор читаемости - дисконт): Упоминается возможность дисконтирования Relevance Score иностранных результатов, чтобы учесть сложность чтения переведенного контента.

Выводы

  1. Приоритет релевантности над языком: Google стремится предоставить наиболее релевантный контент, даже если он существует на другом языке. Система готова перевести запрос, найти контент и перевести его обратно, если он превосходит по качеству локальные результаты.
  2. Сущности как ключевой индикатор интента: Идентификация Local Entities и Foreign Entities является критически важным механизмом для определения географического и языкового интента. Локальные сущности часто блокируют кросс-поиск, а иностранные — активируют его.
  3. Многоуровневая фильтрация качества: Система использует строгую фильтрацию, чтобы избежать ошибок кросс-поиска. Проверяется качество перевода запроса (Translation Confidence) и минимальная абсолютная релевантность результатов (Threshold Relevancy).
  4. Сопоставимость оценок релевантности: Ключевым элементом системы является способность сравнивать Relevance Scores между документами в разных языковых индексах (Cross-Corpus Relevance).
  5. Предпочтение родному языку при равных условиях: Система может применять смещение (bias) или дисконт к релевантности переведенных результатов из-за потенциальных проблем с читаемостью, отдавая предпочтение родному языку при незначительной разнице в релевантности.

Практика

Best practices (это мы делаем)

  • Глобальное тематическое лидерство (для доминирующих языков): Если вы создаете контент на английском (или другом языке с большим корпусом), фокусируйтесь на создании лучшего в мире контента по вашей теме. Этот механизм позволяет Google автоматически находить ваш контент и предлагать его пользователям в других странах, где локальный контент слабее.
  • Усиление локальной авторитетности (для локальных рынков): Для тем и сущностей, которые являются Local Entities, необходимо создавать максимально авторитетный контент на местном языке. Это гарантирует, что Google распознает локальный интент и не будет пытаться заменить ваш контент иностранными источниками.
  • Оптимизация под машинный перевод (MTO - Machine Translation Optimization): Пишите контент четко, структурированно, избегая идиом и двусмысленностей. Это повышает Translation Confidence и улучшает читаемость контента после автоматического перевода, снижая потенциальный «штраф за читаемость» (readability bias).
  • Оптимизация под сущности (Entity SEO): Убедитесь, что Google правильно идентифицирует ключевые сущности на вашем сайте и понимает их связь с языком/регионом. Это помогает системе корректно применять фильтры Local/Foreign Entity.

Worst practices (это делать не надо)

  • Создание поверхностного контента на локальных языках: Попытка занять нишу на локальном языке за счет слабого контента неэффективна. Система активно ищет более качественные альтернативы на других языках и предпочтет перевести их, если их Relevance Score выше.
  • Игнорирование английского языка для глобальных тем: Если вы работаете в тематике с глобальным интересом (например, IT, наука) и полагаетесь только на локальный язык, вы рискуете быть вытесненными более авторитетными источниками на английском через этот механизм.
  • Использование узколокальных терминов для глобальных понятий: Использование локального жаргона или специфических терминов для описания международных сущностей затрудняет идентификацию контента как релевантного в кросс-языковом поиске.

Стратегическое значение

Патент подчеркивает, что конкуренция в SEO становится глобальной, независимо от языка сайта. Границы между языковыми индексами проницаемы. Для SEO-специалистов это означает необходимость кросс-языкового анализа конкуренции. Стратегия должна быть двунаправленной: защищать локальный интент качественной локализацией и атаковать глобальный интент авторитетным контентом на основном языке.

Практические примеры

Сценарий 1: Активация кросс-поиска (Глобальная тема)

  1. Запрос: Пользователь в Индонезии ищет информацию об оптимизации производительности React Native (на индонезийском).
  2. Анализ: На индонезийском языке мало качественного контента. Система переводит запрос на английский. "React Native" распознается как Foreign Entity (глобальная технология). Translation Confidence высокий.
  3. Сравнение: Английская выдача имеет значительно более высокие Relevance Scores, чем индонезийская.
  4. Результат: Пользователю показывается SERP, где топовые позиции занимают англоязычные источники (документация, авторитетные блоги) с заголовками и сниппетами, переведенными на индонезийский.

Сценарий 2: Блокировка кросс-поиска (Локальная тема)

  1. Запрос: Пользователь в России ищет "История МГУ" (на русском).
  2. Анализ: Система идентифицирует "МГУ" как Local Entity для русского языка.
  3. Действие: Query Evaluation Module блокирует кросс-языковой поиск, согласно логике фильтрации.
  4. Результат: Пользователь получает выдачу только из русскоязычного индекса, даже если на английском есть статьи об МГУ.

Вопросы и ответы

Что такое Local Entity и Foreign Entity и почему они важны в этом патенте?

Local Entity — это сущность, тесно связанная с языком запроса (например, «Кремль» для русского). Если она обнаружена, кросс-языковой поиск часто блокируется, так как лучший контент ожидается на родном языке. Foreign Entity — сущность, связанная с другим языком (например, «Белый Дом» для русского). Ее обнаружение стимулирует кросс-языковой поиск, так как предполагается, что на языке оригинала информации больше и она качественнее.

Как Google сравнивает релевантность между результатами на разных языках?

Патент предполагает, что оценки релевантности (Relevance Scores) из разных языковых корпусов сопоставимы (commensurable). Система может сравнивать агрегированные оценки релевантности для двух наборов или сравнивать оценки топовых документов. Это позволяет напрямую сравнивать, например, релевантность английской страницы английскому запросу с релевантностью французской страницы французскому запросу.

Учитывает ли система плохое качество машинного перевода страниц при ранжировании?

Да. В патенте упоминается, что система может применять дисконт (уменьшение) к Relevance Scores переведенных результатов, чтобы учесть потенциальные трудности чтения автоматически переведенного контента. Это создает смещение (bias) в пользу родного языка, если разница в релевантности невелика.

Что произойдет, если автоматический перевод запроса будет неточным?

Патент предусматривает механизм защиты — Translation Confidence Score. Если система перевода не уверена в качестве перевода запроса (оценка ниже порога), кросс-языковой поиск не активируется. Это предотвращает выдачу нерелевантных результатов из-за ошибок машинного перевода запроса.

Может ли Google смешивать результаты на разных языках в одной выдаче?

Да. Патент описывает стратегию агрегации (Aggregated Results или Blending, Claim 16). В этом случае результаты из обоих языковых корпусов объединяются в единый список (ordinal list) и сортируются по их сопоставимым Relevance Scores, независимо от языка оригинала.

Что такое оптимизация под машинный перевод (MTO) и как ее применять?

MTO (Machine Translation Optimization) — это практика написания контента так, чтобы он корректно переводился автоматическими системами. Это включает использование ясных формулировок, стандартной грамматики, избегание идиом, сленга и двусмысленностей. Это повышает шансы вашего контента быть показанным в кросс-языковом поиске и снижает потенциальный «штраф за читаемость».

Использует ли система поведенческие факторы?

Да, в патенте упоминается использование поведенческих данных. Система анализирует статистику запросов (Query Frequency) для оценки популярности темы или сущности. Также упоминается анализ кликов (Click Analysis) и времени пребывания (dwell time) для оценки удовлетворенности пользователей результатами и корректировки Relevance Scores.

Стоит ли мне переводить свой сайт на множество языков или положиться на этот механизм Google?

Полагаться только на этот механизм не стоит. Он служит для заполнения пробелов в контенте, а не как замена полноценной локализации. Профессиональная локализация всегда предпочтительнее для выхода на новый рынок. Высококачественный локальный контент будет иметь приоритет при условии сопоставимой релевантности.

Как я могу помешать Google показывать иностранные сайты вместо моего локализованного сайта?

Если тема локальная, убедитесь, что Google распознает ее как Local Entity. Если тема глобальная, единственный способ — это гарантировать, что Relevance Score вашего локального контента выше, чем у иностранных конкурентов. Это требует создания авторитетного и качественного контента на местном языке.

Откуда Google берет списки Local и Foreign Entities?

Согласно патенту, эти списки могут быть получены из энциклопедий (например, Википедия), серверов местоположений (location servers), публичных документов или предоставлены третьими сторонами. Эти данные фильтруются: удаляются общие термины и сущности с низкой частотой запросов.

Похожие патенты

Как Google использует машинный перевод для поиска контента на иностранных языках (Cross-Language Information Retrieval)
Google использует механизмы Cross-Language Information Retrieval (CLIR) для поиска релевантного контента независимо от языка запроса. Система может перевести запрос пользователя на другие языки и искать в индексах этих языков (Query Translation), либо заранее перевести контент сайтов на язык пользователя (Document Translation). Это позволяет предоставлять пользователю лучшие результаты, даже если они изначально опубликованы на иностранном языке.
  • US7890493B2
  • 2011-02-15
  • Мультиязычность

  • Индексация

Как Google определяет многоязычных пользователей и показывает им результаты на языке, отличном от языка запроса
Google использует механизм для идентификации пользователей, владеющих несколькими языками, анализируя язык текущего запроса, местоположение пользователя и историю его активности. Если пользователь находится в регионе с доминирующим языком (L2), но ищет на другом языке (L1), и система подтверждает владение обоими, Google переводит запрос на L2 и ищет контент на обоих языках. Это позволяет показывать наиболее релевантные результаты, даже если их язык отличается от языка запроса.
  • US20230325421A1
  • 2023-10-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google решает, когда переводить запрос пользователя на другие языки, а когда уважать его языковой выбор
Google использует систему фильтрации для управления межъязыковым поиском (CLIR). Система анализирует язык запроса, язык интерфейса пользователя и его местоположение. Если пользователь вводит запрос на языке, отличном от языка интерфейса, Google предполагает мультиязычность и не переводит запрос, экономя ресурсы. Перевод активируется, если язык запроса совпадает с языком интерфейса, особенно если локальных результатов мало.
  • US9824147B1
  • 2017-11-21
  • Мультиязычность

  • Персонализация

  • Семантика и интент

Как Google автоматически определяет, на каких языках искать ответ на запрос пользователя (CLIR)
Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.
  • US8862595B1
  • 2014-10-14
  • Мультиязычность

Как Google идентифицирует и отображает контент на предпочтительном языке пользователя, даже если поиск ведется на другом языке
Google улучшает результаты поиска для мультиязычных пользователей, идентифицируя «параллельные ресурсы» — высококачественные переводы или оригинальные статьи на ту же тему — на предпочтительном языке пользователя (L2), даже если запрос был сделан на другом языке (L1). Эти L2 ресурсы отображаются рядом с результатами L1, улучшая доступ к релевантной информации.
  • US7984034B1
  • 2011-07-19
  • Мультиязычность

  • Персонализация

  • SERP

Популярные патенты

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

seohardcore