Мультиязычность

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется …
Google использует статистический анализ текстовых корпусов (преимущественно логов запросов), чтобы определить значение многозначного слова в контексте. Система проверяет, какие альтернативные термины пользователи взаимозаменяют в одинаковых фразах. Если два термина часто …
Google улучшает поиск по визуальному контенту (картинки, видео), анализируя, как пользователи переформулируют запросы на других языках в рамках одной сессии. Если пользователь ввел запрос на одном языке, а затем его …
Google использует систему для понимания диалогового поиска. Если пользователь задает последующий неполный запрос (например, «напомни мне за час до этого»), система определяет контекст из предыдущего запроса (например, время рейса). Затем …
Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, …
Google анализирует поведение пользователей (click log data), чтобы определить, как они называют конкретный сайт на своем языке. Если пользователи, вводящие определенный запрос (например, название бренда), доминантно кликают на один и …
Google использует механизм автоматического создания вероятностных словарей для перевода между разными языками и наборами символов. Система анализирует «выровненный текст», в первую очередь анкорные тексты ссылок (Parallel Anchor Text), указывающих на …
Google улучшает локальное ранжирование, агрегируя поведенческие данные (клики) не только из страны пользователя, но и из «совместимых» стран (соседних, культурно близких) или схожих языков. Система определяет совместимость на основе общих …
Google улучшает межъязыковой поиск (CLIR), рассматривая ссылки между документами на разных языках как «параллельные корпуса». Анализируя анкорный текст и контент связанных страниц, система уточняет смысл многозначных слов и находит точные …
Google анализирует, как часто и когда пользователи вводят разные запросы. Если временные графики (распределения) двух запросов совпадают (одинаковые пики и спады популярности), система считает эти запросы семантически близкими или переводом …
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, …
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие …
Google использует статистический анализ контекстов (соседних слов) для определения вероятности того, что слово в запросе является опечаткой или неправильно использованным омофоном. Система сравнивает частоту использования исходного слова и потенциального исправления …
Google анализирует, какой контент популярен среди пользователей с определенными языковыми предпочтениями, независимо от языка самого контента. Если англоязычная страница часто выбирается пользователями, предпочитающими хинди, система повысит эту страницу в выдаче …
Google использует иерархический метод для динамического определения предпочтительных языков пользователя, анализируя HTTP-заголовки, настройки браузера, IP-адрес и язык самих результатов поиска. Затем система переранжирует выдачу, повышая позиции документов на предпочтительных языках …
Google патентует систему кросс-языкового поиска, которая заранее переводит документы и ссылающийся на них анкорный текст. Для повышения точности перевода используется контекстно-зависимая модель, анализирующая анкорный текст входящих ссылок и структуру сайта. …
Анализ патента Google, описывающего систему кросс-языкового поиска (CLIR). Система определяет, стоит ли автоматически переводить запрос пользователя на другой язык для поиска более релевантных результатов. Ключевыми факторами являются наличие в запросе …
Google использует метод обратного анализа для понимания намерений пользователей. Анализируя, какие запросы приводят пользователей к одним и тем же документам (Query-Document pairs), система выявляет общие шаблоны (Query Patterns) и строит …
Патент Google описывает метод обучения системы исправлению ошибок фонетического ввода (например, Pinyin для китайского). Система анализирует логи: если пользователи часто вводят фонетическую строку, но редко выбирают предложенные символы, система предполагает …
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или …