Как Google использует язык интерфейса и статистику корпуса для обработки акцентов, диграфов и транслитерации в запросах

SIMPLIFYING QUERY TERMS WITH TRANSLITERATION (Упрощение поисковых терминов с помощью транслитерации)

US7835903B2
Google LLC
2006-04-19
2010-11-16

Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте Синонимов». Это позволяет находить документы с правильной орфографией, даже если пользователь ввел упрощенный вариант. Также описан механизм защиты для «малых языков», ограничивающий подбор синонимов для сохранения точности выдачи.

Какую проблему решает

Патент решает проблему обработки поисковых запросов в многоязычной среде, где пользователи часто вводят упрощенные варианты слов из-за ограничений устройств ввода или незнания точной орфографии. Это включает пропуск диакритических знаков (акцентов), использование диграфов вместо специальных символов (например, «ue» вместо «ü») и ввод транслитерированных версий. Цель — обеспечить релевантную выдачу, находя документы с правильной орфографией, учитывая при этом, что правила таких замен зависят от языка (например, «ue» приемлемо в немецком, но не в турецком).

Что запатентовано

Запатентована система для генерации Synonyms Map (Карты синонимов) и механизм переписывания запросов. Карта синонимов создается офлайн путем анализа корпуса документов, определения языка каждого документа и нормализации слов в «общую форму» (Common Form) с использованием специфичных для языка правил. При обработке запроса система определяет его вероятный язык и использует карту для вероятностного добавления релевантных вариантов (Variants).

Как это работает

Система работает в двух фазах:

Офлайн (Создание Карты Синонимов):

Анализируется обучающий корпус, определяется язык каждого документа.
Слова нормализуются в Common Form с помощью правил, зависящих от языка документа (например, «éléphant» во французском документе → «elephant»).
Создается Synonyms Map, где ключ — это Common Form, а значения — исходные слова (Variants) с указанием их относительной частотности в разных языках.

Онлайн (Обработка Запроса):

Определяется язык интерфейса и вероятный язык запроса (Query Language).
Термины запроса упрощаются (нормализуются).
Для упрощенных терминов ищутся варианты в Synonyms Map.
Варианты оцениваются на основе вероятности языка запроса и частотности варианта в этом языке. Подходящие варианты добавляются к запросу.

Также описан защитный механизм для Small Languages (слабо представленных в корпусе), который ограничивает добавление синонимов, чтобы избежать доминирования результатов из других языков.

Актуальность для SEO

Высокая. Обработка акцентов, диакритики и транслитерации остается критически важной задачей в международном поиске. Хотя конкретные методы, описанные в патенте (например, Naive Bayes для определения языка), могли эволюционировать в сторону нейронных сетей (BERT, MUM), базовые принципы использования статистических языковых моделей и контекстно-зависимого расширения запросов остаются фундаментальными.

Важность для SEO

Патент имеет высокое значение для международного SEO (8/10). Он подчеркивает, что Google не просто игнорирует акценты, а использует сложную, основанную на вероятностях систему для сопоставления упрощенных запросов с правильно написанным контентом. Это подтверждает важность использования корректной орфографии и диакритики на сайтах. Понимание механизмов транслитерации и обработки Small Languages критично для стратегий продвижения в регионах с несколькими языками или системами письма.

Термины и определения

Common Form (Общая форма / Каноническая форма): Упрощенная, стандартизированная форма слова, полученная путем применения правил конвертации (например, удаления акцентов, транслитерации). Используется как ключ в Synonyms Map.
Variant (Вариант): Исходное слово, найденное в корпусе документов, которое маппится на определенную Common Form. Хранится как значение в Synonyms Map и используется как потенциальный синоним.
Synonyms Map (Карта синонимов): Структура данных, которая связывает Common Form (ключ) с одним или несколькими Variants (значения). Для каждого варианта также хранится статистика его использования в разных языках (Relative Frequency).
Interface Language (Язык интерфейса): Язык, который пользователь выбрал для взаимодействия с поисковой системой. Используется как сигнал для определения языка запроса и для активации логики Small Language.
Query Language (Язык запроса): Вероятный язык, на котором составлен запрос. Определяется на основе Interface Language и анализа самих терминов запроса.
Collapsible Digraphs (Схлопывающиеся диграфы): Комбинации из двух символов, которые в некоторых языках могут быть представлены одним символом. Например, «AE» вместо «Æ» или «ue» вместо «ü» в немецком.
Transliteration (Транслитерация): Преобразование текста из одной системы письма в другую (например, из кириллицы в латиницу). Используется в процессе упрощения терминов.
Small Language («Малый язык»): Естественный язык, который имеет относительно небольшое представительство в общем корпусе документов. Для таких языков применяется специальная логика обработки запросов.
Relative Frequency (Относительная частотность): Метрика, показывающая, как часто конкретный вариант встречается в данном языке по сравнению со всеми другими вариантами для той же Common Form в этом же языке.

Ключевые утверждения (Анализ Claims)

Основное внимание в патенте уделяется общему процессу генерации синонимов и специфической логике обработки запросов для "малых языков", описанной в Claim 1.

Claim 1 (Независимый пункт): Описывает метод обработки запросов с учетом «малых языков».

Система получает запрос через интерфейс с определенным Interface Language.
Система определяет, является ли Interface Language «малым языком» (Small Language), т.е. слабо представленным в корпусе.
Каждый термин запроса упрощается (simplified form).
Если язык интерфейса — «малый», применяется специальная логика:
- Если исходный термин ОТЛИЧАЕТСЯ от упрощенной формы (т.е. пользователь ввел акценты или специальные символы): использовать исходный термин КАК ЕСТЬ и НЕ предоставлять синонимы.
- Если исходный термин ИДЕНТИЧЕН упрощенной форме (т.е. пользователь ввел упрощенный вариант): использовать упрощенную форму для поиска синонимов и расширения запроса.

Этот механизм предназначен для защиты точности (Precision) в «малых языках». Если пользователь использует интерфейс на редком языке и вводит слово с акцентом, система предполагает, что пользователь точно знает, что ищет, и не расширяет запрос, чтобы избежать подмешивания нерелевантных результатов из доминирующих языков.

Claim 2 (Зависимый от 1): Уточняет, что упрощение термина включает транслитерацию.

Где и как применяется

Изобретение затрагивает два ключевых этапа поисковой архитектуры: индексирование (для создания карты синонимов) и понимание запросов (для переписывания запроса).

INDEXING – Индексирование и извлечение признаков (Офлайн-процесс)

На этом этапе происходит создание Synonyms Map. Это включает:

Определение языка документа: Критически важный шаг для корректной нормализации слов.
Нормализация: Слова из документов преобразуются в Common Form с использованием правил (Language-Specific Mappings), специфичных для языка документа.
Статистический анализ: Вычисляется абсолютная и относительная частотность вариантов в разных языках.

QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)

Основное применение патента происходит на этом этапе в реальном времени:

Определение контекста: Идентификация Interface Language и расчет вероятностей Query Language.
Нормализация (Query Rewriting): Упрощение терминов запроса (включая транслитерацию) и последующее расширение запроса путем добавления вариантов из Synonyms Map.
Применение бизнес-логики: Активация специальной логики для Small Languages (Claim 1).

Входные данные (Онлайн):

Исходный запрос пользователя.
Язык интерфейса (Interface Language).
Synonyms Map.

Выходные данные (Онлайн):

Расширенный (аугментированный) запрос, содержащий исходные термины и их варианты, соединенные через OR.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие имена собственные, бренды или термины с диакритическими знаками, а также на запросы, вводимые с использованием транслитерации (например, Roman Indic).
Языковые и географические ограничения: Механизм критичен для международного поиска. Логика работы сильно отличается для доминирующих языков (English, French) и Small Languages (Icelandic, Latvian).

Когда применяется

Триггеры активации: Алгоритм переписывания активируется, когда для упрощенной формы термина запроса существуют варианты в Synonyms Map, и эти варианты проходят пороговые значения вероятности.
Исключения (Small Languages): Логика добавления синонимов блокируется при условии, описанном в Claim 1: если Interface Language определен как «малый», и исходный термин отличается от его упрощенной формы.

Пошаговый алгоритм

Процесс А: Создание Карты Синонимов (Офлайн)

Сбор данных: Идентификация обучающего корпуса документов.
Определение языка: Определение языка каждого документа в корпусе.
Создание словаря: Составление словаря всех уникальных слов с подсчетом частоты их встречаемости в каждом языке.
Нормализация (Mapping to Common Form): Каждое слово преобразуется в общую форму на основе правил, специфичных для языка документа, в котором оно найдено.
Генерация Карты Синонимов: Создание структуры, где ключи — это Common Forms, а значения — исходные слова (варианты).
Фильтрация и Расчет метрик:
- Удаление редких вариантов (на основе абсолютных порогов частоты) для фильтрации опечаток.
- Расчет относительной частотности (Relative Frequency) каждого варианта.
- Удаление вариантов с низкой относительной частотностью (например, менее 10%).

Процесс Б: Обработка и Переписывание Запроса (Онлайн)

Получение запроса и контекста: Получение запроса и определение Interface Language.
Определение языка запроса: Расчет вероятностей того, что запрос принадлежит к различным языкам. Выбор наиболее вероятного Query Language.
Упрощение запроса (Simplification): Нормализация каждого термина запроса (удаление акцентов, схлопывание диграфов, транслитерация).
Проверка на «Малый язык» (Small Language Check - Claim 1):
- Система проверяет, является ли Interface Language «малым».
- Если ДА, и если Исходный термин ≠ Упрощенному термину: пропустить шаги 5-7 для этого термина (использовать как есть).
Поиск вариантов: Использование упрощенных терминов как ключей для поиска в Synonyms Map.
Оценка вариантов (Scoring): Расчет оценки применимости для каждого варианта. Оценка = Сумма по всем языкам (Вероятность языка запроса * Относительная частотность варианта в этом языке).
Фильтрация и Аугментация: Если оценка варианта превышает порог (например, 50%), он добавляется к запросу как дизъюнкция (OR) с исходным термином.
Выполнение поиска: Использование расширенного запроса для поиска по корпусу.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов в обучающем корпусе. Используется для генерации словаря и Synonyms Map.
Языковые данные: Определенный язык каждого документа в корпусе. Язык интерфейса пользователя (Interface Language).
Структурные данные (Правила): Специфичные для языка карты конвертации (Conversion Maps), определяющие правила нормализации, удаления акцентов и транслитерации. Также используются черные списки (Blacklists) символов или слов для фильтрации шума.
Поведенческие факторы (Косвенно): В патенте упоминается, что вероятность языка запроса может определяться на основе прошлых запросов и языка результатов, которые выбирал пользователь.

Какие метрики используются и как они считаются

Абсолютная частотность: Количество вхождений варианта в документы определенного языка. Используется для фильтрации редких слов (опечаток).
Относительная частотность (Relative Frequency): Рассчитывается как (Частота варианта V в языке L) / (Суммарная частота всех вариантов для той же Common Form в языке L). Используется для определения значимости варианта.
Вероятность языка запроса (Query Language Probability): Вектор, содержащий для каждого языка вероятность того, что запрос составлен на этом языке.
Оценка применимости варианта (Variant Applicability Score): Метрика для определения того, насколько вариант подходит в качестве синонима. Рассчитывается путем суммирования по всем языкам произведения вероятности языка запроса на относительную частотность варианта в этом языке. Формула: $Score(V) = \sum_{L} (P(L|Query) * RelFreq(V|L))$ .
Пороги (Thresholds): Используются абсолютные и относительные пороги частотности для фильтрации Synonyms Map, а также порог вероятности синонимов (synonyms probability threshold, например, 50%) для включения варианта в запрос.

Язык контента и запроса определяет правила нормализации: Google не использует универсальный подход к удалению акцентов. То, как слово нормализуется, зависит от языка документа (при индексировании) и предполагаемого языка запроса (при поиске). Правила для немецкого языка не будут применены к турецкому, и наоборот.
Переписывание запроса основано на статистике и вероятностях: Система не просто добавляет все возможные акцентированные варианты. Она использует комбинацию вероятного языка запроса и статистической значимости (Relative Frequency) варианта в этом языке, основываясь на данных корпуса.
Транслитерация и диграфы как часть нормализации: Патент явно включает обработку транслитерации и схлопывающихся диграфов (например, «ue» в немецком) в процесс упрощения терминов, позволяя связывать разные орфографические представления.
Защитный механизм для «Малых языков» (Small Languages): Google применяет консервативный подход к языкам, слабо представленным в индексе (Claim 1). Если пользователь использует интерфейс на таком языке и вводит термин с акцентами, система НЕ будет его расширять, чтобы сохранить точность и избежать подмешивания результатов из доминирующих языков.
Приоритет корректной орфографии: Система спроектирована так, чтобы находить правильно написанный контент (с акцентами) по упрощенным запросам. Это дает преимущество качественным ресурсам, соблюдающим правила языка.

Best practices (это мы делаем)

Используйте корректную орфографию и диакритику: Всегда используйте правильные акценты и специальные символы (например, «Français», а не «Francais»). Патент подтверждает, что Google имеет сложный механизм (Synonyms Map) для сопоставления упрощенных пользовательских запросов с вашим правильно написанным контентом.
Обеспечьте правильное определение языка контента: Убедитесь, что Google корректно идентифицирует язык ваших страниц (HTML lang, hreflang). Это критично, так как правила нормализации слов при создании Synonyms Map зависят от определенного языка документа.
Учитывайте транслитерацию в семантике: В языках, где часто используется транслитерация (например, Хинди/Roman Indic, Русский), полезно понимать, какие транслитерированные запросы могут приводить на ваш контент. Система может связывать транслитерированные запросы с контентом в оригинальном скрипте.
Стратегия для «Малых языков»: При работе с сайтами на слабо представленных языках (например, Исландский, Латышский) фокусируйтесь на максимальной точности. Механизм защиты (Claim 1) может ограничить расширение запросов. Если пользователи ищут с акцентами, критически важно иметь контент, точно соответствующий этому написанию.

Worst practices (это делать не надо)

Намеренное упрощение контента: Не следует удалять акценты или использовать диграфы вместо специальных символов в контенте. Система Google спроектирована для решения этой проблемы на стороне запроса, а не на стороне контента.
Смешивание языков в одном документе: Это может затруднить определение основного языка документа, что приведет к некорректной нормализации слов и ошибкам в Synonyms Map.
Игнорирование языка интерфейса пользователя: При анализе трафика учитывайте, через какой интерфейс приходят пользователи. Это влияет на то, как Google интерпретирует и переписывает их запросы, особенно в случае с Small Languages.

Стратегическое значение

Патент демонстрирует стремление Google понимать и уважать лингвистические нюансы и конвенции разных языков, вместо того чтобы применять универсальную «грубую» нормализацию. Стратегически это означает, что для успешного международного SEO необходимо глубокое понимание целевого языка, включая его орфографию, использование диакритики и практику транслитерации. Создание авторитетного контента, соблюдающего языковые нормы, является долгосрочным преимуществом.

Практические примеры

Сценарий 1: Обработка диакритики (Доминирующий язык - Французский)

Контент: Страница на французском: «Les éléphants d'Afrique».
Запрос пользователя: Пользователь с французским интерфейсом ищет «elephants afrique».
Процесс Google: Язык интерфейса — не «малый». Google определяет Query Language как французский. Запрос упрощается до «elephant afrique». Исходная форма = Упрощенной.
Переписывание: Система находит вариант «éléphants» в Synonyms Map с высокой частотностью во французском. Запрос переписывается как «(elephants OR éléphants) afrique».
Результат: Страница с правильной орфографией высоко ранжируется.

Сценарий 2: Защита «Малого языка» (Исландский) — Ввод с акцентами

Контекст: Исландский язык слабо представлен (Small Language).
Запрос пользователя: Пользователь с исландским интерфейсом ищет «Hár» (Волосы).
Процесс Google: Интерфейс — «малый язык». Исходный термин «Hár». Упрощенная форма «Har». Исходная форма ≠ Упрощенной.
Результат: Согласно Claim 1, система ищет только «Hár» и НЕ добавляет синонимы, чтобы избежать показа нерелевантных результатов для английского «Har».

Сценарий 3: Защита «Малого языка» (Исландский) — Ввод без акцентов

Запрос пользователя: Тот же пользователь ищет «Har».
Процесс Google: Интерфейс — «малый язык». Исходная форма «Har». Упрощенная форма «Har». Исходная форма = Упрощенной.
Результат: Согласно Claim 1, система ищет варианты в Synonyms Map и может расширить запрос до «(Har OR Hár)».

Означает ли этот патент, что Google просто игнорирует акценты при ранжировании?

Нет. Вместо игнорирования акцентов, Google создает Карту Синонимов (Synonyms Map), которая связывает упрощенные формы слов с их акцентированными вариантами и статистикой по языкам. При поиске система использует эту карту для вероятностного расширения запроса, добавляя релевантные акцентированные варианты, но сохраняя исходный контент в индексе без изменений.

Нужно ли мне создавать две версии страницы: одну с акцентами, а другую без?

Нет, это плохая практика. Согласно патенту, лучшая стратегия — создавать контент с использованием корректной орфографии и диакритики. Механизм переписывания запросов Google предназначен для того, чтобы пользователи, вводящие упрощенные запросы, могли находить ваш правильно написанный контент.

Как Google определяет, какие акценты добавить, если слово может писаться по-разному в разных языках?

Система использует вероятностный подход. Сначала она определяет вероятный язык запроса (Query Language). Затем она проверяет Synonyms Map и оценивает относительную частотность (Relative Frequency) каждого варианта в этом языке. В запрос будут добавлены только те варианты, которые статистически значимы для определенного языка запроса.

Что такое «Малый язык» (Small Language) и почему он обрабатывается иначе?

«Малый язык» — это язык, который слабо представлен в общем индексе Google. Он обрабатывается иначе, чтобы предотвратить ситуацию, когда результаты из доминирующего языка (например, английского) вытесняют релевантные результаты на малом языке из-за случайного совпадения упрощенных форм. Система более консервативна в добавлении синонимов для таких языков.

Как работает защита для «Малых языков» (Claim 1)?

Если язык интерфейса определен как «малый», и пользователь вводит слово с акцентами (исходная форма отличается от упрощенной), система предполагает высокую точность ввода и ищет только этот термин, не добавляя синонимы. Если слово введено без акцентов (исходная форма равна упрощенной), система пытается найти и добавить релевантные синонимы.

Как этот патент влияет на SEO для сайтов, использующих транслитерацию (например, Roman Indic или русский латиницей)?

Патент явно указывает, что транслитерация является частью процесса упрощения терминов. Это означает, что Google активно строит связи между транслитерированными запросами и контентом в оригинальном скрипте. Для SEO важно понимать популярные способы транслитерации ключевых слов и учитывать их при анализе семантики.

Что такое «схлопывающиеся диграфы» и как они обрабатываются?

Это комбинации символов, заменяющие специальный символ (например, «ue» вместо «ü» в немецком). Система распознает их во время нормализации и связывает оба написания через Common Form. Однако в патенте упоминается, что при оценке варианта, являющегося результатом схлопывания диграфа, его оценка может быть пессимизирована (уменьшена), чтобы снизить риск некорректного сопоставления.

Насколько важно, чтобы Google правильно определил язык моей страницы?

Это критически важно. Согласно патенту, правила нормализации слов при создании Synonyms Map зависят от языка документа, в котором эти слова найдены. Если язык страницы определен неверно, слова могут быть нормализованы неправильно, что приведет к ошибкам в сопоставлении запросов.

Используются ли одинаковые правила нормализации при индексировании и при обработке запроса?

В патенте указано, что правила могут отличаться. Нормализация при индексировании строго зависит от языка документа. Нормализация при обработке запроса обычно не зависит от языка, но в специфических случаях может учитывать определенный язык запроса, чтобы избежать бессмысленных преобразований (например, чтобы не применять немецкие правила диграфов к турецкому запросу).

Влияет ли язык интерфейса пользователя на результаты поиска?

Да, влияет. Язык интерфейса используется как сильный сигнал для определения вероятного языка запроса (Query Language). Это влияет на то, какие синонимы (варианты с акцентами) будут добавлены к запросу. Кроме того, язык интерфейса используется для активации защитного механизма для «малых языков».

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

US8762358B2
2014-06-24

Мультиязычность
Семантика и интент

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы

Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

US7475063B2
2009-01-06

Мультиязычность
Семантика и интент
Индексация

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google использует статистический машинный перевод для определения синонимов с учетом контекста запроса

Google применяет методы статистического машинного перевода (SMT) для расширения запросов в рамках одного языка. Система обучается на параллельных корпусах данных (например, пары Запрос-Сниппет из логов поиска), чтобы находить парафразы и контекстуально релевантные синонимы. Это позволяет Google точно понимать намерение пользователя, даже если ключевые слова многозначны, и улучшать результаты поиска за счет добавления правильных синонимов.

US9002869B2
2015-04-07

Семантика и интент

Как Google находит синонимы для транслитерированных запросов с помощью обратного языкового маппинга

Google использует механизм для идентификации синонимов слов, написанных транслитом (например, хинди, написанное латиницей). Поскольку транслитерация не имеет строгих правил орфографии, одно и то же слово может иметь много вариантов написания. Система определяет, какие слова являются транслитерацией, а затем пытается восстановить исходное слово на языке оригинала. Если разные варианты написания на латинице указывают на одно и то же слово на хинди, они считаются синонимами и используются для расширения запроса.

US8521761B2
2013-08-27

Мультиязычность
Семантика и интент

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей

Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.

US9552430B1
2017-01-24

Local SEO
Поведенческие сигналы

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче

Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.

US8645362B1
2014-02-04

Техническое SEO
Поведенческие сигналы
SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки

Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).

US20180357238A1
2018-12-13

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент