SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы

AUGMENTING QUERIES WITH SYNONYMS SELECTED USING LANGUAGE STATISTICS (Дополнение запросов синонимами, выбранными с использованием языковой статистики)
  • US7475063B2
  • Google LLC
  • 2006-04-19
  • 2009-01-06
  • Мультиязычность
  • Семантика и интент
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

Описание

Какую проблему решает

Патент решает проблему неоднозначности ввода, когда пользователи опускают акценты (диакритические знаки), используют диграфы (например, "ae" вместо "æ") или прибегают к транслитерации из-за ограничений устройств ввода или удобства. Система устраняет недостатки традиционных подходов (например, полного удаления акцентов в индексе), которые игнорируют языковые конвенции. Цель — статистически определить наиболее вероятную подразумеваемую форму слова, основываясь на предполагаемом языке пользователя, и избежать ошибок, свойственных лингвистически агностическим методам.

Что запатентовано

Запатентована система для выборочного дополнения запросов синонимами (вариантами написания, включая акценты и транслитерацию) на основе статистических языковых моделей. Центральным компонентом является Synonyms Map (Карта синонимов), которая создается путем анализа частотности слов в корпусе документов на разных языках. Во время обработки запроса система применяет вероятностное рассуждение для выбора наиболее подходящих вариантов, учитывая контекст языка запроса.

Как это работает

Система работает в двух режимах:

  • Офлайн (Построение Карты): Анализируется обучающий корпус, определяется язык каждого документа. Слова упрощаются до канонической формы (common form) с использованием правил, специфичных для языка документа. Создается Synonyms Map, где ключи — это канонические формы, а значения (варианты) — исходные слова. Для каждого варианта рассчитывается его относительная частота в каждом языке.
  • Онлайн (Обработка запроса): Система определяет вероятный язык запроса (Query Language). Запрос упрощается и используется для поиска в Synonyms Map. Ключевой механизм — оценка каждого варианта. Оценка рассчитывается путем комбинирования вероятности языка запроса и относительной частоты варианта именно в этом языке. Варианты с высокой оценкой добавляются к запросу.

Актуальность для SEO

Высокая. Обработка акцентов, диакритических знаков, транслитерации (особенно для нелатинских алфавитов) и кросс-языкового поиска остается критически важной задачей для глобальных поисковых систем. Описанный статистический, вероятностный подход является фундаментальным для современных систем понимания запросов (Query Understanding), которые имеют дело с лингвистической неоднозначностью.

Важность для SEO

Патент имеет значительное влияние на SEO (8/10). Он объясняет механизм, с помощью которого Google определяет, какие варианты написания (акценты, транслитерация) следует учитывать при расширении запроса. Это подчеркивает, что контент должен быть написан с использованием корректной и стандартной орфографии для целевого языка. Google статистически определяет "правильную" или наиболее частотную форму. Оптимизация под неакцентированные версии может не охватить весь потенциал, если акцентированная версия является статистически доминирующей в целевом языке.

Детальный разбор

Термины и определения

Collapsible Digraphs (Сворачиваемые диграфы)
Комбинации из двух символов, которые в некоторых языках могут быть представлены одним символом, часто акцентированным (например, "ue" в немецком как замена "ü").
Common Form (Каноническая форма)
Упрощенная, стандартизированная форма слова, полученная из исходного слова в обучающем корпусе (например, путем удаления акцентов или транслитерации). Используется как ключ в Synonyms Map.
Interface Language (Язык интерфейса)
Язык, на котором пользовательский интерфейс поисковой системы представляет информацию пользователю.
Language-Specific Mappings (Языкозависимые преобразования)
Наборы правил (conversion maps) для упрощения слов. Выбор правил зависит от языка контекста (языка документа при построении карты или языка запроса при обработке).
Query Language (Язык запроса)
Предполагаемый естественный язык поискового запроса. Может отличаться от Interface Language. Системой может быть определено несколько вероятных языков с соответствующими оценками вероятности (Query-Language Score).
Simplified Query Term (Упрощенный термин запроса)
Форма термина запроса после применения преобразований (упрощения). Используется для поиска в Synonyms Map.
Synonyms Map (Карта синонимов)
Структура данных, где ключами являются Common Forms, а значениями — один или несколько Variants. Карта также хранит языковую статистику для каждого варианта.
Variant (Вариант)
Исходное слово из обучающего корпуса, которое было преобразовано в определенную Common Form. Является потенциальным синонимом для запроса.
Variant-Language Score (Оценка варианта для языка / Относительная частота)
Статистическая метрика, указывающая относительную частоту данного Variant среди всех вариантов для того же ключа в рамках определенного языка.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки запроса с использованием статистической карты синонимов.

  1. Система получает запрос, которому приписан язык запроса (Query Language).
  2. Из термина запроса извлекается упрощенный термин (Simplified Query Term).
  3. Выполняется поиск потенциальных синонимов путем поиска упрощенного термина в Synonyms Map.
  4. Ключевое утверждение о структуре карты: Synonyms Map связывает ключи с вариантами, причем каждый вариант ассоциирован с одним или несколькими языками документа, и для каждого языка вариант имеет Variant-Language Score (относительную частоту этого варианта среди всех вариантов для данного ключа в этом языке).

Claim 4 (Зависимый от 1): Детализирует процесс выбора синонимов, когда запросу приписано несколько языков.

  1. Запросу приписано несколько Query Languages, каждый со своей оценкой (Query-Language Score).
  2. Выбор вариантов для дополнения запроса основывается на использовании (a) оценок языков запроса И (b) оценок вариантов для языка (Variant-Language Scores).

Claim 5 (Зависимый от 4): Определяет конкретную формулу для выбора вариантов.

Выбор осуществляется путем суммирования по всем языкам произведения оценки языка запроса (Query-Language Score) и оценки варианта для этого языка (Variant-Language Score). Это математическое ядро изобретения, позволяющее вероятностно выбирать наиболее релевантные синонимы, взвешивая вероятность языка запроса и частотность написания в этом языке.

Где и как применяется

Изобретение применяется на этапах индексирования (для предварительной подготовки данных) и, главным образом, на этапе понимания запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-процесс генерации Synonyms Map. Система анализирует training corpus, определяет язык документов (document language detection) и вычисляет частотность слов и их вариантов в контексте каждого языка.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента в реальном времени.

  1. Определение языка запроса: Система определяет вероятный(е) язык(и) запроса (Query Language Identification), используя термин запроса и язык интерфейса.
  2. Упрощение запроса: Термины запроса преобразуются в Simplified Query Terms.
  3. Выбор синонимов и Дополнение: Система ищет варианты в Synonyms Map и использует описанный статистический механизм для выбора наиболее подходящих синонимов, после чего дополняет запрос.

Входные данные (Офлайн):

  • Обучающий корпус документов (Training Corpus).
  • Языкозависимые правила преобразования (Language-Specific Mappings).

Входные данные (Онлайн):

  • Поисковый запрос.
  • Язык интерфейса (Interface Language).
  • Synonyms Map.

Выходные данные:

  • Дополненный поисковый запрос (Augmented Query), включающий выбранные варианты в виде дизъюнкций (OR).

На что влияет

  • Специфические запросы и ниши: Наибольшее влияние оказывается на языки с богатым использованием диакритических знаков (французский, испанский, немецкий, славянские языки), языки, использующие диграфы (немецкий, датский), и транслитерированные языки (например, Roman Indic).
  • Точность поиска: Механизм повышает точность (Precision), предотвращая добавление нерелевантных вариантов из других языков (например, добавление французских акцентов к английскому запросу), и улучшает полноту (Recall), гарантируя включение статистически значимых вариантов написания в нужном языке.

Когда применяется

  • Условия активации: Механизм оценки активируется всякий раз, когда упрощенный термин запроса имеет несколько вариантов в Synonyms Map.
  • Триггеры и пороги: Дополнение запроса происходит только в том случае, если рассчитанная вероятность (Variant Probability Estimate) для варианта превышает определенный порог (synonyms probability threshold, например, 50%). Также используются пороги абсолютной и относительной частоты при построении карты для отсева шума.
  • Исключения: В патенте упоминается исключение для "малых языков" (small languages), слабо представленных в корпусе. Если язык интерфейса является малым, система может не предоставлять синонимы для терминов, которые были изменены в процессе упрощения, чтобы избежать риска переполнения выдачи результатами на других языках.

Пошаговый алгоритм

Процесс А: Офлайн-построение Карты Синонимов (Synonyms Map)

  1. Сбор данных: Идентификация обучающего корпуса документов.
  2. Определение языка: Определение языка каждого документа в корпусе.
  3. Создание словаря: Создание словаря всех уникальных слов в корпусе.
  4. Сбор статистики: Подсчет частоты встречаемости каждого слова в контексте языка исходного документа.
  5. Преобразование в каноническую форму: Применение языкозависимых правил (Language-Specific Mappings) к каждому слову для получения его канонической формы (Common Form). Например, "éléphant" во французском документе преобразуется в "elephant".
  6. Создание карты: Создание Synonyms Map. Ключ — Common Form, значения (Variants) — исходные слова.
  7. Расчет относительной частоты: Для каждого варианта рассчитывается его относительная частота (Variant-Language Score) в рамках каждого языка для данного ключа.
  8. Прунинг (Очистка): Удаление шума из карты: удаление редких вариантов (абсолютный порог), вариантов с низкой относительной частотой (относительный порог), применение правил для диграфов и черных списков слов.

Процесс Б: Онлайн-обработка и дополнение запроса

  1. Получение запроса: Получение запроса и языка интерфейса.
  2. Идентификация языка запроса: Определение одного или нескольких вероятных языков запроса (Query Languages) и их оценок вероятности (Query-Language Scores).
  3. Упрощение запроса: Преобразование каждого термина запроса в упрощенную форму (Simplified Query Term) с использованием правил преобразования (которые могут отличаться от используемых офлайн).
  4. Поиск в карте: Использование упрощенных терминов как ключей для поиска вариантов в Synonyms Map.
  5. Оценка вариантов (Variant Scoring): Расчет оценки вероятности для каждого варианта путем суммирования по всем языкам произведения Query-Language Score и Variant-Language Score.
  6. Выбор синонимов: Выбор вариантов, чья оценка превышает заданный порог (synonyms probability threshold).
  7. Дополнение запроса: Создание дополненного запроса (Augmented Query) путем добавления выбранных вариантов как дизъюнкций к исходному термину.
  8. Поиск: Использование дополненного запроса для поиска в основном корпусе.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документов в обучающем корпусе. Система анализирует частотность и написание отдельных слов (токенов).
  • Географические и языковые факторы: Определенный язык документа (Document Language), используемый для применения специфических правил преобразования и сбора статистики. Язык интерфейса (Interface Language), используемый как сигнал для определения языка запроса.

Какие метрики используются и как они считаются

  • Frequency (Частота): Абсолютное количество вхождений слова в документах определенного языка в обучающем корпусе.
  • Variant-Language Score (Относительная частота варианта): Метрика, показывающая, насколько распространен данный вариант написания для данного ключа в определенном языке.
    Формула: (Количество вхождений Варианта V в Языке L) / (Общее количество вхождений всех вариантов для того же Ключа в Языке L).
  • Query-Language Score (Оценка языка запроса): Вероятность того, что запрос принадлежит к определенному языку.
  • Variant Probability Estimate (Оценка вероятности варианта): Ключевая метрика для выбора синонима. Рассчитывается путем взвешивания относительной частоты варианта по вероятностям языков запроса.
    Формула:

Выводы

  1. Статистическая основа выбора синонимов: Выбор синонимов (включая акцентированные формы и транслитерацию) не является строго детерминированным или основанным на правилах. Он носит вероятностный характер и базируется на реальном использовании языка в корпусе документов (corpus statistics).
  2. Критичность языка запроса: Определение вероятного языка запроса (Query Language) является ключевым фактором. Именно он определяет, какие варианты написания будут считаться релевантными, даже если пользователь ввел запрос через интерфейс на другом языке.
  3. Предотвращение кросс-языкового загрязнения: Механизм оценки, использующий Variant-Language Score, предотвращает добавление в запрос нерелевантных вариантов из других языков. Например, если слово часто встречается с акцентом во французском, но почти никогда в английском, система не будет добавлять акцентированный вариант к запросу, определенному как английский.
  4. Орфография имеет значение: Система стремится найти статистически доминирующую форму слова в данном языке. Если доминирующая форма акцентирована, система дополнит неакцентированный запрос этой формой. Это подчеркивает важность использования корректной орфографии в контенте.
  5. Обработка диграфов и транслитерации: Патент описывает сложный механизм обработки сворачиваемых диграфов (например, "ue" в немецком) и транслитерации, который также зависит от языкового контекста и статистики использования.

Практика

Best practices (это мы делаем)

  • Использовать корректную и стандартную орфографию: Всегда используйте правильные акценты, диакритические знаки и написание слов для целевого языка контента. Не следует избегать акцентов, полагая, что пользователи их не вводят. Google использует статистику, чтобы определить стандартную форму, и самостоятельно дополнит запрос пользователя нужным вариантом.
  • Обеспечить четкую идентификацию языка сайта/страницы: Убедитесь, что Google может точно определить язык вашего контента (используя HTML lang атрибуты, структуру сайта, и сам текст). Это гарантирует, что статистика использования слов на вашем сайте корректно учитывается в Synonyms Map для соответствующего языка.
  • Понимать конвенции транслитерации (если применимо): Если вы работаете с языками, которые часто транслитерируются (например, хинди в латиницу — Roman Indic), используйте наиболее распространенные и статистически значимые варианты написания, так как именно они попадут в Synonyms Map с высоким Variant-Language Score.

Worst practices (это делать не надо)

  • Использовать нестандартное написание или транслитерацию: Использование редких или нестандартных вариантов написания снижает вероятность того, что они будут иметь высокий Variant-Language Score в Synonyms Map, и, следовательно, Google вряд ли будет использовать их для дополнения запросов.
  • Беспорядочное смешивание языков на странице: Это может затруднить определение основного языка документа, что повлияет на корректность языковой статистики и применение Language-Specific Mappings при индексировании.
  • Игнорирование диакритических знаков в ключевых словах: Не следует предполагать, что акцентированные и неакцентированные версии ключевых слов взаимозаменяемы. Хотя система и связывает их, статистически доминирующая форма имеет преимущество.

Стратегическое значение

Патент подтверждает сложный, статистический подход Google к пониманию запросов. Он подчеркивает, что релевантность тесно связана с конкретным лингвистическим контекстом пользователя и конвенциями его языка. Для SEO это означает переход от механистического сопоставления ключевых слов к пониманию лингвистических норм целевой аудитории. Стратегия должна фокусироваться на создании контента, который лингвистически безупречен и соответствует ожиданиям носителей языка.

Практические примеры

Сценарий 1: Обработка немецкого запроса (Диграфы)

  1. Ситуация: Немецкий пользователь ищет информацию о городе Мюнхен.
  2. Запрос пользователя: "Munchen" (без умляута).
  3. Обработка: Система определяет, что вероятный язык запроса — немецкий (высокий Query-Language Score для German). Запрос упрощается до "munchen".
  4. Поиск в Synonyms Map: Система ищет ключ "munchen". Находит варианты: "München" (очень высокая относительная частота в немецком) и "Munchen" (низкая частота в немецком).
  5. Оценка: Вероятность для "München" рассчитывается как высокая (Вероятность(Немецкий) * Частота("München" в Немецком)).
  6. Результат: Запрос дополняется до (Munchen OR München). Поиск возвращает релевантные результаты, содержащие корректное написание.

Сценарий 2: Различение языков (Предотвращение загрязнения)

  1. Ситуация: Английский пользователь ищет слово "elephant".
  2. Запрос пользователя: "elephant".
  3. Обработка: Система определяет вероятный язык как английский. Запрос упрощается до "elephant".
  4. Поиск в Synonyms Map: Ключ "elephant". Варианты: "elephant" (высокая частота в английском), "éléphant" (высокая частота во французском, низкая в английском).
  5. Оценка: Оценка для "éléphant" будет низкой, так как Вероятность(Английский) высока, но Частота("éléphant" в Английском) низка. А Вероятность(Французский) низка.
  6. Результат: Запрос не дополняется вариантом "éléphant". Выдача остается релевантной английскому языку.

Вопросы и ответы

Нужно ли мне оптимизировать контент под неакцентированные версии слов или опечатки?

Нет, основная стратегия должна заключаться в использовании грамматически и орфографически корректного написания, принятого в целевом языке. Система, описанная в патенте, предназначена для того, чтобы автоматически связывать упрощенные запросы пользователей (без акцентов) со статистически доминирующей (обычно корректной) формой слова в вашем контенте. Использование нестандартного написания может навредить.

Как Google определяет язык моего документа для построения этой карты синонимов?

Патент упоминает использование статистических методов обучения, в частности, моделей классификации Наивного Байеса (Naive Bayes classification models). Эти модели анализируют текст документа (и, возможно, его URL) для определения наиболее вероятного языка и кодировки. Точность этого определения критически важна для корректного сбора языковой статистики.

Как система определяет язык запроса пользователя?

Система определяет вероятностный вектор языков запроса (Query-Language Score). Для этого используется комбинация сигналов: язык интерфейса пользователя, анализ частотности слов самого запроса в разных языках, а также, возможно, история предыдущих запросов и выбранных пользователем результатов. Язык запроса не всегда совпадает с языком интерфейса.

Что такое "Variant-Language Score" и почему он важен?

Это относительная частота конкретного варианта написания слова в определенном языке. Это критически важно, потому что позволяет системе понять конвенции языка. Например, если в немецком языке слово в 95% случаев пишется с умляутом и в 5% без, Variant-Language Score для формы с умляутом будет высоким, и система будет предпочитать именно его при дополнении запросов на немецком языке.

Что произойдет, если слово пишется одинаково, но означает разные вещи в разных языках?

Механизм, описанный в патенте, фокусируется на орфографии, а не на семантике. Однако, поскольку выбор синонимов сильно зависит от определенного языка запроса (Query Language), система косвенно учитывает контекст. Если запрос определен как английский, будут выбраны варианты, релевантные для английского, что помогает сузить семантическое значение до этого языка.

Как обрабатываются сворачиваемые диграфы, например, "ae" вместо "æ"?

Система идентифицирует такие диграфы во время упрощения слов. При построении карты синонимов существуют специальные правила: например, вариант с диграфом может быть опущен, если его акцентированный эквивалент также не является вариантом. При оценке вариантов во время запроса, если вариант содержит диграф, его относительная частота может быть искусственно снижена (оштрафована), чтобы отразить риск некорректного сворачивания.

Влияет ли этот патент на SEO для языков без диакритических знаков, например, английского?

Влияние менее выражено, но оно есть. Механизм также применяется для обработки лигатур (например, Æ) и потенциально для других видов синонимии или транслитерации, которые могут встречаться в английском корпусе. Кроме того, он защищает английскую выдачу от "загрязнения" акцентированными вариантами из других языков (например, французского).

Что такое "малые языки" (small languages) в контексте патента и как они обрабатываются?

Это языки, которые слабо представлены в общем корпусе документов. Для них существует риск, что дополнение запроса синонимами приведет к доминированию результатов на других, более крупных языках. Поэтому, если язык интерфейса определен как "малый", система может работать более консервативно и не дополнять запрос синонимами, если исходный термин был изменен в процессе упрощения.

Используются ли одни и те же правила упрощения слов при индексировании и при обработке запроса?

Не обязательно. В патенте указано, что коллекции языкозависимых преобразований (language-dependent mappings) могут отличаться. При индексировании правила строго зависят от языка документа. При обработке запроса правила могут быть более общими или зависеть от определенного языка запроса, чтобы учесть разные ожидания пользователей при вводе запроса.

Является ли этот механизм единственным способом обработки синонимов в Google?

Нет. Этот патент описывает конкретный механизм для обработки орфографических вариаций (акценты, диграфы, транслитерация) на основе статистики использования языка. Google использует множество других систем для понимания семантической синонимии (например, "автомобиль" и "машина"), которые, вероятно, работают на других принципах (например, векторные вложения).

Похожие патенты

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
  • US8762358B2
  • 2014-06-24
  • Мультиязычность

  • Семантика и интент

Как Google использует язык интерфейса и статистику корпуса для обработки акцентов, диграфов и транслитерации в запросах
Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте Синонимов». Это позволяет находить документы с правильной орфографией, даже если пользователь ввел упрощенный вариант. Также описан механизм защиты для «малых языков», ограничивающий подбор синонимов для сохранения точности выдачи.
  • US7835903B2
  • 2010-11-16
  • Мультиязычность

  • Семантика и интент

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей
Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.
  • US8442965B2
  • 2013-05-14
  • Мультиязычность

  • Поведенческие сигналы

Как Google находит синонимы для транслитерированных запросов с помощью обратного языкового маппинга
Google использует механизм для идентификации синонимов слов, написанных транслитом (например, хинди, написанное латиницей). Поскольку транслитерация не имеет строгих правил орфографии, одно и то же слово может иметь много вариантов написания. Система определяет, какие слова являются транслитерацией, а затем пытается восстановить исходное слово на языке оригинала. Если разные варианты написания на латинице указывают на одно и то же слово на хинди, они считаются синонимами и используются для расширения запроса.
  • US8521761B2
  • 2013-08-27
  • Мультиязычность

  • Семантика и интент

Как Google использует статистический машинный перевод для определения синонимов с учетом контекста запроса
Google применяет методы статистического машинного перевода (SMT) для расширения запросов в рамках одного языка. Система обучается на параллельных корпусах данных (например, пары Запрос-Сниппет из логов поиска), чтобы находить парафразы и контекстуально релевантные синонимы. Это позволяет Google точно понимать намерение пользователя, даже если ключевые слова многозначны, и улучшать результаты поиска за счет добавления правильных синонимов.
  • US9002869B2
  • 2015-04-07
  • Семантика и интент

Популярные патенты

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом
Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).
  • US10402457B1
  • 2019-09-03
  • Ссылки

  • Антиспам

  • Краулинг

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату
Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.
  • US9305102B2
  • 2016-04-05
  • Персонализация

  • Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

seohardcore