SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

QUERY LANGUAGE IDENTIFICATION (Идентификация языка запроса)
  • US8442965B2
  • Google LLC
  • 2007-04-19
  • 2013-05-14
  • Мультиязычность
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

Описание

Какую проблему решает

Патент решает проблему точной идентификации языка поискового запроса (Query Language). Это критически важно, поскольку поисковые системы применяют языкозависимые методы обработки, такие как стемминг, добавление синонимов и исправление диакритических знаков. Ошибка в определении языка (например, применение правил английского языка к французскому запросу) приводит к некорректной обработке и ухудшению качества поиска.

Что запатентовано

Запатентована система и метод идентификации языка запроса, который комбинирует статистический анализ терминов запроса с контекстуальными данными, в первую очередь, с языком пользовательского интерфейса (Interface Language). Система рассчитывает вероятностные оценки (scores) для разных языков, объединяя данные о частотности слов с вероятностью использования определенного языка в данном интерфейсе, которая вычисляется на основе поведения пользователей (кликов).

Как это работает

Система работает путем комбинирования нескольких векторов вероятностей:

  • Анализ Терминов: Для каждого слова в запросе извлекается Score Vector. Он показывает вероятность принадлежности слова к разным языкам на основе его частотности в обучающем корпусе (Training Corpus).
  • Анализ Интерфейса: Используется Interface Classifier, который выдает Classifier Vector. Он показывает вероятность языка запроса, учитывая язык интерфейса. Этот классификатор обучается на исторических данных (Query Log) и анализе языка кликнутых результатов.
  • Комбинирование: Все векторы терминов и вектор классификатора интерфейса перемножаются.
  • Выбор Языка: Выбирается язык с наивысшей итоговой оценкой.

Актуальность для SEO

Высокая. Точная идентификация языка остается фундаментальной задачей для этапа понимания запросов (Query Understanding) в любой многоязычной поисковой системе. Использование контекста (интерфейса) и поведенческих сигналов (кликов) для разрешения языковой неоднозначности крайне актуально и соответствует современным подходам Google.

Важность для SEO

Патент имеет высокое значение (75/100) для международного SEO. Он раскрывает механизм, с помощью которого Google интерпретирует язык пользователя, что напрямую влияет на выбор языковых моделей для обработки запроса и определение релевантных документов. Понимание того, что язык интерфейса и история кликов влияют на идентификацию языка наравне с терминами, критично для разработки стратегий таргетинга на многоязычную аудиторию и работы с неоднозначными запросами.

Детальный разбор

Термины и определения

Interface Language (Язык интерфейса)
Естественный язык, на котором пользовательский интерфейс (например, Google.fr) представляет информацию пользователю.
Query Language (Язык запроса)
Фактический естественный язык терминов, введенных пользователем. Может отличаться от Interface Language.
Training Corpus (Обучающий корпус)
Коллекция документов с известной языковой разметкой. Используется для подсчета частотности слов в разных языках.
Score Vector (Вектор оценок)
Структура данных для термина запроса. Содержит оценки (от 0 до 1), указывающие на вероятность того, что термин принадлежит к определенному языку, на основе данных из Training Corpus.
Query Log / Query Records (Журнал запросов / Записи запросов)
Исторические данные о прошлых запросах, включающие запрос, язык интерфейса, представленные результаты и результаты, выбранные пользователем (клики).
Interface Classifier (Классификатор интерфейса)
Компонент, который предсказывает вероятный язык запроса, основываясь на Interface Language. Обучается на Query Log с учетом языка кликнутых результатов.
Classifier Vector (Вектор классификатора)
Структура данных, генерируемая Interface Classifier. Содержит оценки вероятности для каждого языка, учитывая данный интерфейс.
User Language Vector (Вектор языка пользователя)
В одном из вариантов реализации – вектор, указывающий на исторические языковые предпочтения конкретного пользователя.
Pair-wise Score Vector (Вектор оценок для пар слов)
Вектор оценок, сгенерированный для пары смежных слов (биграммы), которые часто встречаются вместе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации языка запроса.

  1. Система предоставляет множество интерфейсов, каждый со своим Interface Language.
  2. Система поддерживает коллекцию записей запросов (Query Records), сгруппированных по интерфейсам. Записи содержат прошлые запросы и язык связанных результатов.
  3. Система получает новый запрос через определенный интерфейс.
  4. Система определяет Query Language, используя: термины запроса, Interface Language и Query Records для этого интерфейса.
  5. Процесс включает расчет трех оценок для каждого языка:
    • First Score (Оценка термина): Вероятность языка термина (на основе корпуса документов).
    • Second Score (Оценка интерфейса): Вероятность языка запроса, учитывая Interface Language (на основе Query Records).
    • Third Score (Комбинированная оценка): Комбинация First и Second Score.
  6. Язык выбирается на основе Third Scores.

Claim 4 (Зависимый): Детализирует обучение Interface Language Classifier (используемого для расчета Second Score).

  1. Прошлые запросы классифицируются на основе: (i) Interface Language, (ii) языка результатов и (iii) языка результатов, *выбранных пользователем* (кликов).
  2. Генерируется начальное распределение (initial distribution) языков.
  3. Interface Language Classifier обучается с использованием этого распределения.

Claim 5 (Зависимый): Описывает процесс настройки (тюнинга) классификатора.

  1. Классификатор обучается с использованием Query Records (включая клики).
  2. Классификатор настраивается (tuning) на основе того, какие запросы были классифицированы правильно или неправильно, до достижения достаточной точности.
  3. Обученный классификатор используется для генерации Interface Classifier Vector для каждого интерфейса.

Где и как применяется

Изобретение применяется на этапе понимания запроса и использует данные, подготовленные на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-подготовка данных. Corpus Analyzer анализирует Training Corpus для подсчета частотности слов в разных языках. На основе этого генерируются и сохраняются Score Vectors для слов.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента.

  1. Офлайн: Происходит обучение Interface Classifier с использованием Query Log и поведенческих данных (кликов).
  2. В реальном времени: При получении запроса Query Language Identifier извлекает Interface Classifier Vector и Score Vectors для терминов, комбинирует их и определяет язык запроса. Этот язык затем используется Query Processor для применения языкозависимых операций (стемминг, синонимы).

Входные данные (в реальном времени):

  • Поисковый запрос (термины).
  • Interface Language.
  • Предварительно рассчитанные Score Vectors и Interface Classifier Vector.
  • (Опционально) User Language Vector.

Выходные данные:

  • Идентифицированный Query Language.

На что влияет

  • Специфические запросы: Наибольшее влияние на короткие запросы, многоязычные запросы (code-switching) и запросы с неоднозначными терминами (бренды, заимствования, омографы).
  • Многоязычные регионы: Критически важно в регионах, где пользователи часто переключаются между языками (например, Швейцария, Канада, Индия).
  • Обработка жаргона и брендов: Система спроектирована так, чтобы слова, часто заимствуемые разными языками (например, "Internet"), не влияли негативно на точность определения языка.

Когда применяется

  • Триггеры активации: Алгоритм применяется при обработке каждого поискового запроса.
  • Временные рамки: Расчет Score Vectors и обучение Interface Classifier происходят периодически офлайн. Применение алгоритма (комбинирование векторов) происходит в реальном времени.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

  1. Получение запроса и контекста: Система получает запрос и идентифицирует Interface Language.
  2. Получение вектора интерфейса: Извлекается соответствующий Interface Classifier Vector.
  3. Идентификация терминов: Запрос разбивается на термины.
  4. Получение векторов терминов: Для каждого термина извлекается Score Vector.
    • Обработка пар слов (Опционально): Если обнаружены часто встречающиеся пары слов (биграммы), используется Pair-wise Score Vector.
    • Обработка особых слов (Опционально): Слова, встречающиеся во многих языках, могут быть проигнорированы или приравнены к Interface Language.
  5. Получение вектора пользователя (Опционально): Извлекается User Language Vector.
  6. Комбинирование векторов: Все полученные векторы перемножаются.
  7. Генерация финального вектора: Формируется итоговый вектор вероятностей.
  8. Выбор языка: Выбирается язык с наивысшей оценкой как Query Language.

Процесс Б: Офлайн подготовка (Расчет Score Vectors)

  1. Анализ корпуса: Анализируется Training Corpus с языковой разметкой.
  2. Подсчет частотности: Подсчитывается количество появлений каждого слова в документах каждого языка.
  3. Нормализация: Частотность нормализуется (например, делится на общее количество документов на этом языке).
  4. Генерация и Сглаживание: Рассчитывается Score Vector для каждого слова с применением формулы сглаживания (Smoothing) для уменьшения шума.
  5. Сохранение: Векторы сохраняются для использования в реальном времени.

Процесс В: Офлайн подготовка (Обучение Interface Classifier)

  1. Анализ логов: Анализируется Query Log (запросы, интерфейсы, клики).
  2. Автоматическая классификация: Запросы классифицируются по языку (например, с помощью Naive Bayes классификатора), основываясь на языке интерфейса и языке *выбранных пользователем* результатов.
  3. Генерация начального распределения: Создается базовый классификатор.
  4. Ручная разметка и Настройка (Tuning): Эксперты вручную размечают выборку запросов. Классификатор корректируется на основе расхождений.
  5. Валидация: Проверяется точность. Шаги 4-5 повторяются до достижения нужной точности.
  6. Генерация векторов: Генерируются Interface Classifier Vectors для каждого Interface Language.

Какие данные и как использует

Данные на входе

  • Контентные факторы (из Training Corpus): Текст документов и их языковые метки используются для подсчета частотности слов в контексте определенного языка.
  • Поведенческие факторы (из Query Log): Данные о кликах (selected results). Язык документов, которые пользователь выбрал в ответ на прошлые запросы, является ключевым сигналом для обучения Interface Classifier.
  • Пользовательские/Контекстуальные факторы: Используется Interface Language как важный входной сигнал. Опционально используется история поиска пользователя (User Language Vector).

Какие метрики используются и как они считаются

  • Score Vector (Вероятность языка термина): Рассчитывается на основе нормализованной частотности термина в Training Corpus.
  • Interface Classifier Vector (Вероятность языка интерфейса): Рассчитывается на основе распределения языков в прошлых запросах для данного интерфейса, с сильным влиянием языка кликнутых результатов.
  • Сглаживание (Smoothing): Для уменьшения шума при расчете Score Vector применяется формула сглаживания. Если термин t встречается n раз в языке L и N раз во всех k языках, вероятность P(L|t) рассчитывается как:

Выводы

  1. Контекст важен так же, как и термины: Язык запроса определяется не только словами. Interface Language является сильным контекстуальным сигналом (априорной вероятностью), который комбинируется со статистикой по терминам. Один и тот же запрос может быть интерпретирован по-разному на Google.com и Google.de.
  2. Поведенческие данные (клики) для обучения: Google активно использует язык кликнутых результатов (selected results) из Query Logs для обучения Interface Classifier. Это позволяет системе адаптироваться к реальному поведению пользователей в разных интерфейсах (например, если пользователи Google.de часто кликают на английские результаты).
  3. Статистическая основа идентификации: Система использует статистический анализ частотности слов (Score Vectors) для разрешения неоднозначностей. Чем уникальнее слово для языка, тем сильнее сигнал.
  4. Обработка неоднозначностей и N-грамм: Патент предусматривает механизмы для обработки слов, встречающихся в нескольких языках (жаргон, бренды), которые могут игнорироваться или приравниваться к Interface Language. Также возможно использование пар слов (биграмм) для повышения точности.
  5. Персонализация (Опционально): Система может учитывать историю поиска пользователя (User Language Vector), что означает возможность индивидуального определения языка запроса.

Практика

Best practices (это мы делаем)

  • Уникальность и чистота лексики: Используйте лексику, статистически характерную для целевого языка. Это укрепляет связь контента с языком в Training Corpus и помогает Google правильно идентифицировать язык запросов, ведущих на ваш сайт. Избегайте чрезмерного использования интернационализмов, если есть локальные эквиваленты.
  • Корректная техническая реализация языка: Убедитесь, что язык ваших документов четко определен (HTML lang атрибут, Hreflang). Это помогает Google правильно классифицировать ваш контент в Training Corpus и корректно учитывать поведенческие сигналы (клики) для обучения Interface Classifier.
  • Оптимизация под словосочетания (Word Pairs/Bigrams): Для терминов, которые могут быть неоднозначными по отдельности, фокусируйтесь на оптимизации под словосочетания. Система может анализировать пары слов как единое целое, что часто снимает языковую неоднозначность.
  • Анализ поведения в многоязычных регионах: При проведении международного SEO анализируйте, как пользователи ищут в целевом регионе. Если они часто используют язык, отличный от языка интерфейса (например, английский в Нидерландах), адаптируйте стратегию, зная, что Interface Classifier обучается этому поведению.

Worst practices (это делать не надо)

  • Смешивание языков в контенте: Создание контента с хаотичным смешением языков затрудняет идентификацию основного языка документа для Training Corpus и может привести к неправильной классификации запросов к этому контенту.
  • Игнорирование настроек интерфейса при тестировании: Проверка позиций только через Google.com для международного проекта является ошибкой. Поскольку Interface Language влияет на интерпретацию запроса, необходимо тестировать выдачу в интерфейсах, релевантных для целевой аудитории (например, Google.de, Google.fr).
  • Использование автоматического перевода без редактуры: Автоматический перевод может генерировать статистически неестественные конструкции, что ухудшает качество Training Corpus и затрудняет сопоставление с реальными запросами пользователей.

Стратегическое значение

Патент подчеркивает, что Query Understanding — это сложный вероятностный процесс, учитывающий не только слова, но и контекст пользователя (интерфейс, историю) и общее поведение пользователей (клики). Стратегическое значение для международного SEO заключается в необходимости глубокого понимания лингвистических и поведенческих особенностей целевого рынка. Успех зависит от способности предоставить четкие и последовательные языковые сигналы как на уровне контента, так и на техническом уровне.

Практические примеры

Сценарий 1: Разрешение неоднозначности (Омографы)

  1. Запрос: Пользователь вводит "Car". Это слово есть в английском (автомобиль) и французском (потому что).
  2. Действия системы (Интерфейс Google.fr - Французский):
    • Score Vector ("Car"): Высокая вероятность English и French.
    • Interface Classifier Vector (Google.fr): Очень высокая вероятность French.
    • Комбинация: Итоговая вероятность French перевешивает. Запрос интерпретируется как французский.
  3. Действия системы (Интерфейс Google.com - Английский):
    • Interface Classifier Vector (Google.com): Очень высокая вероятность English.
    • Комбинация: Итоговая вероятность English перевешивает. Запрос интерпретируется как английский.

Сценарий 2: Использование биграмм

  1. Запрос: Пользователь вводит "Palo Alto".
  2. Анализ слов: "Palo" и "Alto" по отдельности часто встречаются в испанском и английском.
  3. Анализ биграммы: Система распознает "Palo Alto" как часто встречающуюся пару. Pair-wise Score Vector для этой пары показывает значительно более высокую вероятность в английском корпусе, чем в испанском.
  4. Результат: Запрос уверенно идентифицируется как английский, независимо от языка интерфейса.

Вопросы и ответы

Как Google определяет язык запроса, если он содержит слова из разных языков?

Система рассчитывает Score Vector для каждого слова, определяя его вероятную принадлежность к разным языкам на основе статистики. Затем эти векторы перемножаются между собой и умножаются на Interface Classifier Vector (вероятность на основе интерфейса). Итоговый результат покажет, какой язык является наиболее вероятным для всего запроса в целом.

Влияет ли язык интерфейса (например, использование Google.de вместо Google.com) на определение языка запроса?

Да, очень сильно. Interface Language является одним из ключевых сигналов. Система использует Interface Classifier, который дает высокую априорную вероятность языку интерфейса. Это означает, что один и тот же неоднозначный запрос может быть интерпретирован по-разному в зависимости от того, через какой интерфейс он был введен.

Как Google обрабатывает слова, которые существуют в нескольких языках (например, бренды или заимствования)?

Патент описывает несколько подходов. Score Vector такого слова покажет высокую вероятность для нескольких языков, и тогда решающую роль сыграют другие слова или Interface Language. Также система может игнорировать такие слова или принудительно приравнивать их язык к языку интерфейса, чтобы они не вносили шум.

Как поведение пользователей (клики) влияет на идентификацию языка?

Поведенческие факторы критичны для обучения Interface Classifier. Система анализирует Query Logs и смотрит на язык документов, которые пользователи выбирали (кликали) в прошлом. Если пользователи во французском интерфейсе часто кликают на английские результаты, классификатор адаптируется и повысит вероятность английского языка для этого интерфейса.

Использует ли Google историю поиска конкретного пользователя для определения языка запроса?

Да, в патенте это описано как опциональная возможность. Система может рассчитывать User Language Vector, основанный на исторических языковых предпочтениях пользователя. Этот вектор также участвует в финальном расчете вероятности, добавляя элемент персонализации в определение языка.

Что такое Training Corpus и как он влияет на SEO?

Training Corpus — это коллекция документов с известным языком, используемая для подсчета статистики частотности слов. Если ваш сайт корректно размечен по языку и содержит качественный контент, он становится частью этого корпуса. Это помогает Google точнее определять язык запросов, связанных с вашей тематикой, и улучшает видимость вашего сайта для целевой языковой аудитории.

Как работает механизм сглаживания (Smoothing) и зачем он нужен?

Сглаживание используется для уменьшения статистического шума, особенно для редких слов. Оно добавляет небольшое значение к частотности слова, чтобы избежать нулевых вероятностей и сделать оценки более надежными. Формула (n+s)/(k×s+N)(n+s)/(k\times s+N)(n+s)/(k×s+N) гарантирует более стабильную работу алгоритма.

Может ли Google анализировать словосочетания для определения языка?

Да, патент описывает опциональный механизм анализа пар слов (Word Pairs или биграммы). Если слова по отдельности неоднозначны, но часто встречаются вместе (например, "Palo Alto"), система может анализировать их как единое целое с помощью Pair-wise Score Vector. Это повышает точность идентификации для устойчивых выражений.

Какое значение этот патент имеет для международного SEO?

Ключевое значение. Он показывает, что для успешного международного продвижения недостаточно просто перевести контент. Необходимо понимать, как Google интерпретирует язык запросов с учетом контекста (интерфейс, регион, поведение пользователей) и лингвистической статистики. Стратегия должна включать использование характерной лексики и корректную техническую реализацию многоязычности.

Помогает ли этот патент понять, как работает Hreflang?

Патент напрямую не связан с Hreflang. Этот патент описывает этап QUNDERSTANDING (определение языка запроса), тогда как Hreflang используется позже, на этапе RERANKING, для подстановки правильной языковой/региональной версии URL в выдачу. Однако оба механизма критически важны для корректной работы международного поиска.

Похожие патенты

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
  • US8762358B2
  • 2014-06-24
  • Мультиязычность

  • Семантика и интент

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2009-01-06
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google автоматически определяет, на каких языках искать ответ на запрос пользователя (CLIR)
Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.
  • US8862595B1
  • 2014-10-14
  • Мультиязычность

Как Google определяет язык смешанных запросов с помощью посимвольного анализа на стороне клиента
Google использует легковесный механизм для определения языка поисковых подсказок, который может выполняться на стороне клиента. Система анализирует каждый символ подсказки и оценивает, насколько он уникален для разных языков, используя локальную базу данных. Это позволяет точно определить исходный язык даже для смешанных запросов (например, Английский + Китайский) и обеспечить качественный машинный перевод кросс-язычных подсказок.
  • US20120330989A1
  • 2012-12-27
  • Мультиязычность

Популярные патенты

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)
Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.
  • US8510285B1
  • 2013-08-13
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами
Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.
  • US8032820B1
  • 2011-10-04
  • Ссылки

  • Индексация

  • Краулинг

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта
Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.
  • US9348846B2
  • 2016-05-24
  • Структура сайта

  • SERP

  • Ссылки

seohardcore