SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации

ALTERNATIVE WEB PAGES SUGGESTION BASED ON LANGUAGE (Предложение альтернативных веб-страниц на основе языка)
  • US9251223B2
  • Google LLC
  • 2013-02-26
  • 2016-02-02
  • Мультиязычность
  • Персонализация
  • Индексация
  • Краулинг
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.

Описание

Какую проблему решает

Патент решает проблему, когда пользователи попадают на версию веб-страницы, язык которой не соответствует их предпочтениям. Это может происходить из-за выбора неоптимального результата в поиске или, как особо подчеркивается в патенте, из-за ошибок маршрутизации (error in routing), когда система ошибочно отдает приоритет другим сигналам (например, геолокации по IP-адресу) вместо явных языковых предпочтений пользователя. Изобретение направлено на улучшение пользовательского опыта путем обеспечения доступа к наиболее подходящей локализованной версии контента.

Что запатентовано

Запатентована система и метод для идентификации и предложения альтернативных языковых версий веб-страницы. Система определяет предпочтительный язык пользователя (preferred language) и сравнивает его с языком текущей страницы. В случае несовпадения, особенно если это несовпадение вызвано ошибкой маршрутизации запроса, система ищет альтернативную версию страницы на предпочтительном языке и предоставляет пользователю доступ к ней, потенциально блокируя доступ к исходной (неправильной) версии.

Как это работает

Механизм работает в двух плоскостях: офлайн и онлайн.

  • Офлайн (Индексирование): Система сканирует веб-страницы и идентифицирует альтернативные версии. Это достигается путем анализа Parallel Data (например, схожести URL, отличающихся только кодом языка), сравнения контента (возможно, с переводом на базовый язык) и учета спецификаций владельца сайта. Идентифицированные альтернативы группируются в кластеры (Cluster Information).
  • Онлайн (Обработка запроса): Система определяет языковые предпочтения пользователя (Language Preference), используя настройки и индикаторы (IP, cookies, Accept-Language). При получении запроса на страницу система проверяет, соответствует ли язык страницы предпочтениям. Если нет (особенно из-за ошибки маршрутизации), система обращается к Cluster Information, находит подходящую альтернативу и перенаправляет пользователя.

Актуальность для SEO

Высокая. Корректная обработка интернационализации (i18n) остается критически важной задачей для глобальных поисковых систем и браузеров. Обеспечение того, чтобы пользователи получали контент на предпочтительном языке, напрямую влияет на UX и конверсии. Описанные механизмы тесно связаны с тем, как Google обрабатывает локализованный контент.

Важность для SEO

Влияние на международное SEO является значительным. Хотя патент не описывает фактор ранжирования напрямую, он детализирует инфраструктуру, необходимую для идентификации, кластеризации и предоставления локализованного контента. Понимание этих механизмов критично для обеспечения того, чтобы правильная версия страницы показывалась соответствующему пользователю. Корректная техническая реализация сигналов для помощи системе в кластеризации становится первостепенной задачей.

Детальный разбор

Термины и определения

Alternative Version (Альтернативная версия)
Вариант веб-страницы, обычно на другом языке или для другого региона, содержащий аналогичный (similar) контент. Может включать перевод, выполненный человеком (human translated version).
Cluster Information (Информация о кластере)
Индексированные данные, которые связывают веб-страницы с похожим контентом на разных языках. Используется для быстрого поиска альтернативных версий.
Language Indicators (Языковые индикаторы)
Сигналы, используемые для определения языковых предпочтений пользователя. Включают параметры URL (например, hl=), cookies, заголовок запроса Accept-Language, User Agent и IP-адрес.
Language Preference (Языковое предпочтение)
Один или несколько языков, на которых пользователь предпочитает получать контент. Может быть представлено в виде упорядоченного списка (ordered list). Определяется на основе явных настроек пользователя или выводится из Language Indicators.
Parallel Data (Параллельные данные)
Данные, полученные в результате сравнения веб-страниц, которые указывают на то, что страницы являются альтернативными версиями друг друга. Примеры включают схожесть структуры URL (отличия только в кодах языка) или наличие похожих документов/изображений.

Ключевые утверждения (Анализ Claims)

Формула изобретения сосредоточена на специфическом сценарии исправления ошибок маршрутизации, связанных с языком.

Claim 1 (Независимый пункт): Описывает метод на стороне сервера.

  1. Сервер определяет предпочтительный язык (preferred language) пользователя.
  2. Сервер получает ввод (запрос или часть URL) и предоставляет результаты.
  3. Сервер получает явный запрос на первую веб-страницу (Page 1), язык которой отличается от предпочтительного.
  4. Ключевое условие: этот запрос был сгенерирован из-за ошибки маршрутизации (error in routing) исходного запроса на другую страницу.
  5. В ответ сервер идентифицирует вторую веб-страницу (Page 2), которая является альтернативной версией Page 1 и соответствует предпочтительному языку.
  6. Сервер предоставляет информацию для доступа к Page 2.

Claim 4 (Независимый пункт): Описывает аналогичный процесс с точки зрения клиентского устройства (например, браузера), взаимодействующего с сервером для исправления ошибки маршрутизации и получения доступа к правильной языковой версии (Page 2) вместо ошибочно запрошенной (Page 1).

Claims 2 и 3 (Зависимые): Уточняют, как идентифицируется альтернативная страница (Page 2). Это делается с использованием Cluster Information — заранее сгенерированных данных, связывающих страницы с похожим контентом на разных языках.

Claim 9 (Зависимый, от Claim 8, который зависит от 7): Описывает метод генерации этих связей (кластеров):

  1. Обнаружение контента на первой странице и других страницах.
  2. Сравнение контента для выявления схожести, включающей Parallel Data.
  3. Идентификация страниц с похожим контентом как набора альтернативных версий.

Claims 5, 11, 13, 15 (Зависимые): Детализируют процесс предоставления результата. Система может автоматически отображать правильную версию (Page 2) без показа неправильной (Page 1) (Claim 5). Система может активно предотвращать доступ (preventing... from accessing) к неправильной версии, предоставляя вместо нее правильную (Claims 11, 13, 15).

Claims 16, 17, 18 (Зависимые): Уточняют причину ошибки маршрутизации. Ошибка может быть вызвана обнаруженной геолокацией (detected geolocation) устройства. Это означает, что система исправляет ситуации, когда геолокация пользователя ошибочно привела к выбору неправильного языка вопреки его предпочтениям.

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поиска, обеспечивая корректную доставку локализованного контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе система должна обнаружить различные языковые версии контента в интернете.

INDEXING – Индексирование и извлечение признаков
Это критически важный этап для данного патента. Система выполняет офлайн-обработку:

  • Определяет язык каждой страницы.
  • Анализирует Parallel Data и спецификации владельцев сайтов (web page specified by a site owner).
  • Выполняет сравнение контента (Document Similarity) для выявления страниц с похожим содержанием на разных языках.
  • Генерирует Cluster Information, связывая альтернативные версии вместе.

RANKING / RERANKING – Ранжирование / Переранжирование
На этапе формирования выдачи система старается выбрать наиболее подходящую версию из кластера на основе Language Preference и Language Indicators пользователя.

Обработка Запроса (Post-Click / Redirection)
Основное применение патента, описанное в Claims, происходит здесь. Это механизм исправления ошибок (failsafe mechanism).

  • Если на предыдущих этапах произошла ошибка маршрутизации (например, приоритет был отдан геолокации вместо предпочтений), система перехватывает запрос.
  • Она использует Cluster Information, чтобы найти правильную версию и перенаправить пользователя.

Входные данные:

  • Запрос пользователя (URL или поисковый запрос).
  • Language Preference пользователя (настройки, история).
  • Language Indicators (IP, Геолокация, Accept-Language).
  • Cluster Information (из индекса).

Выходные данные:

  • Информация для доступа к веб-странице, язык которой соответствует предпочтениям пользователя.

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на сайты с мультиязычным контентом: международный e-commerce, глобальные бренды, новостные порталы, информационные ресурсы, ориентированные на разные страны.
  • Языковые и географические ограничения: Патент напрямую связан с управлением этими аспектами, обеспечивая корректную локализацию контента для пользователей независимо от их физического местоположения.

Когда применяется

  • Триггеры активации: Механизм активируется, когда обнаруживается несоответствие между языком запрошенной веб-страницы и предпочтительным языком пользователя.
  • Особые случаи (согласно Claims): Основной сценарий применения — исправление ошибки маршрутизации (error in routing), когда система изначально направила пользователя на неправильную версию, например, основываясь на геолокации, которая противоречит явным языковым предпочтениям.

Пошаговый алгоритм

Процесс А: Офлайн-обработка (Индексирование и Кластеризация)

  1. Сбор данных: Сканирование веб-страниц.
  2. Определение языка: Идентификация основного языка контента каждой страницы.
  3. Выявление связей: Анализ Parallel Data (схожесть URL, структура сайта) и спецификаций владельца сайта.
  4. Сравнение контента: Оценка схожести контента между страницами на разных языках. Может включать машинный перевод документов на общий базовый язык (common base language) для сравнения.
  5. Кластеризация: Группировка страниц с идентичным или очень похожим контентом на разных языках в кластеры и сохранение Cluster Information в индексе.

Процесс Б: Онлайн-обработка (Обработка запроса и Исправление ошибок)

  1. Получение запроса и предпочтений: Идентификация запроса пользователя и определение его Language Preference (возможно, используя упорядоченный список предпочтений).
  2. Начальная маршрутизация: Попытка направить пользователя к контенту на основе всех доступных сигналов.
  3. Обнаружение ошибки маршрутизации: Система определяет, что в результате маршрутизации была запрошена страница (Page 1), язык которой не соответствует предпочтениям пользователя (например, из-за приоритета detected geolocation).
  4. Идентификация альтернативы: Система обращается к Cluster Information, связанной с Page 1.
  5. Выбор альтернативы: Поиск в кластере версии (Page 2), которая соответствует предпочтительному языку пользователя.
  6. Перенаправление: Предоставление пользователю доступа к Page 2. Система может сделать это автоматически и предотвратить загрузку Page 1.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных для определения предпочтений пользователя и идентификации альтернативных версий контента.

  • Географические факторы: IP-адрес и геолокация. В патенте они упоминаются как потенциальный источник ошибок маршрутизации, которые система призвана исправлять.
  • Пользовательские факторы:
    • Явные Language Preference (настройки аккаунта, специфичные для приложения переопределения).
    • Cookies.
    • Заголовок браузера Accept-Language.
    • User Agent.
  • Технические факторы: Параметры URL (например, hl=), используемые для указания языка.
  • Контентные факторы: Содержимое веб-страниц используется для определения языка и сравнения схожести при формировании кластеров.
  • Структурные факторы: Спецификации владельца сайта (подразумевается использование механизмов типа hreflang в HTML/Sitemap) и структура URL (Parallel Data).

Какие метрики используются и как они считаются

  • Определение языка (Language Detection): Алгоритмы для идентификации основного языка веб-страницы.
  • Схожесть документов (Document Similarity): Метрики и алгоритмы для оценки степени схожести контента между двумя документами. Патент упоминает, что для сравнения документы могут быть машинно переведены на общий базовый язык.
  • Сопоставление предпочтений (Preference Matching): Сравнение упорядоченного списка языковых предпочтений пользователя с доступными языковыми версиями в кластере для выбора наилучшего соответствия.

Выводы

  1. Приоритет явных предпочтений над геолокацией: Патент подчеркивает, что система Google предназначена для исправления ошибок, когда сигналы геолокации (IP-адрес) ошибочно переопределяют языковые предпочтения пользователя. Явные настройки пользователя имеют высокий приоритет.
  2. Кластеризация локализованного контента: Ключевым элементом системы является способность идентифицировать и группировать эквивалентный контент на разных языках (Cluster Information) во время индексирования. Это основа для всей работы международного поиска.
  3. Множественные сигналы для идентификации альтернатив: Google использует комбинацию методов для формирования кластеров: автоматическое сравнение контента, анализ параллельных данных (Parallel Data) и учет спецификаций, предоставленных владельцами сайтов (site owner specifications).
  4. Автоматическое и превентивное перенаправление: Система может не просто предлагать альтернативу, но и автоматически перенаправлять пользователя, предотвращая доступ (preventing access) к странице на неправильном языке.
  5. Инфраструктура для международного SEO: Патент демонстрирует сложную инфраструктуру, созданную для обработки мультиязычного контента. SEO-специалисты должны предоставлять четкие и последовательные сигналы, чтобы помочь этой инфраструктуре правильно кластеризовать их контент.

Практика

Best practices (это мы делаем)

  • Безупречная реализация hreflang: Это основной способ предоставить «спецификации владельца сайта», упомянутые в патенте. Корректное использование hreflang (в HTML, HTTP-заголовках или Sitemap) помогает Google точно формировать Cluster Information и связывать альтернативные версии.
  • Четкие языковые сигналы на странице: Убедитесь, что язык каждой страницы легко определяется. Используйте атрибут HTML lang и избегайте смешивания нескольких языков в основном контенте. Это облегчает этап определения языка при индексировании.
  • Поддержание консистентности контента: Альтернативные версии должны содержать схожий контент. Если локализованные версии слишком сильно отличаются, система может не распознать их как эквиваленты (на основе требования «similar content») и не сможет объединить их в кластер.
  • Использование чистых и логичных URL-структур: Размещайте локализованный контент в отдельных подкаталогах (site.com/de/) или субдоменах (de.site.com). Это помогает системе идентифицировать Parallel Data на основе схожести URL.
  • Доступность альтернативных версий: Убедитесь, что все языковые версии доступны для сканирования и индексирования. Используйте явные ссылки (переключатели языков) между версиями.

Worst practices (это делать не надо)

  • Агрессивное автоматическое перенаправление по IP на вашем сайте: Это часто противоречит предпочтениям пользователя и может мешать Googlebot сканировать все версии. Патент явно указывает, что Google стремится исправлять ошибки, вызванные геолокацией. Лучше предлагать выбор, а не принудительно перенаправлять.
  • Игнорирование hreflang или его неправильная реализация: Это заставляет Google полагаться исключительно на автоматические методы (сравнение контента, Parallel Data), что увеличивает риск ошибок при кластеризации.
  • Создание «тонких» локализованных версий: Если локализованная версия содержит значительно меньше информации, чем основная, она может не быть признана эквивалентной (не соответствовать критерию similar content) и не будет включена в кластер.
  • Использование cookies или скриптов для отображения языка без изменения URL: Это затрудняет индексирование отдельных языковых версий и формирование кластеров.

Стратегическое значение

Патент подтверждает стратегическую важность надежной архитектуры для международного SEO. Google инвестирует значительные ресурсы в то, чтобы понимать и кластеризовать локализованный контент. Стратегия должна быть направлена на максимальное содействие этим процессам. Предоставление четких сигналов (в первую очередь hreflang) минимизирует вероятность того, что Google ошибется при определении релевантности ваших страниц для пользователей в разных странах и с разными языковыми предпочтениями.

Практические примеры

Сценарий: Обеспечение правильной кластеризации контента для международного E-commerce.

  1. Ситуация: Компания продает товар в США (язык en-US) и Германии (язык de-DE). У товара есть две отдельные страницы с разными URL.
  2. Задача SEO: Гарантировать, что Google распознает эти две страницы как альтернативные версии одного и того же товара (сформирует кластер).
  3. Действия: Реализовать hreflang. На странице США добавить: <link rel="alternate" hreflang="de-DE" href="https://site.com/de/product" />. На странице Германии добавить: <link rel="alternate" hreflang="en-US" href="https://site.com/us/product" />.
  4. Как это работает (согласно патенту): Во время индексирования Google использует эти «спецификации владельца сайта» для создания Cluster Information.
  5. Ожидаемый результат: Когда пользователь в Германии ищет товар, Google использует информацию из кластера, чтобы показать URL de-DE. Если пользователь с предпочтением немецкого языка случайно попадет на версию США (например, из-за ошибки маршрутизации, основанной на временном IP), механизмы, описанные в патенте, смогут автоматически перенаправить его на версию de-DE.

Вопросы и ответы

Как Google определяет, что две страницы являются переводами друг друга?

Google использует комбинацию методов. Во-первых, учитываются спецификации владельца сайта (на практике это реализация hreflang). Во-вторых, анализируются Parallel Data, такие как схожесть URL-структур, отличающихся только языковым кодом. В-третьих, система сравнивает контент страниц; патент упоминает, что страницы могут быть машинно переведены на базовый язык для оценки схожести контента.

Что такое «Cluster Information» в контексте этого патента?

Cluster Information — это данные в индексе Google, которые группируют веб-страницы с похожим контентом, но на разных языках. Это позволяет системе быстро находить альтернативные версии страницы. Для SEO это означает, что все ваши локализованные версии должны быть правильно связаны, чтобы попасть в один кластер.

Описывает ли этот патент работу атрибута hreflang?

Термин hreflang в патенте не используется. Однако патент ссылается на «web page specified by a site owner» (веб-страница, указанная владельцем сайта) как на один из способов идентификации альтернативных версий. В практике современного SEO именно hreflang является стандартным механизмом для предоставления таких спецификаций Google.

Почему патент так много внимания уделяет исправлению «ошибок маршрутизации» (routing errors)?

Патент подчеркивает сценарий, когда система ошибочно направляет пользователя на основе одного сигнала (например, геолокации по IP), игнорируя более важный сигнал (явное языковое предпочтение). Это указывает на то, что Google стремится приоритизировать явные предпочтения пользователя над предполагаемыми, и создает механизмы для исправления таких конфликтов в реальном времени.

Стоит ли мне использовать автоматическое перенаправление по IP-адресу на моем сайте?

Исходя из этого патента, это не рекомендуется. Google сам пытается исправить ошибки, вызванные геолокацией. Принудительное перенаправление на вашем сервере может конфликтовать с предпочтениями пользователя и мешать Googlebot сканировать все версии сайта. Лучшая практика — предлагать пользователю выбор языка, а не перенаправлять его принудительно.

Что произойдет, если контент на моих локализованных страницах немного отличается?

Патент указывает, что кластеры формируются для страниц с «similar content» (похожим контентом). Небольшие различия (например, локальные цены, контактная информация) допустимы. Однако, если контент значительно отличается, система может решить, что страницы не являются альтернативными версиями, и не объединит их в кластер, что повредит вашей международной SEO-стратегии.

Как Google определяет языковые предпочтения пользователя?

Используется иерархия сигналов (Language Indicators). Наивысший приоритет обычно имеют явные настройки пользователя (например, в аккаунте Google или браузере) и специфичные для приложения переопределения (application-specific language override). Также учитываются параметры URL, cookies, заголовок Accept-Language браузера и, в последнюю очередь, сигналы, основанные на IP-адресе.

Является ли описанный механизм фактором ранжирования?

Патент не описывает это как прямой фактор ранжирования. Однако он описывает инфраструктуру, которая определяет, какая именно страница из кластера будет показана пользователю. Если ваша страница не будет правильно кластеризована, она не сможет эффективно ранжироваться для целевой аудитории, поэтому косвенное влияние на видимость огромно.

Может ли Google найти альтернативные версии, если я не укажу их через hreflang?

Да, может. Система использует автоматические методы, такие как анализ Parallel Data (структура URL) и сравнение контента. Однако полагаться только на автоматику рискованно. Использование hreflang значительно повышает точность и надежность кластеризации вашего контента.

Что произойдет, если система обнаружит языковое несоответствие, но не найдет альтернативной версии?

Если альтернативная версия не найдена в Cluster Information, пользователь останется на исходной странице. Система может также предложить пользователю машинный перевод текущей страницы (например, через Google Translate, что также упоминается в патенте как возможный вариант). Это может негативно сказаться на поведенческих факторах и конверсии.

Похожие патенты

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.
  • US8600993B1
  • 2013-12-03
  • Структура сайта

  • Персонализация

  • Техническое SEO

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google динамически определяет язык и страну пользователя для переранжирования поисковой выдачи
Google использует систему для динамического определения предпочтительного языка и страны пользователя, анализируя характеристики запроса, интерфейса (например, google.de) и IP-адрес. На основе этих данных система агрессивно повышает в выдаче результаты, соответствующие этим предпочтениям, используя либо физическое смещение позиций (Shifting Factor), либо формулу для увеличения оценки ранжирования (Weighting Factor).
  • US8306972B2
  • 2012-11-06
  • Персонализация

  • Мультиязычность

  • SERP

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google идентифицирует и отображает контент на предпочтительном языке пользователя, даже если поиск ведется на другом языке
Google улучшает результаты поиска для мультиязычных пользователей, идентифицируя «параллельные ресурсы» — высококачественные переводы или оригинальные статьи на ту же тему — на предпочтительном языке пользователя (L2), даже если запрос был сделан на другом языке (L1). Эти L2 ресурсы отображаются рядом с результатами L1, улучшая доступ к релевантной информации.
  • US7984034B1
  • 2011-07-19
  • Мультиязычность

  • Персонализация

  • SERP

Популярные патенты

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса
Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.
  • US10366422B2
  • 2019-07-30
  • Поведенческие сигналы

  • Local SEO

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
  • US9110975B1
  • 2015-08-18
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

seohardcore