Как Google автоматически сопоставляет десктопные и мобильные URL с помощью распознавания паттернов и анализа контента

METHODS AND SYSTEMS FOR FINDING A MOBILE AND NON-MOBILE PAGE PAIR (Методы и системы для поиска пары мобильной и немобильной страниц)

US8631097B1
Google LLC
2012-10-11
2014-01-14

Google использует систему для автоматического обнаружения взаимосвязи между десктопными (non-mobile) и мобильными (mobile) версиями страниц, когда используются разные URL. Система анализирует структуру URL, находит общие токены и проверяет схожесть контента. На основе найденных пар генерируются правила (Regular Expressions) для предсказания мобильного URL по десктопному, что улучшает индексацию мобильного контента и корректность выдачи.

Какую проблему решает

Патент решает проблему идентификации и сопоставления мобильных и десктопных версий веб-страниц, когда сайт использует отдельные URL (например, конфигурация m-dot), но не предоставляет явных сигналов связывания (например, rel=alternate/canonical или редиректов на основе User-Agent). Это затрудняет поисковым системам обнаружение и индексацию мобильного контента, а также консолидацию сигналов ранжирования между версиями, и может приводить к показу некорректной версии сайта пользователю.

Что запатентовано

Запатентована система для автоматического обнаружения пар соответствующих URL (мобильный и немобильный) и генерации правил для преобразования одного типа URL в другой. Система идентифицирует потенциальные пары путем анализа общих токенов в структуре URL и подтверждает связь путем сравнения контента страниц. На основе подтвержденных пар система выявляет паттерны трансформации и формализует их в виде правил (используя Regular Expressions) для масштабного применения.

Как это работает

Система работает в двух основных направлениях:

Обнаружение пар: Система анализирует URL в домене, выделяет значимые токены (Selective URL Tokens) и ищет мобильные и десктопные URL с общими токенами. Затем она верифицирует потенциальные пары, сравнивая контент страниц (например, методом шинглирования — shingling), игнорируя шаблонные элементы (boilerplate).
Генерация правил: Подтвержденные пары анализируются для выявления общих паттернов трансформации URL. Общие сегменты заменяются плейсхолдерами (placeholders), и система генерирует правила на основе Regular Expressions, описывающие, как десктопный URL преобразуется в мобильный.

Эти правила затем используются для улучшения индексации или для подмены URL в реальном времени в поиске.

Актуальность для SEO

Высокая. Хотя Google перешел на Mobile-First Indexing (MFI) и рекомендует адаптивный дизайн, многие сайты все еще используют конфигурации с раздельными URL (m-dot). Для таких сайтов корректное сопоставление десктопных и мобильных версий остается критически важным для консолидации сигналов ранжирования. Механизмы, описанные в патенте, предоставляют Google автоматизированный способ справиться с отсутствием или ошибками в явных сигналах сопоставления со стороны вебмастера.

Важность для SEO

Патент имеет высокое значение для технического SEO, особенно для сайтов с раздельными мобильными и десктопными URL. Он подчеркивает, что Google может автоматически связывать версии страниц, даже если вебмастер не настроил каноникализацию или редиректы. Однако зависимость от автоматического распознавания паттернов и анализа контента подчеркивает критическую важность консистентной структуры URL и паритета контента между мобильной и десктопной версиями для успешного сопоставления.

Термины и определения

Boilerplate Content (Шаблонный контент): Неосновной, повторяющийся контент на страницах сайта (например, меню, хедеры, футеры, навигационные панели, реклама). Удаляется перед сравнением контента для верификации пар URL.
Mobile URL (Мобильный URL): URL, ведущий на версию страницы, оптимизированную для мобильных устройств (например, начинающийся с m.).
Non-mobile URL (Немобильный URL) / Desktop URL: URL, ведущий на стандартную десктопную версию страницы (например, начинающийся с www.).
Placeholders (Плейсхолдеры): Абстрактные переменные (например, const_1), используемые для представления совпадающих строк (токенов) при анализе паттернов трансформации URL.
Regular Expression (Regex, Регулярное выражение): Стандартный синтаксис для определения текстовых паттернов. Используется для формализации правил преобразования URL из десктопного в мобильный и наоборот.
Selective URL Tokens (Селективные токены URL): Токены URL, которые являются дискриминирующими или значимыми для идентификации конкретной страницы. Токены, которые появляются слишком часто в пределах домена (например, имя категории), могут игнорироваться как неселективные.
Shingling (Шинглирование): Техника NLP для оценки схожести двух документов путем сравнения последовательностей контентных токенов (например, последовательностей из 4 слов). Используется для верификации того, что мобильная и десктопная страницы содержат один и тот же основной контент.
URL Tokens (Токены URL): Сегменты URL, полученные путем его парсинга по стандартным разделителям (например, “/”, “&”, “?”, “#”).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл генерации и верификации правил трансформации URL.

Система идентифицирует первую пару URL (мобильный и немобильный), соответствующих одной и той же веб-странице.
Определяются совпадающие символьные строки (matching character strings) между двумя URL, которые содержат общую подстроку определенной минимальной длины.
Для каждой совпадающей строки определяется паттерн (pattern), специфицирующий эту строку.
На основе этих паттернов определяется правило (rule) для генерации мобильного URL из входного немобильного URL.
Это правило применяется ко второму немобильному URL для генерации второго мобильного URL.
Система верифицирует (verifying), что веб-страница, связанная со сгенерированным вторым мобильным URL, соответствует веб-странице второго немобильного URL.

Claim 2 (Зависимый от 1): Уточняет метод определения совпадающих строк. Он включает разделение URL на токены на основе разделителей URL и сравнение этих токенов.

Claim 3 (Зависимый от 1): Уточняет, что паттерны (patterns) представлены в виде регулярных выражений (regular expressions).

Claim 4 (Зависимый от 1): Уточняет метод верификации. Он включает сравнение контента веб-страниц, связанных с немобильным и сгенерированным мобильным URL.

Claim 5 (Зависимый от 1): Описывает применение изобретения в индексации. Второй немобильный URL берется из индекса поисковой службы, и после генерации и верификации соответствующий мобильный URL добавляется в индекс.

Claim 6 и 7 (Зависимые от 1): Описывают применение в ранжировании. Генерация мобильного URL происходит в ответ на поисковый запрос. Сгенерированный мобильный URL включается в набор результатов поиска и может быть приоритизирован (повышен) при отображении.

Claim 8 (Зависимый от 1): Описывает применение на стороне клиента (мобильного устройства). Система перехватывает запрос на десктопную страницу, генерирует мобильный URL с помощью правила и отправляет запрос уже на мобильную версию.

Где и как применяется

Изобретение применяется на нескольких ключевых этапах поисковой архитектуры, преимущественно связанных с обработкой и индексацией контента.

CRAWLING – Сканирование и Сбор данных

Обнаружение URL: Система может использовать сгенерированные правила для предсказания мобильных URL на основе уже известных десктопных URL. Это улучшает обнаружение мобильного контента.
Сбор данных для анализа: Краулеры собирают как структуру URL, так и контент страниц (мобильных и десктопных), которые необходимы для анализа токенов и сравнения контента.

INDEXING – Индексирование и извлечение признаков

Анализ и Верификация пар: Основная часть алгоритма (анализ URL Tokens, сравнение контента методом shingling) выполняется на этапе индексации для установления соответствия между страницами.
Генерация правил: Генерация Regular Expressions для трансформации URL происходит офлайн на основе проиндексированных данных.
Каноникализация и Консолидация сигналов: Установление подтвержденных пар позволяет Google корректно консолидировать сигналы ранжирования (например, ссылки) между мобильной и десктопной версиями и выбрать канонический URL.

RANKING / RERANKING – Ранжирование и Переранжирование

Выбор версии для показа: Как указано в Claims 6 и 7, система может использовать правила в реальном времени для определения мобильного URL и его приоритизации (бустинга) в выдаче для мобильных пользователей.

Входные данные:

Набор известных десктопных URL (например, из индекса).
Набор известных мобильных URL (полученных в ходе краулинга).
Контент страниц для каждого URL.

Выходные данные:

Подтвержденные пары мобильных и десктопных URL.
Набор правил (Regular Expressions) для трансформации URL в рамках домена.
Дополнительные мобильные URL, добавленные в индекс.

На что влияет

Конфигурации сайтов: Влияет исключительно на сайты, использующие раздельные URL для мобильной и десктопной версий (m-dot конфигурации). Не влияет на сайты с адаптивным дизайном (Responsive Design) или динамическим показом (Dynamic Serving), использующие единый URL.
Технические аспекты: Влияет на процессы краулинга, индексации, каноникализации и консолидации сигналов для затронутых сайтов.

Когда применяется

Условия работы алгоритма: Применяется, когда система обрабатывает домен, содержащий как мобильные, так и немобильные URL. Идентификация типа URL может происходить по паттернам (например, замена "www" на "m", добавление пути "/m", параметра ?mobile=1) или через анализ контента (например, наличие тега viewport).
Частота применения: Обнаружение пар и генерация правил происходят периодически в процессе индексации. Применение правил для краулинга или ранжирования происходит постоянно.

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: А) Обнаружение соответствующих пар URL и Б) Генерация правил трансформации.

Процесс А: Обнаружение пар URL (Finding Pairs)

Идентификация типа URL: Определение, является ли данный URL мобильным или десктопным (на основе паттернов URL или анализа контента/рендеринга).
Извлечение токенов URL: Парсинг мобильных и десктопных URL на токены с использованием стандартных разделителей.
Определение селективности токенов: Идентификация Selective URL Tokens — токенов, которые не встречаются слишком часто в домене и являются значимыми для идентификации конкретной страницы. Удаление неселективных токенов.
Поиск кандидатов: Для данного десктопного URL определяется набор потенциальных мобильных URL, которые имеют достаточное количество общих селективных токенов.
Сравнение контента (Верификация):
1. Удаление Boilerplate Content (шаблонных элементов) из обеих страниц.
2. Применение техники Shingling или статистического анализа вероятности совпадения токенов для оценки схожести основного контента.
Выбор лучшей пары: Мобильный URL, чей контент наиболее близок к контенту десктопного URL (и превышает порог схожести), назначается соответствующей парой.

Процесс Б: Генерация правил трансформации (Rule Generation)

Выборка подтвержденных пар: Система использует набор пар URL, найденных в Процессе А.
Идентификация совпадающих строк: Внутри каждой пары определяются строки (токены), которые присутствуют в обоих URL.
Введение плейсхолдеров: Совпадающие строки заменяются абстрактными плейсхолдерами (например, const_1). Например, www.site.com/news/123 и m.site.com/mobile/123 преобразуются в www.const_1/news/const_2 и m.const_1/mobile/const_2.
Группировка по характеристикам: Пары URL, имеющие одинаковую структуру плейсхолдеров (т.е. одинаковый паттерн трансформации), группируются вместе.
Генерация регулярных выражений: Для каждого плейсхолдера в группе определяется Regular Expression, который описывает все возможные значения этого плейсхолдера (например, const_2 может соответствовать \d{3} — любым трем цифрам).
Формирование правила: Определяется финальное правило маппинга для группы, использующее сгенерированные Regular Expressions. Например: Если десктопный URL соответствует паттерну X, то мобильный URL соответствует паттерну Y.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Технические факторы:
- Структура URL: Абсолютные URL мобильных и десктопных страниц.
- Разделители URL: Символы “/”, “&”, “?”, “#”, используемые для парсинга URL на токены.
- HTML теги: Специфические теги (например, viewport) могут использоваться для идентификации мобильных страниц.
Контентные факторы:
- Полный контент страницы: Текст страниц используется для верификации соответствия пар.
- Контентные токены: Слова или группы слов (шинглы), извлеченные из контента для анализа схожести.

Какие метрики используются и как они считаются

Частота токенов URL (URL Token Frequency): Подсчет количества появлений каждого токена URL в пределах домена. Используется для определения Selective URL Tokens (токены с низкой частотой).
Количество общих токенов (Shared Tokens Count): Метрика для выбора кандидатов в пары. Может требовать определенного процента совпадения или наличия хотя бы одного общего селективного токена.
Оценка схожести контента (Content Similarity Score):
- Shingle Overlap: Процент общих шинглов (последовательностей слов) между двумя страницами после удаления boilerplate.
- Статистическая вероятность: Оценка вероятности случайного совпадения контентных токенов в двух документах. Низкая вероятность случайного совпадения указывает на высокую схожесть.
Пороги схожести: Минимальный уровень схожести контента (например, 51% Shingle Overlap), необходимый для подтверждения пары URL.

Автоматизация обработки мобильных конфигураций: Google разработал сложные автоматизированные методы для обработки сайтов с раздельными URL, позволяющие системе самостоятельно находить соответствия даже при отсутствии явных сигналов от вебмастера (rel=alternate/canonical). Это функционирует как система подстраховки.
Двухфакторная верификация пар: Система не полагается только на структуру URL. Ключевым этапом является верификация через анализ контента (shingling, удаление boilerplate). Это означает, что паритет основного контента между мобильной и десктопной версиями критически важен.
Важность селективных токенов: Для первичного поиска кандидатов система фокусируется на значимых (selective) частях URL, игнорируя общие элементы. Это подчеркивает важность наличия уникальных идентификаторов или ключевых слов в URL.
Генерализация правил через Regex: Использование Regular Expressions позволяет масштабировать найденные паттерны на весь сайт. Это означает, что консистентность структуры URL значительно облегчает работу системы.
Цели применения — Индексация и Ранжирование: Основные цели изобретения — улучшение обнаружения и индексации мобильного контента (Crawl Discovery) и обеспечение показа корректной версии URL пользователю в результатах поиска (Serving).

Best practices (это мы делаем)

Рекомендации актуальны для сайтов, использующих конфигурацию с раздельными URL (Separate URLs / m-dot).

Обеспечение полного паритета основного контента: Убедитесь, что основной контент (текст, изображения, ключевые данные) на мобильной и десктопной версиях идентичен. Поскольку система использует shingling для верификации пар, расхождения в основном контенте могут помешать корректному сопоставлению.
Использование консистентной структуры URL: Придерживайтесь четких и последовательных правил формирования URL для мобильной и десктопной версий. Чем проще и консистентнее паттерн трансформации, тем легче системе сгенерировать корректные Regular Expressions и применить их ко всему сайту.
Включение значимых идентификаторов в URL: Убедитесь, что URL содержат Selective URL Tokens (например, ID продукта, уникальные слаги). Это помогает системе на этапе первичного поиска кандидатов для сопоставления.
Внедрение явных сигналов (Приоритет): Хотя Google может определить пары автоматически, лучшей практикой остается явное указание связей с помощью rel=alternate на десктопной странице и rel=canonical на мобильной. Это устраняет неоднозначность и снижает зависимость от автоматических алгоритмов.
Мониторинг мобильных страниц в индексе: Используйте Google Search Console для мониторинга статуса индексации мобильных страниц. Если мобильные страницы неправильно каноникализируются, проверьте паритет контента и консистентность URL.

Worst practices (это делать не надо)

Значительные различия в основном контенте (Content Discrepancy): Предоставление урезанного контента на мобильной версии. Это может быть воспринято как разный контент при анализе методом shingling, что приведет к тому, что страницы не будут связаны.
Неконсистентные или сложные правила URL: Использование разных паттернов URL для разных разделов сайта (например, в блоге один способ формирования мобильных URL, а в каталоге — другой). Это затрудняет генерацию универсальных правил трансформации.
Использование неинформативных URL: Формирование URL только из неселективных токенов (например, /category/page1, /category/page2), что затрудняет первичное сопоставление на основе структуры URL.
Блокировка ресурсов на мобильной версии: Блокировка CSS/JS или основного контента, которая мешает Google корректно проанализировать страницу для сравнения контента или определить ее как мобильную.

Стратегическое значение

Патент подтверждает стремление Google понять структуру и взаимосвязи контента на сайте, даже при сложных технических реализациях. Для SEO-стратегии это означает, что техническая реализация мобильной версии должна быть максимально чистой и последовательной. Хотя предпочтительным подходом является адаптивный дизайн (единый URL), при использовании раздельных URL необходимо стратегически подходить к структуре URL и управлению контентом, чтобы максимизировать синергию между версиями, а не создавать две независимые сущности.

Практические примеры

Сценарий 1: Оптимизация структуры URL интернет-магазина (m-dot)

Интернет-магазин использует раздельную мобильную версию и хочет убедиться, что Google корректно сопоставляет страницы товаров.

Плохая реализация:

Десктоп: www.shop.com/catalog/shoes/nike-air-max-id12345.html
Мобильная: m.shop.com/product.php?id=12345

Анализ: Трансформация сложная. Общий Selective URL Token только один (12345). Система может связать эти страницы, но генерация общего правила для всего сайта будет затруднена из-за сильного изменения структуры пути и имен файлов.

Оптимизированная реализация:

Десктоп: www.shop.com/p/nike-air-max/12345/
Мобильная: m.shop.com/p/nike-air-max/12345/

Анализ: Идеальная консистентность. Паттерн трансформации прост: замена "www" на "m". Система легко сгенерирует правило: www.(.*) -> m.$1. Это гарантирует быстрое и точное сопоставление всех страниц.

Сценарий 2: Проверка паритета контента новостного сайта

Новостной сайт заметил, что мобильные версии статей плохо индексируются.

Проблема: На мобильной версии отображается только первые три абзаца статьи, а остальное скрыто под кнопкой "Читать далее" и не доступно в исходном коде при загрузке.

Анализ: Когда система применяет shingling для сравнения десктопной (полной) и мобильной (урезанной) версий, оценка схожести контента может оказаться ниже порогового значения. Страницы не будут признаны парой.

Решение: Обеспечить доступность всего основного текста статьи в исходном коде мобильной страницы при первой загрузке. Это позволит алгоритму shingling подтвердить идентичность контента.

Применяется ли этот патент к сайтам с адаптивным дизайном (Responsive Design)?

Нет. Патент специально разработан для решения проблемы сайтов, использующих отдельные URL для мобильных и десктопных версий (например, конфигурации m-dot). Сайты с адаптивным дизайном используют единый URL и единый HTML-код для всех устройств, поэтому сопоставление пар URL для них не требуется.

Как этот патент связан с Mobile-First Indexing (MFI)?

MFI означает, что Google преимущественно использует мобильную версию контента для индексации и ранжирования. Этот патент критически важен для MFI на сайтах с раздельными URL, так как он помогает Google эффективно находить мобильную версию страницы по известной десктопной и подтверждать, что это одна и та же сущность. Корректное сопоставление гарантирует, что сигналы с десктопной версии будут консолидированы с мобильной.

Что такое Shingling и почему он используется для верификации?

Шинглирование (Shingling) — это техника, при которой текст документа разбивается на короткие последовательности слов (шинглы), например, все возможные последовательности из 5 слов. Затем сравнивается процент общих шинглов между двумя документами. Это надежный способ определить, содержат ли две страницы один и тот же основной контент, даже если их структура, навигация или реклама отличаются.

Что произойдет, если контент на мобильной и десктопной версиях немного отличается?

Патент упоминает удаление шаблонного контента (boilerplate removal) перед сравнением, поэтому различия в навигации, футере или рекламе игнорируются. Однако, если основной контент значительно отличается (например, мобильная версия урезана), оценка схожести (Shingling) может оказаться ниже порога, и система не сможет автоматически подтвердить пару. Это подчеркивает важность паритета контента.

Что такое "Селективные токены URL" (Selective URL Tokens)?

Это части URL, которые помогают уникально идентифицировать страницу внутри домена. Например, в URL www.site.com/news/2025/my-article токены "news" и "2025" могут быть неселективными, так как встречаются часто, а "my-article" — селективным. Система ищет общие селективные токены для поиска потенциальных пар URL.

Означает ли этот патент, что мне больше не нужно настраивать rel=alternate и rel=canonical?

Нет. Явная настройка rel=alternate (на десктопной версии) и rel=canonical (на мобильной версии) всегда является лучшей практикой. Это дает Google четкий сигнал и устраняет необходимость полагаться на автоматические алгоритмы, описанные в патенте. Патент описывает механизм 'подстраховки' для случаев, когда эти сигналы отсутствуют или настроены некорректно.

Как непоследовательная структура URL влияет на работу этого алгоритма?

Непоследовательность сильно усложняет работу системы. Алгоритм ищет общие паттерны трансформации и генерирует правила (Regular Expressions) на их основе. Если для разных разделов сайта используются разные правила формирования мобильных URL, системе придется генерировать множество частных правил, что менее эффективно и может привести к ошибкам или неполному покрытию.

Может ли система ошибочно связать две разные страницы?

Такая вероятность существует, но она минимизируется за счет двухэтапной проверки. Сначала система ищет совпадение по селективным токенам URL, а затем проводит строгую верификацию через сравнение контента (shingling). Если две разные страницы имеют схожие URL и очень похожий контент, они могут быть ошибочно связаны.

Как система определяет, является ли URL мобильным или десктопным?

Патент предлагает несколько методов. Самый распространенный — по структуре URL (например, наличие "m." вместо "www.", пути "/m/" или параметра ?mobile=1). Также может использоваться анализ HTML-кода на наличие специфичных для мобильных устройств тегов (например, viewport) или даже рендеринг страницы для проверки ее адаптивности под мобильный экран.

Как сгенерированные правила используются Google на практике?

Правила используются тремя основными способами. Во-первых, для улучшения краулинга: предсказание мобильных URL по известным десктопным (Crawl Discovery). Во-вторых, для индексации: добавление найденных мобильных URL в индекс и их связывание с десктопными. В-третьих, при ранжировании: подмена десктопного URL на мобильный в выдаче для пользователей мобильных устройств.

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя

Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.

US8600993B1
2013-12-03

Структура сайта
Персонализация
Техническое SEO

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google выбирает между веб-сайтом (десктоп/мобайл) и нативным приложением для показа в результатах поиска

Google анализирует различные форматы доступа к контенту (например, десктопный сайт, мобильный сайт, нативное приложение). Система оценивает качество, скорость, стабильность и совместимость каждого варианта с устройством пользователя. В результатах поиска Google покажет ссылку на тот формат, который имеет наивысшую оценку качества для конкретного пользователя и устройства.

US9146972B2
2015-09-29

SERP
Поведенческие сигналы
Персонализация

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя

Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.

US9235626B2
2016-01-12

Персонализация
SERP
Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса

Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.

US8392443B1
2013-03-05

Семантика и интент
Поведенческие сигналы

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам

Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).

US9135317B2
2015-09-15

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы