Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя

DETERMINING RESOURCE ATTRIBUTES FROM SITE ADDRESS ATTRIBUTES (Определение атрибутов ресурса на основе атрибутов адреса сайта)

US8600993B1
Google LLC
2009-08-26
2013-12-03

Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.

Какую проблему решает

Патент решает проблему обработки сайтов, содержащих субстантивно дублирующийся или схожий контент, таргетированный на разные аудитории (разные языки, страны или типы устройств — user agents). Часто владельцы сайтов не указывают таргетинг явно, а структура URL может быть неоднозначной (например, de.example.com может означать немецкий язык или таргетинг на Германию). Это приводит к появлению в выдаче избыточных (redundant) результатов с одного домена, что ухудшает пользовательский опыт. Изобретение призвано автоматически определить таргетинг контента по структуре URL и выбрать наиболее подходящую версию для конкретного пользователя.

Что запатентовано

Запатентована система автоматического определения атрибутов контента (Resource Attributes) на основе анализа структуры URL (Address Attributes). Система анализирует множество URL одного домена, выявляет повторяющиеся шаблоны и сравнивает их с фактическими характеристиками контента на этих страницах. На основе этого сравнения вычисляется вероятность (Likelihood), что определенный шаблон URL указывает на конкретный атрибут контента. Эти данные используются для корректировки поисковой выдачи в соответствии с атрибутами пользователя.

Как это работает

Система работает в два этапа:

Офлайн-анализ (Индексирование): Система анализирует URL домена и группирует их по схожим шаблонам (например, *.example.com). Затем она изучает контент этих страниц и определяет его атрибуты (язык, геолокацию и т.д.). Сравнивая шаблоны URL с атрибутами контента, система вычисляет Likelihood — вероятность того, что данный шаблон указывает на определенный атрибут.
Обработка запроса (Ранжирование/Переранжирование): Когда пользователь вводит запрос, система определяет его атрибуты (язык, местоположение, устройство). Если в результатах поиска присутствуют несколько страниц из одного набора схожих URL, система вычисляет Alignment Score — оценку соответствия между атрибутами пользователя и вероятными атрибутами каждой страницы. Страница с наивысшим Alignment Score повышается в ранжировании, а остальные версии могут быть понижены.

Актуальность для SEO

Высокая. Автоматическое определение локализации, интернационализации и адаптации под устройства остается ключевой задачей поисковых систем. Хотя явные сигналы (например, hreflang) являются стандартом, многие сайты их не используют или используют некорректно. Описанный механизм позволяет Google эффективно обрабатывать такие ситуации, гарантируя, что пользователи увидят наиболее релевантную для их контекста версию контента.

Важность для SEO

Патент имеет высокое значение для SEO, особенно для международных, мультиязычных проектов и сайтов с разными версиями для устройств. Он описывает механизм, с помощью которого Google интерпретирует структуру URL как сигнал таргетинга и принимает решения о ранжировании разных версий. Нечеткая или противоречивая структура может привести к неправильной интерпретации сигналов системой, что вызовет показ неверной версии страницы в поиске или каннибализацию между версиями.

Термины и определения

Address Attribute (Атрибут Адреса): Часть URL (Resource Locator), которая варьируется в соответствии с идентифицированным шаблоном. Например, в шаблоне <AA1>.example.com, Address Attribute — это поддомен (например, 'fr', 'de', 'm').
Alignment Score (Оценка Соответствия): Метрика, вычисляемая во время обработки запроса. Отражает степень соответствия между атрибутами пользователя (User Attributes) и предполагаемыми атрибутами ресурса (на основе вычисленных Likelihoods).
Attribute Processing Engine (Механизм Обработки Атрибутов): Компонент системы, который анализирует контент страниц, определяет их Resource Attributes и вычисляет Likelihoods путем сравнения с Address Attributes.
Likelihood (Вероятность): Оценка вероятности того, что определенный Address Attribute (шаблон URL) указывает на конкретный Resource Attribute (характеристику контента). Например, вероятность того, что шаблон указывает на язык, а не на страну.
Resource Attribute (Атрибут Ресурса): Характеристика контента ресурса. Примеры, указанные в патенте: язык ресурса, страна таргетинга, требуемый user-agent (тип устройства).
Resource Locator (Указатель Ресурса): Строка символов, идентифицирующая ресурс, например, URL.
Search Results Adjusting Engine (Механизм Корректировки Результатов Поиска): Компонент, который использует Likelihoods и User Attributes для вычисления Alignment Score и переранжирования результатов поиска (повышения и понижения).
Set of Similar Resource Locators (Набор Схожих Указателей Ресурсов): Группа URL с одного домена, которые имеют одинаковый Address Attribute (шаблон). Например, fr.example.com/page1 и de.example.com/page1 принадлежат к одному набору.
User Attributes (Атрибуты Пользователя): Характеристики пользователя, связанные с запросом. Могут быть явными (настройки аккаунта) или неявными (IP-адрес, язык браузера, история поиска, User-Agent). Примеры: язык, страна, тип устройства.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает офлайн-процесс анализа сайта для определения связи между структурой URL и контентом.

Система выбирает URL (resource locators), имеющие одно и то же доменное имя.
Для каждого URL определяются: (a) Атрибуты контента (resource attributes) и (b) Атрибуты адреса (address attributes) — части URL, которые варьируются по шаблону.
Определяется набор схожих URL (set of similar resource locators) — группа URL, соответствующих одному шаблону.
Система сравнивает атрибуты адреса с атрибутами контента внутри этого набора.
На основе сравнения определяется вероятность (likelihood), что атрибут адреса указывает на конкретный атрибут контента. Это основано на том, как контент меняется при изменении значения атрибута адреса.
Эти вероятности ассоциируются с соответствующими URL в поисковом индексе (resource index data store).

Claim 3 (Зависимый от 1): Описывает процесс использования вычисленных вероятностей во время поиска для корректировки ранжирования.

Система получает результаты поиска, ранжированные в исходном порядке.
Для каждого результата вычисляется оценка соответствия (alignment score). Эта оценка основана на атрибутах пользователя (user attributes) и вероятностях (likelihoods), связанных с URL результата.
Ранг результата с наивысшей оценкой соответствия (то есть того, чьи атрибуты лучше всего совпадают с атрибутами пользователя) повышается.

Claim 4 (Зависимый от 3): Уточняет механизм корректировки.

Ранг других результатов (второго результата), которые имеют более низкую оценку соответствия, но изначально ранжировались выше первого результата, понижается.

Claim 8 (Зависимый от 3): Определяет приоритеты при расчете соответствия.

При повышении ранга используется приоритет выравнивания (alignment priority), при котором языковое соответствие имеет приоритет над страновым соответствием, а страновое соответствие имеет приоритет над соответствием user-agent.

Claim 10 (Зависимый от 6 и 1): Детализирует метод расчета вероятностей для языка и страны.

Используются счетчики. Счетчик языка (language counter) увеличивается, если ресурс написан на языке, указанном кодом в URL. Счетчик страны (country counter) увеличивается, если ресурс таргетирован на страну, указанную кодом в URL.
Вероятность (Likelihood) для языка и страны определяется на основе значений этих счетчиков.

Где и как применяется

Изобретение затрагивает этапы индексирования для предварительного анализа и этап переранжирования для применения результатов анализа.

INDEXING – Индексирование и извлечение признаков
Основная работа механизма происходит на этом этапе (офлайн). Site Processing Engine анализирует структуру сайта и контент.

Процесс: Анализ URL для выявления шаблонов (Address Attributes) и группировки URL. Анализ контента для определения Resource Attributes. Вычисление вероятностей (Likelihoods).
Выходные данные: Likelihoods сохраняются в индексе (Attribute Data) и ассоциируются с соответствующими URL.

RERANKING – Переранжирование
Механизм активируется во время обработки запроса для корректировки финальной выдачи. Search Results Adjusting Engine выполняет эту функцию.

Процесс: Получение исходного набора результатов и User Attributes. Вычисление Alignment Scores для результатов, принадлежащих к одному набору схожих URL. Переранжирование внутри этого набора: лучшая версия повышается, остальные понижаются.

Входные данные:

(Индексирование): Набор URL одного домена; Контент ресурсов; Исторические данные (опционально).
(Ранжирование): Исходный набор ранжированных результатов; Атрибуты пользователя (язык, страна, устройство); Сохраненные в индексе Likelihoods.

Выходные данные:

(Ранжирование): Скорректированный набор результатов поиска, где локализованные версии переупорядочены.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на международные сайты (E-commerce, медиа, корпоративные сайты) с дублирующимся или переведенным контентом. Также влияет на сайты, адаптирующие контент под разные устройства (например, мобильные версии на поддомене m.).
Специфические запросы: Влияет на любые запросы, по которым в выдаче могут присутствовать несколько локализованных или адаптированных версий одного и того же ресурса.

Когда применяется

Триггеры активации (Ранжирование): Механизм корректировки активируется, когда в результатах поиска идентифицировано несколько ресурсов, принадлежащих к одному и тому же Set of Similar Resource Locators (т.е. несколько версий одной страницы).
Условия (Индексирование): Механизм анализа активируется, когда на сайте обнаруживаются URL, варьирующиеся по определенному шаблону (Address Attribute).
Ограничения: В патенте упоминается (в описании), что повышение ранга может не произойти, если исходная оценка релевантности результата слишком низкая (например, не входит в Топ-N или значительно уступает лидеру).

Пошаговый алгоритм

Процесс А: Определение Вероятностей (Офлайн / Индексирование)

Выборка URL: Система выбирает URL, имеющие одинаковое доменное имя.
Определение Атрибутов Ресурсов: Для каждого URL система анализирует контент и определяет его характеристики (Resource Attributes) — язык, страна таргетинга, требования к user-agent.
Определение Атрибутов Адресов: Система анализирует структуру URL для выявления частей, которые варьируются по шаблону (Address Attributes).
Группировка URL: URL группируются в Sets of Similar Resource Locators на основе выявленных шаблонов.
Сравнение Атрибутов: Внутри каждой группы система сравнивает, как изменение атрибута адреса коррелирует с изменением атрибутов контента.
Вычисление Вероятностей (Likelihoods): Для каждого шаблона вычисляется вероятность того, что он указывает на определенный атрибут контента. Это может включать использование счетчиков и, опционально, априорных вероятностей (a priori probabilities).
Сохранение Данных: Вычисленные вероятности сохраняются в индексе и ассоциируются с соответствующими URL.

Процесс Б: Корректировка Ранжирования (Онлайн / Обработка Запроса)

Получение Результатов и Атрибутов: Система получает исходный набор результатов и определяет User Attributes (язык, страна, устройство).
Идентификация Групп: Система проверяет, есть ли в результатах поиска несколько URL, принадлежащих к одному Set of Similar Resource Locators.
Вычисление Оценки Соответствия (Alignment Score): Для каждого URL в идентифицированных группах вычисляется Alignment Score на основе сохраненных Likelihoods и User Attributes. При расчете могут учитываться приоритеты (Язык > Страна > Устройство).
Переранжирование (Повышение): Внутри каждой группы результат с наивысшим Alignment Score повышается в ранге (обычно выше всех остальных результатов группы).
Переранжирование (Понижение): Другие результаты из этой группы, имеющие более низкий Alignment Score, понижаются в ранге.
Финальная Выдача: Скорректированный набор результатов предоставляется пользователю.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Структурные факторы (URL): Критически важные данные. Анализируются Resource Locators для выявления Address Attributes. Патент упоминает анализ хост-имен (поддоменов), путей (директорий), имен файлов, номеров портов и параметров запроса.
Контентные факторы: Содержимое ресурсов анализируется для определения Resource Attributes (например, определение языка текста, признаков геотаргетинга).
Пользовательские факторы: Используются во время ранжирования (User Attributes). Включают язык, страну (по IP или настройкам), тип устройства (User-Agent). Могут быть получены из настроек браузера, данных аккаунта (User Account Data) или истории поиска.
Ссылочные факторы (Внутренние ссылки): Упоминается использование site linkage information для определения иерархических отношений между ресурсами и валидации атрибутов.
Поведенческие факторы (Исторические данные): Упоминаются Historical Data (логи запросов и кликов). Могут использоваться для определения таргетинга (например, если на ресурс идет трафик преимущественно из одной страны) или анализа изменений запросов (query revisions).

Какие метрики используются и как они считаются

Likelihood (Вероятность): Вероятность того, что шаблон URL указывает на атрибут контента.
Метод 1 (Счетчики) (Claim 10): Подсчитывается, сколько раз атрибут адреса (например, код 'fr') соответствовал атрибуту контента (например, французскому языку — Language Counter, или таргетингу на Францию — Country Counter). Вероятность рассчитывается как отношение соответствующего счетчика к общему числу URL в наборе.

Метод 2 (С использованием априорных вероятностей) (Table 1 в описании): Учитывается a priori probability (на основе анализа всего интернета) и наблюдаемое распределение на конкретном сайте. Они комбинируются для получения оценки уверенности (Confidence). Итоговая Likelihood для шаблона рассчитывается как взвешенная сумма оценок уверенности для разных значений атрибута.
Alignment Score (Оценка Соответствия): Метрика соответствия ресурса пользователю. Рассчитывается путем комбинирования User Attributes и Likelihoods ресурса. Например, это может быть скалярное произведение вектора атрибутов пользователя и вектора вероятностей ресурса. При расчете учитываются приоритеты атрибутов (Claim 8).

Автоматическое определение локализации и адаптации: Google активно пытается автоматически понять структуру интернационализации и адаптации сайта под устройства, анализируя шаблоны URL и сравнивая их с контентом. Система не полагается исключительно на явные сигналы.
Вероятностный подход к атрибутам URL: Система не делает жестких выводов, а вычисляет Likelihoods — вероятности того, что шаблон указывает на язык, страну или user-agent. Это позволяет обрабатывать неоднозначные случаи (например, код 'es' для Испании или испанского языка).
Приоритет соответствия пользователю (Alignment): Ключевым механизмом является Search Results Adjusting Engine. Он гарантирует, что если в выдаче есть несколько версий одного контента, версия, наиболее соответствующая атрибутам пользователя (Alignment Score), будет показана выше остальных.
Приоритеты атрибутов: При выборе лучшей версии система отдает предпочтение языковому соответствию перед страновым, а страновому — перед соответствием типу устройства (Claim 8).
Кластеризация и Демоушен: Система группирует похожие URL (Set of Similar Resource Locators) и обрабатывает их как кластер. После выбора лучшей версии остальные понижаются (демоушены), чтобы избежать дублирования в SERP.
Важность консистентности сигналов: Точность работы системы напрямую зависит от того, насколько последовательно структура URL отражает атрибуты контента. Противоречивые сигналы могут привести к низким значениям Likelihood и ошибкам в таргетинге.

Best practices (это мы делаем)

Использовать четкую, последовательную и логичную структуру URL: Это ключевая рекомендация. Структура URL должна последовательно отражать таргетинг контента (язык, страну и/или устройство). Это поможет системе правильно вычислить Likelihoods. Используйте стандартные коды (ISO 639 для языков, ISO 3166 для стран).
Обеспечивать строгое соответствие контента и URL: Убедитесь, что контент на странице соответствует таргетингу, подразумеваемому URL. Если URL содержит /fr/, контент должен быть на французском языке. Несоответствие снизит точность определения Resource Attributes.
Разделять язык и страну при необходимости: Если сайт таргетируется и на язык, и на страну, используйте структуру, которая явно разделяет эти атрибуты (например, /en-gb/, /en-us/). Это помогает избежать неоднозначности и позволяет системе точнее рассчитывать Alignment Score.
Использовать явные сигналы таргетинга (Hreflang): Хотя патент описывает автоматическое определение, предоставление явных сигналов через hreflang остается лучшей практикой. Это устраняет необходимость для Google угадывать таргетинг и верифицирует автоматические выводы системы.
Настраивать внутреннюю перелинковку между версиями: Используйте ссылки для переключения языка/страны. Патент упоминает использование site linkage information. Четкая перелинковка помогает системе идентифицировать Sets of Similar Resource Locators.

Worst practices (это делать не надо)

Использовать неоднозначную или непоследовательную структуру URL: Смешивание разных подходов к локализации (например, использование поддоменов для одних языков и директорий для других) или использование нестандартных кодов затруднит для системы выявление Address Attributes.
Противоречия между языком и страной: Использование кодов стран для обозначения языков (например, example.com/uk/ для английского языка вместо /en/) может привести к конфликтам при вычислении Likelihoods.
Смешивание языков на одной странице или в одной структуре: Наличие значительных блоков текста на разных языках на одном URL или смешивание языков в одной директории усложняет определение основного Resource Attribute и снижает уверенность системы.
Использование Cookies или параметров сессии для локализации без уникальных URL: Если локализация не отражена в основном URL (хост, путь), системе будет сложнее идентифицировать Address Attributes и сгруппировать схожие ресурсы (хотя анализ параметров запроса упомянут в патенте как возможный).

Стратегическое значение

Патент подчеркивает важность технической реализации интернационализации и адаптации. Для Google важно не просто наличие контента, а возможность системы четко идентифицировать разные версии и понять их взаимосвязь. Стратегия SEO для международных проектов должна базироваться на максимально чистых и однозначных сигналах таргетинга, начиная со структуры URL. Это подтверждает, что Google стремится к максимальной персонализации выдачи на основе контекста пользователя (язык, местоположение, устройство), и система будет активно продвигать версию контента, которая лучше соответствует этому контексту.

Практические примеры

Сценарий 1: Разрешение неоднозначности Язык vs Страна

Ситуация: Сайт использует структуру <код>.example.com. Есть fr.example.com (Французский язык) и ca.example.com.

Проблема: Код 'ca' может означать Каталанский язык или Канаду.

Действия Google (согласно патенту):

Система анализирует контент на ca.example.com. Предположим, он на английском и французском языках и таргетирован на Канаду.
Система рассчитывает Likelihoods. Language Likelihood для каталанского будет близка к 0. Country Likelihood для Канады будет высокой.
Пользователь из Канады ищет информацию. Google вычислит высокий Alignment Score для ca.example.com по стране и продвинет этот результат.
Если бы пользователь искал на каталанском языке, Alignment Score для ca.example.com был бы низким.

Сценарий 2: Исправление непоследовательной структуры

Ситуация: Сайт использует example.com/de/. В 70% случаев контент на немецком языке, в 30% — на английском, но для Германии.

Действия Google: Система рассчитает Language Likelihood ≈ 0.7 и Country Likelihood ≈ 1.0 (если весь контент таргетирован на Германию). Уверенность в языковом таргетинге снижена.

SEO Рекомендация: Обеспечить 100% последовательность. Создать структуру example.com/de-de/ (немецкий для Германии) и example.com/en-de/ (английский для Германии). Это позволит системе рассчитать высокие Likelihoods для обеих структур и точно таргетировать контент на пользователей в зависимости от их языка и местоположения.

Заменяет ли этот механизм необходимость внедрения атрибута hreflang?

Нет, не заменяет. Hreflang предоставляет явные и точные инструкции поисковой системе. Описанный в патенте механизм используется для автоматического определения локализованных версий, когда явные сигналы отсутствуют, неоднозначны или внедрены с ошибками. Это запасной вариант (fallback) или механизм валидации. Лучшая практика — использовать hreflang и поддерживать чистую, последовательную структуру URL.

Как система определяет, что означает сегмент URL: язык или страну?

Система использует вероятностный подход. Она анализирует контент всех страниц, соответствующих шаблону. Если изменение кода в URL (например, 'fr') коррелирует с изменением языка контента, система присвоит высокую Likelihood языковому атрибуту. Если язык остается тем же, но меняется таргетинг (валюта, адреса), высокая Likelihood будет присвоена атрибуту страны. Система рассчитывает обе вероятности.

Что важнее для системы: язык или страна?

В патенте (Claim 8) явно указано, что система использует приоритеты (alignment priority) при расчете Alignment Score. Языковое соответствие имеет приоритет над страновым соответствием, а страновое — над соответствием user-agent. Это означает, что для Google важнее всего показать пользователю контент на правильном языке.

Что произойдет, если структура URL непоследовательна?

Непоследовательная структура затрудняет идентификацию четких шаблонов (Address Attributes) и приводит к низким значениям Likelihood. Если система не уверена в таргетинге, механизм корректировки ранжирования будет работать некорректно. Это может привести к каннибализации между версиями, показу неверной версии пользователю или игнорированию структуры URL как сигнала таргетинга.

Как работает механизм корректировки ранжирования (Search Results Adjusting Engine)?

Он активируется, когда в выдаче присутствуют несколько версий одной страницы (из одного Set of Similar Resource Locators). Система вычисляет Alignment Score, сравнивая атрибуты пользователя с предполагаемыми атрибутами каждой версии. Версия с наилучшим соответствием повышается в ранге, вытесняя другие версии из этой группы, которые могут быть понижены (демоушены).

Влияет ли этот патент на сайты только с одним языком?

Да. Во-первых, если сайт имеет таргетинг на разные страны с одним языком (например, English для США и Австралии) и использует разную структуру URL. Во-вторых, патент охватывает таргетинг по User-Agent. Если сайт имеет разные версии для устройств (например, m.example.com), этот механизм будет использоваться для показа правильной версии пользователю в зависимости от его устройства.

Что такое "Априорные вероятности" (a priori probabilities) и как они используются?

Это вероятности, рассчитанные Google на основе анализа всего интернета. Например, Google знает, что код 'fr' в 99% случаев означает французский язык. При анализе вашего сайта система комбинирует эту общую статистику (априорную вероятность) с тем, что наблюдает на вашем домене (наблюдаемое распределение), чтобы рассчитать итоговую уверенность (Confidence). Использование стандартных ISO кодов помогает использовать эти данные эффективнее.

Может ли система ошибиться в определении атрибутов?

Да, поскольку механизм основан на вероятностях (Likelihoods). Если сигналы на сайте противоречивы (например, на странице с URL /de/ находится контент на английском языке), система может неправильно интерпретировать структуру. Чем чище и консистентнее сигналы на сайте, тем ниже вероятность ошибки.

Что делать, если я использую параметры URL (например, ?lang=fr) вместо папок?

Патент упоминает, что Address Attributes могут включать варьирующиеся параметры запроса (varying query parameters). Система способна анализировать и их. Однако примеры в патенте фокусируются на структуре хоста и пути, и использование статических URL (папок или поддоменов) традиционно считается более надежной практикой в SEO для обеспечения четких шаблонов.

Насколько сильно повышается или понижается результат в выдаче?

Патент не указывает конкретных значений. Повышение происходит как минимум так, чтобы наиболее подходящий результат оказался выше других результатов из того же набора схожих URL. Относительно понижения, в одном из примеров (в описании) показано, что деприоритизированный результат может быть смещен значительно вниз (например, с позиции N на N+20), потенциально за пределы первой страницы выдачи.

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации

Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.

US9251223B2
2016-02-02

Мультиязычность
Персонализация
Индексация

Как Google динамически определяет язык и страну пользователя для переранжирования поисковой выдачи

Google использует систему для динамического определения предпочтительного языка и страны пользователя, анализируя характеристики запроса, интерфейса (например, google.de) и IP-адрес. На основе этих данных система агрессивно повышает в выдаче результаты, соответствующие этим предпочтениям, используя либо физическое смещение позиций (Shifting Factor), либо формулу для увеличения оценки ранжирования (Weighting Factor).

US8306972B2
2012-11-06

Персонализация
Мультиязычность
SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов

Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.

US8005716B1
2011-08-23

Поведенческие сигналы
Семантика и интент
Антиспам

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP