Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

Описание

Какую задачу решает

Патент решает проблему точного определения языков, которым релевантен конкретный ресурс, особенно когда традиционный анализ контента неэффективен. Это актуально для страниц с недостаточным количеством текста (например, страницы только с изображениями, фреймами или навигационные хабы). Также решается задача идентификации всех релевантных языков для ресурсов со смешанным контентом.

Что запатентовано

Запатентована система определения языковой релевантности ресурса путем анализа контекста его входящих (incoming resource links) и исходящих (outgoing resource links) ссылок. Система извлекает языковые признаки (Language Features) из ссылочного окружения и использует модель классификации (Language Classification Model) для расчета оценок языковой релевантности (Language Relevance Scores). Эти оценки агрегируются для создания языкового профиля ресурса.

Как это работает

Ключевой механизм работы системы:

Извлечение признаков: Для ресурса анализируются все входящие и исходящие ссылки. Извлекаются Language Features: язык анкоров, коды в URL, язык контента исходной и целевой страниц.
Контекстуальная оценка: Модель генерирует Language Relevance Scores (LRS) для каждой ссылки. Оценка зависит от контекста: например, исходящая ссылка с анкором «English Version» может снизить релевантность английского для текущей страницы, но повысить ее для целевой.
Оценка качества и типа: Учитывается качество ссылки (Link Quality), например, понижается вес шаблонных (boilerplate) ссылок. Система также идентифицирует Language Gateway Resources (Языковые шлюзы); ссылки с них получают повышенный вес.
Агрегация: Все LRS агрегируются для создания итоговых Relevant Language Data (RLD) для ресурса (например, вектора вероятностей языков).

Актуальность для SEO

Высокая. Корректная идентификация языка является фундаментальной задачей международного поиска. Хотя алгоритмы NLP значительно продвинулись, анализ ссылочного контекста остается критически важным сигналом для определения языковой и географической релевантности, особенно для сложных многоязычных сайтов и нетекстового контента.

Важность для SEO

Патент имеет высокое значение (7/10) для международного SEO. Он описывает механизм, который Google использует для понимания языкового таргетинга страницы за пределами анализа ее контента и тегов hreflang. Если ссылочные сигналы (анкоры, язык источников) противоречат заявленному языку страницы, это может привести к неправильной классификации и проблемам с видимостью сайта на целевых рынках.

Детальный разбор

Термины и определения

Boilerplate Link (Шаблонная ссылка): Ссылка, являющаяся частью повторяющегося блока (например, навигация, футер) на многих страницах сайта. Такие ссылки могут иметь пониженный вес.
Common Source Feature (Признак общего источника): Характеристика, указывающая, что несколько ссылок исходят из одного и того же сайта, домена или страницы. Используется для ограничения чрезмерного влияния таких групп ссылок.
Language Classification Model (Модель языковой классификации): Машинно-обученная модель (например, Naïve Bayes, SVM или логистическая регрессия), которая использует Language Features для генерации Language Relevance Scores.
Language Features (Языковые признаки): Характеристики ссылки, используемые моделью. Примеры: язык анкора, коды в URL, язык исходной/целевой страницы, Link Quality, статус Language Gateway источника.
Language Gateway Resource (Языковой шлюз): Ресурс, характеризующийся наличием как входящих ссылок с множества разных языков (порог N), так и исходящих ссылок на множество разных языков (порог M). Ссылки с таких ресурсов имеют повышенный вес.
Language Indicator (Языковой индикатор): Данные в ссылке, указывающие на язык (например, анкор “English Version” или код “.en” в URL).
Language Relevance Score (LRS) (Оценка языковой релевантности): Оценка, присваиваемая конкретной ссылке, представляющая релевантность определенного языка для анализируемого ресурса. Зависит от контекста (входящая или исходящая).
Link Quality (Качество ссылки): Признаки, влияющие на вес ссылки: статус boilerplate, размер шрифта, позиция на странице, наличие «nofollow».
Relevant Language Data (RLD) (Данные о релевантных языках): Агрегированные данные из всех LRS, измеряющие релевантность множества языков для ресурса. Часто в виде вектора вероятностей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

Выбор первого ресурса.
Генерация Language Relevance Scores (LRS) для каждой входящей И исходящей ссылки на основе данных, определяющих эти ссылки.
Идентификация одного или нескольких языков как релевантных для первого ресурса на основе этих LRS.
Ассоциация этих языков с ресурсом в поисковом индексе.

Ядро изобретения — использование контекста как входящих, так и исходящих ссылок для определения языкового профиля ресурса.

Claim 2 (Зависимый): Уточняет признаки, используемые для генерации LRS.

Для исходящих ссылок используется язык контента целевого ресурса (target content language).
Для входящих ссылок используется язык контента исходного ресурса (source content language).

Claim 3 (Зависимый): Уточняет использование Language Indicators в самих ссылках (например, анкорный текст или код страны в URL) для генерации LRS.

Claim 6 (Зависимый): Вводит понятие Link Quality как фактора, влияющего на генерацию LRS.

Claim 7 и 8 (Зависимые): Вводят концепцию Language Gateway Resource.

Claim 7: LRS для входящей ссылки выше, если исходный ресурс является Language Gateway Resource (бустинг сигнала).
Claim 8: Ресурс классифицируется как Language Gateway, если количество релевантных языков по входящим ссылкам превышает порог N, И количество релевантных языков по исходящим ссылкам превышает порог M.

Claim 11 (Зависимый): Описывает реализацию с использованием модели. LRS генерируется путем идентификации множества Language Features и их обработки с помощью Language Classification Model.

Где и как применяется

Изобретение применяется преимущественно на этапе индексирования и влияет на ранжирование.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Language Relevance System анализирует граф ссылок.

Процесс: Feature Extractor собирает Language Features (анкоры, URL, язык соседних страниц, Link Quality). Language Classification Model вычисляет LRS для каждой ссылки и классифицирует ресурс (Gateway/Common).
Выходные данные: Relevant Language Data (RLD) и классификация ресурса сохраняются в Resource Index.

RANKING – Ранжирование
Поисковая система использует сохраненные RLD как один из признаков при расчете релевантности ресурса запросу (например, сопоставляя RLD с языком запроса пользователя).

Входные данные:

Граф ссылок (входящие/исходящие).
Анкоры и URL ссылок.
Язык контента исходных и целевых страниц.
Сигналы Link Quality (boilerplate, позиция, шрифт).
Предварительная классификация соседних ресурсов (Gateway/Common).

На что влияет

Конкретные типы контента: Наибольшее влияние на ресурсы с минимальным количеством текста: изображения, мультимедийные хабы, навигационные и главные страницы международных сайтов.
Конкретные ниши или тематики: Критически важно для всех международных веб-сайтов, стремящихся к видимости в разных языковых версиях поиска.

Когда применяется

Условия работы алгоритма: Применяется во время индексации или переиндексации ресурса при анализе его ссылочного профиля. Это офлайн-процесс.
Триггеры активации: Классификация Language Gateway Resource активируется при превышении порогов N (разнообразие языков входящих ссылок) и M (разнообразие языков исходящих ссылок).

Пошаговый алгоритм

Процесс А: Расчет языковой релевантности ресурса

Выбор ресурса: Система выбирает ресурс для анализа.
Извлечение признаков (Feature Extraction): Для каждой входящей и исходящей ссылки извлекаются Language Features:
- Языковые индикаторы (анкор, URL).
- Язык контента связанной страницы (источника/цели).
- Сигналы Link Quality (boilerplate, позиция, шрифт, nofollow).
- Статус связанной страницы (Language Gateway или Common).
Обработка общих источников: Входящие ссылки группируются по Common Source Feature (сайт, домен), чтобы ограничить чрезмерное влияние одного источника.
Генерация LRS: Language Classification Model генерирует Language Relevance Scores (LRS) для каждой ссылки/группы ссылок. Оценки корректируются:
- Повышаются, если ссылка качественная или исходит от Language Gateway Resource.
- Понижаются для boilerplate ссылок.
- Учитывается контекст (входящая vs исходящая).
Генерация RLD (Агрегация): Все LRS агрегируются (например, суммированием или функцией условной вероятности) для генерации финальных Relevant Language Data (RLD).
Сохранение: RLD ассоциируются с ресурсом в Resource Index.

Процесс Б: Идентификация Language Gateway Resources

Анализ LRS: Анализируются LRS, сгенерированные в Процессе А.
Проверка входящих ссылок: Определяется, указывают ли LRS входящих ссылок на более чем N релевантных языков.
Проверка исходящих ссылок: Если ДА, определяется, указывают ли LRS исходящих ссылок на более чем M релевантных языков.
Классификация: Если оба условия выполнены, ресурс классифицируется как Language Gateway Resource. Этот статус сохраняется и используется в Процессе А (шаг 4) для других ресурсов.

Какие данные и как использует

Данные на входе

Ссылочные факторы:
- Анкорный текст: язык текста и явное упоминание языка (например, «English Version»).
- URL структура: наличие кодов стран (.fr) или языковых кодов (/en/, en.example.com).
- Тип ссылки: Входящая или исходящая (контекст меняет интерпретацию).
Контентные факторы (соседних страниц):
- Язык контента исходного ресурса (для входящих ссылок).
- Язык контента целевого ресурса (для исходящих ссылок).
Структурные и Технические факторы (Link Quality):
- Boilerplate: Является ли ссылка частью повторяющегося шаблонного блока.
- Расположение ссылки на странице.
- Размер шрифта анкорного текста.
- Атрибуты «nofollow».
Системные данные:
- Классификация ресурса: Является ли связанная страница Language Gateway Resource.
- Common Source Feature: Принадлежность ссылок к одному источнику.
- Важность ресурса (Resource Importance, например, PageRank) исходных и целевых ресурсов (может использоваться для взвешивания).

Какие метрики используются и как они считаются

Language Relevance Score (LRS): Рассчитывается моделью классификации (Naïve Bayes, SVM, логистическая регрессия) на основе взвешенных Language Features.
Relevant Language Data (RLD): Агрегация всех LRS для ресурса. Вектор мер релевантности (например, вероятностей) для набора языков.
Link Quality Score: Внутренняя метрика для корректировки LRS. Понижает вес boilerplate ссылок и повышает вес заметных ссылок.
Language Gateway Classification: Бинарная классификация. Основана на порогах N (для входящих ссылок) и M (для исходящих ссылок) количества релевантных языков.
Корректировки оценок: Повышение LRS для ссылок от Language Gateways; снижение LRS при низком Link Quality; ограничение влияния ссылок с Common Source.

Выводы

Язык определяется экосистемой, а не только контентом: Google активно использует ссылочный граф для определения языковой принадлежности, что критически важно для страниц без явного текстового контента.
Контекст ссылки имеет значение (Входящие vs Исходящие): Интерпретация языковых сигналов зависит от направления. Анкор «English Version» на странице А, ведущий на Б, может понизить релевантность английского для А, но повысить ее для Б.
Идентификация и использование «Языковых шлюзов»: Система специально идентифицирует Language Gateway Resources (многоязычные хабы). Ссылки с таких ресурсов считаются более надежными индикаторами языка и получают повышенный вес.
Качество ссылки влияет на языковые сигналы: Система учитывает Link Quality. Ссылки в сквозных блоках (boilerplate), с мелким шрифтом или внизу страницы имеют меньший вес. Уникальные и заметные ссылки имеют больший вес.
Защита от манипуляций: Механизм Common Source Feature предотвращает ситуацию, когда один сайт с множеством ссылок может непропорционально повлиять на определение языка целевого ресурса.

Практика

Best practices (это мы делаем)

Обеспечение консистентности языковых сигналов: Убедитесь, что язык анкорного текста (внутреннего и внешнего) соответствует языку целевой страницы. Используйте явные анкоры на целевом языке (например, «Deutsch» для немецкой версии).
Использование четкой структуры URL: Применяйте стандартные языковые или страновые коды в URL (/en/, /es/, en.site.com). Патент подтверждает, что это важные Language Indicators.
Оптимизация навигации и переключателей языков: Убедитесь, что ссылки на языковые версии заметны (хорошая позиция, достаточный размер шрифта). Хотя сквозные ссылки (boilerplate) могут иметь пониженный вес, они должны быть реализованы качественно.
Стратегическое построение «Языковых шлюзов»: Проектируйте главные страницы международных сайтов так, чтобы они могли быть распознаны как Language Gateway Resource (получают ссылки извне на разных языках и ссылаются на разные языки внутри). Это усиливает языковые сигналы для внутренних разделов.
Языковой таргетинг в линкбилдинге: Активно стройте ссылочный профиль из источников на целевом языке. Язык источника (source content language) является прямым фактором.

Worst practices (это делать не надо)

Смешанные языковые сигналы в анкорах: Использование анкоров на языке А для ссылок на контент на языке Б создает противоречивые Language Features.
Использование только флагов (изображений) для переключения языков: Отсутствие текстовых анкоров или других Language Indicators ослабляет языковые сигналы.
Скрытие переключателей языков в футере: Размещение языковых ссылок в незаметных местах снижает их Link Quality и, соответственно, их влияние на определение языка.
Игнорирование ссылочного профиля при выходе на новый рынок: Запуск новой языковой версии без обеспечения входящих ссылок с ресурсов на этом языке может привести к неверной классификации.
Использование «nofollow» для переключателей языков: Патент указывает, что «nofollow» может привести к игнорированию или обнулению Language Relevance Score ссылки.

Стратегическое значение

Патент подтверждает необходимость комплексного подхода к международному SEO. Недостаточно просто перевести контент и настроить hreflang. Стратегия должна включать создание соответствующей языковой экосистемы вокруг контента через ссылочный граф. Этот механизм объясняет, почему Google может алгоритмически определить язык страницы, основываясь на ее ссылочном профиле, даже если контент страницы или декларативные теги говорят об обратном.

Практические примеры

Сценарий: Оптимизация главной страницы международного бренда (Language Gateway)

Компания выходит на рынки Франции и Германии. Главная страница (brand.com) служит хабом.

Цель: Добиться классификации brand.com как Language Gateway Resource и усилить сигналы для brand.com/fr/ и brand.com/de/.
Действия (Перелинковка): На brand.com размещается заметный блок (высокий Link Quality, не boilerplate) со ссылками с анкорами «Français» и «Deutsch».
Действия (Внешние ссылки): Проводится работа по получению ссылок на brand.com с внешних сайтов на разных языках. Также получаются прямые ссылки на /fr/ с французских сайтов и на /de/ с немецких.
Анализ Google:
- Система видит разнообразие языков во входящих (порог N достигнут) и исходящих (порог M достигнут) ссылках. Brand.com классифицируется как Language Gateway.
- При анализе brand.com/fr/, входящая ссылка от Language Gateway (brand.com) получает повышенный вес (Boost).
Результат: Языковая принадлежность внутренних страниц определяется быстро и точно благодаря усиленным сигналам со шлюза.

Вопросы и ответы

Что такое «Языковой шлюз» (Language Gateway Resource) и почему он важен?

Language Gateway Resource — это страница (часто главная страница глобального сайта), которая имеет как входящие ссылки с множества разных языков, так и исходящие ссылки на множество разных языков. Важность заключается в том, что Google считает такие страницы авторитетными: ссылки, исходящие с них, получают повышенный вес (Boost) при определении языка целевой страницы.

Как Google обрабатывает сквозные (boilerplate) ссылки при определении языка?

Патент указывает, что Link Quality является фактором. Ссылки, идентифицированные как «boilerplate» (шаблонные или сквозные, например, в меню или футере), получают пониженный вес при расчете Language Relevance Scores. Если ваш переключатель языков реализован как низкокачественный сквозной блок, его влияние будет снижено.

Как этот патент влияет на использование атрибута hreflang?

Патент описывает алгоритмический механизм определения языка на основе ссылок. Он не заменяет hreflang, который дает явные инструкции. На практике эти системы дополняют друг друга. Сигналы из ссылочного графа используются для валидации hreflang или определения языка при его отсутствии. Важно, чтобы сигналы не противоречили друг другу.

Влияет ли язык анкорного текста на определение языка страницы?

Да, это один из ключевых Language Indicators. Система анализирует язык анкора и наличие явных указаний языка. Важно, что система учитывает контекст: исходящая ссылка с анкором «French version» может сигнализировать, что текущая страница НЕ на французском, но целевая страница — на французском.

Как система определяет язык, если на странице вообще нет текста (например, только изображение)?

Это основная проблема, которую решает патент. В отсутствие текста система полностью полагается на контекст ссылок: язык анкоров входящих и исходящих ссылок, язык контента ссылающихся страниц и страниц, на которые ссылается ресурс. Анализ этого контекста позволяет присвоить языковой профиль нетекстовому ресурсу.

Может ли один сайт с тысячами ссылок исказить языковую принадлежность моего сайта?

Патент предусматривает защиту от этого с помощью Common Source Feature. Система группирует ссылки, исходящие из одного источника (сайта, домена или страницы), и ограничивает их общее влияние на итоговый расчет Relevant Language Data. Это предотвращает непропорциональное влияние одного источника.

Влияет ли позиция ссылки на странице или размер шрифта на ее вес?

Да, это часть оценки Link Quality. Патент указывает, что система может увеличивать Language Relevance Scores для ссылок с крупным шрифтом и расположенных ближе к началу ресурса, по сравнению со ссылками с мелким шрифтом или расположенными в футере.

Влияет ли PageRank или авторитетность ссылающегося сайта на языковую оценку?

Да, патент упоминает, что важность ресурса (Resource Importance) может учитываться. Language Relevance Scores для входящих ссылок с более важных (авторитетных) ресурсов могут быть увеличены по сравнению с оценками от менее важных ресурсов.

Как лучше оформлять ссылки на другие языковые версии: флагами или текстом?

Текстом. Исходя из патента, текстовый анкор является сильным Language Feature. Флаги (изображения) не дают явного текстового сигнала, что усложняет анализ. Лучшая практика — использовать название языка на целевом языке (например, «Deutsch»), так как это напрямую указывает на язык целевого ресурса.

Как обучается Language Classification Model?

Модель обучается с использованием методов машинного обучения с учителем (упоминаются Naïve Bayes, SVM, логистическая регрессия). Используются обучающие данные — ресурсы, для которых релевантные языки были определены людьми-оценщиками. Модель учится присваивать веса различным Language Features (анкорам, URL, качеству ссылок и т.д.) для точного предсказания языка.