SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

IDENTIFYING RELEVANT DOCUMENT LANGUAGES THROUGH LINK CONTEXT (Определение релевантных языков документа через контекст ссылок)
  • US9098582B1
  • Google LLC
  • 2009-04-10
  • 2015-08-04
  • Ссылки
  • Мультиязычность
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

Описание

Какую проблему решает

Патент решает проблему точного определения языков, которым релевантен конкретный ресурс, особенно когда традиционный анализ контента неэффективен. Это актуально для страниц с недостаточным количеством текста (например, страницы только с изображениями, фреймами или навигационные хабы). Также решается задача идентификации всех релевантных языков для ресурсов со смешанным контентом.

Что запатентовано

Запатентована система определения языковой релевантности ресурса путем анализа контекста его входящих (incoming resource links) и исходящих (outgoing resource links) ссылок. Система извлекает языковые признаки (Language Features) из ссылочного окружения и использует модель классификации (Language Classification Model) для расчета оценок языковой релевантности (Language Relevance Scores). Эти оценки агрегируются для создания языкового профиля ресурса.

Как это работает

Ключевой механизм работы системы:

  • Извлечение признаков: Для ресурса анализируются все входящие и исходящие ссылки. Извлекаются Language Features: язык анкоров, коды в URL, язык контента исходной и целевой страниц.
  • Контекстуальная оценка: Модель генерирует Language Relevance Scores (LRS) для каждой ссылки. Оценка зависит от контекста: например, исходящая ссылка с анкором "English Version" может снизить релевантность английского для текущей страницы, но повысить её для целевой.
  • Оценка качества и типа: Учитывается качество ссылки (Link Quality), например, понижается вес шаблонных (boilerplate) ссылок. Система также идентифицирует Language Gateway Resources (Языковые шлюзы); ссылки с них получают повышенный вес.
  • Агрегация: Все LRS агрегируются для создания итоговых Relevant Language Data (RLD) для ресурса (например, вектора вероятностей языков).

Актуальность для SEO

Высокая. Корректная идентификация языка является фундаментальной задачей международного поиска. Хотя алгоритмы NLP значительно продвинулись, анализ ссылочного контекста остается критически важным сигналом для определения языковой и географической релевантности, особенно для сложных многоязычных сайтов и нетекстового контента.

Важность для SEO

Патент имеет высокое значение (7/10) для международного SEO. Он описывает механизм, который Google использует для понимания языкового таргетинга страницы за пределами анализа её контента и тегов hreflang. Если ссылочные сигналы (анкоры, язык источников) противоречат заявленному языку страницы, это может привести к неправильной классификации и проблемам с видимостью сайта на целевых рынках.

Детальный разбор

Термины и определения

Boilerplate Link (Шаблонная ссылка)
Ссылка, являющаяся частью повторяющегося блока (например, навигация, футер) на многих страницах сайта. Такие ссылки могут иметь пониженный вес.
Common Source Feature (Признак общего источника)
Характеристика, указывающая, что несколько ссылок исходят из одного и того же сайта, домена или страницы. Используется для ограничения чрезмерного влияния таких групп ссылок.
Language Classification Model (Модель языковой классификации)
Машинно-обученная модель (например, Naïve Bayes, SVM или логистическая регрессия), которая использует Language Features для генерации Language Relevance Scores.
Language Features (Языковые признаки)
Характеристики ссылки, используемые моделью. Примеры: язык анкора, коды в URL, язык исходной/целевой страницы, Link Quality, статус Language Gateway источника.
Language Gateway Resource (Языковой шлюз)
Ресурс, характеризующийся наличием как входящих ссылок с множества разных языков (порог N), так и исходящих ссылок на множество разных языков (порог M). Ссылки с таких ресурсов имеют повышенный вес.
Language Indicator (Языковой индикатор)
Данные в ссылке, указывающие на язык (например, анкор “English Version” или код “.en” в URL).
Language Relevance Score (LRS) (Оценка языковой релевантности)
Оценка, присваиваемая конкретной ссылке, представляющая релевантность определенного языка для анализируемого ресурса. Зависит от контекста (входящая или исходящая).
Link Quality (Качество ссылки)
Признаки, влияющие на вес ссылки: статус boilerplate, размер шрифта, позиция на странице, наличие "nofollow".
Relevant Language Data (RLD) (Данные о релевантных языках)
Агрегированные данные из всех LRS, измеряющие релевантность множества языков для ресурса. Часто в виде вектора вероятностей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

  1. Выбор первого ресурса.
  2. Генерация Language Relevance Scores (LRS) для каждой входящей И исходящей ссылки на основе данных, определяющих эти ссылки.
  3. Идентификация одного или нескольких языков как релевантных для первого ресурса на основе этих LRS.
  4. Ассоциация этих языков с ресурсом в поисковом индексе.

Ядро изобретения — использование контекста как входящих, так и исходящих ссылок для определения языкового профиля ресурса.

Claim 2 (Зависимый): Уточняет признаки, используемые для генерации LRS.

  • Для исходящих ссылок используется язык контента целевого ресурса (target content language).
  • Для входящих ссылок используется язык контента исходного ресурса (source content language).

Claim 3 (Зависимый): Уточняет использование Language Indicators в самих ссылках (например, анкорный текст или код страны в URL) для генерации LRS.

Claim 6 (Зависимый): Вводит понятие Link Quality как фактора, влияющего на генерацию LRS.

Claim 7 и 8 (Зависимые): Вводят концепцию Language Gateway Resource.

  • Claim 7: LRS для входящей ссылки выше, если исходный ресурс является Language Gateway Resource (бустинг сигнала).
  • Claim 8: Ресурс классифицируется как Language Gateway, если количество релевантных языков по входящим ссылкам превышает порог N, И количество релевантных языков по исходящим ссылкам превышает порог M.

Claim 11 (Зависимый): Описывает реализацию с использованием модели. LRS генерируется путем идентификации множества Language Features и их обработки с помощью Language Classification Model.

Где и как применяется

Изобретение применяется преимущественно на этапе индексирования и влияет на ранжирование.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Language Relevance System анализирует граф ссылок.

  • Процесс: Feature Extractor собирает Language Features (анкоры, URL, язык соседних страниц, Link Quality). Language Classification Model вычисляет LRS для каждой ссылки и классифицирует ресурс (Gateway/Common).
  • Выходные данные: Relevant Language Data (RLD) и классификация ресурса сохраняются в Resource Index.

RANKING – Ранжирование
Поисковая система использует сохраненные RLD как один из признаков при расчете релевантности ресурса запросу (например, сопоставляя RLD с языком запроса пользователя).

Входные данные:

  • Граф ссылок (входящие/исходящие).
  • Анкоры и URL ссылок.
  • Язык контента исходных и целевых страниц.
  • Сигналы Link Quality (boilerplate, позиция, шрифт).
  • Предварительная классификация соседних ресурсов (Gateway/Common).

На что влияет

  • Конкретные типы контента: Наибольшее влияние на ресурсы с минимальным количеством текста: изображения, мультимедийные хабы, навигационные и главные страницы международных сайтов.
  • Конкретные ниши или тематики: Критически важно для всех международных веб-сайтов, стремящихся к видимости в разных языковых версиях поиска.

Когда применяется

  • Условия работы алгоритма: Применяется во время индексации или переиндексации ресурса при анализе его ссылочного профиля. Это офлайн-процесс.
  • Триггеры активации: Классификация Language Gateway Resource активируется при превышении порогов N (разнообразие языков входящих ссылок) и M (разнообразие языков исходящих ссылок).

Пошаговый алгоритм

Процесс А: Расчет языковой релевантности ресурса

  1. Выбор ресурса: Система выбирает ресурс для анализа.
  2. Извлечение признаков (Feature Extraction): Для каждой входящей и исходящей ссылки извлекаются Language Features:
    • Языковые индикаторы (анкор, URL).
    • Язык контента связанной страницы (источника/цели).
    • Сигналы Link Quality (boilerplate, позиция, шрифт, nofollow).
    • Статус связанной страницы (Language Gateway или Common).
  3. Обработка общих источников: Входящие ссылки группируются по Common Source Feature (сайт, домен), чтобы ограничить чрезмерное влияние одного источника.
  4. Генерация LRS: Language Classification Model генерирует Language Relevance Scores (LRS) для каждой ссылки/группы ссылок. Оценки корректируются:
    • Повышаются, если ссылка качественная или исходит от Language Gateway Resource.
    • Понижаются для boilerplate ссылок.
    • Учитывается контекст (входящая vs исходящая).
  5. Генерация RLD (Агрегация): Все LRS агрегируются (например, суммированием или функцией условной вероятности) для генерации финальных Relevant Language Data (RLD).
  6. Сохранение: RLD ассоциируются с ресурсом в Resource Index.

Процесс Б: Идентификация Language Gateway Resources

  1. Анализ LRS: Анализируются LRS, сгенерированные в Процессе А.
  2. Проверка входящих ссылок: Определяется, указывают ли LRS входящих ссылок на более чем N релевантных языков.
  3. Проверка исходящих ссылок: Если ДА, определяется, указывают ли LRS исходящих ссылок на более чем M релевантных языков.
  4. Классификация: Если оба условия выполнены, ресурс классифицируется как Language Gateway Resource. Этот статус сохраняется и используется в Процессе А (шаг 4) для других ресурсов.

Какие данные и как использует

Данные на входе

  • Ссылочные факторы:
    • Анкорный текст: язык текста и явное упоминание языка (например, "English Version").
    • URL структура: наличие кодов стран (.fr) или языковых кодов (/en/, en.example.com).
    • Тип ссылки: Входящая или исходящая (контекст меняет интерпретацию).
  • Контентные факторы (соседних страниц):
    • Язык контента исходного ресурса (для входящих ссылок).
    • Язык контента целевого ресурса (для исходящих ссылок).
  • Структурные и Технические факторы (Link Quality):
    • Boilerplate: Является ли ссылка частью повторяющегося шаблонного блока.
    • Расположение ссылки на странице.
    • Размер шрифта анкорного текста.
    • Атрибуты "nofollow".
  • Системные данные:
    • Классификация ресурса: Является ли связанная страница Language Gateway Resource.
    • Common Source Feature: Принадлежность ссылок к одному источнику.
    • Важность ресурса (Resource Importance, например, PageRank) исходных и целевых ресурсов (может использоваться для взвешивания).

Какие метрики используются и как они считаются

  • Language Relevance Score (LRS): Рассчитывается моделью классификации (Naïve Bayes, SVM, логистическая регрессия) на основе взвешенных Language Features.
  • Relevant Language Data (RLD): Агрегация всех LRS для ресурса. Вектор мер релевантности (например, вероятностей) для набора языков.
  • Link Quality Score: Внутренняя метрика для корректировки LRS. Понижает вес boilerplate ссылок и повышает вес заметных ссылок.
  • Language Gateway Classification: Бинарная классификация. Основана на порогах N (для входящих ссылок) и M (для исходящих ссылок) количества релевантных языков.
  • Корректировки оценок: Повышение LRS для ссылок от Language Gateways; снижение LRS при низком Link Quality; ограничение влияния ссылок с Common Source.

Выводы

  1. Язык определяется экосистемой, а не только контентом: Google активно использует ссылочный граф для определения языковой принадлежности, что критически важно для страниц без явного текстового контента.
  2. Контекст ссылки имеет значение (Входящие vs Исходящие): Интерпретация языковых сигналов зависит от направления. Анкор "English Version" на странице А, ведущий на Б, может понизить релевантность английского для А, но повысить её для Б.
  3. Идентификация и использование "Языковых шлюзов": Система специально идентифицирует Language Gateway Resources (многоязычные хабы). Ссылки с таких ресурсов считаются более надежными индикаторами языка и получают повышенный вес.
  4. Качество ссылки влияет на языковые сигналы: Система учитывает Link Quality. Ссылки в сквозных блоках (boilerplate), с мелким шрифтом или внизу страницы имеют меньший вес. Уникальные и заметные ссылки имеют больший вес.
  5. Защита от манипуляций: Механизм Common Source Feature предотвращает ситуацию, когда один сайт с множеством ссылок может непропорционально повлиять на определение языка целевого ресурса.

Практика

Best practices (это мы делаем)

  • Обеспечение консистентности языковых сигналов: Убедитесь, что язык анкорного текста (внутреннего и внешнего) соответствует языку целевой страницы. Используйте явные анкоры на целевом языке (например, "Deutsch" для немецкой версии).
  • Использование четкой структуры URL: Применяйте стандартные языковые или страновые коды в URL (/en/, /es/, en.site.com). Патент подтверждает, что это важные Language Indicators.
  • Оптимизация навигации и переключателей языков: Убедитесь, что ссылки на языковые версии заметны (хорошая позиция, достаточный размер шрифта). Хотя сквозные ссылки (boilerplate) могут иметь пониженный вес, они должны быть реализованы качественно.
  • Стратегическое построение "Языковых шлюзов": Проектируйте главные страницы международных сайтов так, чтобы они могли быть распознаны как Language Gateway Resource (получают ссылки извне на разных языках и ссылаются на разные языки внутри). Это усиливает языковые сигналы для внутренних разделов.
  • Языковой таргетинг в линкбилдинге: Активно стройте ссылочный профиль из источников на целевом языке. Язык источника (source content language) является прямым фактором.

Worst practices (это делать не надо)

  • Смешанные языковые сигналы в анкорах: Использование анкоров на языке А для ссылок на контент на языке Б создает противоречивые Language Features.
  • Использование только флагов (изображений) для переключения языков: Отсутствие текстовых анкоров или других Language Indicators ослабляет языковые сигналы.
  • Скрытие переключателей языков в футере: Размещение языковых ссылок в незаметных местах снижает их Link Quality и, соответственно, их влияние на определение языка.
  • Игнорирование ссылочного профиля при выходе на новый рынок: Запуск новой языковой версии без обеспечения входящих ссылок с ресурсов на этом языке может привести к неверной классификации.
  • Использование "nofollow" для переключателей языков: Патент указывает, что "nofollow" может привести к игнорированию или обнулению Language Relevance Score ссылки.

Стратегическое значение

Патент подтверждает необходимость комплексного подхода к международному SEO. Недостаточно просто перевести контент и настроить hreflang. Стратегия должна включать создание соответствующей языковой экосистемы вокруг контента через ссылочный граф. Этот механизм объясняет, почему Google может алгоритмически определить язык страницы, основываясь на её ссылочном профиле, даже если контент страницы или декларативные теги говорят об обратном.

Практические примеры

Сценарий: Оптимизация главной страницы международного бренда (Language Gateway)

Компания выходит на рынки Франции и Германии. Главная страница (brand.com) служит хабом.

  1. Цель: Добиться классификации brand.com как Language Gateway Resource и усилить сигналы для brand.com/fr/ и brand.com/de/.
  2. Действия (Перелинковка): На brand.com размещается заметный блок (высокий Link Quality, не boilerplate) со ссылками с анкорами "Français" и "Deutsch".
  3. Действия (Внешние ссылки): Проводится работа по получению ссылок на brand.com с внешних сайтов на разных языках. Также получаются прямые ссылки на /fr/ с французских сайтов и на /de/ с немецких.
  4. Анализ Google:
    • Система видит разнообразие языков во входящих (порог N достигнут) и исходящих (порог M достигнут) ссылках. Brand.com классифицируется как Language Gateway.
    • При анализе brand.com/fr/, входящая ссылка от Language Gateway (brand.com) получает повышенный вес (Boost).
  5. Результат: Языковая принадлежность внутренних страниц определяется быстро и точно благодаря усиленным сигналам со шлюза.

Вопросы и ответы

Что такое «Языковой шлюз» (Language Gateway Resource) и почему он важен?

Language Gateway Resource — это страница (часто главная страница глобального сайта), которая имеет как входящие ссылки с множества разных языков, так и исходящие ссылки на множество разных языков. Важность заключается в том, что Google считает такие страницы авторитетными: ссылки, исходящие с них, получают повышенный вес (Boost) при определении языка целевой страницы.

Как Google обрабатывает сквозные (boilerplate) ссылки при определении языка?

Патент указывает, что Link Quality является фактором. Ссылки, идентифицированные как "boilerplate" (шаблонные или сквозные, например, в меню или футере), получают пониженный вес при расчете Language Relevance Scores. Если ваш переключатель языков реализован как низкокачественный сквозной блок, его влияние будет снижено.

Как этот патент влияет на использование атрибута hreflang?

Патент описывает алгоритмический механизм определения языка на основе ссылок. Он не заменяет hreflang, который дает явные инструкции. На практике эти системы дополняют друг друга. Сигналы из ссылочного графа используются для валидации hreflang или определения языка при его отсутствии. Важно, чтобы сигналы не противоречили друг другу.

Влияет ли язык анкорного текста на определение языка страницы?

Да, это один из ключевых Language Indicators. Система анализирует язык анкора и наличие явных указаний языка. Важно, что система учитывает контекст: исходящая ссылка с анкором "French version" может сигнализировать, что текущая страница НЕ на французском, но целевая страница — на французском.

Как система определяет язык, если на странице вообще нет текста (например, только изображение)?

Это основная проблема, которую решает патент. В отсутствие текста система полностью полагается на контекст ссылок: язык анкоров входящих и исходящих ссылок, язык контента ссылающихся страниц и страниц, на которые ссылается ресурс. Анализ этого контекста позволяет присвоить языковой профиль нетекстовому ресурсу.

Может ли один сайт с тысячами ссылок исказить языковую принадлежность моего сайта?

Патент предусматривает защиту от этого с помощью Common Source Feature. Система группирует ссылки, исходящие из одного источника (сайта, домена или страницы), и ограничивает их общее влияние на итоговый расчет Relevant Language Data. Это предотвращает непропорциональное влияние одного источника.

Влияет ли позиция ссылки на странице или размер шрифта на её вес?

Да, это часть оценки Link Quality. Патент указывает, что система может увеличивать Language Relevance Scores для ссылок с крупным шрифтом и расположенных ближе к началу ресурса, по сравнению со ссылками с мелким шрифтом или расположенными в футере.

Влияет ли PageRank или авторитетность ссылающегося сайта на языковую оценку?

Да, патент упоминает, что важность ресурса (Resource Importance) может учитываться. Language Relevance Scores для входящих ссылок с более важных (авторитетных) ресурсов могут быть увеличены по сравнению с оценками от менее важных ресурсов.

Как лучше оформлять ссылки на другие языковые версии: флагами или текстом?

Текстом. Исходя из патента, текстовый анкор является сильным Language Feature. Флаги (изображения) не дают явного текстового сигнала, что усложняет анализ. Лучшая практика — использовать название языка на целевом языке (например, "Deutsch"), так как это напрямую указывает на язык целевого ресурса.

Как обучается Language Classification Model?

Модель обучается с использованием методов машинного обучения с учителем (упоминаются Naïve Bayes, SVM, логистическая регрессия). Используются обучающие данные — ресурсы, для которых релевантные языки были определены людьми-оценщиками. Модель учится присваивать веса различным Language Features (анкорам, URL, качеству ссылок и т.д.) для точного предсказания языка.

Похожие патенты

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации
Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.
  • US9251223B2
  • 2016-02-02
  • Мультиязычность

  • Персонализация

  • Индексация

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.
  • US8600993B1
  • 2013-12-03
  • Структура сайта

  • Персонализация

  • Техническое SEO

Популярные патенты

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории
Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.
  • US8788490B1
  • 2014-07-22
  • Local SEO

  • Ссылки

  • SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

seohardcore