SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

WEBSITE QUALITY SIGNAL GENERATION (Генерация сигнала качества веб-сайта)
  • US8442984B1
  • Google LLC
  • 2008-03-31
  • 2013-05-14
  • SERP
  • EEAT и качество
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

Описание

Какую проблему решает

Патент решает фундаментальную проблему масштабирования оценки качества контента. В условиях экспоненциального роста количества веб-сайтов (особенно блогов, которые часто упоминаются в патенте) невозможно оценить каждый ресурс вручную. Изобретение предлагает методологию для автоматического присвоения оценок качества сайтам, которые не были просмотрены человеком, путем обучения машинных моделей на основе данных, полученных от асессоров (raters).

Что запатентовано

Запатентована система и метод генерации автоматизированного сигнала качества сайта (calculated quality rating). Суть заключается в обучении модели машинного обучения (например, Support Vector Machine) на основе сопоставления оценок асессоров с измеримыми атрибутами сайтов (website signals). Ключевой особенностью является специфический метод отбора сайтов для разметки (biased sampling), который фокусируется на сайтах среднего качества для более точного обучения модели.

Как это работает

Система работает в несколько этапов:

  • Предварительная оценка и выборка (Biased Sampling): Система вычисляет начальную прогнозируемую оценку качества (initial quality score). Затем формируется выборка сайтов для асессоров, намеренно смещенная в сторону сайтов среднего качества, а не экстремально плохих или хороших.
  • Сбор оценок: Асессоры оценивают сайты по совокупному качеству (aggregate quality) всех страниц и связанного контента.
  • Обучение модели: Используя алгоритмы машинного обучения (например, SVM/SVR), система выявляет корреляции между сигналами сайта (упомянуты клики, PageRank, подписки) и оценками асессоров.
  • Применение: Обученная модель применяется к неразмеченным сайтам для генерации calculated quality rating.
  • Использование в поиске: Поисковая система использует этот расчетный рейтинг для фильтрации и/или ранжирования результатов.

Актуальность для SEO

Критически высокая. Описанная методология — использование оценок асессоров для обучения моделей машинного обучения, которые затем генерируют сигналы качества в масштабе всего интернета — является основой современных алгоритмов Google (таких как Helpful Content System и Core Updates). Инфраструктура и подход к обучению ML на основе Quality Rater Guidelines остаются центральными.

Важность для SEO

Патент имеет критическое значение (10/10) для понимания SEO-стратегии. Он описывает фундаментальный механизм того, как Google преобразует человеческое восприятие качества (E-E-A-T) в измеримый и масштабируемый сигнал ранжирования. Понимание того, что модели качества обучаются на основе человеческих оценок и используют измеримые сигналы в качестве входных данных, является ключом к разработке эффективной стратегии, ориентированной на качество.

Детальный разбор

Термины и определения

Aggregate Quality (Совокупное качество)
Оценка качества веб-сайта в целом, основанная на анализе нескольких его страниц, а не только одной посадочной страницы.
Biased Sampling / Specified Quality Distribution (Предвзятая выборка / Заданное распределение качества)
Метод отбора выборки сайтов для асессоров. Выборка намеренно смещается так, чтобы включить больше сайтов среднего качества, чем очень низкого или очень высокого. Это улучшает обучение модели на сложных случаях.
Calculated Quality Rating (Расчетный рейтинг качества)
Оценка качества сайта, сгенерированная моделью машинного обучения для сайтов, которые не оценивались людьми. Используется в ранжировании.
Initial Quality Score / Normalized Quality Indicator (Начальная оценка качества)
Предварительная оценка качества сайта, рассчитанная на основе известных сигналов. Используется для формирования предвзятой выборки.
Raters (Асессоры)
Люди, которые оценивают веб-сайты (аналог Google Quality Raters), предоставляя обучающие данные (Ground Truth).
Support Vector Machine (SVM) / Support Vector Regression (SVR) (Метод опорных векторов)
Алгоритмы машинного обучения. Они строят гиперплоскость в многомерном пространстве признаков (сигналов), которая наилучшим образом разделяет сайты разных классов качества.
Viewing Appeal (Привлекательность просмотра)
Классификация контента асессором как имеющего широкую (broad appeal) или нишевую (niche appeal) привлекательность.
Website Quality Rating (Рейтинг качества веб-сайта)
Оценка качества, присвоенная сайту человеком-асессором на основе Aggregate Quality.
Website Signals (Сигналы веб-сайта)
Измеримые атрибуты сайта. Примеры в патенте: Click rate (частота кликов), blog subscription rate (уровень подписки на блог), PageRank.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации сигналов качества, включающий специфический метод выборки данных.

  1. Вычисление Initial Quality Score для множества сайтов на основе их атрибутов.
  2. Отбор сайтов для оценки асессорами на основе этих начальных оценок И согласно заданной Specified Quality Distribution.
  3. Ключевое условие выборки (Biased Sampling): Выборка должна включать:
    • Первое количество (Q1) сайтов среднего качества (между низким и высоким порогом).
    • Второе количество (Q2) сайтов низкого качества (ниже низкого порога).
    • Третье количество (Q3) сайтов высокого качества (выше высокого порога).
    • При этом Q1 должно быть больше, чем Q2 и Q3. (Система намеренно отбирает больше сайтов среднего качества).
  4. Предоставление асессорам групп сайтов, включающих образцы из всех трех категорий (низкое, среднее, высокое качество).
  5. Получение от асессоров Website Quality Ratings, основанных на агрегированном качестве нескольких страниц сайта.
  6. Сопоставление этих рейтингов с Website Signals.
  7. Создание модели машинного обучения (machine learned model), характеризующей взаимосвязь между рейтингами и сигналами.
  8. Применение модели к неразмеченным сайтам для генерации Calculated Quality Ratings.

Claim 2 и 3 (Зависимые): Уточняют применение изобретения в поиске.

Система использует сгенерированный Calculated Quality Rating для фильтрации (возвращая только сайты выше определенного порога) (Claim 2) и/или упорядочивания списка результатов поиска (Claim 3).

Claim 4, 5, 6 и 7 (Зависимые): Детализируют процесс сбора данных асессорами.

Асессоры также предоставляют классификацию категорий (например, Спам, Непристойное, Не загрузилось) и индикаторы привлекательности (Viewing Appeal). Сайты, классифицированные как Спам, Непристойное или Не загрузилось, фильтруются и не используются для обучения модели качества.

Claim 10 и 11 (Зависимые): Уточняют тип машинного обучения.

Модель может быть Support Vector Machine (SVM). Обучение SVM включает идентификацию гиперплоскости, которая максимизирует расстояние между опорными векторами (support vectors) и гиперплоскостью.

Где и как применяется

Этот патент описывает инфраструктурный процесс, который происходит преимущественно офлайн, но его результаты напрямую влияют на этапы индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает и вычисляет исходные Website Signals (например, PageRank, данные о кликах), которые хранятся в Signal Store. После обучения модели, сгенерированный Calculated Quality Rating также сохраняется в индексе как важный признак (feature) сайта.

Офлайн-процессы (ML Training / Data Analysis)
Основная логика патента выполняется здесь:

  1. Предварительная оценка и Выборка: Вычисление Initial Quality Scores и формирование предвзятой выборки.
  2. Оценка (Rating): Сбор данных от асессоров.
  3. Обучение (Training): Генерация модели машинного обучения (SVM/SVR).
  4. Применение (Inference): Расчет Calculated Quality Rating для всего индекса.

RANKING и RERANKING
Поисковая система (Search Device) использует сохраненный Calculated Quality Rating как фактор ранжирования для упорядочивания результатов или как фильтр для исключения сайтов, не достигающих определенного порога качества.

Входные данные:

  • Набор Website Signals для большого количества сайтов.
  • Данные от асессоров: Website Quality Ratings, Category Classifications, Appeal Signals.

Выходные данные:

  • Обученная модель машинного обучения (например, формула гиперплоскости SVM).
  • Calculated Quality Ratings, присвоенные сайтам в индексе.

На что влияет

  • Конкретные типы контента: Патент особо выделяет блоги (blogs) как пример контента с сильно варьирующимся качеством. Методология применима к любым типам веб-сайтов.
  • Качество выдачи: Влияет на все типы запросов, позволяя поисковой системе повышать сайты с высоким Calculated Quality Rating и понижать/фильтровать сайты с низким.

Когда применяется

  • Обучение модели: Происходит периодически офлайн. Это необходимо, так как сайты и их сигналы постоянно меняются.
  • Триггеры активации: Обновление модели может быть запущено при значительном изменении Website Signals (например, если сигнал изменился более чем на 10%) или по расписанию.
  • Применение модели: Происходит на этапе индексирования или обновления данных о сайте.
  • Использование рейтинга: Происходит при каждом поисковом запросе для ранжирования и фильтрации результатов.

Пошаговый алгоритм

Процесс А: Подготовка данных и обучение модели (Офлайн)

  1. Идентификация предиктивных сигналов: Определение Website Signals, которые предположительно коррелируют с качеством (например, PageRank, Click rate).
  2. Предварительный расчет и нормализация:
    1. Нормализация значений сигналов (приведение к единой шкале, например, 0-1).
    2. Расчет Initial Quality Score (предварительная оценка качества).
  3. Формирование смещенной выборки (Biased Sampling):
    1. Определение Quality Distribution (например, 10% низкое, 80% среднее, 10% высокое качество).
    2. Отбор сайтов для заполнения этих сегментов (биннов).
  4. Сбор человеческих оценок:
    1. Асессоры просматривают сайты (несколько страниц) из выборки.
    2. Присваивают Website Quality Rating, основанный на агрегированном качестве.
    3. Классифицируют сайт (спам и т.д.) и определяют Viewing Appeal.
  5. Подготовка данных для обучения: Фильтрация сайтов, помеченных как спам или незагрузившиеся. Ассоциация оставшихся оценок с соответствующими Website Signals.
  6. Обучение модели (Model Training):
    1. Использование алгоритма машинного обучения (например, SVM или SVR).
    2. Модель определяет взаимосвязи, находя оптимальную гиперплоскость в n-мерном пространстве признаков, которая разделяет сайты разного качества. Фокус на сайтах среднего качества (которые с большей вероятностью станут опорными векторами).
    3. Генерация математической формулы этой гиперплоскости (готовая модель).

Процесс Б: Применение модели и использование в поиске

  1. Применение модели (Model Application): Модель применяется к Website Signals всех неразмеченных сайтов в индексе.
  2. Генерация рейтинга: Расчет Calculated Quality Rating для каждого сайта.
  3. Сохранение: Сохранение этих рейтингов в Signal Store.
  4. Использование в поиске: Поисковая система использует Calculated Quality Rating для фильтрации и ранжирования результатов по запросу пользователя.

Какие данные и как использует

Данные на входе

Система использует два основных типа входных данных: измеряемые сигналы сайта (для входа в модель) и данные человеческой оценки (для обучения модели).

Измеряемые сигналы сайта (Website Signals):

  • Ссылочные факторы: PageRank явно упоминается как мера важности сайта и индикатор качества.
  • Поведенческие факторы:
    • Click rate (частота кликов): Количество кликов или CTR по URL сайта в результатах поиска (упоминаются как общий поиск, так и поиск по блогам). Может быть нормализован по позиции.
    • Blog subscription rate (уровень подписки): Количество пользователей, подписавшихся на блог (например, через Google Reader). Указывает на вовлеченность и лояльность аудитории.

Данные человеческой оценки (Ground Truth):

  • Website Quality Rating: Оценка (например, 1-5). Факторы, упомянутые для оценки асессорами: оригинальность контента/аргументов, соотношение оригинального и скопированного контента, макет сайта, грамматика/орфография, наличие неполных страниц.
  • Category classifications: Метки для фильтрации (спам, непристойный контент, не загрузился).
  • Viewing Appeal: Классификация привлекательности (широкая или нишевая).

Какие метрики используются и как они считаются

  • Методы машинного обучения: Основной метод — Support Vector Machine (SVM) или Support Vector Regression (SVR). Также упоминаются логистическая регрессия и нейронные сети. SVM работает путем нахождения гиперплоскости, которая наилучшим образом разделяет сайты с разными оценками качества, максимизируя зазор между опорными векторами и гиперплоскостью.
  • Нормализация сигналов: Для приведения различных сигналов к единой шкале (например, 0-1) при формировании выборки. Используется стандартная формула Min-Max Normalization: SignalValue−MinValueMaxValue−MinValue\frac{SignalValue - MinValue}{MaxValue - MinValue}MaxValue−MinValueSignalValue−MinValue​.
  • Calculated Quality Rating: Итоговая метрика качества сайта, являющаяся выходом обученной модели.

Выводы

  1. Масштабирование человеческих суждений: Патент описывает фундаментальный механизм, позволяющий Google переводить субъективные оценки качества асессоров в алгоритмические сигналы, применимые ко всему вебу. Модели качества обучаются на основе данных асессоров (Quality Raters).
  2. Агрегированная оценка качества (Aggregate Quality): Асессоры оценивают сайт в целом, просматривая несколько страниц. Это подчеркивает важность общего качества всего сайта, а не оптимизации отдельных страниц.
  3. Важность методологии обучения (Biased Sampling): Ключевой аспект патента — использование смещенной выборки с акцентом на сайты среднего качества. Это позволяет модели лучше улавливать нюансы и строить более точные прогнозы в сложных случаях, а не просто отделять очевидный спам от супер-авторитетных сайтов.
  4. Сигналы как предикторы качества: Патент явно указывает, что измеримые сигналы, такие как PageRank (ссылочная авторитетность) и вовлеченность пользователей (click rate, subscription rate), используются как входные признаки для прогнозирования того, как человек оценил бы качество сайта.
  5. Использование продвинутого ML (SVM): Применение Support Vector Machines (одним из изобретателей является Corinna Cortes, эксперт по SVM) подтверждает использование сложных методов для нахождения нелинейных зависимостей и построения точных классификаторов качества.
  6. Качество как фактор ранжирования и фильтрации: Сгенерированный Calculated Quality Rating напрямую используется для упорядочивания и фильтрации результатов поиска.

Практика

Best practices (это мы делаем)

  • Ориентация на Quality Rater Guidelines (QRG) и E-E-A-T: Поскольку система обучает модель машинного обучения на основе человеческих оценок, QRG является прямым источником информации о том, что Google считает качеством. Стратегия должна быть направлена на соответствие этим критериям, так как они служат эталоном (Ground Truth) для обучения алгоритмов.
  • Улучшение агрегированного качества сайта: Необходимо работать над качеством всего сайта, включая дизайн, юзабилити, оригинальность контента и техническое состояние. Асессоры оценивают сайт целиком (aggregate quality), и модель учится этому. Наличие большого количества низкокачественных страниц негативно повлияет на общую оценку.
  • Стимулирование естественных сигналов авторитетности и вовлеченности: Поскольку модель использует Website Signals для предсказания качества (примеры: PageRank, Click Rate), необходимо сосредоточиться на стратегиях, которые улучшают эти метрики естественным образом: получение качественных ссылок и создание контента, который привлекает и удерживает аудиторию.
  • Работа над «средней зоной» качества: Помните о предвзятой выборке. Google активно тренирует модели различать средние и хорошие сайты. Недостаточно быть просто «не спамом». Необходимо демонстрировать четкие сигналы E-E-A-T и полезности, чтобы выделиться из среднего диапазона.

Worst practices (это делать не надо)

  • Имитация сигналов без реального качества: Попытки искусственно завысить входные сигналы (например, накрутка кликов, покупка низкокачественных ссылок). Поскольку модель обучается предсказывать человеческую оценку, несоответствие между завышенными сигналами и реальным качеством контента может быть выявлено как аномалия.
  • Фокус на одной странице в ущерб сайту: Создание нескольких высококачественных страниц на сайте, который в остальном состоит из низкокачественного или скопированного контента. Агрегированная оценка качества будет низкой.
  • Игнорирование базовых показателей качества: Наличие грамматических ошибок, плохого макета, преимущественно скопированного контента или технических проблем приведет к низким оценкам асессоров и, как следствие, к низкой алгоритмической оценке.

Стратегическое значение

Этот патент имеет фундаментальное значение для SEO. Он описывает инфраструктуру, лежащую в основе алгоритмов оценки качества (Core Updates, Helpful Content System). Стратегически это подтверждает, что E-E-A-T и пользовательский опыт — это не просто концепции, а характеристики, которые активно измеряются и моделируются с помощью сложного машинного обучения. Долгосрочная стратегия должна быть направлена на то, чтобы измеряемые сигналы сайта отражали реальное качество, которое воспринимают люди (асессоры).

Практические примеры

Сценарий: Создание нового алгоритма качества (например, Helpful Content Update)

Патент описывает методологию, как такой алгоритм мог быть создан.

  1. Постановка задачи: Google хочет идентифицировать «неполезный контент, созданный для поисковых систем».
  2. Формирование выборки (Biased Sampling): Используя предварительные сигналы, Google отбирает 1000 сайтов: 100 очевидно полезных, 100 очевидного SEO-спама и 800 сайтов смешанного качества (фокус на сложных случаях).
  3. Сбор оценок: Асессоры получают инструкции (QRG) по определению «полезности» и оценивают эти 1000 сайтов.
  4. Обучение модели: Google запускает SVM или другую ML-модель для поиска корреляций между оценками полезности и сотнями доступных Website Signals (структура текста, ссылочный профиль, данные о кликах и т.д.). Модель учится на 800 сложных случаях.
  5. Результат: Создается классификатор «полезности контента» (модель).
  6. Применение: Модель применяется ко всему индексу, генерируя Calculated Quality Rating (оценку полезности) для каждого сайта.
  7. Влияние на поиск: Сайты с низкой оценкой полезности понижаются в ранжировании.

Вопросы и ответы

Что является источником истины (Ground Truth) для обучения моделей качества Google согласно этому патенту?

Источником истины являются Website Quality Ratings, присвоенные людьми-асессорами (raters). Цель модели машинного обучения — максимально точно предсказать, какую оценку поставил бы человек, основываясь только на измеримых сигналах сайта. Это подчеркивает критическую важность понимания и применения Google Quality Rater Guidelines (QRG) в SEO.

Какие конкретные сигналы используются для прогнозирования качества сайта?

Патент приводит три примера Website Signals, используемых как входные данные: PageRank (ссылочная авторитетность), Click rate (частота кликов в поиске) и Blog subscription rate (уровень подписки). Важно понимать, что это примеры 2008 года; современные системы используют гораздо больше сигналов, но типы сигналов (авторитетность, поведение, вовлеченность) остаются актуальными.

Оценивается ли качество отдельных страниц или сайта в целом?

Патент четко указывает, что асессоры присваивают рейтинг, основанный на агрегированном качестве (aggregate quality) нескольких веб-страниц сайта. Это означает, что оценивается общее впечатление от сайта, а не качество одной конкретной страницы. SEO-специалистам необходимо обеспечивать высокое качество на всем домене.

Что такое "смещенная выборка" (biased sampling) и зачем Google ее использует?

Это метод отбора сайтов для оценки, при котором система намеренно выбирает больше сайтов предполагаемого среднего качества и меньше сайтов экстремально низкого или высокого качества. Это делается для того, чтобы модель машинного обучения (особенно SVM) получила достаточно данных для выявления сложных нюансов качества и точного определения границы принятия решений в «пограничных» случаях.

Какой тип машинного обучения используется для создания модели качества?

Патент делает акцент на использовании Support Vector Machine (SVM) и Support Vector Regression (SVR). Это сложные алгоритмы, способные находить нелинейные зависимости между входными сигналами и оценками качества путем построения оптимальных гиперплоскостей в многомерном пространстве признаков. Также упоминаются нейронные сети.

Учитывает ли система тематику сайта или его направленность?

Да, косвенно. Патент упоминает, что асессоры определяют Viewing Appeal — является ли сайт привлекательным для широкой аудитории (broad appeal) или нишевым (niche appeal). Эти данные также могут быть использованы для обучения моделей или для корректировки ранжирования, например, для обеспечения разнообразия выдачи.

Как система обрабатывает спамные или непристойные сайты?

Асессоры специально маркируют такие сайты с помощью Category classifications. Патент указывает, что сайты, помеченные как спам, непристойные или незагрузившиеся, фильтруются и исключаются из набора данных перед обучением основной модели качества. Это делается для того, чтобы эти выбросы не искажали модель.

Как часто обновляются эти модели качества?

Патент указывает, что процесс обучения выполняется периодически, поскольку контент и сигналы сайтов меняются со временем. Также обновление может быть инициировано при значительном изменении ключевых сигналов (например, изменении PageRank на определенный процент). На практике это соответствует периодическим Core Updates и постоянной работе систем типа Helpful Content System.

Как этот патент связан с E-E-A-T?

Этот патент описывает техническую инфраструктуру для измерения E-E-A-T в масштабе. E-E-A-T — это концепция, используемая асессорами для присвоения Website Quality Rating (Ground Truth). Модель машинного обучения находит корреляцию между измеримыми сигналами и Ground Truth, генерируя Calculated Quality Rating, который и является алгоритмическим сигналом качества.

Стоит ли пытаться манипулировать входными сигналами, такими как Click Rate?

Манипулирование сигналами является рискованной тактикой. Модель обучается на комплексном наборе сигналов с помощью сложных алгоритмов (SVM), которые ищут естественные корреляции. Несоответствие между искусственно завышенными сигналами и реальным качеством контента может быть выявлено как аномалия. Лучшая стратегия — улучшать реальное качество, что естественным образом приведет к улучшению сигналов.

Похожие патенты

Как Google использует машинное обучение для определения значимости обновлений контента на веб-страницах
Google использует модель машинного обучения (например, Support Vector Machine) для анализа изменений между двумя версиями веб-страницы. Система оценивает контентные, структурные (ссылки) и поведенческие (трафик) признаки, чтобы классифицировать обновление как «значимое» или «незначимое». Это позволяет поисковой системе понять, какие обновления требуют внимания (например, для оценки свежести или переиндексации), а какие являются техническим шумом.
  • US8607140B1
  • 2013-12-10
  • Свежесть контента

  • Индексация

  • Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует данные о показах для оценки эффективности генерации превью и сниппетов
Google измеряет, насколько полно сгенерированы "быстрые данные для предпросмотра" (сниппеты, превью) для страниц, которые реально показываются пользователям. Патент описывает статистический метод сэмплирования и взвешивания по показам, который позволяет эффективно оценить это "покрытие", уделяя больше внимания популярным страницам.
  • US8438155B1
  • 2013-05-07
  • SERP

Популярные патенты

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи
Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.
  • US9836482B2
  • 2017-12-05
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

seohardcore