SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

PREDICTING SITE QUALITY (Прогнозирование качества сайта)
  • US9767157B2
  • Google LLC
  • 2013-03-15
  • 2017-09-19
  • Семантика и интент
  • Техническое SEO
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

Описание

Какую проблему решает

Патент решает проблему автоматической и масштабируемой оценки качества сайта, особенно когда базовые оценки качества (Baseline Site Quality Scores) недоступны. Расчет базовых оценок может быть ресурсоемким (дорогим по времени или вычислительным ресурсам) или зависеть от сигналов, которых нет у новых сайтов. Изобретение позволяет прогнозировать качество, используя исключительно лингвистические характеристики контента (N-граммы) и их статистическое распределение по сайту.

Что запатентовано

Запатентована система, генерирующая Phrase Model (Фразовую модель) для прогнозирования качества сайта. Модель обучается на сайтах с известными оценками качества. Она устанавливает статистическую корреляцию между относительной частотой (Relative Frequency Measure) использования конкретных фраз (N-грамм) на сайте и качеством сайтов, демонстрирующих такую частоту. Эта модель затем используется для оценки новых сайтов по их «лингвистическому отпечатку».

Как это работает

Система работает в два этапа:

  1. Обучение модели (Офлайн): Анализируются сайты с известным качеством. Для каждой фразы (N-граммы) определяется, на каком проценте страниц она встречается (Relative Frequency Measure). Сайты группируются по этой частоте. Система вычисляет среднее качество сайтов в каждой группе. Так создается Phrase Model.
  2. Прогнозирование: Для нового сайта система вычисляет относительную частоту всех его фраз. Для каждой фразы она обращается к Phrase Model, чтобы получить ожидаемую оценку качества, соответствующую этой частоте. Затем эти оценки агрегируются (Aggregate Site Quality Score) для получения итогового прогноза (Predicted Site Quality Score).

Актуальность для SEO

Высокая. Оценка качества контента и E-E-A-T является центральной задачей Google. Этот патент описывает конкретный, масштабируемый метод оценки качества, основанный исключительно на анализе текста. Учитывая фокус на Helpful Content и борьбу с массово генерируемым контентом, лингвистический анализ качества крайне актуален. Участие Navneet Panda указывает на прямую связь с философией алгоритмов качества Google (Panda).

Важность для SEO

Патент имеет высокое стратегическое значение для SEO. Он демонстрирует механизм, позволяющий Google оценивать качество сайта на основе выбора слов (N-грамм) и их распределения по сайту. Это означает, что уникальность языка, экспертность терминологии, грамотность и естественность распределения контента напрямую влияют на Site Quality Score. Сайты с лингвистическими паттернами, схожими с низкокачественными ресурсами, будут пессимизированы.

Детальный разбор

Термины и определения

Aggregate Site Quality Score (Агрегированная оценка качества сайта)
Промежуточная оценка, полученная путем усреднения (часто взвешенного) Average Baseline Site Quality Scores для всех фраз, найденных на новом сайте.
Average Baseline Site Quality Score (Средняя базовая оценка качества сайта)
Среднее значение Baseline Site Quality Scores для группы сайтов, которые используют определенную фразу со схожей относительной частотой (т.е. находятся в одном Bucket).
Baseline Site Quality Score (Базовая оценка качества сайта)
Предварительно определенная оценка качества сайта, используемая как эталон (ground truth) для обучения модели. Может быть получена с помощью ресурсоемких процессов.
Buckets (Корзины/Сегменты)
Диапазоны относительной частоты. Сайты сегментируются в эти корзины на основе того, как часто конкретная фраза встречается на их страницах.
N-gram (N-грамма) / Phrase (Фраза)
Последовательность из N элементов (токенов). В патенте упоминаются 2-граммы, 3-граммы, 4-граммы и 5-граммы.
Neutral Score (Нейтральная оценка)
Глобальная средняя оценка качества всех сайтов. Используется для сглаживания (Smoothing) и для фильтрации фраз, которые не несут информации о качестве.
Phrase Model (Фразовая модель)
Ядро изобретения. Структура данных, которая для каждой фразы хранит соответствие между диапазонами относительной частоты (Buckets) и Average Baseline Site Quality Score.
Predicted Site Quality Score (Прогнозируемая оценка качества сайта)
Итоговая оценка качества нового сайта, полученная на основе Aggregate Site Quality Score. Используется как входной сигнал для Ranking Engine.
Relative Frequency Measure (Мера относительной частоты)
Метрика, показывающая, как часто фраза встречается на сайте. Рассчитывается как количество страниц, содержащих фразу, деленное на общее количество страниц на сайте.
Smoothing (Сглаживание)
Процесс корректировки агрегированной оценки, если небольшое количество фраз оказывает доминирующее влияние на расчет. Выполняется путем интерполяции с Neutral Score.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный метод прогнозирования качества сайта и его использования в ранжировании.

  1. Получение базовых оценок: Система получает Baseline Site Quality Scores для набора предварительно оцененных сайтов.
  2. Генерация Фразовой Модели: Создается Phrase Model. Она определяет для каждой фразы соответствие между её Relative Frequency Measure и Average Baseline Site Quality Score.
    • Относительная частота измеряет, на скольких страницах сайта есть фраза относительно общего числа страниц.
    • Средняя базовая оценка качества – это усредненное качество тех сайтов из обучающей выборки, которые используют данную фразу с данной частотой.
  3. Анализ нового сайта: Для нового сайта (не из обучающей выборки) вычисляется относительная частота для каждой найденной фразы.
  4. Расчет агрегированной оценки: Определяется Aggregate Site Quality Score.
    • Для каждой фразы из Phrase Model извлекается соответствующая средняя базовая оценка качества.
    • Агрегированная оценка рассчитывается как мера центральной тенденции (например, среднее) этих извлеченных оценок.
  5. Определение прогнозируемой оценки: На основе агрегированной оценки определяется Predicted Site Quality Score.
  6. Использование в ранжировании: Система генерирует Ranking Scores для ресурсов. При расчете используются как базовые оценки качества (для известных сайтов), так и прогнозируемые оценки качества (для новых сайтов).

Claim 2 (Зависимый): Уточняет, что фразы являются N-граммами (2, 3, 4 или 5-граммы).

Где и как применяется

Изобретение применяется на этапе индексирования для вычисления статических сигналов качества сайта и на этапе ранжирования.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Site Scoring Engine анализирует контент сайта.

  1. Извлечение признаков: Система токенизирует контент страниц и извлекает N-граммы.
  2. Расчет частот: Вычисляется Relative Frequency Measure для всех N-грамм на уровне сайта.
  3. Прогнозирование качества: Используя предварительно созданную Phrase Model, система рассчитывает Predicted Site Quality Score.
  4. Сохранение: Прогнозируемая оценка сохраняется в индексе как характеристика сайта.

RANKING – Ранжирование
Ranking Engine использует сохраненный Predicted Site Quality Score (или Baseline Site Quality Score, если он доступен) как один из сигналов для определения позиции ресурсов с этого сайта.

Офлайн-процессы (ML Training)
Генерация самой Phrase Model происходит офлайн. Это процесс машинного обучения, требующий анализа большого корпуса документов с известными Baseline Site Quality Scores.

Входные данные:

  • Текстовое содержимое всех страниц сайта.
  • Общее количество страниц на сайте.
  • Предварительно рассчитанная Phrase Model.
  • (Для обучения модели): Baseline Site Quality Scores.

Выходные данные:

  • Predicted Site Quality Score для анализируемого сайта.

На что влияет

  • Конкретные типы контента и ниши: Наибольшее влияние оказывается на сайты с большим объемом текста. Особенно сильно влияет на ниши, где существует четкое различие в языке между экспертными и низкокачественными ресурсами (например, YMYL-тематики vs спам или MFA-сайты).
  • Лингвистические особенности и грамотность: Патент упоминает, что токенизация может сохранять ошибки (орфографические, грамматические), существующие в оригинальном тексте. Это означает, что модель неявно учитывает качество языка, так как N-граммы с ошибками будут коррелировать с качеством сайтов, на которых они встречаются.
  • Отдельные страницы: Хотя фокус на качестве сайта, в описании патента упоминается, что Phrase Model может использоваться для прогнозирования качества меньших коллекций текста (страницы, абзаца).

Когда применяется

  • Цель применения: Основная цель — оценить качество сайтов, для которых отсутствуют Baseline Site Quality Scores (например, новые сайты).
  • Ограничения: В патенте указано, что прогноз не может быть сделан, если на новом сайте нет фраз, присутствующих в Phrase Model, или если их слишком мало (упоминаются пороги, например, минимум 3, 5, 10, 50 фраз).

Пошаговый алгоритм

Процесс А: Генерация Фразовой Модели (Офлайн-обучение)

  1. Сбор данных и Извлечение N-грамм: Определяется коллекция сайтов с известными Baseline Site Quality Scores. Извлекаются все N-граммы (например, 2-5 граммы). Токенизация может сохранять ошибки из оригинального текста.
  2. Расчет относительной частоты: Для каждой пары (сайт, N-грамма) вычисляется Relative Frequency Measure (RFM): (Количество страниц с N-граммой) / (Общее количество страниц на сайте).
  3. Сегментация (Bucketing): Для каждой N-граммы сайты делятся на сегменты (Buckets) в зависимости от их RFM (например, 0-5%, 5-10% и т.д.).
  4. Расчет средних оценок: Для каждого сегмента вычисляется Average Baseline Site Quality Score, усредняя базовые оценки качества сайтов, попавших в этот сегмент.
  5. Формирование модели: Генерируется Phrase Model, которая хранит для каждой N-граммы вектор средних оценок качества по сегментам.
  6. Фильтрация (Опционально): Фразы, чьи средние оценки качества близки к глобальной средней (Neutral Score), могут быть исключены из модели, так как они не информативны (например, фраза "on the").

Процесс Б: Прогнозирование качества нового сайта (Индексирование)

  1. Анализ нового сайта: Для нового сайта извлекаются все N-граммы и рассчитываются их RFM.
  2. Запрос к модели: Для каждой N-граммы система обращается к Phrase Model и определяет, в какой сегмент (Bucket) она попадает исходя из её RFM.
  3. Извлечение оценок: Из модели извлекается Average Baseline Site Quality Score, соответствующая этому сегменту.
  4. Агрегация: Вычисляется Aggregate Site Quality Score путем усреднения всех извлеченных оценок. Может использоваться взвешенное среднее (веса могут зависеть от частоты фразы или отклонения от Neutral Score).
  5. Проверка на доминирование и Сглаживание (Опционально): Проверяется, не доминирует ли небольшое число фраз в расчете (например, вес топ-N фраз превышает порог). Если да, выполняется Smoothing путем линейной интерполяции с Neutral Score.
  6. Прогнозирование и Применение: Финальная оценка используется как Predicted Site Quality Score и передается в Ranking Engine.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текстовое содержимое страниц сайта. Критически важно: патент упоминает возможность токенизации без нормализации, т.е. с сохранением орфографических и грамматических ошибок из оригинального текста.
  • Структурные факторы: Общее количество страниц на сайте (используется как знаменатель при расчете RFM).
  • Лингвистические данные: N-граммы (фразы длиной от 2 до 5 токенов).
  • Ссылочные факторы (Косвенно): Упоминается, что при анализе страницы может учитываться текст из внешних источников, например, анкорный текст (anchor text) ссылок, указывающих на страницу.
  • Системные данные (для обучения): Baseline Site Quality Scores.

Какие метрики используются и как они считаются

  • Relative Frequency Measure (RFM): RFM=Число страниц с фразойОбщее число страниц на сайтеRFM = \frac{\text{Число страниц с фразой}}{\text{Общее число страниц на сайте}}RFM=Общее число страниц на сайтеЧисло страниц с фразой​.
  • Average Baseline Site Quality Score: Среднее (арифметическое, геометрическое, медиана) базовых оценок качества сайтов в определенном сегменте (Bucket).
  • Aggregate Site Quality Score: Среднее (часто взвешенное) значение Average Baseline Site Quality Scores для всех фраз нового сайта.
  • Weight Distribution Quotient (Квотиент распределения весов): Используется для определения необходимости сглаживания. Quotient=Сумма весов Топ-N фразСумма весов всех фразQuotient = \frac{\text{Сумма весов Топ-N фраз}}{\text{Сумма весов всех фраз}}Quotient=Сумма весов всех фразСумма весов Топ-N фраз​. (N может быть 10-50).
  • Smoothing (Сглаживание): Если Quotient превышает порог (например, 0.1-0.4), используется линейная интерполяция: Scoresmoothed=(Scoreaggregate×α)+(Scoreneutral×(1−α))\text{Score}_{\text{smoothed}} = (\text{Score}_{\text{aggregate}} \times \alpha) + (\text{Score}_{\text{neutral}} \times (1 - \alpha))Scoresmoothed​=(Scoreaggregate​×α)+(Scoreneutral​×(1−α)), где α\alphaα – коэффициент интерполяции (может быть функцией от Quotient).

Выводы

  1. Качество как лингвистический паттерн: Патент демонстрирует механизм оценки качества сайта, основанный исключительно на статистическом анализе текста (N-грамм). Система учится ассоциировать определенные лингвистические паттерны с высоким или низким качеством.
  2. Важность распределения контента (Relative Frequency): Ключевым фактором является не просто наличие фразы, а то, на каком проценте страниц сайта она встречается (RFM). Одно и то же слово может быть сигналом высокого качества при одной частоте и низкого — при другой (например, при переспаме).
  3. Оценка на уровне сайта (Site-Wide): Анализ проводится на уровне всего сайта. RFM учитывает общее количество страниц. Это подчеркивает важность согласованности качества всего ресурса.
  4. Неявный учет грамотности и стиля: Поскольку система может токенизировать текст без исправления ошибок, N-граммы, содержащие орфографические и грамматические ошибки или неестественные конструкции (например, плохая ИИ-генерация), становятся частью модели. Частое использование таких N-грамм будет коррелировать с низким качеством.
  5. Масштабируемость и автоматизация: Механизм позволяет автоматически прогнозировать Site Quality Score для огромного количества сайтов, особенно новых, не требуя ресурсоемких базовых вычислений.
  6. Защита от манипуляций: Механизм Smoothing защищает систему от чрезмерного влияния небольшого числа фраз, предотвращая попытки манипулировать оценкой.
  7. Связь с Google Panda: Учитывая изобретателя (Navneet Panda) и фокус на контент-анализе, этот патент тесно связан с механизмами алгоритма Google Panda и его наследников (Helpful Content System).

Практика

Best practices (это мы делаем)

  • Развитие экспертного языка и авторского стиля: Стремитесь к тому, чтобы лингвистические паттерны сайта соответствовали паттернам авторитетных ресурсов в нише. Используйте специализированную терминологию и уникальные N-граммы, которые естественно встречаются в экспертном контенте.
  • Поддержание высоких редакционных стандартов: Обеспечивайте грамотность и чистоту языка на всем сайте. Поскольку ошибки могут сохраняться при токенизации, паттерны неграмотного письма будут коррелировать с низким качеством в Phrase Model.
  • Контроль распределения контента и Boilerplate: Анализируйте шаблонный текст (boilerplate), который появляется на большом проценте страниц (высокий RFM). Убедитесь, что он качественный и не содержит фраз, ассоциирующихся со спамом. Также следите за естественным распределением ключевых тем по сайту.
  • Поддержание консистентности качества: Поскольку оценка основана на анализе всего сайта (RFM зависит от общего числа страниц), необходимо поддерживать высокое качество всех индексируемых страниц. Большое количество низкокачественных страниц негативно повлияет на метрики.
  • Анализ N-грамм конкурентов: Изучайте, какие 2-5-граммы используют лидеры ниши и как они распределены. Это поможет понять лингвистические ожидания Phrase Model для вашей тематики.

Worst practices (это делать не надо)

  • Использование низкокачественного сгенерированного или "spun" контента: Такой контент часто содержит неестественные N-граммы или повторяющиеся паттерны, которые легко идентифицируются моделью и коррелируют с низкокачественными сайтами.
  • Keyword Stuffing и неестественное повторение: Попытки манипулировать частотой фраз приведут к аномальным значениям RFM. Если модель обучена распознавать это как спам (например, коммерческая фраза на 95% страниц), это снизит оценку качества.
  • Игнорирование качества языка и ошибок: Допущение большого количества орфографических, грамматических и стилистических ошибок. Система зафиксирует эти ошибки как часть N-грамм и свяжет их с низким качеством.
  • Злоупотребление шаблонным контентом низкого качества: Использование стандартных, неуникальных шаблонов (boilerplate) на всех страницах, если эти шаблоны используются на сайтах низкого качества.

Стратегическое значение

Патент подтверждает, что Google разработал сложные механизмы для оценки качества контента (и E-E-A-T) через прямой лингвистический анализ. Язык сайта сам по себе является сигналом ранжирования. Стратегия должна фокусироваться на создании контента, который не только информативен, но и написан языком, соответствующим ожиданиям качества в данной нише. Это механизм, позволяющий оценить E-E-A-T через призму фактически созданного контента.

Практические примеры

Сценарий: Оценка нового медицинского сайта

  1. Анализ N-граммы: Система анализирует 3-грамму "клинические исследования показали".
  2. Данные из Phrase Model (Пример):
    • Сайты уровня WebMD/Mayo Clinic (High-Quality) используют эту фразу на 15% своих страниц. Среднее качество в этом сегменте (Bucket) = 0.9.
    • Сайты с медицинским спамом (Low-Quality) используют эту фразу на 80% страниц (манипуляция). Среднее качество в этом сегменте = 0.1.
  3. Прогнозирование: Новый сайт публикует 100 статей. Фраза встречается на 18 страницах (RFM = 18%).
  4. Расчет: Система определяет, что 18% попадает в сегмент, где среднее качество = 0.9. Эта высокая оценка используется при расчете Aggregate Site Quality Score.
  5. Результат: Сайт получает буст к прогнозируемому качеству благодаря тому, что его лингвистический паттерн соответствует паттернам авторитетных медицинских ресурсов, а не спамных.

Вопросы и ответы

Что такое Baseline Site Quality Score и откуда он берется?

Baseline Site Quality Score — это эталонная оценка качества сайта, которая используется для обучения Phrase Model. Патент не уточняет, как именно она формируется, но указывает, что эти оценки могут быть результатом ресурсоемких вычислений или основываться на сигналах, доступных не для всех сайтов (например, данные асессоров, ссылочный профиль, сложные алгоритмы машинного обучения типа ядра Panda).

Насколько важна грамматика и орфография в контексте этого патента?

Критически важна. В патенте явно указано, что токенизация может проводиться без нормализации, то есть сохраняя любые ошибки, существующие в исходном тексте. Это означает, что N-граммы с ошибками становятся частью модели. Если такие N-граммы часто встречаются на низкокачественных сайтах, то новый сайт с такими же ошибками получит низкую прогнозируемую оценку качества.

Как именно работает Relative Frequency Measure? Это то же самое, что плотность ключевых слов?

Нет, это разные метрики. Плотность ключевых слов измеряет частоту слова на одной странице относительно общего числа слов на ней. Relative Frequency Measure измеряет, на каком проценте страниц всего сайта встречается данная фраза (N-грамма). Это метрика уровня сайта (site-wide), а не уровня страницы.

Какова связь этого патента с алгоритмом Google Panda?

Связь очень тесная. Изобретателем является Navneet Panda, и патент описывает механизм оценки качества сайта на основе анализа контента. Это полностью соответствует целям алгоритма Panda. Можно предположить, что Phrase Model является одним из инструментов, используемых системами типа Panda или Helpful Content System для классификации качества контента в масштабе всего интернета.

Как наличие большого количества шаблонного текста (boilerplate) влияет на эту модель?

Шаблонный текст (например, в футере, сайдбаре) появляется на большом проценте страниц, что дает ему высокую Relative Frequency Measure. Если фразы из этого текста в Phrase Model ассоциируются с низким качеством (например, агрессивные призывы к действию, спамные футеры), это может негативно повлиять на общую агрегированную оценку качества сайта.

Что такое Smoothing (Сглаживание) и зачем оно нужно?

Smoothing — это механизм защиты от манипуляций и статистических выбросов. Он активируется, если небольшое количество фраз оказывает слишком сильное влияние на итоговую оценку. В этом случае система «разбавляет» рассчитанную агрегированную оценку нейтральной (средней по интернету) оценкой с помощью линейной интерполяции. Это гарантирует, что оценка качества основана на широком наборе лингвистических сигналов.

Как оптимизировать сайт под этот алгоритм?

Оптимизация заключается в том, чтобы лингвистические характеристики вашего сайта соответствовали характеристикам высококачественных сайтов в вашей нише. Это достигается через использование экспертной терминологии, уникального авторского стиля, грамотности и естественного распределения тем и фраз по страницам сайта. Избегайте паттернов, свойственных спаму или сгенерированному контенту.

Какие N-граммы используются в модели?

В патенте упоминается использование 2-грамм, 3-грамм, 4-грамм или 5-грамм. Система может использовать N-граммы разной длины или фиксированной длины. Также упоминается, что редкие N-граммы (встречающиеся на очень малом количестве сайтов) могут исключаться из анализа.

Применяется ли этот алгоритм для оценки отдельных страниц?

Патент фокусируется на прогнозировании качества сайта (Site Quality). Однако в описании патента (не в Claims) упоминается, что в некоторых реализациях Phrase Model может использоваться для прогнозирования качества меньших коллекций текста, например, отдельной страницы, абзаца, предложения или даже запроса.

Заменяет ли Predicted Site Quality Score другие сигналы качества?

Нет, не обязательно заменяет. Он используется как входной сигнал для Ranking Engine. Его основная цель, согласно патенту, — обеспечить оценку качества для сайтов, у которых отсутствует Baseline Site Quality Score. Для сайтов, у которых есть базовая оценка, система использует её.

Похожие патенты

Как Google использует консенсус между сайтами для валидации ключевых слов и ранжирования изображений и видео
Google агрегирует описания (метки) изображения или видео со всех сайтов, где этот контент размещен. Чтобы метка была принята как надежная («Final Label») и использовалась для ранжирования, она должна подтверждаться несколькими независимыми группами источников (консенсус). Этот механизм двойной группировки (по домену и по смыслу) снижает влияние спама и значительно повышает релевантность поиска медиаконтента.
  • US8275771B1
  • 2012-09-25
  • Антиспам

  • Семантика и интент

  • Мультимедиа

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц
Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.
  • US8682647B1
  • 2014-03-25
  • SERP

  • Семантика и интент

Как Google использует специфические сигналы (частоту постинга, рекламу и популярность) для оценки качества блогов и борьбы с автоматизированным контентом
Google разработал систему для ранжирования блогов, которая вычисляет независимую от запроса Оценку Качества (Quality Score). Эта оценка учитывает сигналы популярности (подписки, CTR), авторитетности (Pagerank, ссылки), а также выявляет спам-паттерны: автоматизированную частоту и размер постов, расположение рекламы и ссылочные схемы. Финальный рейтинг определяется комбинацией этой оценки качества и стандартной релевантности.
  • US8244720B2
  • 2012-08-14
  • EEAT и качество

  • Антиспам

  • Индексация

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google вычисляет Оценку Оригинальности Сайта (Site Originality Score) для борьбы со скопированным контентом
Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.
  • US8909628B1
  • 2014-12-09
  • Краулинг

  • EEAT и качество

  • SERP

Популярные патенты

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях
Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.
  • US10628511B2
  • 2020-04-21
  • Ссылки

  • Индексация

  • Поведенческие сигналы

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи
Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.
  • US9092510B1
  • 2015-07-28
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами
Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.
  • US20250209127A1
  • 2025-06-26
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

seohardcore