SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматизирует контроль качества при кластеризации внутренних документов и обращений пользователей

CLASSIFICATION OF CLUSTERED DOCUMENTS BASED ON SIMILARITY SCORES (Классификация кластеризованных документов на основе оценок схожести)
  • US8543576B1
  • Google LLC
  • 2012-05-23
  • 2013-09-24
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Этот патент описывает систему для эффективной организации больших объемов входящих сообщений (например, обращений в поддержку или отзывов). Система группирует похожие документы в кластеры и использует статистическую оценку схожести (Similarity Score), чтобы автоматически определить тематическую чистоту кластера (Topic Purity). Это значительно сокращает объем ручной проверки качества.

Описание

Какую проблему решает

Патент решает проблему высокой ресурсоемкости ручного контроля качества (Quality Assurance) при обработке больших объемов входящих документов (например, электронных писем, запросов в службу поддержки, сообщений на форумах). Когда такие документы автоматически группируются по темам, необходимо верифицировать, что кластеры тематически однородны (Topic Purity). Ручная проверка каждого кластера требует значительных затрат. Изобретение автоматизирует этот процесс, сокращая объем ручного труда.

Что запатентовано

Запатентован метод автоматизации контроля качества кластеров документов. Система использует автоматически рассчитываемую Similarity Score (оценку схожести, например, Mutual Information) как индикатор качества кластера. Сравнивая эту оценку с двумя заранее определенными порогами (высоким и низким), система автоматически классифицирует большинство кластеров как качественные или некачественные, оставляя для ручной проверки только пограничные случаи.

Как это работает

Система функционирует в два этапа:

1. Обучение (Определение порогов): На тренировочном наборе данных проводится полная верификация качества кластеров (определяется Topic Purity). Параллельно для них рассчитывается Similarity Score. Путем сравнения этих данных определяются два порога: High Quality Threshold (выше которого кластеры считаются качественными) и Low Quality Threshold (ниже которого — некачественными).

2. Применение (Операционный режим): Новые документы кластеризуются, и для них рассчитывается Similarity Score. Система автоматически классифицирует кластеры:

  • Выше верхнего порога: Автоматически проходят QA.
  • Ниже нижнего порога: Автоматически не проходят QA.
  • Между порогами: Отправляются на ручную проверку (Review).

Актуальность для SEO

Средняя (для внутренних систем). Принцип использования статистических метрик и пороговых значений для автоматизации контроля качества и сокращения ручного труда остается актуальным для систем обработки больших данных и анализа обратной связи. Однако конкретные методы кластеризации и расчета схожести (например, Mutual Information) могли эволюционировать с момента подачи патента в пользу более современных подходов.

Важность для SEO

Влияние на SEO минимальное (1/10). Патент описывает инфраструктурное решение для оптимизации внутренних процессов Google (или любой крупной организации), связанных с обработкой входящих сообщений (поддержка, форумы). Он не имеет прямого отношения к алгоритмам ранжирования веб-поиска, индексации публичного контента или пониманию поисковых запросов в контексте SEO. Практических рекомендаций для продвижения сайтов этот патент не дает.

Детальный разбор

Термины и определения

Confidence Interval Score (Оценка доверительного интервала)
Метрика, указывающая на статистическую надежность (reliability) Topic Purity Score. Рассчитывается на основе размера выборки документов, проверенных вручную.
Features (Признаки)
Слова, фразы, числа или текстовые строки, извлеченные из документов, которые используются как основа для кластеризации и расчета схожести.
High Quality Threshold (Порог высокого качества / Первый порог)
Значение Similarity Score. Кластеры с оценкой выше этого порога автоматически классифицируются как удовлетворяющие требованиям качества без ручной проверки.
Low Quality Threshold (Порог низкого качества / Второй порог)
Значение Similarity Score (ниже, чем High Quality Threshold). Кластеры с оценкой ниже этого порога автоматически классифицируются как не удовлетворяющие требованиям качества без ручной проверки.
Mutual Information (MI) Value (Значение взаимной информации)
Один из вариантов реализации Similarity Score. Вероятностная мера того, сколько общих признаков (Features) имеют документы внутри одного кластера.
Quality Assurance Requirement (Требование к обеспечению качества)
Критерий для валидации кластера. Включает требования к Topic Purity Score и Confidence Interval Score. В патенте приведен пример: 80% чистоты и 80% надежности.
Similarity Score (Оценка схожести)
Метрика, рассчитываемая для каждого кластера, которая указывает на меру схожести документов внутри него. Используется как прокси для предсказания Topic Purity.
Topic Purity Score (Оценка чистоты темы)
Процент документов в кластере (или в проверенной выборке), которые относятся к одной и той же теме. Определяется в ходе верификации.
User Documents (Пользовательские документы)
Входящие сообщения, такие как отзывы, запросы в поддержку, электронные письма, посты на форумах.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной операционный процесс системы.

  1. Система получает набор кластеров документов.
  2. Для каждого кластера вычисляется Similarity Score на основе признаков документов.
  3. Автоматическая классификация:
    • Если Similarity Score > Первого порога (High): кластер идентифицируется как удовлетворяющий требованиям качества.
    • Если Similarity Score < Второго порога (Low): кластер идентифицируется как не удовлетворяющий требованиям качества.
  4. Ручная проверка (Review): Если Similarity Score находится между порогами (включительно), инициируется проверка подмножества документов для определения качества.
  5. Каждому кластеру присваивается метка (label) о статусе прохождения контроля качества.

Claim 3 и 4 (Зависимые): Подчеркивают, что идентификация кластеров выше верхнего и ниже нижнего порогов происходит *без* проверки подмножества документов (т.е. полностью автоматически).

Claim 5 и 6 (Зависимые): Детализируют процесс проверки (Review). Он включает определение Topic Purity Score и Confidence Interval Score. Кластер проходит QA, если обе оценки соответствуют установленным требованиям (например, 80%/80%, как указано в Claim 7).

Claim 8 (Зависимый пункт): Описывает критически важный процесс обучения (Training) для определения Первого и Второго порогов.

  1. Получается второй (тренировочный) набор кластеров.
  2. Для *каждого* кластера в этом наборе определяется Topic Purity Score и Confidence Interval Score (т.е. проводится полная верификация качества).
  3. Для каждого кластера вычисляется Similarity Score.
  4. Тренировочные кластеры ранжируются по Similarity Score.
  5. Определение Первого порога (High): Анализ списка в порядке убывания. Порог устанавливается равным Similarity Score первого встретившегося кластера, который НЕ прошел верификацию качества.
  6. Определение Второго порога (Low): Анализ списка в порядке возрастания. Порог устанавливается равным Similarity Score первого встретившегося кластера, который прошел верификацию качества.

Где и как применяется

Патент описывает инфраструктурное решение для оптимизации рабочих процессов анализа данных. Он не вписывается в стандартную архитектуру веб-поиска (CRAWLING, INDEXING, RANKING и т.д.), применяемую для ранжирования внешних сайтов.

Область применения: Внутренние системы обработки данных, системы управления взаимоотношениями с клиентами (CRM), анализ обратной связи. В патенте упоминаются электронные письма, сообщения с форумов поддержки, запросы на помощь.

Как применяется: Система используется для повышения эффективности сотрудников, отвечающих за контроль качества данных. Она автоматизирует принятие решений по качеству кластеризации в очевидных случаях.

Взаимодействие компонентов:

  • Clustering module группирует документы.
  • Scoring module рассчитывает Similarity Score.
  • Quality assurance module использует заранее определенные пороги для классификации кластеров или инициирует ручную проверку.
  • Filter используется на этапе обучения для определения порогов.

Входные данные:

  • Набор автоматически сгенерированных кластеров документов.
  • Предварительно рассчитанные значения High Quality Threshold и Low Quality Threshold.

Выходные данные:

  • Метки (Labels) для каждого кластера, указывающие статус QA (Пройден / Не пройден / Требует проверки).

На что влияет

  • Конкретные типы контента: Влияет на эффективность обработки пользовательских отзывов, тикетов поддержки, email и сообщений на форумах.

Патент не влияет на ранжирование веб-страниц, товаров, локальных страниц или на обработку поисковых запросов в контексте SEO.

Когда применяется

  • Условия работы алгоритма: Применяется после того, как система автоматической кластеризации обработала новый набор документов и необходимо верифицировать качество полученных кластеров.
  • Триггеры активации: Активация происходит на основе сравнения Similarity Score с порогами:
    • Автоматический зачет QA: Similarity Score > High Quality Threshold.
    • Автоматический отказ QA: Similarity Score < Low Quality Threshold.
    • Ручная проверка: Low Quality Threshold <= Similarity Score <= High Quality Threshold.

Пошаговый алгоритм

Система работает в двух режимах: Обучение (определение порогов) и Применение.

Процесс А: Определение порогов (Обучение / Офлайн)

  1. Сбор данных: Получение тренировочного набора документов.
  2. Кластеризация: Автоматическая группировка документов (например, k-means, QT алгоритмы).
  3. Ручная оценка QA (Полная): Для *каждого* кластера проводится верификация. Определяется Topic Purity Score и Confidence Interval Score. Устанавливается статус: Прошел QA / Не прошел QA (например, на основе критерия 80%/80%).
  4. Расчет схожести: Для каждого кластера вычисляется Similarity Score (например, MI).
  5. Ранжирование: Кластеры сортируются по Similarity Score.
  6. Определение High Quality Threshold: Анализ списка сверху вниз (по убыванию оценки). Порог устанавливается по значению Similarity Score первого кластера, который НЕ прошел QA.
  7. Определение Low Quality Threshold: Анализ списка снизу вверх (по возрастанию оценки). Порог устанавливается по значению Similarity Score первого кластера, который ПРОШЕЛ QA.

Процесс Б: Применение (Операционный режим / Онлайн)

  1. Сбор новых данных и Кластеризация: Получение и автоматическая группировка нового набора документов.
  2. Расчет схожести: Вычисление Similarity Score для новых кластеров.
  3. Ранжирование: Сортировка кластеров по Similarity Score.
  4. Автоматическая идентификация качественных кластеров: Кластеры с оценкой выше High Quality Threshold помечаются как прошедшие QA.
  5. Автоматическая идентификация некачественных кластеров: Кластеры с оценкой ниже Low Quality Threshold помечаются как не прошедшие QA.
  6. Идентификация кластеров для проверки: Кластеры с оценкой между порогами помечаются как требующие проверки.
  7. Ручная проверка (Частичная): Проводятся расчеты Topic Purity Score и Confidence Interval Score только для кластеров, требующих проверки.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Система анализирует текст документов для извлечения признаков (Features) — слов, фраз, чисел. Упоминается использование алгоритмов типа TF-IDF (term frequency-inverse document frequency) для идентификации статистически значимых признаков и использование domain-specific dictionary (предметно-ориентированного словаря).
  • Технические факторы: Используются черные списки (blacklisted terms) для исключения стоп-слов, приветствий и шаблонного текста (boilerplate text, например, "From:", "To:").

Другие типы факторов (ссылочные, поведенческие, временные, географические и т.д.) в патенте не упоминаются.

Какие метрики используются и как они считаются

Система использует три ключевые метрики:

  1. Similarity Score (Оценка схожести): Основная автоматическая метрика. В патенте предлагается использовать Mutual Information (MI).

    Формула расчета MI:

    MI(t,d)=∑(Prob(t,d)∗log(Prob(t,d)Prob(t)∗Prob(d)))MI(t,d) = \sum (Prob(t,d)*log(\frac{Prob(t,d)}{Prob(t)*Prob(d)}))

    Где t — признаки в корпусе документов, d — набор документов в корпусе.

    Вероятность признака t_i в документе d_j может рассчитываться как:

    Prob(ti,dj)=N(ti,dj)NProb(t_i, d_j) = \frac{N(t_i, d_j)}{N}

    Где N(t_i, d_j) — количество появлений признака t_i в документе d_j, а N — общее количество появлений всех признаков во всех документах.

  2. Topic Purity Score (Оценка чистоты темы): Метрика, определяемая при ручной проверке выборки. Процент документов, относящихся к одной теме.

    В патенте приводится формула для расчета чистоты кластера с меткой L:

    Purity(L)=sum(Positive(L))Sum(Positive(all labels)+Negative(L))Purity(L) = \frac{sum(Positive(L))}{Sum(Positive(all\ labels) + Negative(L))}

  3. Confidence Interval Score (Оценка доверительного интервала): Статистическая надежность Topic Purity Score. Зависит от размера выборки. Упоминается использование метода Adjusted Wald Method и различных распределений (нормальное, биномиальное, t-распределение) в зависимости от размера кластера.

Выводы

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Он дает следующее понимание работы систем обработки данных:

  1. Инфраструктурный фокус и автоматизация: Основная цель изобретения — повышение эффективности внутренних процессов за счет минимизации ручного труда при контроле качества кластеризации.
  2. Использование прокси-метрик: Система использует легко вычисляемую метрику (Similarity Score / Mutual Information) в качестве надежного индикатора (прокси) для характеристики, требующей ручной оценки (Topic Purity).
  3. Трехзонная классификация и пороги: Использование двух порогов (High и Low) позволяет разделить кластеры на три группы (явно хорошие, явно плохие, неопределенные), фокусируя внимание человека только на неопределенной группе. Пороги определяются эмпирически через процесс обучения.
  4. Важность статистической значимости: Система учитывает не только чистоту темы, но и статистическую надежность этой оценки (Confidence Interval Score), что защищает от ошибок на малых выборках.
  5. Отсутствие влияния на SEO: Описанные механизмы предназначены для управления внутренними потоками информации (поддержка, отзывы), а не для анализа или ранжирования публичного веб-контента. SEO-специалистам не нужно предпринимать каких-либо действий на основе этого патента.

Практика

Практическое применение в SEO

Патент является инфраструктурным и описывает методы повышения эффективности внутренних процессов обработки данных. Он не дает практических выводов для SEO-специалистов, работающих над продвижением внешних сайтов в поиске Google.

Best practices (это мы делаем)

Информация для применения в SEO отсутствует в тексте патента.

Worst practices (это делать не надо)

Информация для применения в SEO отсутствует в тексте патента.

Стратегическое значение

Стратегическое значение для SEO отсутствует. Патент интересен с точки зрения Data Science и подтверждает, что Google активно использует стандартные методы Information Retrieval (кластеризация, TF-IDF, Mutual Information) для автоматизации процессов контроля качества (QA) при работе с большими объемами неструктурированных текстовых данных. Однако это не имеет отношения к алгоритмам веб-поиска.

Практические примеры

Практических примеров для SEO нет. Ниже приведен пример, иллюстрирующий работу патента в его целевой области — анализе обращений в поддержку.

Сценарий: Обработка тикетов в службу поддержки

  1. Задача: Ежедневно поступает 10000 обращений пользователей, которые нужно сгруппировать по темам. Система автоматически формирует 500 кластеров.
  2. Обучение (Процесс А): На основе данных прошлой недели система определила пороги: High Threshold = 1.80, Low Threshold = 1.50.
  3. Применение (Процесс Б): Для новых 500 кластеров рассчитывается Similarity Score (MI).
    • Кластер А имеет MI=1.9 (Выше High Threshold). Тема: "Ошибка входа в аккаунт". Система автоматически помечает его как качественный.
    • Кластер Б имеет MI=1.2 (Ниже Low Threshold). Система автоматически помечает его как некачественный (смешанные темы).
    • Кластер В имеет MI=1.6 (Между порогами). Система помечает его как "Требующий проверки".
  4. Результат: Вместо проверки всех 500 кластеров, сотрудники проверяют только те, которые попали в группу "Требующий проверки" (например, 100 кластеров), экономя 80% времени.

Вопросы и ответы

Описывает ли этот патент, как Google кластеризует веб-страницы или запросы для ранжирования?

Нет. Патент明确но указывает, что он предназначен для классификации документов, получаемых организациями от пользователей, таких как электронные письма, сообщения на форумах поддержки и запросы на помощь. Он не связан с кластеризацией веб-контента или семантического ядра в контексте SEO.

Что такое Similarity Score и как он рассчитывается?

Similarity Score — это метрика, которая измеряет степень схожести документов внутри одного кластера. В патенте в качестве основного примера используется Mutual Information Value (MI). MI рассчитывается на основе частоты и вероятности совместного появления признаков (ключевых слов и фраз) в документах кластера.

Чем Similarity Score отличается от Topic Purity Score?

Similarity Score вычисляется автоматически алгоритмом на основе пересечения признаков в документах. Topic Purity Score (Оценка чистоты темы) определяется в ходе верификации (часто ручной) и показывает реальный процент документов в кластере, которые относятся к одной и той же теме. Система использует Similarity Score, чтобы предсказать Topic Purity Score и избежать ручной проверки.

Как определяются High Quality Threshold и Low Quality Threshold?

Пороги определяются в ходе тренировочного этапа на основе данных, проверенных вручную. Кластеры ранжируются по Similarity Score. High Quality Threshold устанавливается по оценке первого сверху кластера, который не прошел ручную проверку. Low Quality Threshold устанавливается по оценке первого снизу кластера, который прошел ручную проверку.

Влияет ли этот патент на E-E-A-T, Helpful Content или другие аспекты SEO?

Нет. Этот патент является инфраструктурным решением для оптимизации внутренних рабочих процессов Google (контроля качества анализа данных). Он не содержит информации о факторах ранжирования, оценке качества контента веб-страниц или сигналах E-E-A-T.

Зачем нужен Confidence Interval Score?

Confidence Interval Score используется для оценки статистической надежности Topic Purity Score, так как чистота часто определяется на небольшой выборке документов. Если выборка слишком мала, доверительный интервал будет низким, даже если чистота выборки высока. Это защищает систему от ложных выводов на основе недостаточных данных.

Какова основная цель этого изобретения?

Основная цель — сокращение ручного труда, необходимого для контроля качества автоматической кластеризации документов. Система автоматизирует оценку явно хороших и явно плохих кластеров, позволяя сотрудникам сосредоточиться только на проверке спорных случаев.

Упоминается ли в патенте TF-IDF и как он используется?

Да, TF-IDF упоминается как возможный алгоритм для этапа извлечения признаков (Feature Extraction). Он может использоваться для идентификации статистически значимых слов и фраз в документах перед их кластеризацией, помогая отфильтровать шум и сосредоточиться на важных терминах.

Могу ли я использовать описанный метод для оценки качества кластеризации семантического ядра?

Теоретически, да. Хотя патент описывает кластеризацию документов (типа тикетов поддержки), сам метод оценки качества кластеров через Similarity Score и автоматизацию проверки универсален. Его можно адаптировать для оценки качества кластеризации поисковых запросов, если у вас есть способ рассчитать схожесть запросов в кластере и тренировочные данные с эталонной разметкой.

Почему этот патент не важен для SEO?

Он не важен, потому что он решает узкую задачу оптимизации внутренних бизнес-процессов — сокращение времени на ручную проверку качества кластеризации входящих сообщений. Он не содержит информации о том, как Google оценивает внешние сайты, какие факторы использует для ранжирования или как интерпретирует поисковые запросы пользователей.

Похожие патенты

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента
Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.
  • US8090717B1
  • 2012-01-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google использует тематические векторы, косинусное сходство и анализ когезии кластеров для автоматической классификации контента
Патент Google, описывающий технологию автоматической организации документов. Система создает тематическую сигнатуру документа (вектор тем и их весов) и сравнивает её с существующими наборами документов, используя Cosine Similarity. Затем вычисляется Оценка Уверенности на основе среднего сходства и однородности набора. Патент раскрывает фундаментальные механизмы Information Retrieval, которые Google использует для понимания семантики и оценки тематической когезии контента.
  • US8458194B1
  • 2013-06-04
  • Семантика и интент

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends
Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.
  • US8145623B1
  • 2012-03-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google создает иерархические таксономии из неструктурированных документов с помощью итеративной кластеризации
Google использует метод для организации больших объемов неструктурированных данных (например, отзывов клиентов или сообщений на форумах) в иерархическую таксономию. Система итеративно применяет стандартные алгоритмы кластеризации: сначала группирует документы, затем группирует полученные кластеры и так далее. Это позволяет выявить структуру и взаимосвязи в данных для внутреннего анализа.
  • US9110984B1
  • 2015-08-18
  • Семантика и интент

Популярные патенты

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
  • US9092529B1
  • 2015-07-28
  • Поведенческие сигналы

  • Персонализация

  • EEAT и качество

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

seohardcore