SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует доверительные интервалы для ранжирования контента и определения приоритетов тестирования в условиях нехватки данных

RANKING AND VOTE SCHEDULING USING STATISTICAL CONFIDENCE INTERVALS (Ранжирование и планирование голосования с использованием статистических доверительных интервалов)
  • US8494992B1
  • Google LLC
  • 2010-08-26
  • 2013-07-23
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистические методы, такие как интервал Уилсона, для оценки качества контента при малом количестве данных (например, голосов или поведенческих сигналов). Для ранжирования используется пессимистическая оценка (нижняя граница доверительного интервала), что обеспечивает стабильность и отдает предпочтение контенту с большим объемом данных. Для определения приоритета тестирования (планирования голосования) используется оптимистическая оценка (верхняя граница), что позволяет быстро выявлять потенциально популярный новый контент.

Описание

Какую проблему решает

Патент решает проблему точного и справедливого ранжирования пользовательского контента (UGC) в онлайн-сообществах, где контент и голоса поступают асинхронно, а количество голосов часто невелико. Традиционные методы, основанные на абсолютном количестве голосов, дают преимущество старому контенту. Методы, основанные на простом соотношении одобрений (Approval Ratio), нестабильны при малом количестве голосов и могут ошибочно завышать рейтинг контента с несколькими случайными положительными оценками. Изобретение обеспечивает статистически обоснованный подход к ранжированию и эффективному сбору данных (голосов).

Что запатентовано

Запатентована система для ранжирования контента и планирования сбора дополнительных голосов с использованием статистических доверительных интервалов (Statistical Confidence Intervals) для оценки популярности. Для определения рейтинга популярности (Approval Ranking) система использует нижнюю границу (Lower Bound) доверительного интервала, что является пессимистической оценкой. Для определения приоритета сбора голосов (Voting Priority Ranking) используется верхняя граница (Upper Bound), что является оптимистической оценкой потенциальной популярности.

Как это работает

Система работает следующим образом:

  • Расчет соотношения одобрений: Для каждого элемента контента вычисляется текущее соотношение положительных голосов к общему числу голосов.
  • Расчет доверительного интервала: Используя статистическую формулу (например, интервал Уилсона), система вычисляет диапазон, в котором, вероятно, находится "истинная" популярность контента. Ширина этого диапазона уменьшается по мере увеличения числа голосов.
  • Ранжирование (Approval Ranking): Контент сортируется по нижней границе интервала. Это гарантирует, что в топ попадает только тот контент, в высоком качестве которого система статистически уверена.
  • Планирование голосования (Vote Scheduling): Контент сортируется по верхней границе интервала. Это определяет приоритет для сбора дополнительных данных, фокусируясь на контенте, который имеет потенциал стать популярным (например, новый контент с высоким рейтингом, но малым числом голосов).
  • Рандомизация выбора: При показе контента для голосования выборка рандомизируется (например, с помощью геометрического распределения), чтобы избежать смещений, но с предпочтением элементам с высоким приоритетом.

Актуальность для SEO

Высокая. Хотя патент описывает систему голосования за UGC (например, Google Moderator), лежащие в его основе статистические принципы критически важны для современных поисковых систем. Поисковые системы постоянно сталкиваются с необходимостью оценки качества и релевантности при ограниченном объеме данных (например, поведенческих сигналов для новых страниц или редких запросов). Использование доверительных интервалов для управления балансом между эксплуатацией (Ranking) и исследованием (Scheduling) является фундаментальной задачей в машинном обучении и поиске.

Важность для SEO

Патент имеет высокое концептуальное значение для SEO (7/10). Он не описывает прямые факторы ранжирования Google Search, но раскрывает статистический аппарат, который Google может применять для интерпретации зашумленных или неполных сигналов, таких как поведенческие факторы (CTR, dwell time). Понимание того, как работают доверительные интервалы, объясняет, почему Google предпочитает стабильные показатели на большом объеме данных и как система может быстро тестировать новый контент.

Детальный разбор

Термины и определения

Approval Ranking (Рейтинг одобрения)
Рейтинг популярности контента. Генерируется на основе Lower Bound доверительного интервала.
Approval Ratio (Соотношение одобрений)
Пропорция положительных голосов среди всех голосов, накопленных для данного элемента контента.
Binomial Proportion Confidence Interval (Доверительный интервал для биномиальной пропорции)
Статистический интервал, используемый для оценки доли "успехов" (например, положительных голосов) в биномиальном распределении.
Featured Content Submission (Рекомендованный контент)
Контент, выбранный системой для активного показа пользователям с целью сбора дополнительных голосов. Выбирается на основе Voting Priority Ranking.
Lower Bound (Нижняя граница)
Пессимистическая оценка истинной популярности контента. Используется для Approval Ranking. При малом количестве голосов значительно ниже текущего Approval Ratio.
Statistical Confidence Interval (Статистический доверительный интервал)
Диапазон значений, в пределах которого, с заданной вероятностью, находится истинное значение измеряемой величины (в данном случае – Approval Ratio).
Upper Bound (Верхняя граница)
Оптимистическая оценка истинной популярности контента. Используется для Voting Priority Ranking. При малом количестве голосов значительно выше текущего Approval Ratio.
Vote Scheduling (Планирование голосования)
Процесс определения того, какой контент следует показать пользователям для сбора дополнительных голосов, чтобы максимально эффективно определить его истинную популярность.
Voting Priority Ranking (Рейтинг приоритета голосования)
Рейтинг, определяющий приоритет контента для Vote Scheduling. Генерируется на основе Upper Bound доверительного интервала.
Wilson Score Interval (Интервал Уилсона)
Конкретная статистическая формула для расчета доверительного интервала, которая хорошо работает даже при малых выборках (малом количестве голосов) и экстремальных значениях пропорций (близких к 0 или 1). Является предпочтительным методом в патенте.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод ранжирования и планирования голосования.

  1. Вычисление текущего Approval Ratio для каждого элемента контента.
  2. Вычисление статистической нижней границы (Lower Bound) с помощью первого метода масштабирования. Метод уменьшает (scales down) текущее значение Approval Ratio. Величина уменьшения снижается с ростом числа голосов.
  3. Генерация Approval Ranking на основе рассчитанной Lower Bound.
  4. Вычисление статистической верхней границы (Upper Bound) с помощью второго метода масштабирования. Метод увеличивает (scales up) текущее значение Approval Ratio. Величина увеличения снижается с ростом числа голосов.
  5. Генерация Voting Priority Ranking на основе рассчитанной Upper Bound.
  6. Выбор контента для дополнительного голосования (Featured Content) на основе его позиции в Voting Priority Ranking.

Claim 5 (Независимый пункт): Альтернативное описание основного процесса, фокусирующееся на вычислении интервала.

  1. Вычисление текущего Approval Ratio.
  2. Вычисление Statistical Confidence Interval (включающего Upper Bound и Lower Bound). Обе границы отклоняются от текущего значения, и величина отклонения уменьшается с ростом числа голосов.
  3. Генерация Approval Ranking по Lower Bound.
  4. Генерация Voting Priority Ranking по Upper Bound.
  5. Выбор популярного контента по Approval Ranking.
  6. Выбор Featured Content по Voting Priority Ranking.

Claims 2, 3 (Зависимые от 1): Уточняют методы масштабирования. Первый метод (для Lower Bound) и второй метод (для Upper Bound) основаны на расчете границ интервала Уилсона (Wilson score interval).

Claim 4 (Зависимый от 1): Детализирует процесс выбора контента для дополнительного голосования (Шаг 6 в Claim 1).

  1. Генерация случайного числа в соответствии с выбранным распределением вероятностей, где вероятность уменьшается с увеличением значения числа (например, геометрическое распределение).
  2. Идентификация элемента контента в Voting Priority Ranking, чей ранг соответствует значению случайного числа.
  3. Предоставление этого контента пользователю как Featured Submission.

Где и как применяется

Патент описывает внутренние механизмы системы управления контентом (CMS) или онлайн-сообщества, где пользователи явно голосуют за контент. Он не описывает напрямую архитектуру Google Search.

Применение в контексте описанной системы:

INDEXING (Внутреннее индексирование системы)
Система хранит представленный контент (Content Submissions) и статистику голосования (Voting Statistics). При получении нового голоса обновляются счетчики.

RANKING (Внутреннее ранжирование системы)
Основное применение патента. Approval Ranking Module и Vote Scheduling Module используют статистику для расчета доверительных интервалов.

  • Approval Ranking: Система динамически рассчитывает Lower Bound для всех элементов контента и сортирует их для показа списка "Самые популярные".
  • Vote Scheduling: Система динамически рассчитывает Upper Bound и сортирует контент для определения приоритета показа в блоке "Рекомендованное" (Featured).

RERANKING (Рандомизация показа)
При выборе конкретного элемента для показа в блоке "Рекомендованное" система использует рандомизацию на основе Voting Priority Ranking, чтобы обеспечить разнообразие и избежать смещений.

Входные данные:

  • Количество положительных голосов для каждого элемента контента.
  • Общее количество голосов (n) для каждого элемента контента.
  • Параметры конфигурации (например, уровень доверия для интервала Уилсона, параметр P для геометрического распределения).

Выходные данные:

  • Approval Ranking (отсортированный список контента по Lower Bound).
  • Voting Priority Ranking (отсортированный список контента по Upper Bound).
  • Выбранный Featured Content Submission для показа пользователю.

На что влияет

В контексте патента система влияет на:

  • Типы контента: Любой пользовательский контент, подлежащий голосованию (вопросы, идеи, комментарии, медиаресурсы).
  • Новый vs Старый контент: Система устраняет предвзятость к старому контенту (которая возникает при ранжировании по абсолютному числу голосов) и нестабильность ранжирования нового контента (которая возникает при ранжировании по простому соотношению). Новый контент быстро получает приоритет для голосования (высокий Upper Bound), но медленнее продвигается в рейтинге популярности (низкий Lower Bound).

Когда применяется

  • Условия применения: Применяется постоянно в системах, где необходимо ранжировать объекты на основе неполных или зашумленных данных (голосов).
  • Частота применения: Расчеты могут обновляться при каждом новом голосовании или периодически для учета всех новых данных. Выбор Featured Content происходит каждый раз, когда пользователь запрашивает его или загружает страницу.

Пошаговый алгоритм

Процесс А: Обновление рейтингов (при поступлении голоса или периодически)

  1. Сбор данных: Получение текущего количества положительных голосов и общего числа голосов (n) для каждого элемента контента.
  2. Расчет Approval Ratio (A): Вычисление A = (Положительные голоса) / n.
  3. Расчет Lower Bound (Интервал Уилсона): Применение статистической формулы (Equation 2 в патенте) для расчета пессимистической оценки популярности.
  4. Расчет Upper Bound (Интервал Уилсона): Применение статистической формулы (Equation 3 в патенте) для расчета оптимистической оценки популярности.
  5. Генерация Approval Ranking: Сортировка контента по убыванию Lower Bound.
  6. Генерация Voting Priority Ranking: Сортировка контента по убыванию Upper Bound.
  7. Сохранение результатов: Обновление рейтингов в системе.

Процесс Б: Обработка запроса пользователя

  1. Отображение популярных элементов: Показ Топ-N элементов из Approval Ranking.
  2. Выбор Featured Content (Vote Scheduling):
    1. Генерация случайного числа (k) согласно геометрическому распределению (Equation 4 в патенте).
    2. Выбор элемента контента, занимающего k-ю позицию в Voting Priority Ranking.
    3. Отображение выбранного элемента пользователю для голосования.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на данных голосования.

  • Поведенческие факторы (Явные голоса): Количество положительных (approval) и отрицательных (disapproval) голосов для каждого элемента контента.

Опциональные данные (упомянутые в расширениях патента):

  • Временные факторы: Вес голоса может увеличиваться, если он подан позже в период голосования.
  • Пользовательские факторы (Статус пользователя): Вес голоса может зависеть от статуса пользователя (например, от количества ранее поданных им голосов).

Какие метрики используются и как они считаются

Ключевыми метриками являются границы доверительного интервала, рассчитанные с помощью интервала Уилсона.

Общая формула интервала Уилсона (Equation 1):

Выводы

Хотя патент описывает систему управления UGC, его выводы имеют важное концептуальное значение для понимания того, как Google может обрабатывать сигналы ранжирования в условиях неопределенности.

  1. Статистическая значимость важнее сырых метрик: Система не доверяет простым соотношениям (например, 100% одобрения при 5 голосах). Она использует доверительные интервалы, чтобы учесть объем данных (n). Это критически важно для интерпретации поведенческих факторов в SEO: высокий CTR на малом трафике статистически менее значим, чем средний CTR на большом трафике.
  2. Ранжирование основано на пессимизме (Lower Bound): Для включения в топ рейтинга популярности система использует нижнюю границу интервала. Это консервативный подход, который гарантирует, что ранжируются только те элементы, в качестве которых система уверена. Это обеспечивает стабильность выдачи.
  3. Исследование основано на оптимизме (Upper Bound): Для определения того, какие элементы нужно тестировать (собирать больше данных), система использует верхнюю границу. Это позволяет быстро выявлять потенциально популярный контент и направлять ресурсы на сбор данных именно по нему, а не тратить их на заведомо непопулярный контент.
  4. Интервал Уилсона как эффективный инструмент: Патент выделяет Wilson Score Interval как предпочтительный метод, поскольку он надежен при малых выборках.
  5. Баланс Exploration/Exploitation: Патент описывает элегантное решение дилеммы "исследование против эксплуатации". Upper Bound стимулирует исследование (Exploration) нового и перспективного контента, а Lower Bound обеспечивает эксплуатацию (Exploitation) проверенного качественного контента.

Практика

Best practices (это мы делаем)

Практики основаны на предположении, что Google может использовать аналогичные статистические подходы для оценки поведенческих сигналов (например, интерпретируя клики как "положительные голоса").

  • Фокус на стабильности и объеме данных: Стремитесь к получению стабильно хороших поведенческих показателей на большом объеме трафика. Поскольку ранжирование (Approval Ranking) основано на Lower Bound, система предпочтет страницу с 80% "удовлетворенности" на 1000 сессий, чем страницу с 95% на 50 сессиях.
  • Оптимизация краулингового бюджета через демонстрацию потенциала: Для новых страниц важно быстро показать положительные сигналы (например, через внутреннюю перелинковку или внешний трафик). Высокий Upper Bound (оптимистическая оценка) может интерпретироваться как сигнал для системы к более активному тестированию страницы (аналог Vote Scheduling), что может включать более частое сканирование или временное повышение позиций для сбора данных.
  • Анализ производительности с учетом статистической значимости: При проведении SEO-тестов используйте инструменты расчета доверительных интервалов (например, для CTR или конверсии). Не делайте выводов на основе малых выборок, так как система также их игнорирует при основном ранжировании.

Worst practices (это делать не надо)

  • Манипуляции с поведенческими факторами на малых объемах: Попытки "накрутить" CTR или другие поведенческие метрики при малом количестве показов не дадут устойчивого результата. Из-за малого n (числа показов/сессий) Lower Bound будет очень низким, и система не будет уверена в качестве страницы для стабильного ранжирования.
  • Игнорирование падения показателей на больших объемах: Если страница с большим трафиком начинает демонстрировать ухудшение поведенческих сигналов, ее Lower Bound начнет снижаться, что приведет к потере позиций. Нельзя полагаться на прошлые заслуги, если текущие данные указывают на проблемы.
  • Преждевременные выводы о неудаче нового контента: Новый контент может иметь низкий Lower Bound из-за нехватки данных. Важно обеспечить ему возможность собрать первичные данные, прежде чем делать выводы о его эффективности.

Стратегическое значение

Патент подчеркивает важность статистической надежности и управления данными в алгоритмах ранжирования. Для SEO это означает, что стратегии должны быть направлены на долгосрочное и стабильное улучшение качества и пользовательского опыта, подтвержденное значительным объемом данных. Патент также дает представление о том, как системы управляют балансом между стабильной выдачей (Exploitation) и тестированием нового контента (Exploration), что помогает понять динамику ранжирования новых страниц и обновления алгоритмов.

Практические примеры

Сценарий: Интерпретация CTR для ранжирования (Аналогия с Approval Ranking)

Предположим, Google использует аналогичный механизм для оценки CTR.

  • Страница A: 5 кликов из 5 показов (CTR = 100%). n=5.
  • Страница B: 800 кликов из 1000 показов (CTR = 80%). n=1000.

Расчет Lower Bound (используя интервал Уилсона, 95% доверия):

  • Страница A: Lower Bound ≈ 47.8%.
  • Страница B: Lower Bound ≈ 77.5%.

Результат: Несмотря на то, что у Страницы A идеальный CTR, система статистически уверена только в том, что ее истинный CTR выше 47.8%. Страница B имеет более низкий CTR, но гораздо больший объем данных, что дает высокую уверенность в ее качестве (выше 77.5%). Страница B будет ранжироваться выше.

Сценарий: Определение приоритета тестирования нового контента (Аналогия с Vote Scheduling)

Предположим, Google использует Upper Bound для определения, какие страницы тестировать активнее.

  • Страница C (Новая): 4 клика из 5 показов (CTR = 80%). n=5.
  • Страница D (Старая): 10 кликов из 50 показов (CTR = 20%). n=50.

Расчет Upper Bound (используя интервал Уилсона, 95% доверия):

  • Страница C: Upper Bound ≈ 99.4%.
  • Страница D: Upper Bound ≈ 31.5%.

Результат: Страница C имеет очень высокий потенциал (до 99.4%). Система определит ее как приоритетную для "исследования" и может дать ей больше показов (аналог Featured Content), чтобы быстрее собрать данные и уточнить ее истинный CTR. Страница D менее приоритетна для тестирования.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует веб-страницы в поиске?

Нет, напрямую патент описывает систему ранжирования пользовательского контента (UGC) на основе явных голосов (лайков/дизлайков) внутри онлайн-сообщества. Однако он раскрывает статистические методы (доверительные интервалы, интервал Уилсона), которые Google может использовать для интерпретации любых зашумленных или неполных сигналов в поиске, таких как поведенческие факторы (CTR, удовлетворенность пользователя).

Что такое доверительный интервал и почему он используется вместо простого среднего значения?

Доверительный интервал – это диапазон, в котором, вероятно, находится истинное значение показателя. Он учитывает не только среднее значение (например, процент одобрения), но и объем данных (количество голосов). При малом количестве данных интервал широк, что отражает высокую неопределенность. Использование интервала вместо среднего значения позволяет избежать ошибок ранжирования, вызванных случайными колебаниями на малых выборках.

Что такое "Нижняя граница" (Lower Bound) и как она влияет на ранжирование?

Нижняя граница – это пессимистическая оценка популярности. Система использует ее для основного ранжирования (Approval Ranking). Это означает, что система ранжирует контент, исходя из худшего разумного сценария его производительности. Чтобы занять высокое место, контент должен иметь не только хорошее соотношение одобрений, но и достаточное количество голосов, чтобы эта нижняя граница была высокой.

Что такое "Верхняя граница" (Upper Bound) и для чего она используется?

Верхняя граница – это оптимистическая оценка потенциальной популярности. Она используется для планирования голосования (Vote Scheduling) или, в терминах SEO, для "исследования" (Exploration). Если у нового контента мало данных, но хорошее соотношение одобрений, его верхняя граница будет высокой. Это сигнализирует системе, что этот контент стоит активно тестировать и собирать по нему больше данных.

Как этот патент объясняет, почему страница с высоким CTR может ранжироваться ниже страницы с более низким CTR?

Это связано с использованием Lower Bound для ранжирования. Если у первой страницы высокий CTR, но мало показов (малое n), ее Lower Bound будет низким из-за статистической неопределенности. Если у второй страницы CTR ниже, но показов значительно больше (большое n), ее Lower Bound может оказаться выше, так как система более уверена в ее производительности. Система предпочитает уверенность и стабильность.

Что такое Интервал Уилсона (Wilson Score Interval)?

Это статистическая формула, упомянутая в патенте, для расчета доверительного интервала. Ее преимущество в том, что она обеспечивает надежные результаты даже при очень малом количестве наблюдений (например, менее 10 голосов) и при экстремальных значениях пропорций (близких к 0% или 100%). Это делает ее идеальной для оценки новых страниц или редких запросов.

Как механизм "Планирования голосования" (Vote Scheduling) может применяться в Google Поиске?

В поиске это может соответствовать механизмам Exploration или управлению краулинговым бюджетом. Система может использовать Upper Bound поведенческих сигналов, чтобы определить, какие новые или обновленные страницы следует чаще сканировать или временно повысить в выдаче (например, в Google Discover или Топ-10) для быстрого сбора данных об их производительности.

Стоит ли пытаться манипулировать сигналами, используя этот механизм?

Нет. Механизм доверительных интервалов специально разработан для защиты от шума и манипуляций на малых объемах данных. Накрутка небольшого количества положительных сигналов приведет к высокому Upper Bound (система может начать активнее тестировать страницу), но Lower Bound останется низким. Если при увеличении объема данных показатели не подтвердятся, страница не получит стабильного ранжирования.

Как использовать эти знания при анализе SEO-данных?

При анализе CTR, конверсий или других метрик всегда учитывайте объем выборки (показы, сессии). Используйте калькуляторы доверительных интервалов (в идеале, интервал Уилсона) для оценки статистической значимости наблюдаемых изменений. Не принимайте стратегических решений на основе данных, которые находятся в пределах погрешности.

Что означает рандомизация в планировании голосования?

Система не просто показывает контент с наивысшим Upper Bound для сбора голосов. Она использует вероятностное распределение (геометрическое), чтобы чаще выбирать элементы из топа списка приоритетов, но при этом давать шанс и другим элементам. Это обеспечивает более равномерный сбор данных и предотвращает "залипание" на одном элементе, который мог случайно получить высокий приоритет.

Похожие патенты

Как Google (YouTube) использует сравнительное голосование пользователей для ранжирования контента в плейлистах и конкурсах
Патент Google (применимый к YouTube) описывает систему коллективного ранжирования определенного набора контента (плейлиста). Пользователи ранжируют элементы относительно друг друга, перемещая их вверх или вниз. Система агрегирует эти голоса, используя взвешенный алгоритм (Взвешенный подсчет Борда), который учитывает предыдущий рейтинг и количество голосов за каждую позицию для определения нового коллективного порядка.
  • US7840563B2
  • 2010-11-23
  • Поведенческие сигналы

Как Google использует сеть доверия между экспертами для расчета Trust Rank и ранжирования контента
Google использует механизм для определения авторитетности контента путем анализа того, какие эксперты (сущности) доверяют друг другу и как они классифицируют (маркируют) контент в интернете. Система рассчитывает «Рейтинг Доверия» (Trust Rank) для каждой сущности и использует его для повышения в выдаче контента, отмеченного доверенными источниками, интегрируя сигналы репутации в алгоритм ранжирования.
  • US7603350B1
  • 2009-10-13
  • EEAT и качество

  • Knowledge Graph

  • SERP

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент
Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.
  • US8874558B1
  • 2014-10-28
  • EEAT и качество

  • Свежесть контента

  • Индексация

Популярные патенты

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов
Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.
  • US7617205B2
  • 2009-11-10
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)
Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.
  • US20250005303A1
  • 2025-01-02
  • SERP

  • EEAT и качество

  • Персонализация

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска
Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.
  • US8583675B1
  • 2013-11-12
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

seohardcore