SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google отличает реальные тренды (QDF) от спама и шума при всплесках активности

SPIKE CLASSIFICATION (Классификация всплесков активности)
  • US20140081973A1
  • Google LLC
  • 2012-09-14
  • 2014-03-20
  • Свежесть контента
  • Антиспам
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистические модели (например, распределение Пуассона) для анализа внезапных всплесков запросов или индексации новых документов. Система определяет, является ли всплеск результатом реального мирового события (тренд) или случайным шумом/скоординированным спамом. Это позволяет фильтровать ложные тренды и точно определять темы, заслуживающие приоритета свежего контента (QDF).

Описание

Какую проблему решает

Патент решает задачу различения подлинных всплесков интереса к теме (реальные тренды, актуальные новости) от ложных всплесков (spurious spikes). Ложные всплески могут быть вызваны случайными статистическими флуктуациями (шум) или скоординированными манипуляциями (спам, бот-активность). Это необходимо для точной идентификации трендовых тем и предотвращения манипуляций алгоритмами, реагирующими на свежесть (например, QDF — Query Deserves Freshness).

Что запатентовано

Запатентована система классификации всплесков активности (spikes), связанных с определенным поисковым запросом. Активность измеряется частотой получения запроса или частотой индексации новых релевантных документов. Система использует статистический анализ (Goodness of Fit test) для сравнения наблюдаемого распределения событий с эталонным распределением, моделирующим случайные события (например, распределение Пуассона). На основе этого сравнения и анализа метаданных источников система классифицирует всплеск как подлинный (non-spurious) или ложный (spurious).

Как это работает

Система работает следующим образом:

  • Обнаружение всплеска: Фиксируется резкое увеличение частоты событий (запросы или индексация) относительно исторического уровня.
  • Статистический анализ (Goodness of Fit): Система проверяет, насколько хорошо наблюдаемое распределение событий во временном окне соответствует эталонному случайному распределению (например, Пуассона).
  • Классификация по шуму: Если распределение хорошо соответствует случайной модели (GOF value удовлетворяет порогу), всплеск классифицируется как ложный (spurious). Если значительно отличается — предварительно как подлинный.
  • Проверка на спам (Suspicious Activity): Система дополнительно анализирует метаданные (например, IP-адреса). Если значительная часть активности исходит из одного источника, всплеск может быть признан ложным, даже если он не соответствует случайному распределению.
  • Генерация сигналов: Только подлинные всплески используются для генерации сигналов о трендах (например, для активации QDF).

Актуальность для SEO

Высокая. Способность Google обрабатывать информацию в реальном времени, реагировать на тренды (QDF) и фильтровать дезинформацию остается критически важной. С ростом использования ботов и скоординированных кампаний, механизмы для отделения реальных трендов от манипуляций и шума становятся все более актуальными.

Важность для SEO

Влияние на SEO значительно (7.5/10), особенно для новостных сайтов и контент-провайдеров, ориентированных на тренды. Этот патент описывает механизм валидации, который Google использует для принятия решения о том, заслуживает ли тема активации алгоритмов свежести (QDF). Он подчеркивает важность генерации подлинного, широко распространенного интереса из разнообразных источников, а не попыток искусственного стимулирования активности.

Детальный разбор

Термины и определения

Event (Событие)
Действие, связанное с конкретным поисковым запросом. Включает Receipt event и Document indexing event.
Receipt event (Событие получения)
Получение поисковой системой конкретного запроса от пользователя или выбор пользователем ресурса на SERP.
Document indexing event (Событие индексации документа)
Индексация поисковой системой нового ресурса (например, новости, поста в блоге), который удовлетворяет конкретному поисковому запросу.
Spike (Всплеск)
Резкое увеличение частоты возникновения событий (rate of occurrence of events), связанных с запросом, в определенном временном окне по сравнению с историческим базовым уровнем.
Spurious Spike (Ложный всплеск)
Всплеск активности, классифицированный как результат случайного шума или манипулятивной активности (спама). Игнорируется при определении трендов.
Non-spurious Spike (Подлинный всплеск)
Всплеск активности, классифицированный как результат реального события или подлинного роста интереса. Используется для генерации сигналов о трендах.
Reference Distribution (Эталонное распределение)
Статистическое распределение, моделирующее случайное возникновение событий. В патенте упоминаются распределение Пуассона (Poisson distribution) и Гауссово распределение (Gaussian distribution).
Goodness of Fit (GOF) value (Показатель согласия)
Статистическая метрика, показывающая, насколько хорошо наблюдаемое распределение событий соответствует эталонному распределению. Может вычисляться с помощью критерия согласия хи-квадрат (chi-square goodness of fit test).
Suspicious activity condition (Условие подозрительной активности)
Состояние, при котором метаданные указывают на манипуляцию. Например, если значительная часть событий (10%, 20% и т.д.) исходит от одного источника (IP-адрес, email, автор, имя пользователя).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации всплеска активности.

  1. Система получает данные, идентифицирующие всплеск (spike) частоты событий (получение запроса или индексация документа) для конкретного запроса.
  2. Происходит подгонка (fitting) наблюдаемых событий во временном окне к эталонному распределению (reference distribution), моделирующему случайные события.
  3. Вычисляется показатель согласия (Goodness of Fit value).
  4. GOF value сравнивается с первичным порогом (primary threshold).
  5. Если GOF value удовлетворяет порогу (т.е. наблюдаемые события хорошо соответствуют случайной модели), всплеск классифицируется как ложный (spurious spike).

Ключевая концепция: Если всплеск выглядит статистически случайным (согласно модели Пуассона или Гаусса), он считается шумом, а не трендом.

Claim 4 (Зависимый от 1): Уточняет альтернативный исход.

Если GOF value НЕ удовлетворяет первичному порогу (т.е. наблюдаемые события плохо соответствуют случайной модели), всплеск классифицируется как подлинный (non-spurious spike). Реальные мировые события вызывают всплески, которые статистически отличаются от случайного шума.

Claim 5 и 6 (Зависимые): Описывают дополнительный уровень проверки для борьбы со спамом, если всплеск предварительно выглядит как подлинный (не удовлетворяет первичному порогу).

  1. Система проверяет метаданные на условие подозрительной активности (suspicious activity condition) (Claim 5).
  2. Если активность НЕ подозрительна, всплеск подтверждается как подлинный (Claim 5).
  3. Если активность подозрительна (например, идет с одного IP), система сравнивает GOF value с другим, менее строгим порогом (less stringent threshold) (Claim 6).
  4. Если GOF value удовлетворяет этому менее строгому порогу, всплеск все равно классифицируется как ложный (spurious) (Claim 6).

Ключевая концепция: Даже если статистический паттерн отличается от случайного, он может быть признан спамом, если источник активности высококонцентрирован (боты), при этом для его отсечения применяются более мягкие статистические критерии.

Где и как применяется

Этот патент описывает инфраструктурный механизм, который обрабатывает данные в реальном времени и влияет на последующие этапы ранжирования.

CRAWLING и INDEXING – Сканирование и Индексирование
Система отслеживает Document indexing events. Всплески индексации новых документов по определенной теме являются входными данными для этого алгоритма.

QUNDERSTANDING – Понимание Запросов
Система отслеживает Search queries (Receipt events) в реальном времени. Всплески объема запросов по теме также являются входными данными. Модули Spike detection и Spike classification работают на этом этапе для анализа потока запросов.

RANKING и RERANKING – Ранжирование и Переранжирование
Алгоритм напрямую не рассчитывает Ranking Scores, но критически влияет на активацию механизмов свежести (QDF).

  1. Генерация сигналов трендов: Spike processing module обрабатывает подлинные всплески (Non-spurious spike identification data) и генерирует сигналы (Signals), указывающие на резкое изменение популярности темы или сущности.
  2. Активация QDF: Эти сигналы могут активировать алгоритмы QDF на этапе RANKING или повышать свежий контент с помощью Twiddlers на этапе RERANKING.
  3. Подавление спама: Классификация всплеска как spurious предотвращает повышение в ранжировании ресурсов, связанных со спам-активностью.

Входные данные:

  • Данные о событиях (Event data): частота и время поисковых запросов и событий индексации.
  • Метаданные событий: IP-адреса, имена пользователей, авторы, email-адреса источников событий.
  • Исторические данные о частоте событий (для определения базового уровня).

Выходные данные:

  • Данные идентификации подлинных всплесков (Non-spurious spike identification data).
  • Сигналы (Signals) о трендовых темах для систем ранжирования.

На что влияет

  • Конкретные типы контента: Контент, чувствительный ко времени: новости, посты в социальных сетях, микроблоги, свежие обновления.
  • Специфические запросы: Запросы, связанные с актуальными событиями, трендами, "горячими" темами (информационные, событийные).
  • Конкретные ниши или тематики: Новости, спорт, развлечения, политика, финансы (в патенте упоминается анализ интереса к акциям). Также YMYL-тематики в случае внезапных событий.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда модуль обнаружения всплесков (Spike detection module) фиксирует значительное увеличение частоты событий по сравнению с историческим базовым уровнем.
  • Временные рамки: Применяется в реальном или почти реальном времени. Временное окно (time window) для анализа может варьироваться; в патенте упоминаются примеры от 2 минут до 120 минут.

Пошаговый алгоритм

Процесс классификации всплеска активности.

  1. Сбор данных и генерация сырых подсчетов: Raw count generator собирает данные о запросах и событиях индексации. События группируются по временным интервалам (например, по 5 минут) для генерации Event data.
  2. Обнаружение всплеска: Spike detection module анализирует Event data и сравнивает текущую частоту с историческим базовым уровнем. При обнаружении всплеска генерируются Spike identification data.
  3. Статистическая подгонка (Fitting): Spike classification module применяет статистический тест (например, хи-квадрат) для сравнения распределения событий во временном окне с эталонным случайным распределением (например, Пуассона).
  4. Вычисление GOF Value: Вычисляется показатель согласия (Goodness of Fit value).
  5. Сравнение с первичным порогом: GOF value сравнивается с primary threshold (например, критическое значение хи-квадрат при p=0.05).
  6. Первичная классификация:
    • Если GOF удовлетворяет порогу (соответствует случайной модели): Всплеск классифицируется как ложный (Spurious). Процесс завершен.
    • Если GOF НЕ удовлетворяет порогу (отличается от случайной модели): Переход к шагу 7.
  7. Анализ метаданных (Проверка на подозрительную активность): Система анализирует метаданные событий (IP, автор и т.д.) для определения, удовлетворяется ли suspicious activity condition (например, более 20% событий от одного источника).
  8. Вторичная классификация:
    • Если активность НЕ подозрительная: Всплеск классифицируется как подлинный (Non-spurious).
    • Если активность подозрительная: GOF value сравнивается с менее строгим порогом (less stringent threshold). Если GOF удовлетворяет этому второму порогу, всплеск классифицируется как ложный (Spurious).
  9. Обработка результатов: Spike processing module использует данные о подлинных всплесках для генерации сигналов о трендах.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Объем поисковых запросов (Search queries) по теме, время поступления запросов, выбор ресурсов пользователями на SERP.
  • Временные факторы: Время индексации новых ресурсов (Document indexing events), частота появления новых документов. Анализ распределения событий во времени.
  • Технические и Пользовательские факторы (Метаданные): IP-адреса источников запросов или контента, имена пользователей (username), email-адреса, авторы (author). Используются для выявления подозрительной активности.

Какие метрики используются и как они считаются

  • Rate of occurrence of events (Частота возникновения событий): Количество запросов или проиндексированных документов за единицу времени.
  • Goodness of Fit (GOF) value: Статистический показатель (например, статистика хи-квадрат), измеряющий согласие наблюдаемых данных с эталонной моделью.
  • Primary Threshold (Первичный порог): Пороговое значение для GOF value (например, для p=0.05). Используется для первичной классификации шума.
  • Less stringent threshold (Менее строгий порог): Дополнительное пороговое значение для GOF value (например, для p=0.10). Используется при обнаружении подозрительной активности.
  • Suspicious activity threshold: Порог для определения манипуляций на основе концентрации источника. Например, если более 10%, 20% или 50% событий исходят от одного источника.
  • Статистические методы: Для моделирования случайных событий используются распределение Пуассона (Poisson distribution) или Гауссово распределение (Gaussian distribution). Для оценки согласия используется критерий хи-квадрат (chi-square test), тест отношения правдоподобия (likelihood-ratio test) или G-тест.

Выводы

  1. QDF основан на статистической валидации трендов: Google не просто реагирует на увеличение объема запросов или нового контента. Система использует статистические модели (например, распределение Пуассона) для проверки подлинности тренда. Это механизм защиты QDF от шума и спама.
  2. Паттерн активности важнее объема: Для идентификации тренда важно не только количество упоминаний, но и то, как эти упоминания распределены во времени. Подлинные тренды (non-spurious) имеют статистический паттерн, который отличается от случайного распределения.
  3. Многоуровневая защита от манипуляций: Система использует два уровня анализа: статистическое распределение событий (против шума) и анализ источников активности (против спама/ботов).
  4. Идентификация скоординированных атак: Механизм проверки suspicious activity condition (например, анализ концентрации IP-адресов) напрямую направлен на выявление бот-сетей и скоординированных попыток искусственно создать тренд. Даже если боты имитируют неслучайный паттерн, концентрация источника выдаст манипуляцию.
  5. Подлинный интерес должен быть распределенным: Для того чтобы система распознала тренд как подлинный, интерес к теме должен исходить из разнообразных источников (разные пользователи, IP, авторы).

Практика

Best practices (это мы делаем)

  • Стимулирование подлинного и разнообразного вовлечения: При запуске нового контента или кампаний стремитесь к органическому распространению информации через различные каналы (социальные сети, СМИ, лидеры мнений). Разнообразие источников трафика и обсуждений повышает вероятность того, что всплеск интереса будет классифицирован как non-spurious.
  • Оптимизация скорости индексации (News SEO): Для новостных сайтов критически важно обеспечить максимально быструю индексацию. Indexing events являются одним из ключевых входов для этой системы. Использование XML Sitemaps для новостей и эффективной технической инфраструктуры обеспечивает своевременное поступление данных в систему анализа трендов.
  • Мониторинг трендов и быстрая реакция (Newsjacking): Отслеживайте реальные мировые события и оперативно создавайте качественный контент по теме. Подлинные события естественным образом генерируют non-spurious spikes, что приводит к активации QDF и дает преимущество быстро реагирующим сайтам.

Worst practices (это делать не надо)

  • Имитация трендов с помощью ботов: Попытки искусственно увеличить объем поисковых запросов или сгенерировать массовые упоминания с помощью бот-сетей будут неэффективны. Система обнаружит концентрацию активности из ограниченного числа источников (suspicious activity condition) и классифицирует всплеск как spurious.
  • Массовая публикация контента с одного источника: Быстрая генерация большого количества низкокачественных страниц или постов от одного автора или с одного IP-адреса в попытке захватить тренд может быть расценена как подозрительная активность.
  • Использование "взрывных" схем продвижения с низким качеством источников: Краткосрочные всплески трафика или ссылок, полученные через сомнительные сети или скоординированные группы, скорее всего, будут отфильтрованы как шум или спам из-за их статистического паттерна или концентрации источников.

Стратегическое значение

Патент подтверждает, что Google рассматривает тренды и свежесть (QDF) через призму статистической достоверности и защиты от манипуляций. Для SEO-стратегии это означает, что попытки "обмануть" алгоритмы свежести с помощью искусственной активности обречены на провал. Долгосрочный успех в трендовых тематиках зависит от способности генерировать подлинный интерес у широкой аудитории и быстро предоставлять качественный контент в ответ на реальные события.

Практические примеры

Сценарий 1: Подлинный тренд (Breaking News)

  1. Событие: Неожиданное крупное спортивное событие.
  2. Активность: Тысячи разных пользователей начинают искать информацию (Receipt events), а десятки новостных сайтов публикуют статьи (Indexing events).
  3. Анализ: Система обнаруживает всплеск. Распределение событий во времени не соответствует случайной модели Пуассона (GOF value не удовлетворяет порогу). Источники активности разнообразны (разные IP, разные авторы; suspicious activity condition не выполняется).
  4. Результат: Всплеск классифицируется как Non-spurious. Активируется QDF. Свежие новости получают значительное повышение в ранжировании.

Сценарий 2: Скоординированная спам-атака

  1. Событие: Группа спамеров пытается продвинуть фейковую новость.
  2. Активность: Бот-сеть начинает массово публиковать посты и генерировать запросы.
  3. Анализ: Система обнаруживает всплеск. Паттерн активности может отличаться от случайного. Однако система анализирует метаданные и обнаруживает, что 80% активности исходит из ограниченного пула IP-адресов (suspicious activity condition выполняется).
  4. Результат: Система применяет менее строгий порог (less stringent threshold) и классифицирует всплеск как Spurious. Трендовые сигналы не генерируются. Спам-контент не получает повышения в ранжировании.

Вопросы и ответы

Как этот патент связан с алгоритмом QDF (Query Deserves Freshness)?

Этот патент описывает механизм, который, по сути, является валидатором для активации QDF. QDF реагирует на трендовые темы, повышая свежий контент. Описанная система классификации всплесков определяет, является ли всплеск интереса к теме подлинным трендом (non-spurious) или шумом/спамом (spurious). Только подлинные всплески должны запускать QDF.

Что такое распределение Пуассона (Poisson distribution) в контексте этого патента?

Распределение Пуассона — это статистическая модель, которая описывает вероятность возникновения случайных событий за фиксированный интервал времени, если эти события происходят независимо друг от друга. В контексте патента оно используется как эталон "нормального" или "случайного" шума. Если всплеск активности хорошо соответствует этой модели, он считается случайным.

Почему система классифицирует всплеск как ложный (spurious), если он ХОРОШО соответствует случайному распределению?

Логика заключается в том, что реальные мировые события вызывают аномальные, неслучайные паттерны активности. Если всплеск статистически неотличим от случайного шума (т.е. хорошо соответствует эталонному случайному распределению), это означает, что нет оснований полагать, что за ним стоит реальное событие. Следовательно, он классифицируется как шум или ложный всплеск.

Как система определяет "подозрительную активность" (suspicious activity)?

Патент указывает на анализ метаданных, связанных с событиями. Подозрительная активность определяется как ситуация, когда значительная часть событий (например, 10%, 20%, 50%) исходит от одного и того же источника. В качестве источника могут рассматриваться IP-адрес, имя пользователя, автор контента или email-адрес. Это ключевой механизм для выявления бот-сетей.

Могут ли спамеры обойти этот механизм, имитируя "неслучайное" распределение?

Это сложно. Даже если спамеры смогут сгенерировать всплеск, который статистически отличается от случайного распределения (т.е. пройдет первый тест GOF), система использует второй уровень защиты — анализ метаданных. Если активность исходит из ограниченного числа источников (что типично для бот-сетей), система все равно может классифицировать всплеск как ложный, применив менее строгие статистические пороги.

Влияет ли этот алгоритм только на поисковые запросы или также на новый контент?

Он влияет на оба аспекта. Патент явно указывает, что анализируются как события получения запросов (Receipt events), так и события индексации нового контента (Indexing events). Всплеск публикаций по определенной теме также проходит эту проверку на подлинность.

Что это значит для SEO при работе с социальными сетями и генерацией сигналов?

Это означает, что покупка лайков, репостов или комментариев у ботов для создания видимости тренда неэффективна. Google анализирует источники этих сигналов. Важно стимулировать подлинное вовлечение реальных пользователей из разнообразных источников, а не полагаться на искусственное усиление.

Какие временные окна используются для анализа всплесков?

Патент не устанавливает фиксированное окно, но упоминает примеры от двух минут до ста двадцати минут (два часа). Это говорит о том, что система работает в реальном времени и может адаптировать временные рамки в зависимости от контекста и скорости развития событий.

Если мой сайт первым опубликовал новость о реальном событии, гарантирует ли это высокие позиции?

Это значительно повышает шансы, но не гарантирует. Если событие вызовет подлинный всплеск (non-spurious spike), система активирует QDF и отдаст предпочтение свежему контенту. Однако этот свежий контент все равно будет ранжироваться на основе множества других факторов, включая авторитетность сайта и качество самой статьи.

Используется ли этот механизм для понижения сайтов в ранжировании?

Прямо не используется для пессимизации, но косвенно влияет на качество выдачи. Если всплеск активности связан со спамом и классифицируется как ложный (spurious), то ресурсы, которые пытались продвинуться за счет этого всплеска, не получат повышения в выдаче. Это улучшает качество поиска за счет подавления результатов, которые, вероятно, являются спамом.

Похожие патенты

Как Google определяет запросы, требующие свежего контента (QDF), анализируя темпы создания документов в интернете
Google использует анализ временных меток документов для определения "запросов, ищущих свежесть" (QDF). Система строит временную шкалу публикаций по теме и ищет резкие всплески (события). Если обнаружен значительный недавний всплеск, система повышает в ранжировании документы, созданные после этого события, и понижает более старые результаты.
  • US20150169574A1
  • 2015-06-18
  • Свежесть контента

  • SERP

Как Google выявляет всплески поискового интереса и определяет тренды в реальном времени
Google использует систему для определения "Исключительных запросов" — тем, интерес к которым резко и неожиданно возрастает в короткий промежуток времени (менее 30 минут). Система сравнивает текущую частоту запроса с прогнозируемой моделью, основанной на исторических данных. Если фактическая активность значительно превышает прогноз, запрос помечается как трендовый. Это позволяет выявлять актуальные события, а не просто самые популярные запросы.
  • US8140562B1
  • 2012-03-20
  • Свежесть контента

  • Поведенческие сигналы

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google визуально выделяет популярные профили в поиске и использует частоту запросов для борьбы с фейковыми аккаунтами
Google использует данные о популярности (количество связей) и качестве (вовлеченность) профилей пользователей, чтобы визуально выделить наиболее авторитетные результаты при поиске людей или брендов. Если один профиль значительно популярнее других, он отображается крупнее. Система также динамически регулирует порог качества в зависимости от частоты запроса: чем популярнее имя, тем выше требования к профилю для его отображения, что помогает бороться со спамом.
  • US8935245B1
  • 2015-01-13
  • SERP

  • Антиспам

  • EEAT и качество

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Популярные патенты

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
  • US9092529B1
  • 2015-07-28
  • Поведенческие сигналы

  • Персонализация

  • EEAT и качество

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента
Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.
  • US8959093B1
  • 2015-02-17
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок
Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.
  • US12353458B2
  • 2025-07-08
  • Ссылки

  • Семантика и интент

  • SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

seohardcore