SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google перехватывает навигацию пользователя для защиты от низкокачественных сайтов (паркинги, фермы контента)

PROCESSING WEB PAGES BASED ON CONTENT QUALITY (Обработка веб-страниц на основе качества контента)
  • US8775924B1
  • Google LLC
  • 2012-03-09
  • 2014-07-08
  • Антиспам
  • EEAT и качество
  • Безопасный поиск
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Механизм защиты пользователей, который перехватывает запрос на загрузку веб-страницы. Если страница идентифицирована как низкокачественная (паркинг домена, ферма контента или ссылочная ферма), система показывает предупреждение и предлагает перейти на альтернативный релевантный сайт вместо запрошенного.

Описание

Какую проблему решает

Патент решает задачу защиты пользователей от посещения низкокачественных веб-сайтов (low-quality websites), которые не несут пользы, содержат преимущественно рекламу или созданы для манипуляций. Система нацелена на борьбу с конкретными типами сайтов: припаркованные домены (parked web pages), фермы контента (content farm web pages) и ссылочные фермы (link farm web pages). Механизм защищает пользователя независимо от источника перехода, включая прямые заходы, клики по ссылкам, тайпсквоттинг или даже запросы, инициированные вредоносным ПО (вирусы, трояны).

Что запатентовано

Запатентована система перехвата и обработки запросов к веб-страницам. Система оценивает качество контента (content quality) запрашиваемой страницы до её загрузки. Если качество определяется как низкое (ниже установленного порога), система вмешивается в процесс навигации и отображает промежуточный графический компонент (graphical component), например, предупреждение. Пользователю предлагается выбор: продолжить переход или перейти на альтернативную релевантную страницу (alternate web page).

Как это работает

Механизм может быть реализован на стороне клиента (браузер, плагин, ОС) или на промежуточном сервере.

  • Перехват запроса: Система перехватывает запрос пользователя на посещение веб-страницы до её загрузки.
  • Оценка качества: Проверяется Content Quality Value страницы. Эта оценка берется из базы данных или вычисляется на лету путем сравнения страницы с паттернами низкокачественных сайтов.
  • Сравнение с порогом: Оценка сравнивается с пороговым значением (threshold value).
  • Вмешательство: Если качество низкое, пользователю отображается предупреждение (graphical component) с вариантами действий.
  • Адаптация: Выбор пользователя и время, проведенное на странице, могут использоваться для корректировки Content Quality Value в будущем.

Актуальность для SEO

Высокая. Описанные в патенте принципы оценки качества контента и методы идентификации ферм контента, паркингов и ссылочных ферм крайне актуальны для понимания алгоритмов Google. Хотя патент описывает инфраструктурное решение (защита на уровне навигации, а не ранжирования), подобные технологии интегрированы в системы безопасности браузеров (например, Google Safe Browsing) и отражают типы контента, которые Google стремится исключить из экосистемы.

Важность для SEO

Патент имеет важное стратегическое значение для SEO (Оценка 6/10). Он не описывает алгоритмы ранжирования в SERP. Однако он детально раскрывает технические, контентные и структурные признаки, по которым Google идентифицирует самые низкокачественные сайты (content farms, link farms, parked web pages). Понимание этих паттернов критично для избежания такой классификации. Система активно снижает трафик на такие сайты, независимо от его источника, и подтверждает использование поведенческих факторов (например, время на сайте) для уточнения оценок качества.

Детальный разбор

Термины и определения

Alternate web page (Альтернативная веб-страница)
Страница, предлагаемая пользователю в качестве замены, если запрошенная страница имеет низкое качество. Релевантна исходному запросу.
Content farm web page (Ферма контента)
Веб-страница с текстовым контентом, созданным для максимизации просмотров на основе поисковых запросов, часто низкого качества и без уникальной ценности.
Content Quality (Качество контента)
Ценность, которую предлагает контент веб-страницы.
Content Quality Value (Оценка качества контента)
Числовая метрика качества страницы. Определяется путем сравнения страницы с паттернами (patterns), найденными на известных низкокачественных сайтах.
Graphical Component (Графический компонент)
Интерфейс (предупреждение, всплывающее окно), который отображается при попытке доступа к низкокачественной странице. Предоставляет выбор действий.
Link farm web page (Ссылочная ферма)
Страница, являющаяся частью группы веб-страниц, которые взаимно ссылаются друг на друга, часто с целью манипуляции ранжированием.
Low-quality web pages (Низкокачественные веб-страницы)
Общий термин для паркингов, ферм контента, ссылочных ферм, дефолтных страниц, страниц без полезного контента или страниц с преимущественно рекламой.
Parked web page (Припаркованная веб-страница)
Страница-заглушка на зарегистрированном домене, не предлагающая полезного контента, часто содержит только рекламу.
Threshold Value (Пороговое значение)
Настраиваемая граница Content Quality Value. Если оценка страницы ниже или равна этому порогу, активируется Graphical Component.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки веб-страниц.

  1. Система получает запрос на веб-страницу.
  2. Определяется качество контента на основе того, является ли страница паркингом, фермой контента или ссылочной фермой.
  3. На основе качества отображается graphical component, предлагающий опции: перейти на запрошенную страницу или на альтернативную.
  4. Система получает выбор пользователя и предоставляет выбранную страницу.

Claim 1 также детально описывает механизм использования и обновления базы данных качества (Гибридный подход):

  1. Система обращается к базе данных, хранящей content quality values веб-страниц.
  2. Ищет запрошенную страницу и получает её оценку.
  3. Сравнивает оценку с threshold value.
  4. Если страницы нет в базе данных (Анализ на лету):
    • Система определяет content quality value на основе анализа контента страницы.
    • Присваивает эту оценку и сравнивает её с порогом.
    • Обновляет базу данных, добавляя туда страницу и её оценку.

Claims 2 и 3 (Зависимые): Определяют условия отображения предупреждения. Graphical component отображается, если content quality value равно или меньше порогового значения (Claim 2), и не отображается, если оно больше порога (Claim 3).

Claim 4 (Зависимый): Указывает, что content quality value может основываться на обратной связи (feedback), полученной от пользователей.

Claim 6 и 7 (Зависимые): Определение качества основано на сравнении запрошенной веб-страницы с паттернами (patterns), найденными на низкокачественных веб-страницах (Claim 6). Эти паттерны включают: макет (layout), текст (text), графику (graphics), ссылки (links) или исходный код (source code) (Claim 7).

Claim 8 (Зависимый): Запрос на веб-страницу перехватывается (intercepting) до того, как он будет выполнен.

Где и как применяется

Этот патент не вписывается в стандартную архитектуру генерации поисковой выдачи (RANKING, RERANKING). Он описывает систему перехвата навигации, работающую на этапе доступа к контенту.

INDEXING – Индексирование и извлечение признаков (Косвенное влияние)
На этом этапе происходит предварительная работа. Веб-страницы анализируются на наличие паттернов низкого качества. Рассчитываются Content Quality Values, которые сохраняются в базе данных для последующего использования системой перехвата.

Этап доступа к контенту (Клиентская сторона / Навигация)
Основное применение. Система функционирует в момент попытки пользователя получить доступ к URL. Запрос перехватывается до загрузки страницы. Это может быть реализовано через программное обеспечение на клиентском устройстве: интеграция в веб-браузер (например, Chrome, плагины, расширения), интеграция в операционную систему или через промежуточный сервер.

Входные данные:

  • Запрос пользователя на веб-страницу (URL).
  • База данных с предварительно рассчитанными Content quality values.
  • Контент запрашиваемой страницы (если требуется анализ в реальном времени).

Выходные данные:

  • Запрошенная веб-страница (если качество высокое или пользователь решил продолжить).
  • Graphical component (предупреждение с опциями).
  • Альтернативная веб-страница (если пользователь выбрал ее).

На что влияет

  • Конкретные типы контента и сайтов: Наибольшее влияние оказывается на сайты, соответствующие определениям parked domains, content farms и link farms. Также влияет на сайты, использующие шаблоны по умолчанию, содержащие бессмысленный или автоматически сгенерированный текст.
  • Способы навигации: Влияет на все типы переходов — прямой ввод URL, клики по ссылкам, переходы из приложений и даже запросы, инициированные вредоносным ПО (вирусами, троянами).
  • Специфические домены: Влияет на доступ к доменам, содержащим общие термины или опечатки популярных брендов (typosquatting).

Когда применяется

  • Условие применения: Алгоритм применяется при каждом перехваченном запросе на веб-страницу в среде, где он реализован.
  • Триггер активации предупреждения: Graphical component активируется, только если Content quality value запрошенной страницы равен или ниже установленного Threshold value.
  • Настройка порога: Threshold value может быть настроен пользователем, программным обеспечением, а также адаптироваться на основе обратной связи от других пользователей.

Пошаговый алгоритм

  1. Перехват запроса: Система получает и перехватывает запрос на веб-страницу до его выполнения.
  2. Определение качества контента: Система определяет Content quality value.
    1. Проверка базы данных: Поиск URL в базе данных оценок качества. Если найдено, используется сохраненная оценка.
    2. Анализ на лету (Если не найдено): Система анализирует контент и характеристики страницы на соответствие паттернам низкокачественных сайтов. Вычисляется оценка качества.
    3. Обновление базы данных: Сохранение рассчитанной оценки для будущего использования.
  3. Сравнение с порогом: Полученная оценка сравнивается с Threshold value.
  4. Принятие решения о вмешательстве:
    • Если Качество > Порога: Продолжить загрузку запрошенной страницы без вмешательства. Процесс завершен.
    • Если Качество <= Порога: Перейти к шагу 5.
  5. Отображение графического компонента: Показать пользователю graphical component с опциями (продолжить или перейти на альтернативу).
  6. Обработка выбора пользователя: Система ожидает выбор пользователя. Если выбор не сделан в течение определенного времени, происходит таймаут.
  7. Финальная навигация:
    • Если выбрано "Продолжить": Загрузить запрошенную страницу.
    • Если выбрана альтернатива: Загрузить альтернативную страницу.
    • При таймауте: Загрузить наиболее релевантную страницу или предопределенную страницу (например, стартовую страницу браузера).
  8. Обратная связь (Адаптация оценок): Content quality value может быть скорректирован на основе действий пользователя (выбор опции) и времени, проведенного на странице (быстрый уход может снизить оценку).

Какие данные и как использует

Данные на входе

Патент детально описывает факторы, используемые для выявления паттернов низкого качества и расчета Content quality value.

  • Технические и Сетевые факторы:
    • IP-адрес: Принадлежность к IP-адресам, известным обслуживанием припаркованных страниц, конкретных регистраторов или провайдеров контент-ферм.
    • DNS-сервер: Использование DNS-серверов, ассоциированных со страницами, содержащими мало контента, кроме рекламы.
    • URL: Анализ текста URL на наличие общих терминов (generic terms) или распространенных опечаток (typosquatting).
    • HTTP Response Code: Коды ответа, отличные от 200 (например, 404), указывают на то, что сайт не полностью функционален.
    • DNS записи и ответ сервера: Отсутствие авторитетных записей для хоста или отсутствие ответа от IP-адреса в течение определенного времени.
  • Контентные факторы:
    • Текстовые строки: Наличие специфических фраз, ассоциированных с низкокачественными страницами (например, "domain is for sale", "buy this domain", "this page is parked").
    • Объем контента: Страницы с малым количеством контента или без него.
    • Качество текста: Бессмысленный (nonsensical text) или автоматически сгенерированный текст.
  • Структурные факторы (Паттерны):
    • Макет (Layout) и Исходный код (Source code).
    • Пропорции контента: Соотношение различных типов контента. В патенте указано: страница с 99% гиперссылок и 1% текста скорее всего является низкокачественной по сравнению со страницей 50/50.
  • Ссылочные факторы:
    • Исходящие ссылки: Наличие гиперссылок, указывающих на известные низкокачественные страницы.
    • Атрибуты ссылок: Атрибуты a href и img src, указывающие на известные рекламные сети, сервисы парковки или провайдеров ферм контента.
  • Поведенческие факторы (Обратная связь):
    • Выбор пользователя: Выбор опции в graphical component (Claim 4).
    • Время на странице (amount of time spent on that page): Кратковременные визиты (быстрый уход со страницы) могут привести к снижению оценки качества.

Какие метрики используются и как они считаются

  • Content Quality Value: Агрегированная метрика. Рассчитывается путем сравнения веб-страницы с паттернами (patterns) низкого качества. Присутствие каждого паттерна снижает Content quality value. В патенте указано, что разные паттерны могут иметь разный вес (weighted differently) при расчете оценки.
  • Threshold Value: Конфигурируемое пороговое значение для активации предупреждения.
  • Blacklist (Черный список): Упоминается возможность использования черного списка известных низкокачественных страниц, который может генерироваться вручную или автоматически на основе обнаружения паттернов.

Выводы

  1. Четкие определения низшего качества: Патент предоставляет конкретные определения и методы идентификации трех типов низкокачественных сайтов: parked domains, content farms и link farms. Это ключевая информация для понимания того, что Google считает контентом нулевой ценности.
  2. Использование технических "отпечатков": Для идентификации низкого качества Google полагается не только на контент, но и на техническую инфраструктуру (IP, DNS) и специфические атрибуты в коде (a href, img src), связанные с сервисами монетизации низкокачественного трафика.
  3. Структура контента как фактор качества: Соотношение уникального контента к ссылкам и рекламе является важным сигналом. Экстремальные пропорции (например, 99% ссылок) являются сильным индикатором низкого качества.
  4. Гибридная оценка качества (Кэш и Анализ на лету): Система использует базу данных для хранения Content Quality Values, но также способна анализировать новые страницы на лету, присваивать им оценку и кэшировать результат.
  5. Адаптивная оценка качества и поведенческие сигналы: Патент явно указывает на использование обратной связи от пользователей (выбор альтернативы, время, проведенное на сайте) для корректировки Content quality value. Короткие визиты интерпретируются как признак низкого качества.

Практика

Best practices (это мы делаем)

  • Обеспечение существенного уникального контента: Убедитесь, что каждая страница содержит достаточный объем полезного контента. Избегайте создания страниц, которые могут быть восприняты как content farm (поверхностный контент, оптимизированный только под ключи для показа рекламы).
  • Поддержание здоровой структуры контента: Следите за соотношением основного контента к рекламе и ссылкам. Структура страницы не должна состоять преимущественно из ссылок (что характерно для link farms и parked domains). Соотношение 99% ссылок к 1% текста недопустимо.
  • Использование чистой технической инфраструктуры: Используйте надежный хостинг и DNS-сервисы. Избегайте инфраструктуры (IP, DNS), которая массово используется для парковки доменов или низкокачественных сайтов, так как это является прямым сигналом для системы.
  • Мониторинг поведения пользователей и вовлеченности: Анализируйте метрики вовлеченности. Высокий показатель быстрых возвратов (short clicks/bounces) может снижать Content quality value. Работайте над удержанием посетителей на странице.
  • Контроль исходящих ссылок и рекламных интеграций: Тщательно проверяйте, куда ведут исходящие ссылки (включая img src). Избегайте ссылок на спамные ресурсы или использование рекламных сетей, ассоциированных с припаркованными доменами.

Worst practices (это делать не надо)

  • Создание контент-ферм (Content Farms/MFA): Генерация большого количества поверхностного или автоматически сгенерированного контента с целью максимизации показов рекламы.
  • Парковка доменов и использование заглушек: Использование сервисов парковки или размещение на сайте страниц с текстом типа "domain for sale" приведет к классификации сайта как low-quality.
  • Использование Typosquatting: Регистрация доменов с опечатками популярных брендов для перехвата трафика. Это явно указано как паттерн низкокачественного сайта.
  • Игнорирование технических проблем: Наличие большого количества ошибок 404, некорректная настройка DNS или медленные ответы сервера могут привести к снижению оценки качества, так как сайт считается не полностью функциональным.
  • Участие в ссылочных фермах (Link Farms): Создание сетей сайтов для взаимного обмена ссылками является отслеживаемым паттерном низкого качества.

Стратегическое значение

Патент подтверждает стратегию Google по борьбе с контентом нулевой ценности на всех уровнях — не только в ранжировании, но и при прямой навигации (например, через браузеры и системы безопасности). Для SEO-специалистов это подчеркивает важность дистанцирования от любых практик, которые могут ассоциировать сайт с контент-фермами или припаркованными доменами. Крайне вероятно, что сигналы, используемые здесь для идентификации ферм, коррелируют с теми, что используются основными алгоритмами качества (например, Helpful Content System).

Практические примеры

Сценарий 1: Перехват Typosquatting и защита от паркинга

  1. Действие пользователя: Пользователь хочет зайти на сайт "example-brand.com", но допускает опечатку и вводит в адресной строке "exampel-brand.com".
  2. Исходная ситуация: Домен "exampel-brand.com" является припаркованным (parked domain) и содержит только рекламные ссылки.
  3. Перехват и Анализ: Браузер (использующий описанную систему) перехватывает запрос. Система проверяет его Content quality value в базе данных и определяет его как низкий (ниже порога). Также система распознает опечатку в URL.
  4. Результат (Вмешательство): Вместо загрузки страницы с рекламой, система отображает предупреждение (Graphical component): "Возможно, вы ищете example-brand.com? Страница, на которую вы переходите, содержит мало полезного контента".
  5. Выбор: Пользователю предлагается перейти на правильный сайт (альтернатива) или продолжить переход на "exampel-brand.com". Пользователь выбирает альтернативу, и припаркованный домен теряет трафик.

Сценарий 2: Оптимизация структуры страницы для повышения качества

  1. Задача: Улучшить восприятие качества контентного сайта с монетизацией.
  2. Действия на основе патента: Проанализировать соотношение основного контента к рекламе и ссылкам. Патент указывает, что дисбаланс (например, 99% ссылок/рекламы и 1% текста) является признаком низкого качества.
  3. Как делать: Увеличить объем уникального полезного контента на странице, оптимизировать размещение рекламных блоков и убедиться, что основной контент доминирует над вспомогательными элементами.
  4. Ожидаемый результат: Повышение Content Quality Value за счет улучшения структурных факторов и избежания паттернов контент-ферм.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в поиске Google?

Нет, напрямую не влияет. Патент описывает не алгоритм ранжирования (Ranking), а систему, которая работает на этапе навигации пользователя (например, в браузере). Она вмешивается в процесс загрузки страницы уже после того, как пользователь кликнул по ссылке или ввел URL. Однако система использует оценки качества (Content Quality Value), которые, вероятно, рассчитываются схожими алгоритмами Google, что влияют и на ранжирование.

Какие типы сайтов являются основной целью этого патента?

Патент явно выделяет три основные цели: parked web pages (припаркованные домены), content farm web pages (фермы контента, созданные для максимизации просмотров и рекламы) и link farm web pages (ссылочные фермы). Также упоминаются дефолтные страницы и любые сайты, содержащие преимущественно рекламу и мало полезного контента.

Как система определяет, что сайт является "контент-фермой" (Content Farm)?

Патент определяет контент-фермы как сайты, содержащие текст, написанный для максимизации просмотров по поисковым запросам. Для их идентификации система ищет паттерны: низкое соотношение уникального контента к рекламе/ссылкам (например, 99% ссылок и 1% текста), наличие специфических текстовых строк, а также технические признаки, такие как использование DNS или IP, связанных с провайдерами контент-ферм или агрессивными рекламными сетями.

Подтверждает ли этот патент использование поведенческих факторов для оценки качества?

Да, подтверждает. В патенте явно указано, что Content Quality Value может адаптироваться на основе обратной связи от пользователей (Claim 4). Упоминается два типа данных: выбор пользователя на странице предупреждения и время, проведенное на странице (amount of time spent on that page). Короткие визиты (быстрые отказы) могут привести к снижению оценки качества.

Какие технические сигналы могут выдать низкокачественный сайт?

Патент выделяет несколько ключевых технических сигналов: использование IP-адресов, известных обслуживанием припаркованных доменов; использование DNS-серверов, ассоциированных с парковочными сервисами; анализ URL на наличие общих терминов или опечаток (typosquatting); а также проверка функциональности сайта по кодам ответа HTTP (например, избыток 404) и скорости ответа.

Может ли система оценить качество страницы, которую видит впервые?

Да. Система в первую очередь проверяет кэшированную оценку в базе данных. Однако, если страница не найдена в базе, система способна проанализировать контент на лету, сравнить его с паттернами низкого качества, вычислить Content Quality Value и затем принять решение о блокировке. После этого оценка сохраняется в базу данных.

Где именно реализован этот механизм? Это часть Google Поиска или браузера Chrome?

Патент предполагает реализацию на стороне клиента или через промежуточный сервер. Упоминаются интеграция в браузер (например, Chrome), плагины, расширения или операционную систему. Это не часть основного движка Google Поиска, но, вероятно, реализовано в системах типа Google Safe Browsing.

Как SEO-специалисту использовать информацию о технических факторах (IP/DNS) из этого патента?

Необходимо убедиться, что ваш сайт не использует IP-адреса или DNS-серверы, которые ассоциируются с крупными сервисами парковки доменов или хостингами низкокачественных сайтов. "Плохое соседство" на уровне сетевой инфраструктуры может негативно повлиять на оценку качества (Content Quality Value) вашего сайта.

Как этот патент связан с Google Panda или Helpful Content Update?

Хотя этот патент не описывает эти алгоритмы ранжирования, он использует ту же философию и, вероятно, те же базовые сигналы для идентификации контент-ферм и тонкого контента. Понимание того, как Google определяет Content Quality Value в этом патенте, дает ценные инсайты о том, какие факторы могут влиять на работу алгоритмов качества в основном поиске.

Что произойдет, если пользователь проигнорирует предупреждение и перейдет на низкокачественную страницу?

Система разрешит доступ к странице. Однако это действие пользователя может быть использовано для адаптации Content Quality Value. Если пользователь перешел и сразу же покинул страницу (короткий визит), это может подтвердить низкое качество. Если же он провел там время, система может немного повысить оценку качества этой страницы.

Похожие патенты

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

Как Google генерирует визуальные превью страниц в выдаче, используя "разрывы страницы" и масштабирование релевантного контента
Google использует систему для создания визуальных превью страниц (Page Previews) в результатах поиска. Система оценивает релевантность контента, учитывая близость ключевых слов и тип контента (например, пессимизируя сноски). Для показа наиболее важных, но разрозненных участков используются "разрывы страницы" (Page Tears). Ключевой контент также может отображаться в увеличенном масштабе для читаемости, помогая пользователю оценить формат страницы до клика.
  • US8954427B2
  • 2015-02-10
  • SERP

  • Семантика и интент

Как Google использует анализ "Свежести Ранжирования" (Rank Freshness) и человеческую оценку для борьбы с манипуляциями в поиске и спамом
Патент Google описывает гибридную систему для выявления и разрыва нежелательных ассоциаций контента (например, манипулятивных результатов поиска или спам-комментариев). Система алгоритмически выявляет подозрительные связи, используя сигналы, такие как "Свежесть Ранжирования" (внезапный рост позиций), и отправляет их на проверку оценщикам (Арбитрам). Если консенсус подтверждает нарушение, ассоциация разрывается.
  • US8176055B1
  • 2012-05-08
  • Свежесть контента

  • Антиспам

  • SERP

Популярные патенты

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования
Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.
  • US9684697B1
  • 2017-06-20
  • Поведенческие сигналы

  • SERP

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

seohardcore