SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

METHOD AND APPARATUS FOR CLASSIFYING DOCUMENTS BASED ON USER INPUTS (Метод и аппарат для классификации документов на основе пользовательского ввода)
  • US7769751B1
  • Google LLC
  • 2006-01-17
  • 2010-08-03
  • Поведенческие сигналы
  • Антиспам
  • SERP
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

Описание

Какую проблему решает

Патент решает проблему высокой распространенности спам-страниц (spam pages) в результатах поиска по часто встречающимся темам (commonly-occurring topics), таким как развлечения, игры, фильмы и музыка. Утверждается, что в таких темах до 90% результатов могут составлять спам, который успешно обходит стандартные алгоритмы ранжирования, имитируя релевантность. Изобретение предлагает метод использования пользовательского поведения (user inputs) для надежной идентификации и фильтрации спама там, где контентный анализ не справляется.

Что запатентовано

Запатентована система итеративной классификации документов, которая объединяет анализ контента с анализом пользовательского ввода. Система сначала классифицирует документы по теме на основе их содержания (используя Feature Vectors), а затем валидирует эту классификацию с помощью Click Information (поведенческих данных). Если документы демонстрируют низкое вовлечение (низкий CTR или короткую Click Duration), они переклассифицируются как спам или нерелевантные теме (off-topic). Этот очищенный набор данных используется для переобучения классификатора.

Как это работает

Система работает в двух основных режимах:

1. Офлайн (Итеративное уточнение):

  • Документы классифицируются по теме на основе контента (Feature Vector, например, TF-IDF).
  • Анализируется Click Information (CTR и Click Duration) для этих документов из логов запросов.
  • Документы с плохими поведенческими сигналами помечаются как спам/off-topic и удаляются из набора релевантных.
  • Feature Vector пересчитывается на основе очищенного набора, и процесс повторяется до стабилизации (сходимости).

2. Онлайн (Ранжирование):

  • Система определяет, относится ли новый запрос к обработанной теме (используя Bloom Filter).
  • Если да, то relevancy scores корректируются: документы, подтвержденные как качественные, повышаются, а помеченные как спам — понижаются.

Актуальность для SEO

Высокая. Принцип использования агрегированных поведенческих данных для оценки качества контента и борьбы со спамом является фундаментальным для современных поисковых систем. Хотя конкретные технические реализации, упомянутые в патенте (например, TF-IDF для векторов признаков и Bloom Filters для детекции тем), могли быть заменены более сложными нейросетевыми подходами, базовая логика валидации качества через метрики вовлеченности (в частности, Click Duration как прокси для Dwell Time) остается крайне актуальной.

Важность для SEO

Патент имеет высокое значение для SEO. Он описывает конкретный механизм, демонстрирующий, что оптимизации контента под ключевые слова недостаточно, если сигналы пользовательского поведения плохие. Низкий CTR и короткая Click Duration могут привести к классификации документа как спам или off-topic, что напрямую приведет к его понижению в ранжировании по всем связанным запросам в данной теме. Это подчеркивает критическую важность оптимизации под удовлетворенность пользователя.

Детальный разбор

Термины и определения

Bloom Filter (Фильтр Блума)
Вероятностная структура данных. В контексте патента используется для быстрого определения того, относится ли входящий запрос к определенной теме (Specific Query Detector). Строится на основе N-грамм из тематических запросов.
Click Duration (Продолжительность клика)
Метрика, указывающая количество времени, которое пользователь провел на документе после перехода из результатов поиска. Короткая продолжительность используется как индикатор спама или нерелевантности.
Click Information (Информация о кликах)
Пользовательские поведенческие данные, связанные с взаимодействием с результатами поиска. Включает Click-through rate и Click Duration.
Click-through rate (CTR, Кликабельность)
Отношение числа кликов по документу к числу его показов в результатах поиска. Низкий CTR используется как индикатор спама или нерелевантности.
Feature Vector (Вектор признаков)
Математическое представление характеристик набора документов. В патенте описывается вектор, элементы которого основаны на частоте терминов (например, TF-IDF), включая N-граммы.
IDF(t) (Inverse Document Frequency)
Обратная частота документа для термина t. Используется для снижения веса часто встречающихся терминов при построении Feature Vector.
N-gram (N-грамма)
Последовательность из N элементов (слов) в тексте. Используется при построении Feature Vector и Bloom Filter.
Off-topic (Нерелевантный теме)
Документ, который был ошибочно классифицирован как относящийся к теме, но по данным пользовательского поведения таковым не является.
Spam page / Spam document (Спам-страница)
Документ (веб-страница), созданный для манипулирования поисковыми системами и перенаправления трафика, но не предоставляющий релевантного контента.
TF(t) (Term Frequency)
Частота термина t. Среднее количество раз, когда термин t встречается в документе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод классификации документов на основе тем и пользовательского ввода.

  1. Получение набора документов, классифицированных по теме.
  2. Создание начального вектора признаков (initial feature vector) на основе частоты встречаемости терминов в этом наборе.
  3. Использование начального вектора для классификации другого набора документов (корпуса) для получения начального классифицированного набора.
  4. Получение click information, связанной с запросами по этой теме. Ключевое уточнение: информация включает click-through rate и click duration.
  5. Использование click information для удаления off-topic документов из набора. Документ считается off-topic, если его CTR или click duration указывают на это.
  6. Определение обновленного вектора признаков (updated feature vector) на основе очищенного набора.
  7. Повторная классификация с использованием обновленного вектора, только если процент документов, идентифицированных как off-topic (т.е. удаленных/перемещенных), превышает определенный порог (>0). В противном случае процесс останавливается (сходимость).

Claim 3 (Зависимый от 2): Уточняет, что классификация включает аннотирование документа. Аннотация указывает, является ли документ: (1) относящимся к теме, (2) спамом (spam document), или (3) off-topic.

Claim 5 (Зависимый от 1): Описывает применение результатов классификации при обработке нового запроса в реальном времени.

  1. Получение нового запроса.
  2. Определение того, связан ли новый запрос с конкретной темой.
  3. Обработка запроса. Если он связан с темой, то происходит корректировка оценок релевантности (relevancy scores) документов на основе аннотаций, созданных в процессе по Claim 1.

Claim 6 и 7 (Зависимые от 5): Уточняют механизм определения темы запроса.

Для этого используется детектор запросов (query detector), применяющий фильтры Блума (Bloom filters) к терминам нового запроса (Claim 6). Claim 7 описывает построение фильтра Блума путем анализа N-грамм из тематических запросов и исключения общеупотребительных N-грамм.

Claim 8 (Зависимый от 5): Детализирует корректировку оценок релевантности.

  • Повышение (boosting) оценок для документов, аннотированных как связанные с темой.
  • Снижение (reducing) оценок для документов, аннотированных как спам.
  • Изменение ранжирования результатов поиска на основе скорректированных оценок.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, разделяя процессы на офлайн-обработку (уточнение классификации) и онлайн-обработку (применение классификации к запросу).

INDEXING – Индексирование и извлечение признаков (Офлайн/Пакетная обработка)
Основная часть алгоритма выполняется здесь. Происходит итеративный процесс классификации корпуса документов, анализ логов запросов и поведения пользователей (Query Logs, Click Information), расчет Feature Vectors и фильтрация спама. Результатом является аннотирование документов в индексе (метки: on-topic, spam, off-topic).

QUNDERSTANDING – Понимание Запросов (Офлайн и Онлайн)
Офлайн: Система анализирует логи запросов для построения Детектора Запросов (Bloom Filter) для конкретных тем.
Онлайн: При получении нового запроса система использует предварительно созданный Bloom Filter для быстрой классификации запроса и определения его принадлежности к конкретной теме.

RANKING / RERANKING – Ранжирование / Переранжирование (Онлайн)
Если запрос идентифицирован как тематический, система активирует корректировку ранжирования. Relevancy scores документов изменяются на основе аннотаций, полученных на этапе индексирования: релевантные документы получают бустинг, спам – понижение.

Входные данные:

  • Корпус документов (веб-индекс).
  • Начальный набор запросов по теме (для инициализации).
  • Логи запросов с информацией о сессиях и кликах (CTR, Click Duration).

Выходные данные:

  • Аннотированный индекс документов (с метками качества/спама по темам).
  • Уточненные Feature Vectors для тем.
  • Bloom Filter для детектора тем запросов.

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на высокочастотные, подверженные спаму тематики. Патент упоминает развлечения (компьютерные игры, фильмы, музыка) как основной пример, где доля спама может достигать 90%.
  • Конкретные типы контента: Влияет на документы (веб-страницы), которые пытаются ранжироваться за счет обмана контентных факторов, но не удовлетворяют пользователя (например, дорвеи, кликбейт, тонкий контент).

Когда применяется

  • Офлайн-классификация: Выполняется периодически для определенных тем. Процесс итеративный и продолжается до тех пор, пока процент изменений (переклассифицированных документов) не упадет ниже определенного порога (стабилизация/сходимость).
  • Онлайн-ранжирование: Корректировка ранжирования применяется только тогда, когда Specific Query Detector (Bloom Filter) определяет, что запрос пользователя относится к одной из предварительно обработанных тем.

Пошаговый алгоритм

Алгоритм состоит из трех основных процессов.

Процесс А: Итеративная классификация и выявление спама (Офлайн)

  1. Инициализация: Получение начального набора запросов по теме и выполнение поиска для получения начального набора документов.
  2. Создание начального Feature Vector: Анализ контента начального набора документов для создания вектора признаков (например, с использованием TF-IDF).
  3. Классификация корпуса: Использование Feature Vector для классификации всего корпуса документов и создания Classified Set (документы, помеченные как релевантные теме).
  4. Идентификация релевантных запросов: Анализ логов запросов для поиска запросов, которые приводили к показу документов из Classified Set.
  5. Анализ поведения (Фильтрация): Использование Click Information (CTR и Click Duration) для этих запросов. Идентификация документов в Classified Set, которые имеют низкие показатели вовлеченности (спам/офтопик).
  6. Обновление набора данных: Удаление идентифицированных спам/офтопик документов из Classified Set (и/или изменение их аннотаций на "спам").
  7. Проверка условия итерации: Определение процента документов, которые были переклассифицированы (shifted).
    • Если процент выше порога: Перейти к шагу 8.
    • Если процент ниже порога (стабилизация): Завершить процесс.
  8. Переобучение классификатора: Создание нового Feature Vector на основе очищенного набора данных. Возврат к шагу 4 (Классификация корпуса).

Процесс Б: Построение Детектора Тем (Офлайн)

  1. Сбор данных: Использование запросов, идентифицированных в Процессе А (шаг 4).
  2. Анализ N-грамм: Идентификация общих N-грамм в этих запросах.
  3. Фильтрация: Исключение слишком часто встречающихся N-грамм.
  4. Построение Bloom Filter: Создание фильтра Блума на основе оставшихся N-грамм.

Процесс В: Обработка запроса в реальном времени (Онлайн)

  1. Получение запроса: Поступление нового запроса от пользователя.
  2. Детекция темы: Использование Bloom Filter (Процесс Б) для определения, относится ли запрос к конкретной теме.
    • Если НЕТ: Стандартная обработка запроса.
    • Если ДА: Перейти к шагу 3.
  3. Корректировка ранжирования: При расчете relevancy scores система корректирует оценки на основе аннотаций документов (результат Процесса А). Повышение оценок для документов, помеченных как "связанные с темой". Понижение оценок для документов, помеченных как "спам".
  4. Выдача результатов: Предоставление отсортированных результатов пользователю.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Термины (слова) и N-граммы из текста документов. Используются для расчета Feature Vectors и первичной классификации.
  • Поведенческие факторы: Критически важные данные для этого патента. Используются логи запросов (Query Logs) с информацией о сессиях. Конкретно используются:
    • Click-through rate (CTR): Частота кликов по отношению к показам.
    • Click Duration: Время, проведенное пользователем на документе после клика.

Какие метрики используются и как они считаются

  • Feature Vector (Вектор признаков): Многомерный вектор, представляющий контент. Патент явно упоминает использование TF-IDF для расчета элементов вектора для термина t: TF(t)∗IDF(t)TF(t) * IDF(t)TF(t)∗IDF(t).
  • TF(t) (Term Frequency): Средняя частота термина в наборе документов. Упоминается возможность сглаживания (smoothing).
  • IDF(t) (Inverse Document Frequency): Рассчитывается как log(∣D∣/∣Dt∣)log(|D|/|D_{t}|)log(∣D∣/∣Dt∣), где |D| – общее число документов, а |Dt| – число документов, содержащих термин t.
  • Пороги вовлеченности: Пороговые значения для CTR и Click Duration. Если метрики документа ниже порога («слишком короткая продолжительность» или «слишком мало кликов»), он считается спамом или off-topic (конкретные значения не указаны).
  • Порог итерации (Convergence Threshold): Процент документов, которые были переклассифицированы (shifted) в течение одной итерации. Если он превышает заданный порог, процесс классификации повторяется.

Выводы

  1. Поведенческие факторы как валидатор качества и релевантности: Патент демонстрирует механизм, в котором пользовательское поведение (Click Information) используется для валидации автоматической классификации контента. Если контент классифицирован как релевантный теме на основе текста, но пользователи с ним плохо взаимодействуют (низкий CTR, короткая Click Duration), система переоценивает его как спам или off-topic.
  2. Итеративное переобучение классификаторов: Система использует обратную связь от пользователей не только как прямой фактор ранжирования, но и для переобучения базовых моделей классификации контента (обновление Feature Vectors). Это позволяет системе самообучаться и повышать точность определения тематики и спама.
  3. Борьба с продвинутым спамом: Механизм направлен против страниц, которые успешно обманывают контентные алгоритмы ранжирования (например, с помощью переоптимизации), но не могут удовлетворить пользователей. Агрегированное поведение пользователей выступает как финальный арбитр качества.
  4. Тематически-зависимая корректировка ранжирования: Система способна идентифицировать тему запроса в реальном времени (используя Bloom Filter) и применять специфические корректировки ранжирования (бустинг/пессимизация) на основе предварительно рассчитанных сигналов качества именно для этой темы.
  5. Важность пост-клик опыта (Dwell Time): Патент явно указывает на использование Click Duration (аналог Dwell Time) как метрики качества. Короткие клики (pogo-sticking) интерпретируются как негативный сигнал, подчеркивая важность удовлетворенности пользователя после перехода на сайт.

Практика

Best practices (это мы делаем)

  • Фокус на удовлетворении интента и Dwell Time: Создавайте контент, который полностью отвечает на запрос пользователя и удерживает его на странице. Это напрямую коррелирует с Click Duration. Длинные, вовлеченные визиты сигнализируют системе, что документ не является спамом и действительно релевантен теме.
  • Оптимизация сниппетов для релевантного CTR: Убедитесь, что Title и Description точно отражают содержание страницы. Это повышает CTR среди релевантной аудитории и снижает вероятность коротких кликов (pogo-sticking), которые могут привести к классификации страницы как спам.
  • Улучшение UX и юзабилити: Удобство использования сайта, чистый дизайн и быстрая загрузка напрямую влияют на Click Duration. Плохой UX, приводящий к быстрым возвратам в выдачу, будет интерпретирован системой как низкое качество.
  • Построение тематического авторитета (Topical Authority): Система классифицирует контент по темам. Полное и качественное раскрытие темы помогает гарантировать, что ваш контент будет правильно классифицирован и не будет отфильтрован как off-topic на основе поведенческих сигналов.

Worst practices (это делать не надо)

  • Использование кликбейта (Clickbait): Заголовки, которые привлекают клики (высокий CTR), но не соответствуют содержанию страницы, приведут к коротким Click Duration. Система интерпретирует это как спам и понизит страницу в ранжировании для данной темы.
  • Создание тонкого контента и дорвеев: Страницы с низким качеством контента, даже если они хорошо оптимизированы под ключевые слова (манипулируя Feature Vector), будут отфильтрованы из-за низких поведенческих показателей.
  • Манипуляции с контентом (Keyword Stuffing, Клоакинг): Техники, направленные на обман контентных классификаторов, будут нейтрализованы на этапе анализа поведенческих факторов. Патент прямо определяет такие страницы как spam pages.
  • Игнорирование интента в угоду объему трафика: Попытка ранжироваться по широким высокочастотным запросам без предоставления релевантного ответа приведет к плохим поведенческим сигналам и классификации как off-topic.

Стратегическое значение

Этот патент подтверждает критическую важность поведенческих факторов в алгоритмах Google. Он демонстрирует, как Google операционализирует концепцию "качества" через измеримые взаимодействия пользователей (CTR и Click Duration). Долгосрочная SEO-стратегия должна приоритизировать удовлетворение интента пользователя и качество пользовательского опыта над простым соответствием ключевым словам. Система наказывает тех, кто привлекает трафик, но не может его удержать.

Практические примеры

Сценарий: Фильтрация спама в игровой тематике

  1. Тема: Компьютерные игры (ниша с высоким уровнем спама, упомянутая в патенте).
  2. Процесс классификации: Google итеративно классифицирует документы по теме "Скачать игру X". В классификацию попадают официальный сайт (Сайт А) и множество спам-сайтов с агрессивной рекламой (Сайт Б).
  3. Анализ поведения: Система анализирует Click Information. Пользователи, переходящие на Сайт Б, быстро их покидают (короткий Click Duration, pogo-sticking). Пользователи на Сайте А проводят больше времени.
  4. Фильтрация: Сайт Б помечается как Spam Document на основе поведенческих данных. Классификатор переобучается.
  5. Обработка запроса: Пользователь вводит запрос "Скачать игру X". Bloom Filter определяет, что запрос относится к теме "Компьютерные игры".
  6. Корректировка ранжирования: Система активирует корректировку Relevancy Scores. Сайт А получает бустинг, а Сайт Б агрессивно понижается, даже если он имеет сильные контентные или ссылочные сигналы.

Вопросы и ответы

Какие конкретно поведенческие метрики используются в этом патенте?

Патент явно определяет два ключевых компонента Click Information: Click-through rate (CTR) и Click duration (длительность клика). Оба показателя используются для оценки качества и релевантности документа. Низкие значения любой из этих метрик могут привести к классификации документа как спам или off-topic.

Как Click Duration связана с концепцией Dwell Time?

Click Duration, описанная как время, которое пользователь проводит на документе, является прямым аналогом или компонентом метрики Dwell Time (время до возврата в выдачу). Этот патент является одним из доказательств того, что Google использует время взаимодействия с контентом как важный сигнал качества. Короткий Dwell Time интерпретируется как неудовлетворенность пользователя.

Является ли этот процесс одноразовой фильтрацией?

Нет, это ключевая особенность патента. Процесс является итеративным. После того как спам-документы идентифицированы с помощью поведенческих факторов и удалены из набора, система пересчитывает Feature Vector (переобучает классификатор) на очищенных данных и повторяет классификацию. Это продолжается до достижения сходимости (стабилизации).

Как этот патент влияет на эффективность Keyword Stuffing?

Он значительно снижает эффективность переоптимизации ключевыми словами. Даже если документ успешно обманет начальный контентный классификатор (Feature Vector) и будет признан релевантным, он будет отфильтрован на этапе поведенческого анализа. Переоптимизированный контент обычно не удовлетворяет пользователя, что приводит к коротким кликам (низкая Click Duration) и последующей пессимизации.

Применяется ли корректировка ранжирования ко всем запросам?

Нет. Корректировка ранжирования применяется только к тем запросам, которые система идентифицировала как относящиеся к конкретной, предварительно обработанной теме. Для этого используется детектор запросов, например, на основе Bloom Filter. Патент фокусируется на проблемных нишах, таких как игры и развлечения.

Что делать, если у моего сайта нормальный контент, но низкий CTR в выдаче?

Согласно патенту, низкий CTR является сигналом того, что документ может быть нерелевантным или спамом для данной темы. Необходимо срочно проанализировать сниппеты (Title, Description) и убедиться, что они точно отражают содержание страницы и мотивируют целевых пользователей совершить клик. Если сниппеты не соответствуют интенту запроса, их нужно переработать.

Может ли кликбейт навредить сайту в контексте этого патента?

Да, абсолютно. Кликбейт приводит к высокому CTR, но низкому Click Duration (пользователи быстро понимают, что контент не соответствует заголовку, и уходят). Патент описывает механизм, который специально ищет такие паттерны для идентификации спама. Использование кликбейта в тематиках, обрабатываемых этим алгоритмом, приведет к классификации страницы как спам и её пессимизации.

Что такое «Feature Vector» и как он связан с TF-IDF?

Feature Vector — это числовое представление характеристик контента. В патенте он строится на основе частоты слов и N-грамм в наборе документов. Конкретный пример расчета, приведенный в патенте, — это TF(t)∗IDF(t)TF(t)*IDF(t)TF(t)∗IDF(t). Этот вектор используется для определения того, какие еще документы в корпусе похожи на исходный набор и, следовательно, относятся к той же теме.

Использует ли Google по-прежнему TF-IDF и Bloom Filters, как описано в патенте?

Патент был подан в 2006 году. Хотя TF-IDF и Bloom Filters являются классическими методами, современные системы Google, вероятно, используют гораздо более сложные нейросетевые модели для классификации контента и понимания запросов. Однако мы должны основывать анализ только на тексте патента, который явно упоминает эти технологии как примеры реализации Feature Vectors и Query Detector.

Что важнее: высокий CTR или длительное время на сайте (Click Duration)?

Оба фактора важны. Низкий CTR может указывать на нерелевантность сниппета или низкую привлекательность. Короткая Click Duration указывает на неудовлетворенность контентом после клика. Для успешного ранжирования необходимо оптимизировать оба показателя, так как система использует их в комплексе для выявления спама и off-topic контента.

Похожие патенты

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные
Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.
  • US8185544B2
  • 2012-05-22
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google использует CTR и разницу в оценках релевантности для визуального выделения доминирующего результата в выдаче
Google может визуально выделять результат поиска (например, с помощью миниатюры страницы), если система уверена, что это именно то, что ищет пользователь. Эта уверенность основана на значительном превосходстве результата над всеми остальными по показателям CTR (Click-Through Rate) и/или оценке релевантности (Relevance Score).
  • US7836391B2
  • 2010-11-16
  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)
Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.
  • US8478519B2
  • 2013-07-02
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче
Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.
  • US8645362B1
  • 2014-02-04
  • Техническое SEO

  • Поведенческие сигналы

  • SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)
Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.
  • US9146966B1
  • 2015-09-29
  • Поведенческие сигналы

  • SERP

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR
Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).
  • US10650066B2
  • 2020-05-12
  • Ссылки

  • SERP

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала
Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.
  • US9098551B1
  • 2015-08-04
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования
Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.
  • US9858295B2
  • 2018-01-02
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

seohardcore