SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

PREDICTION OF HUMAN RATINGS OR RANKINGS OF INFORMATION RETRIEVAL QUALITY (Прогнозирование человеческих оценок или ранжирования качества информационного поиска)
  • US8195654B1
  • Google LLC
  • 2005-07-13
  • 2012-06-05
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

Описание

Какую проблему решает

Патент решает фундаментальную проблему информационного поиска: разрыв между объективными сигналами релевантности (совпадение терминов, ссылочный вес) и субъективным восприятием релевантности и качества пользователем. Цель изобретения — автоматизировать и масштабировать процесс оценки качества поиска, обучив систему имитировать суждения людей-асессоров (human evaluators) для более точного ранжирования результатов.

Что запатентовано

Запатентована система и метод машинного обучения, известный как Learning to Rank (LTR). Суть заключается в обучении статистической модели (statistical model), которая использует человеческие оценки релевантности (human relevance evaluations) как эталон (ground truth). Модель учится предсказывать эти оценки на основе набора объективных сигналов (objective signals), извлеченных из пары запрос/документ и других источников данных (например, логов кликов).

Как это работает

Система работает в два этапа:

  1. Обучение (Offline): Собирается обучающий корпус пар запрос/документ. Асессоры оценивают релевантность этих пар. Одновременно для каждой пары извлекаются объективные сигналы (например, IR score, поведенческие данные). Затем используется метод машинного обучения (например, регрессионный анализ), чтобы научить модель связывать сигналы с человеческими оценками.
  2. Применение (Online): Когда поступает новый запрос, система извлекает те же объективные сигналы для документов-кандидатов. Обученная модель применяется для прогнозирования человеческой оценки (predicted relevance evaluations) для каждого кандидата. Эти прогнозы используются для финального ранжирования или переранжирования результатов.

Актуальность для SEO

Критически высокая. Хотя патент был подан в 2005 году и описывает относительно простые методы (например, линейную регрессию), заложенная в нем концепция Learning to Rank является фундаментом всех современных поисковых систем. Современные реализации (включая модели на основе глубокого обучения) используют ту же базовую идею: объединение сотен сигналов с помощью машинного обучения для оптимизации под человеческое восприятие качества.

Важность для SEO

Патент имеет критическое значение (10/10). Он формализует переход от оптимизации под отдельные алгоритмы (например, PageRank или плотность ключевых слов) к оптимизации под сложную машину, обученную комбинировать множество факторов. Патент явно подтверждает использование как статических (контент, ссылки), так и динамических (поведенческих) сигналов в ранжировании. Это подчеркивает, что для успеха в SEO необходимо фокусироваться на общем качестве, удовлетворении интента пользователя и метриках вовлеченности.

Детальный разбор

Термины и определения

Click Logs (Логи кликов)
Записи агрегированного поведения пользователей при взаимодействии с результатами поиска. Используются для извлечения Dynamic Signals.
Dynamic Signals (Динамические сигналы)
Объективные сигналы, основанные на поведении пользователей, извлеченные из Click Logs. Примеры: доля пользователей, кликнувших на документ первыми; время до клика; время изучения документа (dwell time).
Human Relevance Evaluations (Человеческие оценки релевантности)
Субъективные оценки (рейтинги или ранжирование), присвоенные людьми-асессорами (human evaluators) паре запрос/документ. Служат эталоном (ground truth) для обучения модели.
IR Score (Information Retrieval Score)
Стандартная оценка релевантности, определяющая, насколько хорошо термины запроса соответствуют терминам документа (например, на основе TF-IDF или BM25).
Learning to Rank (LTR)
Класс методов машинного обучения, применяемых для решения задач ранжирования в информационном поиске. Описанная в патенте система является реализацией LTR.
Objective Signals (Объективные сигналы)
Измеримые признаки (фичи), извлеченные из запроса, документа или других источников. Делятся на Static Signals и Dynamic Signals. Являются входными данными для статистической модели.
Query-Independent Quality Measure (Независимая от запроса мера качества)
Сигнал качества документа, который не зависит от текущего запроса. В патенте упоминается как link-based value (например, PageRank или оценка авторитетности сайта).
Regression Analysis (Регрессионный анализ)
Статистический метод, используемый в патенте для обучения модели, связывающей Objective Signals с Human Relevance Evaluations.
Static Signals (Статические сигналы)
Объективные сигналы, основанные на контенте, структуре или ссылочном профиле документа. Примеры: IR Score, совпадение запроса с URL, Query-Independent Quality Measure.
Statistical Model (Статистическая модель)
Математическая модель, обученная прогнозировать человеческие оценки на основе входных сигналов.

Ключевые утверждения (Анализ Claims)

Патент охватывает как процесс обучения модели (Training), так и процесс ее применения в поиске (Usage) и для оценки качества (Evaluation).

Claim 1 (Независимый пункт) – Процесс Обучения: Описывает метод создания модели LTR, с фокусом на локальный поиск.

  1. Получение набора пар запрос/документ, где документы являются бизнес-листингами (business listings).
  2. Генерация объективных данных (objective data) для каждой пары. Указаны конкретные сигналы:
    • (i) совпадение термина запроса с префиксом названия бизнеса (prefix portion of a name of a business).
    • (ii) точное совпадение запроса с названием бизнеса (exactly matches the name).
  3. Получение оценок релевантности от человека-асессора для каждой пары.
  4. Обучение модели оценки (evaluation model) на основе полученных оценок и объективных данных для прогнозирования человеческой оценки релевантности, которая используется для ранжирования.

Claim 12 (Независимый пункт) – Процесс Использования в Поиске: Описывает применение обученной модели.

  1. Получение поискового запроса и идентификация релевантных документов (включая бизнес-листинги).
  2. Получение данных (сигналов), включая: (i) точное совпадение с названием бизнеса, (ii) совпадение термина запроса с суффиксом названия бизнеса (suffix portion).
  3. Получение прогнозируемых человеческих оценок релевантности (predicted human relevance evaluations) из статистической модели.
  4. Ранжирование документов на основе этих прогнозов и их представление.

Claims, связанные с поведенческими факторами (например, 10, 21, 23, 46): Эти пункты детализируют типы объективных данных, включая поведенческие (Dynamic Signals).

  • Данные, основанные на доле пользователей, которые выбрали документ первым (Claim 10, 23).
  • Данные, основанные на доле пользователей, которые выбрали документ после выбора других документов (Claim 10, 46).
  • Данные, основанные на времени между показом результатов и выбором документа (Claim 10, 46). Патент указывает, что это может использоваться как аппроксимация времени изучения документа пользователем (dwell time).

Где и как применяется

Изобретение является ключевым компонентом этапа ранжирования, интегрируя данные, рассчитанные на предыдущих этапах.

CRAWLING & Data Acquisition (Сбор данных)
Система собирает логи пользовательской активности (Click logs), которые служат источником для расчета динамических сигналов.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются и сохраняются статические сигналы (Static Signals), необходимые для LTR модели: контентные факторы (для расчета IR Score), структурные данные (URL), а также рассчитываются независимые от запроса меры качества (Query-Independent Quality Measure, например, PageRank).

RANKING – Ранжирование (L2/L3) / RERANKING
Основное место применения патента. На продвинутых стадиях ранжирования (L2/L3) или на этапе переранжирования система использует обученную статистическую модель для комбинирования множества сигналов.

  1. Извлечение признаков: Для отобранных документов-кандидатов система собирает все необходимые Objective Signals (статические и динамические).
  2. Применение модели: Обученная LTR модель принимает эти сигналы на вход и вычисляет predicted human relevance rating для каждой пары запрос/документ.
  3. Сортировка: Документы сортируются или их ранг уточняется (refine ranking) на основе этих прогнозируемых оценок.

Входные данные:

  • Пара (Запрос, Документ-кандидат).
  • Набор Objective Signals для этой пары: статические (контент, ссылки, структура) и динамические (поведенческие данные из Click Logs).

Выходные данные:

  • Predicted Human Relevance Rating – оценка, прогнозирующая, насколько релевантным документ сочтет человек.

На что влияет

  • Конкретные типы контента и вертикали: Патент явно описывает применение как для общего веб-поиска (general web search engine), так и для локального поиска (local search engine) с использованием бизнес-листингов. Упоминается возможность применения для поиска товаров, новостей или email. Подход LTR универсален.
  • Специфические запросы: Влияет на все типы запросов. LTR модели позволяют лучше обрабатывать сложные запросы, где комбинация различных сигналов критична для определения качества и релевантности.

Когда применяется

  • Частота применения: Алгоритм применяется в процессе ранжирования при обработке поисковых запросов. В современных системах LTR модели используются практически постоянно.
  • Временные рамки: Обучение модели происходит офлайн периодически, используя свежие данные от асессоров и из логов. Применение модели происходит онлайн в реальном времени при выполнении поиска.

Пошаговый алгоритм

Процесс А: Обучение Модели (Offline)

  1. Сбор данных: Формирование обучающего корпуса пар (поисковый запрос / результат поиска).
  2. Получение эталона: Получение Human Relevance Evaluations (рейтингов или ранжирований) от асессоров для этих пар.
  3. Генерация признаков: Извлечение набора Objective Signals (статических и динамических) для каждой пары в корпусе.
  4. Обучение модели: Применение регрессионного анализа (или другого метода supervised learning) для нахождения взаимосвязи между сигналами и человеческими оценками. Результатом являются веса (weights), определяющие, как комбинировать сигналы для прогнозирования оценки.

Процесс Б: Применение Модели в Ранжировании (Online)

  1. Получение запроса и Генерация кандидатов: Поисковая система получает запрос и генерирует начальный набор релевантных документов.
  2. Генерация признаков: Для Топ-X документов-кандидатов извлекается тот же набор Objective Signals, который использовался при обучении.
  3. Прогнозирование оценок: Обученная статистическая модель применяется к наборам сигналов для генерации Predicted Human Relevance Ratings.
  4. Ранжирование/Переранжирование: Начальное ранжирование уточняется или полностью перестраивается на основе прогнозируемых оценок.
  5. Выдача результатов: Отсортированный список предоставляется пользователю.

Какие данные и как использует

Данные на входе

Патент явно перечисляет множество типов объективных сигналов, которые используются в качестве входных данных для модели LTR.

Контентные и Структурные факторы (Static Signals):

  • IR Score: Базовая релевантность текста документа запросу.
  • URL Совпадения: Доля терминов запроса, которые содержатся в URL документа.
  • Совпадения в Локальном Поиске: Для бизнес-листингов используются специфические сигналы:
    • Количество слов запроса, совпадающих с названием бизнеса.
    • Совпадение запроса с префиксом, суффиксом или подстрокой названия бизнеса.
    • Точное совпадение запроса с названием бизнеса.
    • Сравнение лучшего совпадения: с названием бизнеса или с его категорией.

Ссылочные факторы / Авторитетность (Static Signals):

  • Query-Independent Quality Measure: Независимая от запроса мера качества документа (явно упоминается как пример link-based value, т.е. PageRank или аналогичный показатель авторитетности).

Поведенческие факторы (Dynamic Signals):

Сигналы, извлекаемые из Click Logs, основанные на агрегированном поведении пользователей:

  • Первый Клик (Portion of users that select doc first): Доля пользователей, которые выбирают этот документ первым в списке результатов.
  • Время до Клика / Время Изучения (Time to select doc): Среднее время до выбора документа, или время, проведенное пользователем за просмотром документа (рассчитанное на основе времени между кликами – аппроксимация Dwell Time).
  • Предшествующие Клики (Users that select other docs first): Доля пользователей, которые сначала выбрали другой документ, прежде чем выбрать этот (показатель последовательности кликов).

Какие метрики используются и как они считаются

  • Метрики:
    • Human Relevance Evaluations: Эталонные данные (Ground Truth). Могут быть представлены как числовой рейтинг или как ранжирование.
    • Predicted Human Relevance Rating: Выход модели; прогноз оценки асессора.
  • Методы вычислений:
    • Statistical Modeling / Supervised Learning: Система использует методы машинного обучения для определения весов входных сигналов.
    • Regression Analysis: В патенте упоминаются линейная регрессия (Linear Regression), логистическая регрессия (Logistic Regression) и регрессия Пуассона (Poisson Regression). Модель учится комбинировать входные сигналы для минимизации ошибки прогнозирования по сравнению с реальными человеческими оценками.

Выводы

  1. Learning to Rank (LTR) как основа ранжирования: Патент подтверждает, что ранжирование в Google рассматривается как задача машинного обучения. Система автоматически обучается комбинировать сотни сигналов оптимальным образом, вместо использования фиксированных формул.
  2. Цель ранжирования – имитация человеческих суждений: Модель обучается предсказывать, что человек (асессор) сочтет релевантным и качественным. Это подчеркивает важность понимания принципов, которыми руководствуются асессоры (Quality Rater Guidelines), так как их оценки служат эталоном.
  3. Интеграция разнообразных сигналов: LTR модель объединяет статические (контент, ссылки, структура) и динамические (поведенческие) факторы в единой модели ранжирования.
  4. Подтверждение использования поведенческих факторов: Патент прямо указывает на использование данных из Click Logs (CTR, время до клика, последовательность кликов, аппроксимация Dwell Time) в качестве входных сигналов (Dynamic Signals) для прогнозирования релевантности.
  5. Специфика локального поиска: Для Local SEO выделены специфические сигналы, связанные с точностью и типом совпадения запроса с названием и категорией бизнеса, что подчеркивает важность точных данных в бизнес-листингах.

Практика

Best practices (это мы делаем)

  • Оптимизация под удовлетворенность пользователя (User Satisfaction) и Поведенческие Сигналы: Поскольку модель стремится имитировать человеческую оценку и использует Dynamic Signals, необходимо фокусироваться на метриках вовлеченности.
    • Привлечение первого клика: Оптимизируйте Title и Description для максимальной привлекательности и релевантности.
    • Увеличение Dwell Time: Обеспечьте высокое качество контента, который удерживает пользователя и предотвращает быстрый возврат в выдачу (Pogo-sticking).
  • Комплексный подход к качеству и E-E-A-T: Необходимо обеспечивать сильные показатели по всем группам факторов. Высокая авторитетность (Query-Independent Quality Measure) и текстовая релевантность (IR Score) являются важными входами в модель. Соответствие QRG критически важно, так как модель обучается на данных асессоров.
  • Для Локального SEO – Точность данных (NAP): Убедитесь, что название бизнеса и категории точны и консистентны. Патент выделяет сигналы точного, префиксного и суффиксного совпадения запроса с названием бизнеса как важные факторы для LTR в локальном поиске.

Worst practices (это делать не надо)

  • Игнорирование пользовательского опыта (UX): Стратегии, сфокусированные только на статических факторах (ключевые слова, ссылки) при плохом UX, неэффективны. Негативные Dynamic Signals (например, короткий Dwell Time) приведут к понижению позиций моделью LTR.
  • Использование кликбейта: Создание заголовков для привлечения клика, если контент не соответствует обещанию. Это генерирует негативные поведенческие сигналы (быстрый возврат к выдаче), которые модель интерпретирует как низкую релевантность.
  • Фокус только на IR Score: Оптимизация только под текстовую релевантность недостаточна. Модель LTR учитывает IR Score лишь как один из множества сигналов, и его вес может быть нивелирован другими факторами.

Стратегическое значение

Этот патент является фундаментальным для понимания современного SEO. Он подтверждает, что Google отказался от фиксированных формул ранжирования в пользу гибких, самообучающихся систем (Learning to Rank). Стратегическое значение заключается в необходимости смещения фокуса SEO с технической оптимизации под отдельные факторы на обеспечение реальной ценности и удовлетворенности пользователей. Поведенческие данные являются неотъемлемой частью ранжирования, и оптимизация под них должна быть центральным элементом долгосрочной стратегии.

Практические примеры

Сценарий: Переранжирование на основе поведенческих сигналов

  1. Запрос: "Как настроить гитару новичку".
  2. Кандидаты и Сигналы:
    • Документ А (Авторитетный сайт): Высокий Query-Independent Quality Measure, высокий IR Score. Но Dynamic Signals показывают короткое время изучения (короткий Dwell Time) и частый возврат к выдаче (Pogo-sticking), так как текст сложный.
    • Документ Б (Менее авторитетный форум): Средние статические сигналы. Но Dynamic Signals показывают длительное время изучения и низкий процент возврата к выдаче, так как объяснение простое и есть видео.
  3. Применение LTR модели: Модель, обученная на человеческих оценках, определяет, что для данного интента положительные поведенческие сигналы Документа Б имеют больший вес, чем статические сигналы Документа А.
  4. Результат: Модель присваивает Документу Б более высокий Predicted Human Relevance Rating, и он ранжируется выше Документа А.

Вопросы и ответы

Что такое Learning to Rank (LTR) и как он используется в этом патенте?

Learning to Rank — это применение машинного обучения для построения моделей ранжирования. В контексте патента, LTR используется для обучения статистической модели, которая комбинирует различные объективные сигналы (факторы ранжирования) таким образом, чтобы итоговое ранжирование максимально соответствовало оценкам людей-асессоров. Система учится этому автоматически, без ручного подбора весов.

Как этот патент связан с Google Quality Rater Guidelines (Инструкциями для асессоров)?

Связь прямая. Патент описывает необходимость получения Human Relevance Evaluations для обучения модели. Эти оценки предоставляются асессорами, которые следуют Quality Rater Guidelines. Таким образом, модель LTR учится алгоритмически применять принципы (включая E-E-A-T), изложенные в этих инструкциях.

Подтверждает ли патент использование поведенческих факторов (CTR, dwell time) в ранжировании?

Да, абсолютно. Патент явно описывает использование Dynamic Signals, извлеченных из Click Logs. Конкретно упоминаются такие сигналы, как доля пользователей, кликнувших на результат первыми, и использование времени между кликами как аппроксимации времени изучения документа (dwell time). Это прямое подтверждение использования поведенческих данных в модели ранжирования.

Патент подан в 2005 году. Актуален ли он сегодня?

Концептуально патент критически актуален. Идея Learning to Rank является фундаментом современного поиска. Хотя конкретные методы машинного обучения, упомянутые в патенте (например, простая линейная регрессия), устарели, и сегодня используются более сложные модели (нейронные сети), базовая архитектура осталась прежней.

Как этот патент влияет на Локальное SEO (Local SEO)?

Патент уделяет значительное внимание применению LTR в локальном поиске. Он выделяет специфические сигналы для бизнес-листингов, такие как точное, префиксное, суффиксное совпадение запроса с названием компании, а также сравнение совпадения с названием или категорией. Это подчеркивает важность точности данных в Google Business Profile.

Заменяет ли эта система PageRank?

Нет, не заменяет. PageRank (или его аналоги) используется как один из входных сигналов для модели LTR. В патенте он упоминается как Query-Independent Quality Measure (независимая от запроса мера качества) и описывается как link-based value. LTR модель объединяет его с другими сигналами.

В чем разница между статическими (Static) и динамическими (Dynamic) сигналами?

Статические сигналы основаны на контенте, структуре и ссылках документа (например, текстовая релевантность, URL, PageRank). Динамические сигналы основаны на агрегированном поведении пользователей и извлекаются из логов кликов (например, CTR, время на сайте, паттерны кликов).

Как SEO-специалисту оптимизировать сайт под эту систему?

Ключевая стратегия — фокусироваться на удовлетворении интента пользователя и обеспечении положительного пользовательского опыта. Необходимо создавать контент, который удерживает пользователя и решает его задачу, генерируя положительные Dynamic Signals. Также важно поддерживать сильные статические сигналы (релевантность и авторитетность).

Может ли эта модель использоваться не только для ранжирования, но и для оценки качества поиска?

Да, патент явно упоминает, что прогнозируемые человеческие оценки могут использоваться для оценки эффективности (assessing the effectiveness) поисковой системы. Это позволяет Google автоматически тестировать новые алгоритмы ранжирования, сравнивая их результаты с прогнозами модели, без масштабного привлечения асессоров.

Что означает термин "Objective Signals" (Объективные сигналы)?

Это измеримые признаки или фичи, которые можно автоматически извлечь из пары запрос/документ или из логов поведения пользователей. Несмотря на то, что они используются для прогнозирования субъективной человеческой оценки, сами сигналы являются объективными данными (например, количество совпадений слов, время в секундах, наличие ссылки).

Похожие патенты

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)
Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.
  • US12314275B2
  • 2025-05-27
  • Семантика и интент

Как Google использует машинное обучение для ранжирования в Поиске по Картинкам, динамически взвешивая сигналы изображения и посадочной страницы
Google использует модель машинного обучения для ранжирования изображений, которая совместно обрабатывает признаки запроса, самого изображения и посадочной страницы, на которой оно размещено. Это позволяет системе динамически определять важность визуальных характеристик изображения и контекста страницы в зависимости от конкретного запроса, улучшая релевантность выдачи.
  • US20200201915A1
  • 2020-06-25
  • Мультимедиа

  • SERP

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска
Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.
  • US10909124B2
  • 2021-02-02
  • Семантика и интент

  • Персонализация

  • SERP

Популярные патенты

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
  • US9235653B2
  • 2016-01-12
  • Knowledge Graph

  • Свежесть контента

  • Семантика и интент

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта
Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.
  • US8121991B1
  • 2012-02-21
  • Индексация

  • Техническое SEO

  • Структура сайта

seohardcore