SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

SELECTION OF DOCUMENTS TO PLACE IN SEARCH INDEX (Выбор документов для размещения в поисковом индексе)
  • US8255386B1
  • Google LLC
  • 2008-01-30
  • 2012-08-28
  • Индексация
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

Описание

Какую проблему решает

Патент решает фундаментальную проблему управления веб-индексом: ограниченность ресурсов (пространства хранения и вычислительных мощностей) и высокие затраты (ресурсов и времени) на индексацию и обслуживание документов. Поскольку невозможно и нецелесообразно индексировать весь веб, система должна выбирать наиболее ценное подмножество документов. Цель изобретения — максимизировать общую полезность индекса в рамках ресурсных ограничений, исключая контент, который вряд ли удовлетворит запросы пользователей.

Что запатентовано

Запатентована система и метод для выборочной индексации документов на основе прогнозируемой полезности. Система использует модель машинного обучения (Model), обученную на исторических данных поиска, для присвоения каждому документу Utility Score (оценки полезности). Этот показатель предсказывает будущую ценность документа как результата поиска. Документы ранжируются по этому показателю, и только наиболее перспективные включаются в индекс.

Как это работает

Система работает в два этапа: обучение модели и выбор индекса.

  • Обучение модели (Офлайн): Анализируются исторические журналы поиска для определения фактической полезности ранее проиндексированных документов (например, как часто на них кликали). Система обучает модель, которая связывает характеристики документа (Document Features, такие как ссылочный вес, язык, размер) с этой фактической полезностью.
  • Выбор индекса (Пайплайн индексации): Для новых или обновленных документов система использует обученную модель для прогнозирования их Utility Score. Документы ранжируются на основе этого прогноза, который может быть скорректирован с учетом других факторов (например, Cost индексации, Importance Score/PageRank). Затем система выбирает лучшие документы для включения в индекс, применяя фильтры и соблюдая квоты.

Актуальность для SEO

Высокая. Управление качеством и размером индекса является критически важной задачей для современных поисковых систем. Хотя конкретные модели машинного обучения, вероятно, эволюционировали с момента подачи патента, фундаментальный принцип использования предиктивных моделей и сигналов взаимодействия с пользователем для определения того, какой контент заслуживает индексации, является основополагающим и актуальным.

Важность для SEO

Патент имеет критическое значение для SEO (95/100). Он описывает механизмы, лежащие в основе индексируемости (Indexability) — фундаментального требования для ранжирования. Патент прямо указывает, что индексация не гарантирована и зависит от прогнозируемого удовлетворения пользователя (поведенческие факторы) и важности документа (ссылочные факторы, такие как PageRank). Эти факторы используются для фильтрации контента на этапе индексации, задолго до начала ранжирования по конкретному запросу.

Детальный разбор

Термины и определения

Utility Score (Оценка полезности)
Прогнозируемая метрика, отражающая меру качества документа как результата поиска. Определяется как вероятность того, что документ будет выбран (кликнут) или показан по крайней мере пороговое количество раз в течение определенного периода времени (например, один раз в день).
Model (Модель)
Статистическая модель (например, логистическая регрессия, случайный лес, нейронная сеть), обученная на исторических данных для прогнозирования Utility Score на основе Document Features.
Historical Search Logs (Исторические журналы поиска)
Данные о прошлых поисках: отправленные запросы, показанные результаты и информация об интересе пользователей к этим результатам (клики/показы). Используются для обучения Model.
Document Features (Характеристики документа)
Входные данные для Модели. Примеры: язык, тип файла, хост/домен, ссылочная оценка (link-based score), длина документа, степень сжатия, предыдущий Utility Score.
Selection data (Данные о выборе)
Данные о том, что документ был выбран (кликнут) пользователем в результатах поиска.
Impression data (Данные о показе)
Данные о том, что документ был представлен пользователю в результатах поиска.
Cost (Стоимость индексации)
Мера ресурсов, необходимых для включения документа в индекс. Часто функция объема пространства, которое документ займет в индексе (зависит от количества слов и вспомогательных данных).
Importance score (Оценка важности)
Мера важности документа. В патенте в качестве примера приводится ссылочная оценка, такая как алгоритм PageRank.
Performance score (Оценка производительности)
Показатель, основанный на количестве выборов (кликов), которые документ получил, когда он ранее был включен в индекс.
Match score (Оценка соответствия / Свежесть)
Показатель, указывающий, соответствует ли содержимое просканированного документа содержимому "живого" документа, доступного в сети в данный момент.
Content Score (Оценка контента)
Метрика, основанная на содержании документа, например, относится ли он к актуальной (hot topic) или редкой теме (rare topic).
Quotas (Квоты)
Механизм, гарантирующий минимальное представительство в индексе для определенных категорий документов (например, по языку, региону, хосту или даже документов с низким Utility Score) для обеспечения разнообразия и обучения модели.
Whitelist / Blacklist (Белый / Черный список)
Списки сайтов, документы с которых должны быть обязательно включены (Whitelist) или исключены (Blacklist) из индекса, независимо от их оценок.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс выбора документов для индекса.

  1. Система идентифицирует коллекцию документов.
  2. Для каждого документа прогнозируется Utility Score. Эта оценка основана на: (i) правилах модели, сгенерированных на основе прошлых запросов и результатов, И (ii) вероятности того, что документ будет выбран (кликнут) ИЛИ показан по крайней мере пороговое количество раз в течение определенного периода времени.
  3. Создается ранжированный список документов на основе прогнозируемых Utility Scores.
  4. Из ранжированного списка выбирается определенное количество документов.
  5. Выбранные документы индексируются для создания индекса.

Ядро изобретения — использование прогнозируемой оценки полезности, основанной на вероятности будущих взаимодействий (кликов или показов), для принятия решения об индексации.

Claim 28 (Независимый пункт): Описывает процесс обучения модели (офлайн).

  1. Идентифицируется набор документов, которые ранее были включены в индекс.
  2. Для каждого из этих документов определяется исторический Utility Score (на основе фактических данных о вероятности кликов/показов выше порога).
  3. Определяется набор Document Features для каждого документа.
  4. Генерируются правила модели, которые отображают Document Features на Utility Scores.

Этот пункт защищает метод создания предиктивной модели, используемой в Claim 1.

Claims 4-8 (Зависимые): Детализируют факторы, которые могут использоваться при создании ранжированного списка, помимо прогнозируемого Utility Score. Это приводит к расчету итоговой оценки (в патенте упоминается как UFU_FUF​ - Final Utility Score).

  • Claim 4: Учет стоимости индексации (Cost).
  • Claim 5: Учет оценки производительности (Performance score), основанной на прошлых кликах.
  • Claim 6: Учет оценки контента (Content score), основанной на тематике.
  • Claim 7: Учет оценки соответствия (Match score/Свежесть).
  • Claim 8: Учет оценки важности (Importance score, например, PageRank).

Эти пункты показывают, что решение об индексации является многофакторным, взвешивающим прогнозируемую полезность против стоимости, важности и свежести.

Claims 10-12 (Зависимые): Детализируют процесс выбора документов с учетом стратегических правил.

  • Claim 10: Использование Белых списков (Whitelists) для гарантированного включения определенных сайтов.
  • Claim 11-12: Использование Квот (Quotas) по языку, региону, хосту или для включения документов с низким Utility Score.

Где и как применяется

Изобретение применяется на этапе INDEXING – Индексирование и извлечение признаков. Это ключевой процесс, который происходит после сканирования (CRAWLING) и перед тем, как документы станут доступны для ранжирования (RANKING).

CRAWLING – Сканирование и Сбор данных
Crawler engine предоставляет коллекцию документов-кандидатов и их базовые характеристики.

INDEXING – Индексирование
Основное место применения патента. Indexing engine выполняет:

  1. Извлечение признаков: Расчет Document Features (например, Importance Score, Cost).
  2. Прогнозирование: Применение Model для расчета Utility Score.
  3. Выбор индекса (Index Selection): Ранжирование документов по итоговой оценке (UFU_FUF​) и выбор лучших кандидатов.
  4. Построение индекса: Фактическое индексирование выбранных документов.

RANKING (Источник данных)
Процессы ранжирования генерируют Historical Search Logs (показы и клики). Эти данные используются офлайн для обучения модели прогнозирования полезности.

Входные данные:

  • Коллекция просканированных документов и их Document Features.
  • Обученная Model.
  • (Для обучения): Historical Search Logs.
  • Whitelists, Blacklists, и правила Quotas.

Выходные данные:

  • Поисковый индекс, состоящий из выбранных документов.

На что влияет

  • Все типы контента и запросов: Патент влияет на состав всего поискового индекса. Если документ не выбран, он не может ранжироваться.
  • Крупные сайты и Index Bloat: Механизм критичен для сайтов с большим количеством страниц (e-commerce, агрегаторы). Страницы с низким прогнозируемым Utility Score и высокой Cost будут исключены.
  • Страницы с низким авторитетом: Документы, которые не имеют достаточного Importance score (ссылок) и не прогнозируются как полезные, рискуют не попасть в индекс.
  • Техническое состояние: Влияет на документы с проблемами свежести (низкий Match Score) или чрезмерно большим размером (высокий Cost).

Когда применяется

  • Обучение модели: Происходит офлайн, периодически, по мере накопления новых исторических данных поиска.
  • Выбор документов: Происходит в процессе индексирования, во время создания или обновления (освежения) индекса. Патент упоминает многоуровневые индексы (tiered indices), и процесс выбора применяется при обновлении каждого уровня.

Пошаговый алгоритм

Процесс А: Офлайн-обучение модели (Model Training)

  1. Идентификация обучающей выборки: Выбор набора документов, которые ранее присутствовали в индексе.
  2. Расчет исторической полезности: Анализ Historical Search Logs для расчета фактического Utility Score для каждого документа (например, вероятность клика в день).
  3. Извлечение признаков: Извлечение Document Features (язык, ссылки, хост, размер и т.д.) для обучающей выборки.
  4. Обучение модели: Генерация правил модели (например, с помощью логистической регрессии или нейронной сети) для отображения Document Features на Utility Score.
  5. Тестирование и сохранение модели.

Процесс Б: Выбор документов для индекса (Index Selection)

  1. Идентификация кандидатов: Получение коллекции сканированных документов (новых и ранее проиндексированных).
  2. Прогнозирование полезности: Применение обученной модели к Document Features кандидатов для прогнозирования их Utility Score.
  3. Расчет итоговой оценки: Вычисление Final Utility Score (UFU_FUF​). Корректировка прогнозируемой оценки с учетом Cost, Importance score (PageRank), Match score (свежесть), Performance score и Content score.
  4. Создание ранжированного списка: Сортировка документов по UFU_FUF​.
  5. Применение фильтров и правил:
    • Удаление спама, дубликатов и сайтов из Blacklist.
    • Гарантированное включение сайтов из Whitelist.
    • Обеспечение выполнения Quotas.
  6. Выбор документов: Выбор топовых документов из итогового списка в соответствии с доступной емкостью индекса.
  7. Индексирование: Обработка и добавление выбранных документов в поисковый индекс.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных как для обучения модели, так и для принятия решения об индексации.

  • Поведенческие факторы (Критично для обучения): Historical Search Logs, включающие Selection data (клики) и Impression data (показы). Используются для расчета Utility Score и Performance Score.
  • Ссылочные факторы: Link-based score используется как Document Feature и как Importance score. Явно упоминается PageRank как пример.
  • Технические факторы: Тип кодировки, тип файла, хост, домен, TLD. Длина документа и сжатая длина (используются для оценки Cost).
  • Контентные факторы: Язык документа. Анализ содержания для определения Content score (горячие темы, редкие темы).
  • Временные факторы: Свежесть документа, оцениваемая через Match score (сравнение сканированной версии с текущей "живой" версией).
  • Географические факторы: Используются для настройки квот (Quotas) по регионам.

Какие метрики используются и как они считаются

  • Utility Score (Прогнозируемая или историческая): Рассчитывается как вероятность того, что документ получит пороговое количество кликов или показов за определенный период (например, >1 клика в день).
  • Cost: Функция от объема пространства, необходимого для индексации документа.
  • Performance score: Основана на историческом количестве кликов, когда документ ранее находился в индексе.
  • Content score: Оценка на основе того, содержит ли документ слова, относящиеся к горячим, часто запрашиваемым или редким темам.
  • Match score (Свежесть): Оценка, указывающая, соответствует ли сканированный документ текущей версии на сайте.
  • Importance score: Ссылочная оценка, например, PageRank.
  • Final Utility Score (UFU_FUF​): Функция, агрегирующая Utility Score и одну или несколько из вышеупомянутых метрик.
  • Алгоритмы машинного обучения: Для генерации модели упоминаются логистическая регрессия (logistic regression), случайный лес (random forest) или нейронная сеть (neural network).

Выводы

  1. Индексация является выборочной и предиктивной: Попадание в индекс не гарантировано. Google индексирует только те документы, которые, по прогнозам его модели, будут полезны пользователям (высокий Utility Score) и оправдают затраты на хранение (низкий Cost).
  2. Сигналы ранжирования используются для индексации: Факторы, которые традиционно считаются ранжирующими (например, PageRank/Importance Score, поведенческие факторы/Performance Score), используются гораздо раньше в конвейере — для принятия решения о том, достоин ли документ занять место в индексе.
  3. Многофакторное решение об индексации: Итоговое решение представляет собой баланс между прогнозируемой полезностью, стоимостью хранения, авторитетностью и свежестью (Match Score).
  4. Критичность исторических данных: Система сильно зависит от Historical Search Logs. Прошлая производительность документа (клики, показы) напрямую влияет на его шансы остаться в индексе и обучает модель для оценки похожих документов.
  5. Управление Index Bloat: Этот патент описывает конкретный механизм для борьбы с раздуванием индекса. Документы должны преодолеть порог полезности, скорректированный на стоимость их хранения.
  6. Стратегические корректировки (Overrides): Система использует Whitelists для гарантированного включения важных сайтов и Quotas для обеспечения разнообразия индекса и предотвращения "слепых зон" модели (например, намеренно индексируя часть низкокачественного контента для обучения).

Практика

Best practices (это мы делаем)

  • Максимизация сигналов важности (Importance Score/PageRank): Построение качественных внешних ссылок и эффективная внутренняя перелинковка критически важны не только для ранжирования, но и для обеспечения индексации контента. Importance Score является явным фактором при выборе документов для индекса.
  • Максимизация вовлеченности пользователей (Utility/Performance Score): Работайте над повышением CTR и удовлетворенности пользователей. Эти данные (Selection data) используются для расчета Performance Score и обучения модели. Позитивные сигналы повышают шансы на сохранение страниц в индексе.
  • Борьба с Index Bloat и управление мусорными URL: Проактивно управляйте страницами с низкой ценностью (пустые фильтры, технические дубли, устаревший контент). Их наличие увеличивает общую Cost сайта. Используйте noindex, robots.txt или каноникализацию для консолидации сигналов на ценных страницах.
  • Обеспечение свежести и технической корректности (Match Score): Убедитесь, что контент, отдаваемый краулеру, актуален и соответствует тому, что видят пользователи. Match score (свежесть) используется при принятии решения об индексации.
  • Оптимизация эффективности (Cost): Оптимизируйте размер страницы и чистоту кода. Это снижает Cost индексации, улучшая соотношение Стоимость/Полезность, что может дать преимущество при прочих равных.

Worst practices (это делать не надо)

  • Генерация массы низкокачественных страниц: Создание большого количества страниц с низкой ценностью (Index Bloat). Такие страницы будут иметь низкий прогнозируемый Utility Score и высокую Cost, что приведет к их исключению из индекса.
  • Игнорирование ссылочной стратегии: Полагаться только на контент без работы над авторитетностью. Отсутствие Importance score значительно снижает шансы на индексацию, особенно для нового контента.
  • Клоакинг или медленное обновление контента: Показ разного контента пользователям и поисковым системам или наличие устаревшей информации приведет к низкому Match score и исключению из индекса.
  • Создание контента без учета спроса и взаимодействия: Создание контента, который не интересен пользователям. Если контент не генерирует кликов, его Utility Score будет падать, что может привести к деиндексации.

Стратегическое значение

Этот патент подчеркивает, что SEO начинается задолго до ранжирования. Индексация — это привилегия, которую нужно заслужить, доказав свою потенциальную ценность. Он подтверждает стратегическую важность холистического подхода: техническое здоровье, ссылочная авторитетность и пользовательский опыт в совокупности определяют, будет ли контент вообще допущен к участию в поиске. Патент объясняет механизм, почему технически доступные страницы не попадают в индекс — они не проходят фильтр прогнозируемой полезности и важности.

Практические примеры

Сценарий 1: Управление индексацией крупного E-commerce сайта с фасетной навигацией

  1. Ситуация: Сайт имеет миллионы URL, многие из которых являются комбинациями фильтров (фасетами) с нулевым спросом и малым количеством внутренних ссылок.
  2. Анализ через призму патента: Система Google прогнозирует низкий Utility Score для большинства фасетных страниц (низкая вероятность клика) и низкий Importance score. При этом Cost индексации этих страниц высока из-за их количества.
  3. Действие: SEO-команда анализирует логи и данные GSC, чтобы идентифицировать полезные фасеты (получающие показы/клики) и бесполезные. Бесполезные фасеты закрываются от индексации (noindex/robots.txt), а сигналы консолидируются через canonical.
  4. Ожидаемый результат: Снижение общей Cost сайта и концентрация Importance score на ключевых страницах. Это повышает вероятность того, что высокоценные категории и товары будут стабильно находиться в индексе.

Сценарий 2: Обеспечение индексации новых товаров

  1. Ситуация: Новые товары добавляются на сайт, но долго не попадают в индекс.
  2. Анализ через призму патента: Новые товары часто имеют низкий Importance Score и не имеют Performance Score. Их прогнозируемый Utility Score может быть недостаточен для преодоления порога индексации.
  3. Действие: Необходимо искусственно повысить их Importance Score и стимулировать начальный Utility Score.
  4. Реализация: Размещение ссылок на новые товары на главной странице и в популярных категориях (повышение Importance). Использование XML-карт сайта. Запуск контекстной рекламы или email-рассылки для генерации начального трафика и поведенческих сигналов (повышение Utility).
  5. Ожидаемый результат: Ускорение попадания новых товаров в индекс за счет улучшения ключевых метрик, используемых системой выбора индекса.

Вопросы и ответы

Влияет ли PageRank на индексацию документа?

Да, напрямую. Патент явно упоминает Importance score, приводя PageRank в качестве примера. Эта оценка используется как при обучении модели полезности, так и при расчете итоговой оценки Final Utility Score для выбора документа в индекс. Документы с более высоким PageRank имеют значительно больше шансов быть проиндексированными.

Как клики (CTR) и поведенческие факторы влияют на индексацию?

Они играют центральную роль. Utility Score основан на вероятности того, что документ получит клик или показ. Модель машинного обучения, которая решает, что индексировать, обучается на исторических данных о кликах (Selection data) и показах (Impression data). Если страницы сайта стабильно показывают хорошую вовлеченность, это улучшает их шансы оставаться в индексе.

Объясняет ли этот патент, почему Google может не индексировать некоторые страницы сайта (Index Bloat)?

Да. Если система прогнозирует, что страница имеет низкий Utility Score (маловероятно, что она будет полезна пользователям) и низкий Importance score (мало ссылок), и при этом ее индексация имеет определенную стоимость (Cost), система может принять решение не включать ее в индекс для экономии ресурсов.

Что такое «Стоимость индексации» (Cost) и как ее снизить?

Cost — это ресурсы (в основном, дисковое пространство и вычислительная мощность), необходимые для хранения и обработки документа в индексе. Она зависит от размера документа и сложности его содержимого. Для SEO это означает, что следует оптимизировать вес страниц и избегать генерации огромного количества тяжелых или малополезных URL.

Что такое Квоты (Quotas) и зачем они нужны Google?

Квоты гарантируют минимальное представительство определенных типов документов в индексе (например, по языку, региону или хосту). Это нужно для обеспечения разнообразия выдачи. Также патент упоминает квоты на включение документов с низким Utility Score, что необходимо для постоянного обучения и калибровки модели, чтобы избежать "слепых зон".

Зачем Google намеренно индексирует документы с низким Utility Score?

Это необходимо для непрерывного обучения модели. Если индексировать только хорошие документы, модель может перестать распознавать плохие документы или не заметить, если ранее плохие документы стали хорошими. Это позволяет модели адаптироваться к изменениям в вебе и поведении пользователей.

Влияет ли свежесть контента на попадание в индекс?

Да. Патент описывает Match score, который проверяет, соответствует ли сканированная версия документа "живой" версии на сайте. Если документ устарел или не соответствует (низкий Match score), его итоговая оценка полезности может быть понижена, что уменьшает вероятность его включения или сохранения в индексе.

Что такое Белые списки (Whitelists) в контексте индексации?

Это списки сайтов (например, крупные новостные ресурсы, правительственные сайты, очень популярные сайты типа Amazon), которые должны быть обязательно включены в индекс, независимо от их прогнозируемого Utility Score. Система автоматически выбирает документы с этих сайтов для индексации.

Может ли страница быть исключена из индекса, если она раньше там была?

Да. Процесс выбора документов происходит при обновлении индекса. Если прогнозируемый Utility Score страницы упал (например, из-за снижения спроса, потери ссылок или появления лучших кандидатов) или ее Performance Score был низким, страница может быть исключена для освобождения места.

Как использовать знание этого патента при работе с крупным сайтом?

Ключевая стратегия — концентрация сигналов. Необходимо идентифицировать и устранять Index Bloat (снижать Cost), консолидировать ссылочный вес (повышать Importance score) на приоритетных страницах и работать над улучшением пользовательского опыта (повышать Utility Score). Это гарантирует, что система считает ваши ключевые страницы достаточно важными и полезными для включения в индекс.

Похожие патенты

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов
Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.
  • US10489459B1
  • 2019-11-26
  • Семантика и интент

Как Google использует контент, который вы сейчас просматриваете, для фильтрации и уточнения вашей поисковой выдачи
Google анализирует контекст веб-страницы или документа, который просматривает пользователь, чтобы определить основную тему (топик). Когда пользователь вводит запрос, система фильтрует результаты поиска, отдавая предпочтение тем документам, которые соответствуют этой контекстной теме, тем самым уточняя выдачу для неоднозначных запросов.
  • US8762368B1
  • 2014-06-24
  • Семантика и интент

  • SERP

  • Персонализация

Как Google адаптирует ранжирование контента под частоту посещений пользователя, балансируя между важностью и новизной
Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.
  • US9477376B1
  • 2016-10-25
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google использует машинное обучение для ранжирования в Поиске по Картинкам, динамически взвешивая сигналы изображения и посадочной страницы
Google использует модель машинного обучения для ранжирования изображений, которая совместно обрабатывает признаки запроса, самого изображения и посадочной страницы, на которой оно размещено. Это позволяет системе динамически определять важность визуальных характеристик изображения и контекста страницы в зависимости от конкретного запроса, улучшая релевантность выдачи.
  • US20200201915A1
  • 2020-06-25
  • Мультимедиа

  • SERP

Популярные патенты

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
  • US20130144836A1
  • 2013-06-06
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий
Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.
  • US11157488B2
  • 2021-10-26
  • Индексация

  • Поведенческие сигналы

  • Семантика и интент

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)
Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.
  • US7996391B2
  • 2011-08-09
  • Ссылки

  • Поведенческие сигналы

  • SERP

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами
Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.
  • US8032820B1
  • 2011-10-04
  • Ссылки

  • Индексация

  • Краулинг

seohardcore