SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google тестирует и выбирает, какие документы включать в индекс, используя инкрементно обновляемую тестовую среду

INCREMENTAL UPDATING OF QUERY-TO-RESOURCE MAPPING (Инкрементное обновление маппинга запросов к ресурсам)
  • US20140059062A1
  • Google LLC
  • 2012-08-24
  • 2014-02-27
  • Индексация
  • Свежесть контента
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает инфраструктуру Google для оценки различных стратегий отбора документов в индекс. Система поддерживает актуальный набор данных (Query-to-Resource Mapping), периодически добавляя свежий контент и новые запросы. Это позволяет Google сравнивать разные алгоритмы индексации через A/B тесты и оценку асессорами, чтобы определить, какая стратегия обеспечивает более качественную выдачу.

Описание

Какую проблему решает

Патент решает две взаимосвязанные инфраструктурные задачи. Первая — как эффективно оценивать и сравнивать различные автоматизированные процессы отбора ресурсов (automated resource selection processes) для включения в индекс поисковой системы, учитывая, что объем индекса ограничен. Вторая — как поддерживать актуальность тестовой среды (Query-to-Resource Mapping), необходимой для этой оценки, в условиях постоянного появления нового контента (fresh resources) и изменения паттернов запросов.

Что запатентовано

Запатентована система и метод для инкрементного обновления Query-to-Resource Mapping — структуры данных, которая связывает набор тестовых запросов с соответствующими им ресурсами. Эта структура используется как основа для системы оценки выбора индекса (Index Selection Evaluation System). Система периодически идентифицирует свежие ресурсы, оценивает их и добавляет лучшие в маппинг, а также периодически обновляет сам набор тестовых запросов. Это позволяет непрерывно тестировать и сравнивать различные стратегии индексации на актуальных данных.

Как это работает

Система функционирует в двух основных режимах: обновление маппинга и оценка стратегий индексации.

Обновление маппинга:

  • Периодически (например, ежедневно) система ищет fresh resources, обнаруженные за этот период (по discovery time).
  • Эти ресурсы сопоставляются с существующими тестовыми запросами и получают query-specific score.
  • Лучшие (N-best) свежие ресурсы добавляются в Query-to-Resource Mapping.
  • Реже (например, еженедельно) система обновляет сам набор тестовых запросов.

Оценка стратегий:

  • Система берет тестовый запрос и находит все соответствующие ресурсы в маппинге.
  • Применяется Стратегия А: вычисляется query-independent index selection score для каждого ресурса. Ресурсы, удовлетворяющие критериям Стратегии А (например, превышающие порог), формируют Группу А (to-be-indexed).
  • Применяется Стратегия Б, формируя Группу Б.
  • Группы А и Б сравниваются (например, через A/B тест на живом трафике с измерением CTR или с помощью асессоров), чтобы определить, какая стратегия обеспечивает лучшее качество выдачи.

Актуальность для SEO

Средняя. Патент описывает внутреннюю инфраструктуру тестирования. Хотя конкретные методы тестирования и сигналы Google эволюционировали с развитием ML, базовая необходимость систематической оценки критериев включения документов в индекс и поддержания актуальности тестовых данных остается критически важной. Этот патент дает представление о фундаментальных процессах оценки качества индекса.

Важность для SEO

Умеренное (5/10). Патент не описывает конкретные алгоритмы ранжирования или индексации, используемые в продакшене. Однако он подтверждает существование query-independent index selection scores — оценок качества ресурса, не зависящих от запроса, которые определяют, будет ли ресурс вообще включен в индекс. Понимание того, что Google систематически тестирует и выбирает стратегии индексации на основе пользовательских метрик (например, CTR) и оценок асессоров, подчеркивает важность общего качества ресурса и вовлеченности пользователей для обеспечения индексации.

Детальный разбор

Термины и определения

Approximate Score (Приблизительная оценка)
Быстро вычисляемая оценка, используемая для аппроксимации query-specific score. Используется для оптимизации вычислений при построении маппинга.
Automated Resource Selection Process (Автоматизированный процесс отбора ресурсов)
Алгоритм или эвристика, определяющая, следует ли включать конкретный ресурс в индекс поисковой системы. Анализирует Index Selection Signals.
Discovery Time (Время обнаружения)
Время, когда ресурс был впервые просканирован системой. Используется для идентификации Fresh Resources.
Evaluation Engine (Механизм оценки)
Компонент системы, который сравнивает различные Automated Resource Selection Processes путем анализа групп ресурсов, которые были бы проиндексированы каждым процессом.
Fresh Resources (Свежие ресурсы)
Ресурсы, обнаруженные в течение определенного недавнего временного интервала.
Index Selection Signals (Сигналы выбора индекса)
Метрики качества ресурса, используемые для принятия решения об индексации. Они не зависят от запроса и могут быть внутренними (например, количество слов, длина заголовка) или внешними (например, ссылки, поведение пользователей).
Query-Independent Index Selection Score (Независящая от запроса оценка выбора индекса)
Единая оценка, вычисленная на основе Index Selection Signals. Используется для классификации ресурса как to-be-indexed или not-to-be-indexed.
Query-Specific Score (Зависящая от запроса оценка)
Стандартная оценка ранжирования, показывающая релевантность ресурса конкретному запросу. Используется для упорядочивания результатов при тестировании и для отбора лучших ресурсов в маппинг.
Query-to-Resource Mapping (Маппинг запросов к ресурсам)
Структура данных, которая связывает группу тестовых запросов с ресурсами, которые им соответствуют. Является основой тестовой среды.
To-be-indexed / Not-to-be-indexed (Будет проиндексирован / Не будет проиндексирован)
Классификация ресурса, определяемая Automated Resource Selection Process.

Ключевые утверждения (Анализ Claims)

Патент имеет два основных аспекта: инкрементное обновление тестовой среды (QRM) и использование этой среды для оценки стратегий индексации.

Claim 1 (Независимый пункт): Описывает метод инкрементного обновления Query-to-Resource Mapping с фокусом на свежий контент.

  1. Система работает в предопределенные периодические временные интервалы.
  2. В каждом интервале обновляется Query-to-Resource Mapping.
  3. Для каждого запроса в маппинге:
    1. Идентифицируются fresh resources, соответствующие запросу (те, чье discovery time попадает в текущий интервал).
    2. Получается query-specific score для каждого свежего ресурса.
    3. На основе этих оценок отбираются один или несколько свежих ресурсов (уточняется в Claim 8 как наивысшие оценки - highest scoring).
    4. Маппинг обновляется, чтобы включить эти отобранные свежие ресурсы для данного запроса.

Claim 2 (Зависимый): Описывает обновление самого набора запросов.

После истечения нескольких периодических интервалов (т.е. реже, чем обновление контента) система обновляет группу запросов, добавляя новые и удаляя существующие, и затем обновляет маппинг для этого нового набора.

Claim 3 (Зависимый): Связывает обновление маппинга с его целью — оценкой процессов индексации.

  1. Система получает тестовый запрос.
  2. Генерируются две группы ресурсов: Группа 1 (для Процесса 1) и Группа 2 (для Процесса 2).
  3. Генерация включает:
    1. Использование Query-to-Resource Mapping для поиска всех соответствующих ресурсов.
    2. Применение Процесса 1: классификация каждого ресурса как to-be-indexed или not-to-be-indexed. Группа 1 состоит из всех to-be-indexed.
    3. Применение Процесса 2 аналогичным образом для формирования Группы 2.

Claim 4 (Зависимый): Детализирует механизм классификации to-be-indexed.

Для каждого ресурса выводится query-independent index selection score в соответствии с критериями тестируемого процесса. Классификация ресурса основывается на этой оценке.

Claims 5 и 6 (Зависимые): Описывают два варианта использования query-independent index selection score для классификации.

  • Claim 5: Классификация на основе порога. Если оценка удовлетворяет порогу, ресурс классифицируется как to-be-indexed.
  • Claim 6: Классификация на основе ранжирования (Top-N). Если ресурс входит в предопределенное количество лучших ресурсов по этой оценке, он классифицируется как to-be-indexed.

Где и как применяется

Этот патент описывает инфраструктуру для тестирования и улучшения поисковой системы (Index Selection Evaluation System), а не компонент, непосредственно обрабатывающий запросы пользователей в продакшене. Он взаимодействует со следующими этапами:

CRAWLING – Сканирование и Сбор данных
Система оценки использует данные, полученные в результате сканирования. В патенте упоминается, что для целей тестирования система может сканировать ресурсы на большую глубину, чем это обычно делается для построения продакшн-индекса. Система отслеживает discovery time ресурсов для идентификации свежести.

INDEXING – Индексирование и извлечение признаков
Это центральный этап. Система предназначена для оценки Automated Resource Selection Processes — алгоритмов, которые на этапе индексации решают, включать ли ресурс в индекс. Для этого используются Index Selection Signals (признаки качества, извлекаемые на этом этапе) и вычисляются Query-Independent Index Selection Scores.

QUNDERSTANDING – Понимание Запросов
Система использует логи запросов (query logs) для выбора репрезентативного набора тестовых запросов для включения в Query-to-Resource Mapping.

RANKING – Ранжирование
Система использует механизмы ранжирования для получения Query-Specific Scores. Эти оценки необходимы для отбора лучших ресурсов в маппинг и для упорядочивания результатов внутри тестовых групп (А и Б) при проведении оценки.

Входные данные:

  • Набор тестовых запросов (выбранных из логов).
  • Просканированные ресурсы с их discovery time.
  • Index Selection Signals для каждого ресурса.
  • Тестируемые стратегии индексации (эвристики).

Выходные данные:

  • Обновленный Query-to-Resource Mapping.
  • Сравнительная оценка эффективности различных стратегий индексации (на основе отзывов асессоров или пользовательских метрик, таких как CTR).

На что влияет

Патент описывает чисто технический инфраструктурный процесс. Он не оказывает прямого влияния на конкретные типы контента, запросы, ниши или географию в продакшн-выдаче. Он влияет на то, как Google внутренне принимает решения о том, какие алгоритмы индексации использовать в будущем.

Когда применяется

Алгоритмы обновления и оценки применяются непрерывно в рамках внутренней инфраструктуры тестирования Google.

  • Триггеры активации: Обновление маппинга запускается по расписанию. Упоминаются два типа расписаний:
    • Частое (например, каждые 6-72 часа) для добавления fresh resources.
    • Менее частое (например, каждые 1-12 недель) для обновления набора тестовых запросов (замена 5%-25% запросов).
  • Оценка стратегий: Запускается, когда инженеры хотят протестировать новую эвристику индексации против существующей.

Пошаговый алгоритм

Процесс А: Инкрементное обновление маппинга свежими ресурсами

  1. Инициализация временного окна: Процесс запускается для каждого последующего временного окна (например, каждые 24 часа).
  2. Идентификация свежих ресурсов: Система идентифицирует fresh resources, чье discovery time попадает в это окно и которые соответствуют одному или нескольким тестовым запросам из маппинга.
  3. Итерация по запросам: Для каждого запроса, имеющего совпадения со свежими ресурсами:
    1. Получение оценок: Система получает query-specific score для каждого соответствующего свежего ресурса.
    2. Отбор лучших ресурсов: Идентифицируются свежие ресурсы с наивысшими оценками.
    3. Генерация N-best списка: Формируется список из N лучших свежих ресурсов (например, Топ-1000).
    4. Обновление маппинга: Query-to-Resource Mapping обновляется, чтобы включить данные, связывающие запрос с ресурсами из N-best списка.

Процесс Б: Обновление набора запросов

  1. Обновление группы запросов: Система обновляет группу тестовых запросов, добавляя новые и удаляя часть существующих.
  2. Идентификация ресурсов для новых запросов: Система ищет ресурсы, соответствующие новым запросам, независимо от их discovery time.
  3. Итерация по новым запросам: Для каждого нового запроса формируется N-best список лучших ресурсов на основе query-specific score.
  4. Обновление маппинга: Маппинг обновляется для новых запросов.

Процесс В: Оценка двух стратегий индексации

  1. Получение тестового запроса.
  2. Идентификация ресурсов: Используя Query-to-Resource Mapping, система находит все ресурсы, соответствующие запросу.
  3. Применение Стратегии 1:
    1. Для каждого ресурса вычисляется query-independent index selection score согласно эвристике Стратегии 1 (используя Index Selection Signals).
    2. Ресурс классифицируется как to-be-indexed, если оценка удовлетворяет критерию (например, порогу или попаданию в Top-N).
    3. Формируется Группа 1 из всех ресурсов, классифицированных как to-be-indexed.
  4. Применение Стратегии 2: Аналогичный процесс для формирования Группы 2.
  5. Сравнение стратегий: Система сравнивает Группу 1 и Группу 2. Это может включать:
    1. Оценка асессорами: Представление результатов поиска (SERP) для Группы 1 и Группы 2 (упорядоченных по query-specific score) асессорам в формате side-by-side и сбор их предпочтений.
    2. Live-эксперимент (A/B тест): Показ SERP Группы 1 одной части пользователей, а SERP Группы 2 — другой. Сравнение пользовательской оценки (например, CTR).
  6. Выбор стратегии: Анализ агрегированных данных сравнения для выбора лучшей стратегии индексации.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре тестирования и упоминает следующие типы данных:

  • Временные факторы: Discovery time ресурса (время сканирования) критически важно для идентификации fresh resources и инкрементного обновления.
  • Поведенческие факторы:
    • Логи запросов (query logs) используются для выбора тестовых запросов.
    • Пользовательская оценка (user assessment), такая как click-through-rate (CTR), используется для сравнения эффективности различных стратегий индексации в ходе live-экспериментов.
  • Данные асессоров: Отзывы (feedback) и предпочтения асессоров при сравнении side-by-side результатов.
  • Index Selection Signals (Сигналы выбора индекса): Это ключевые данные для определения того, следует ли индексировать ресурс. Патент упоминает примеры:
    • Контентные/Внутренние: Количество слов в ресурсе, длина заголовка ресурса.
    • Внешние: Атрибуты, полученные из ресурсов, ссылающихся на данный ресурс (ссылочные факторы), атрибуты, полученные из поведения пользователей по отношению к ресурсу.

Какие метрики используются и как они считаются

  • Query-Independent Index Selection Score: Вычисляется путем применения эвристики (тестируемой стратегии) к Index Selection Signals ресурса. Конкретные формулы не приводятся, так как система тестирует разные формулы.
  • Query-Specific Score: Стандартная оценка ранжирования, получаемая от поисковой системы.
  • Approximate Score: Вычисляется с помощью эвристики для аппроксимации query-specific score с меньшими затратами. Используется для предварительной фильтрации ресурсов перед полным скорингом.
  • Click-Through-Rate (CTR): Используется для оценки стратегий в A/B тестах. Приведен пример расчета для отдельного результата поиска:

Выводы

Патент описывает внутренние процессы Google, связанные с инфраструктурой тестирования критериев индексации. Он не содержит прямых рекомендаций для SEO, но дает важное понимание принципов работы системы.

  1. Индексация основана на Query-Independent оценках качества: Подтверждается существование Query-Independent Index Selection Score. Эта оценка определяет, достоин ли ресурс включения в индекс вообще, независимо от его релевантности конкретному запросу. Она базируется на Index Selection Signals (качество контента, ссылки, поведение пользователей).
  2. Систематическое тестирование критериев индексации: Google не просто применяет фиксированный набор правил для индексации, а постоянно тестирует и сравнивает различные стратегии (Automated Resource Selection Processes), чтобы оптимизировать качество своего индекса при ограниченных ресурсах.
  3. Критерии выбора лучшей стратегии индексации: Лучшая стратегия та, которая приводит к формированию индекса, обеспечивающего более высокое качество поисковой выдачи. Качество измеряется с помощью асессоров и метрик вовлеченности пользователей (например, CTR) на реальном трафике.
  4. Важность актуальности тестовой среды: Google инвестирует ресурсы в поддержание актуальности своей тестовой среды (Query-to-Resource Mapping), регулярно обновляя ее свежим контентом (fresh resources) и актуальными запросами.
  5. Отслеживание времени обнаружения контента: Система явно отслеживает discovery time каждого ресурса, что подчеркивает важность временных меток и скорости обнаружения контента.

Практика

Патент скорее инфраструктурный и описывает, как Google тестирует свои системы, а не то, что именно они тестируют. Прямых практических выводов для SEO немного, но есть стратегические инсайты.

Best practices (это мы делаем)

  • Фокус на Query-Independent сигналах качества: Необходимо работать над сигналами, которые могут влиять на Query-Independent Index Selection Score. Хотя точная формула неизвестна, патент упоминает длину контента, заголовки, ссылки и поведение пользователей как примеры Index Selection Signals. Улучшение этих показателей (E-E-A-T, техническое качество) повышает шансы на индексацию страницы.
  • Обеспечение высокой вовлеченности пользователей (CTR): Патент подтверждает, что Google использует пользовательские метрики (например, CTR) для валидации и выбора стратегий индексации. Оптимизация сниппетов для повышения кликабельности косвенно подтверждает ценность вашего контента для индекса.
  • Содействие быстрому обнаружению контента: Поскольку система специально обрабатывает fresh resources на основе discovery time, критически важно обеспечить быстрое сканирование нового и обновленного контента (через Sitemaps, внутреннюю перелинковку, техническую оптимизацию скорости).

Worst practices (это делать не надо)

  • Создание контента, релевантного запросу, но низкого качества: Если ресурс имеет низкие Index Selection Signals, он может быть не включен в индекс, даже если он хорошо отвечает на конкретный запрос. Стратегии, игнорирующие общее качество в пользу узкой оптимизации под ключ, рискованны с точки зрения индексации.
  • Игнорирование технического SEO для индексации: Полагаться только на качество контента недостаточно. Если система не может эффективно сканировать и определять discovery time или извлекать Index Selection Signals, ресурс не попадет в обработку должным образом.

Стратегическое значение

Патент подчеркивает, что индексация — это не данность, а привилегия. В условиях ограниченности ресурсов Google постоянно ищет способы отсеять менее ценный контент еще до этапа ранжирования. Существование Query-Independent Index Selection Score означает, что SEO-стратегия должна включать работу над общим качеством и авторитетностью ресурса не только для повышения позиций, но и для гарантии присутствия в индексе.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает внутреннюю тестовую инфраструктуру Google.

Вопросы и ответы

Что такое Query-Independent Index Selection Score, и почему это важно для SEO?

Это оценка, которую Google присваивает ресурсу на основе его общих сигналов качества (Index Selection Signals), независимо от какого-либо конкретного запроса. Эта оценка используется, чтобы определить, следует ли вообще включать ресурс в индекс. Для SEO это критически важно: если ваша страница не преодолеет порог этой оценки, она не будет ранжироваться ни по каким запросам, потому что ее просто не будет в индексе.

Какие факторы влияют на Query-Independent Index Selection Score?

Патент не раскрывает точных формул, но приводит примеры Index Selection Signals, которые используются для расчета этой оценки. К ним относятся внутренние факторы (например, количество слов, длина заголовка) и внешние факторы (например, ссылочные сигналы и данные о поведении пользователей). Это подтверждает необходимость комплексного подхода к качеству сайта (E-E-A-T).

Как Google решает, какая стратегия индексации лучше?

Google сравнивает результаты работы разных стратегий. Если Стратегия А индексирует один набор документов, а Стратегия Б — другой, Google смотрит, какой набор генерирует лучшую поисковую выдачу. Лучшая выдача определяется двумя основными способами: оценками асессоров при side-by-side сравнении и пользовательскими метриками (например, CTR) в ходе A/B тестов на живом трафике.

Подтверждает ли этот патент, что CTR является фактором ранжирования?

Не напрямую. Патент показывает, что CTR используется как метрика успеха для оценки и выбора различных стратегий индексации. Если новая стратегия индексации приводит к повышению CTR в выдаче, она считается лучшей. Хотя это не делает CTR прямым фактором ранжирования, это демонстрирует его важность как ключевой метрики обратной связи для валидации алгоритмических изменений Google.

Что такое Query-to-Resource Mapping?

Это внутренняя база данных Google, используемая для тестирования. Она содержит набор тестовых запросов и для каждого запроса хранит список соответствующих ему ресурсов, их оценки и сигналы качества. Это позволяет инженерам моделировать, как изменения в алгоритмах индексации повлияют на выдачу, без запуска изменений в продакшн.

Что означает «инкрементное обновление» в контексте патента?

Это означает, что Google постоянно поддерживает актуальность своей тестовой среды. Они регулярно (например, ежедневно) добавляют в нее недавно обнаруженный контент (fresh resources) и периодически (например, еженедельно) обновляют набор тестовых запросов. Это гарантирует, что тестирование алгоритмов происходит на данных, отражающих текущее состояние интернета.

Что такое Discovery Time и как оно используется?

Discovery Time — это время, когда ресурс был впервые просканирован. Система использует эту метку для идентификации «свежих ресурсов», которые были обнаружены в течение последнего временного интервала. Это позволяет системе быстро интегрировать новый контент в тестовую среду.

Может ли Google сканировать мой сайт, но не индексировать его?

Да, абсолютно. Патент явно описывает процесс, в котором просканированные ресурсы оцениваются с помощью Automated Resource Selection Process. Если ресурс не соответствует критериям качества (получает низкий Query-Independent Index Selection Score), он классифицируется как not-to-be-indexed.

В патенте упоминается, что система может сканировать «глубже». Что это значит?

Это означает, что для целей тестирования Google может сканировать больше страниц сайта или следовать по ссылкам дальше от главной страницы, чем это делается для построения основного продакшн-индекса. Это позволяет им оценить потенциальное качество ресурсов, которые в данный момент не индексируются, и проверить, не упускают ли они ценный контент.

Как этот патент влияет на мою стратегию работы со свежим контентом?

Патент подчеркивает, что Google имеет специализированные процессы для быстрого обнаружения и оценки свежего контента. Для SEO это означает, что крайне важно не только создавать качественный новый контент, но и обеспечивать его максимально быстрое обнаружение (оптимизация краулингового бюджета, sitemaps), чтобы он своевременно попал в обработку системами Google.

Похожие патенты

Как Google тестирует изменения в критериях индексации без перестроения всего индекса
Google использует систему для эффективного тестирования и оценки различных критериев отбора ресурсов для включения в индекс. Вместо затратного перестроения индекса для каждого эксперимента, система симулирует, как разные процессы отбора повлияют на выдачу. Это позволяет сравнивать гипотетические индексы с помощью A/B тестов или асессоров, ускоряя разработку и улучшение качества индекса.
  • US8489604B1
  • 2013-07-16
  • Индексация

  • SERP

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов
Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.
  • US7565345B2
  • 2009-07-21
  • Поведенческие сигналы

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
  • US20130212100A1
  • 2013-08-15
  • Краулинг

  • Индексация

  • Свежесть контента

Популярные патенты

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы
Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.
  • US9129029B1
  • 2015-09-08
  • Local SEO

  • Поведенческие сигналы

  • Свежесть контента

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска
Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.
  • US20170277702A1
  • 2017-09-28
  • Семантика и интент

  • Local SEO

  • Персонализация

seohardcore