Как Google непрерывно обновляет свой индекс и освобождает место, используя систему хранения "Treadmilling" (Беговая дорожка)

DOCUMENT TREADMILLING SYSTEM AND METHOD FOR UPDATING DOCUMENTS IN A DOCUMENT REPOSITORY AND RECOVERING STORAGE SPACE FROM INVALIDATED DOCUMENTS (Система и метод "Беговой дорожки" документов для обновления документов в репозитории и восстановления пространства хранения от недействительных документов)

US7617226B1
Google LLC
2006-02-10
2009-11-10

Анализ инфраструктурного патента Google, описывающего высокоэффективную систему управления хранилищем данных (Tokenspace Repository). Патент раскрывает механизм "Treadmilling", который позволяет Google постоянно обновлять документы в индексе и эффективно удалять старые версии, восстанавливая дисковое пространство без остановки обработки поисковых запросов. Это основа для обеспечения свежести и масштабируемости поиска.

Какую проблему решает

Патент решает фундаментальные инфраструктурные проблемы, связанные с управлением огромными репозиториями документов, такими как поисковый индекс. Основные задачи:

Эффективность обновлений: Снижение накладных расходов и задержек (latency) при добавлении новых или обновленных версий документов в репозиторий (повышение свежести).
Восстановление пространства (Garbage Collection): Эффективное удаление устаревших (недействительных) версий документов и возврат занимаемого ими места хранения.
Непрерывная доступность: Обеспечение возможности непрерывного выполнения поисковых запросов одновременно с обновлением репозитория и сборкой мусора, минимизируя необходимость синхронизации и блокировок между потоками записи (Indexer) и чтения (Query Processor).

Что запатентовано

Запатентована система управления репозиторием документов (Tokenspace Repository), основанная на структуре данных типа FIFO (First-In-First-Out Array). Ключевым изобретением является механизм "Treadmilling" (Беговая дорожка). Он позволяет эффективно восстанавливать пространство, занятое недействительными документами, путем периодического копирования действительных данных из начала репозитория в конец. Это консолидирует недействительные данные в начале хранилища, позволяя эффективно их удалить.

Как это работает

Система использует структуру данных, имеющую начало (front end) и конец (back end).

Обновление: Когда документ обновляется, новая версия добавляется в конец репозитория. Старая версия помечается как недействительная (invalidated), но не удаляется немедленно, чтобы не мешать текущим запросам.
Treadmilling: Периодически система берет действительный документ из начала репозитория и копирует его в конец. Оригинал в начале помечается как недействительный.
Восстановление пространства: Этот процесс перемещает все недействительные документы к началу репозитория. Как только блок недействительных документов достигает начала и система убеждается, что ни один активный запрос их не использует (с помощью механизма Epochs), это пространство освобождается (Garbage Collection).

Актуальность для SEO

Высокая (для инфраструктуры). Изобретатели (включая Jeffrey Dean) являются ключевыми архитекторами инфраструктуры Google. Описанные принципы эффективного управления индексом, минимизации задержек и непрерывного обновления лежат в основе масштабируемости и свежести поиска Google (например, системы типа Caffeine и последующие). Хотя конкретная реализация могла эволюционировать, фундаментальные концепции остаются критически важными.

Важность для SEO

Влияние на SEO минимальное (1/10). Патент носит исключительно инфраструктурный характер. Он не описывает алгоритмы ранжирования, факторы оценки качества контента или методы понимания запросов. Он объясняет, как Google технически обеспечивает возможность быстрого обновления индекса и поддержания его в актуальном состоянии в огромных масштабах. Для SEO-специалистов он важен для понимания возможностей Google по обеспечению свежести (Freshness), но не дает прямых тактических рекомендаций.

Термины и определения

Tokenspace Repository (Репозиторий пространства токенов): Основное хранилище, в котором набор документов представлен как непрерывная последовательность токенов (слов, тегов и т.д.).
FIFOArray (Массив FIFO - First-In-First-Out): Специализированная структура данных, используемая для реализации репозитория. Поддерживает добавление данных только в конец (back end) и удаление данных только из начала (front end).
Treadmilling (Процесс "Беговой дорожки"): Механизм дефрагментации и очистки FIFOArray. Заключается в копировании действительных (valid) данных из начала массива в его конец и последующем аннулировании оригинала. Это позволяет сместить недействительные данные к началу для их эффективного удаления.
Invalidated Document (Недействительный документ): Документ в репозитории (например, старая версия страницы), который был заменен новой версией или удален. Он помечен для удаления, но физически еще присутствует в хранилище.
Garbage Collection (Сборка мусора): Процесс фактического удаления недействительных документов и восстановления занимаемого ими пространства хранения.
Token (Токен): Единица данных в репозитории. В патенте упоминается, что токены могут иметь фиксированную длину (например, 32 бита), что ускоряет доступ к данным.
Epoch (Эпоха): Период времени, используемый системой для управления сборкой мусора. Данные, помеченные для удаления в одну эпоху, физически удаляются только тогда, когда все запросы, начатые в эту эпоху или ранее, завершены. Это гарантирует безопасность данных.
Accessible Range (Доступный диапазон): Диапазон позиций токенов в репозитории, который содержит действительные данные и доступен для поисковых запросов. Определяется начальной и конечной позициями.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO.

Claim 1 (Независимый пункт): Описывает основной метод обработки документов в репозитории (Treadmilling).

Хранение набора документов в виде последовательности в репозитории с началом (front end) и концом (back end).
Аннулирование (invalidating), но не удаление, подмножества документов в последовательности.
Добавление в конец репозитория копии действительного документа, который находится в начале репозитория.
После добавления — восстановление пространства хранения в начале репозитория. Это пространство включает место, занятое оригиналом скопированного документа, и, если есть, место, занятое любым недействительным документом, смежным с ним.
Повторение процессов добавления и восстановления для возврата пространства, занятого недействительными документами.
Хранение индексных записей, соответствующих расположению документов.
При добавлении копии документа в конец — вставка соответствующих новых индексных записей.
Аннулирование индексных записей, соответствующих восстановленному пространству хранения.

Ядро изобретения — это метод эффективной очистки и дефрагментации последовательного хранилища (FIFOArray). Вместо дорогостоящего удаления данных из середины массива система использует "Treadmilling": перемещение действительных данных из начала в конец. Это приводит к консолидации "мусора" (недействительных данных) в начале массива, что позволяет проводить эффективное массовое удаление и восстановление пространства без прерывания работы системы.

Claim 2 (Зависимый от 1): Уточняет процесс восстановления пространства.

Аннулирование (но не удаление) действительного документа в начале (того, который был скопирован в конец).
Идентификация непрерывной подпоследовательности недействительных документов в начале, включая только что аннулированный документ и другие ранее аннулированные документы.
Восстановление пространства, занятого этой идентифицированной подпоследовательностью.

Где и как применяется

Изобретение является фундаментальной частью инфраструктуры хранения данных Google.

CRAWLING – Сканирование и Сбор данных
На этом этапе данные собираются и передаются в систему обработки. Эффективность репозитория, описанная в патенте, позволяет быстро принимать поток новых и обновленных документов.

INDEXING – Индексирование и извлечение признаков
Это основная область применения патента. Он описывает архитектуру Tokenspace Repository, в котором хранятся документы (в виде токенов) и инвертированный индекс (Tokenspace Inverted Index). Процессы записи (Write Processors) используют описанные механизмы для обновления репозитория, а механизмы Treadmilling и Garbage Collection используются для поддержания целостности и эффективности хранилища.

RANKING / QUNDERSTANDING
Прямого влияния на алгоритмы нет, но система обеспечивает инфраструктуру, позволяющую процессорам запросов (Query Processors) быстро и непрерывно получать доступ к актуальным данным в Tokenspace Repository и индексе.

Входные данные:

Новые или обновленные документы из Document Repository.
Команды на аннулирование старых версий документов.
Данные о границах документов и статусе их действительности.

Выходные данные:

Обновленный Tokenspace Repository и Tokenspace Inverted Index.
Восстановленное (освобожденное) пространство хранения.

На что влияет

Патент влияет на инфраструктуру хранения, поэтому он затрагивает:

Все типы контента, запросов и ниш: Поскольку это базовый уровень хранения, он применяется ко всем данным, которые хранятся в этом типе репозитория.
Свежесть (Freshness): Главное влияние на поиск заключается в том, что эта система позволяет Google поддерживать высокую скорость обновления индекса (низкую задержку между изменением документа и его доступностью для поиска) при огромных масштабах данных.

Когда применяется

Обновление документов: Применяется постоянно, когда в систему поступают новые версии документов.
Treadmilling: Применяется периодически для управления пространством хранения и предотвращения фрагментации. В патенте указано, что процесс может выполняться для обработки предопределенного количества документов в единицу времени.
Garbage Collection: Активируется после завершения Epoch, когда система может гарантировать, что удаляемые данные больше не используются активными запросами.

Пошаговый алгоритм

Процесс А: Обновление документа

Получение новой версии: Система получает новую (вторую) версию документа.
Запись в репозиторий: Вторая версия сохраняется в Tokenspace Repository (в конец FIFOArray), но пока за пределами доступного диапазона (Accessible Range).
Обновление индекса: Индексные записи обновляются для включения позиций токенов второй версии.
Активация новой версии: Система захватывает блокировку (Synchronization Lock) и обновляет Accessible Range, чтобы включить вторую версию. Блокировка снимается. Теперь новые запросы видят новую версию.
Инвалидация старой версии: Первая версия помечается как недействительная (Invalidated). Она остается физически в репозитории для завершения старых запросов.

Процесс Б: Treadmilling и восстановление пространства

Идентификация кандидата: Система идентифицирует действительный документ в начале (front end) репозитория.
Копирование (Treadmilling): Копия этого документа добавляется в конец (back end) репозитория. Ей присваивается новый локальный идентификатор.
Обновление индекса: В индекс добавляются записи для скопированного документа.
Инвалидация оригинала: Оригинальный документ в начале репозитория помечается как недействительный.
Консолидация мусора: Система идентифицирует непрерывный блок недействительных документов в начале репозитория (включая только что аннулированный и любые смежные с ним).
Планирование удаления: Этот блок добавляется в список сборки мусора (Garbage Collection List) для текущей Epoch.
Физическое удаление (Асинхронно): Когда все запросы, которые могли использовать этот блок данных, завершены (счетчик потоков для соответствующей Epoch достигает нуля), система физически удаляет данные и восстанавливает пространство. Доступный диапазон (Accessible Range) обновляется, смещая начало репозитория.

Какие данные и как использует

Патент описывает систему управления хранением и фокусируется на инфраструктурных данных, а не на контенте документов или факторах ранжирования.

Данные на входе

Технические факторы:
- Статус действительности документа (Valid/Invalid).
- Границы документов (Document Boundaries).
- Локальные и глобальные идентификаторы документов (LDocID, GDocID).
- Позиции токенов (TokenPos) и смещения в FIFOArray.
Системные данные:
- Счетчики активных потоков (ThreadCount) для каждой Epoch.
- Текущая эпоха (Current Epoch).
- Доступный диапазон репозитория (Accessible Range).

Какие метрики используются и как они считаются

В патенте не упоминаются метрики, связанные с ранжированием или качеством контента. Используются инфраструктурные метрики:

BeginRepositoryPos / EndRepositoryPos: Метрики, определяющие начало и конец доступного диапазона репозитория.
ThreadCount: Счетчик активных поисковых потоков (запросов), ассоциированный с определенной Epoch. Используется для определения безопасности удаления данных. Данные удаляются, когда счетчик достигает предопределенного значения (обычно 0).
Epoch Indicator: Индикатор для отслеживания временных периодов и управления жизненным циклом данных.

Патент чисто инфраструктурный: Он описывает внутренние механизмы хранения, обновления и очистки данных в Google. Из него нельзя сделать выводов о факторах ранжирования или тактиках SEO-оптимизации.
Приоритет эффективности и доступности: Система разработана для обеспечения максимальной пропускной способности при обновлении индекса и минимальных задержек при обработке запросов. Использование FIFOArray и минимизация блокировок (Locks) критически важны для этого.
Механизм обеспечения свежести: Этот патент раскрывает техническую основу того, как Google может обеспечивать высокую свежесть (Freshness) индекса. Обновления обрабатываются путем добавления новых версий и отложенного удаления старых, что позволяет быстро сделать новый контент доступным для поиска.
Treadmilling как метод дефрагментации: Treadmilling — это специфический способ борьбы с фрагментацией в структуре данных типа FIFO. Он позволяет избежать дорогостоящих операций удаления из середины хранилища, консолидируя "мусор" в начале для эффективного удаления.
Безопасное удаление данных: Использование механизма Epochs и счетчиков потоков гарантирует, что данные не будут удалены до тех пор, пока они используются активными поисковыми запросами, обеспечивая стабильность системы.

Best practices (это мы делаем)

Патент скорее инфраструктурный и не дает прямых практических выводов для тактического SEO. Однако он дает важный контекст для стратегического планирования:

Рассчитывайте на быструю индексацию: Эта инфраструктура создана для минимизации задержек. SEO-специалисты должны исходить из того, что Google способен очень быстро обнаружить и обработать обновления контента. Это подчеркивает важность своевременного обновления информации на сайте.
Обеспечивайте техническую доступность: Чтобы контент быстро попадал в этот эффективный репозиторий, он должен быть легко доступен для краулинга и рендеринга. Техническое SEO (оптимизация скорости загрузки, чистый код, корректные ответы сервера) помогает системе быстрее обработать и сохранить документ.

Worst practices (это делать не надо)

Полагаться на задержки в индексации: Стратегии, основанные на предположении, что Google медленно обновляет индекс (например, временное размещение нежелательного контента в надежде, что он не сразу попадет в индекс), неэффективны, учитывая инфраструктуру, направленную на максимальную свежесть.

Стратегическое значение

Патент подтверждает огромные инвестиции Google в базовую инфраструктуру для достижения масштабируемости, скорости и свежести. Для Senior SEO-специалистов это напоминание о том, что Google — это в первую очередь инженерная компания с высокооптимизированными системами обработки данных. Понимание этой инфраструктуры помогает трезво оценивать скорость реакции поисковой системы на изменения на сайтах.

Практические примеры

Практических примеров применения в SEO нет, так как патент описывает внутреннюю систему управления базами данных Google.

Что такое "Treadmilling" (Беговая дорожка) и зачем Google это использует?

"Treadmilling" — это процесс управления памятью в хранилище типа FIFO (First-In-First-Out). Поскольку в таком хранилище данные можно эффективно удалять только из начала, а добавлять только в конец, со временем оно фрагментируется устаревшими данными. Treadmilling периодически копирует действительные данные из начала в конец. Это позволяет собрать все устаревшие данные в начале хранилища и эффективно их удалить одним блоком, освобождая место.

Описывает ли этот патент, как Google ранжирует документы?

Нет. Этот патент абсолютно не связан с алгоритмами ранжирования или оценкой качества контента. Он описывает исключительно инфраструктуру хранения данных — как документы физически сохраняются, обновляются и удаляются в репозитории Google для обеспечения эффективности и скорости работы системы.

Что этот патент говорит о скорости обновления индекса Google (Freshness)?

Он показывает, что инфраструктура Google спроектирована для обеспечения максимальной свежести. Механизм обновления (добавление новой версии в конец и маркировка старой как недействительной) позволяет сделать новый контент доступным для поиска почти мгновенно, не дожидаясь физического удаления старой версии. Это указывает на способность Google поддерживать очень актуальный индекс.

Что такое "Tokenspace Repository"?

Это способ хранения документов, при котором весь корпус документов рассматривается как одна длинная последовательность токенов (слов, тегов). Каждый токен имеет уникальную позицию в этой последовательности. Это отличается от хранения документов как отдельных файлов и позволяет эффективно индексировать и извлекать данные.

Как Google удаляет старые версии страниц, не прерывая поиск?

Патент описывает механизм отложенного удаления с использованием "Эпох" (Epochs). Когда старая версия помечается для удаления (инвалидируется), система отслеживает все активные запросы, которые могли начать её использовать. Физическое удаление происходит только тогда, когда все эти запросы завершены. Это гарантирует, что ни один запрос не попытается прочитать уже удаленные данные.

Что такое FIFOArray, описанный в патенте?

FIFOArray (First-In-First-Out Array) — это структура данных, оптимизированная для последовательной записи и чтения. Данные добавляются строго в конец, а удаляются строго из начала. Это очень эффективно для систем, обрабатывающих постоянный поток обновлений, таких как поисковый индекс.

Влияет ли "Treadmilling" на то, как часто нужно обновлять контент на моем сайте?

Прямого влияния нет. "Treadmilling" — это внутренний процесс управления памятью Google. Однако он является частью инфраструктуры, которая обеспечивает быструю обработку обновлений. Это означает, что если вы часто обновляете контент, Google технически способен быстро отражать эти изменения в индексе.

Используется ли эта технология до сих пор?

Учитывая авторов патента (включая Джеффа Дина) и фундаментальный характер проблемы (управление хранилищем), весьма вероятно, что принципы, заложенные в этом патенте, до сих пор используются в инфраструктуре Google. Хотя конкретная реализация могла эволюционировать, концепции эффективного обновления и сборки мусора остаются критически важными.

Что означает, что токены имеют фиксированную длину?

В патенте упоминается возможность использования токенов фиксированной длины (например, 32 бита). Это означает, что каждое уникальное слово или тег представлено идентификатором одинакового размера. Это значительно ускоряет доступ к данным в репозитории, так как позицию любого токена можно рассчитать математически по его смещению, не сканируя данные переменной длины.

Какое практическое значение этот патент имеет для SEO-специалиста?

Практическое значение минимально с точки зрения тактики. Главная ценность — это понимание инженерной сложности и эффективности инфраструктуры Google. Это подчеркивает, что Google обладает мощными инструментами для поддержания актуальности и масштаба своего индекса, и стратегии SEO должны учитывать эту скорость и эффективность.

Как Google непрерывно обновляет индекс и удаляет старые данные, не замедляя работу поиска с помощью механизма «Эпох»

Google использует инфраструктурный механизм «Эпох» для обновления поискового индекса в реальном времени. Система отслеживает активные поисковые запросы и гарантирует, что устаревшие данные (например, старые версии документов) удаляются только тогда, когда ни один активный запрос их больше не использует. Это позволяет поддерживать максимальную свежесть индекса без прерывания обслуживания пользователей.

US7769792B1
2010-08-03

Индексация
Свежесть контента

Как Google обновляет индекс в реальном времени, не прерывая обработку поисковых запросов

Патент Google, описывающий инфраструктурный механизм обновления индекса (репозитория документов). Система позволяет добавлять новые версии документов и удалять старые, не блокируя доступ к данным для параллельно выполняющихся поисковых запросов. Это достигается за счет управления «доступным диапазоном» данных и отложенного удаления старых версий.

US7634517B1
2009-12-15

Индексация
Свежесть контента

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

US8407239B2
2013-03-26

Семантика и интент

Как Google оптимизирует обработку регулярных выражений и дорогих повторяющихся запросов в специализированных системах

Патент описывает инфраструктурные оптимизации для поисковых систем, в частности, для поиска по исходному коду. Он включает два основных механизма: 1) Кэширование результатов для дорогих повторяющихся запросов с обновлением кэша в реальном времени во время индексации. 2) Высокоэффективное префильтрование запросов с регулярными выражениями (regex) с помощью суффиксных массивов и обратного обхода автоматов.

US20150161266A1
2015-06-11

Индексация

Как Google эффективно сопоставляет запросы с большими архивами документов с помощью FIFO-буферов и параллельной обработки

Google использует инфраструктурный метод для высокоскоростного поиска точных совпадений в больших коллекциях документов. Запросы и документы токенизируются, а затем система использует FIFO-буфер (скользящее окно) для последовательного сравнения токенов. Это позволяет эффективно масштабировать обработку данных в распределенной среде.

US8732158B1
2014-05-20

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google позволяет пользователям "углубиться" в контент установленного мобильного приложения прямо из веб-выдачи

Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, "Больше результатов из приложения X"). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.

US10579687B2
2020-03-03

SERP
Семантика и интент
Ссылки

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы