Как Google обновляет индекс в реальном времени, не прерывая обработку поисковых запросов

SYSTEM AND METHOD FOR DYNAMICALLY UPDATING A DOCUMENT REPOSITORY WITHOUT INTERRUPTING CONCURRENT QUERYING (Система и метод динамического обновления репозитория документов без прерывания параллельных запросов)

US7634517B1
Google LLC
2006-02-10
2009-12-15

Патент Google, описывающий инфраструктурный механизм обновления индекса (репозитория документов). Система позволяет добавлять новые версии документов и удалять старые, не блокируя доступ к данным для параллельно выполняющихся поисковых запросов. Это достигается за счет управления «доступным диапазоном» данных и отложенного удаления старых версий.

Какую проблему решает

Патент решает фундаментальную инфраструктурную проблему: как обновлять поисковый индекс (репозиторий документов) с высокой частотой и низкой задержкой (обеспечивая свежесть данных), не прерывая и не замедляя параллельную обработку входящих поисковых запросов. Он устраняет необходимость блокировки системы или сложных процессов слияния индексов, позволяя поддерживать высокую доступность поиска при частых обновлениях контента.

Что запатентовано

Запатентована система управления репозиторием (Tokenspace Repository) и метод управления данными, который минимизирует необходимость синхронизации между потоками обновления (Write Threads) и потоками запросов (Query Threads). Это достигается за счет механизма управления версиями данных («Доступный диапазон» или Accessible Range) и системы отложенного удаления старых данных («Сборка мусора» или Garbage Collection) на основе «Эпох» (Epochs).

Как это работает

Система работает по принципу, схожему с мультиверсионным контролем параллелизма (MVCC). Когда поступает новая версия документа (V2), она добавляется в конец репозитория, изначально за пределами текущего Accessible Range. Затем диапазон атомарно обновляется, чтобы включить V2. Старая версия (V1) помечается как недействительная (invalidated). Новые запросы видят V2. Запросы, которые уже выполнялись, продолжают использовать V1, так как они работают со снимком Accessible Range на момент их запуска. V1 физически удаляется только тогда, когда система гарантирует (через механизм Epochs), что ни один активный запрос ее больше не использует.

Актуальность для SEO

Высокая (с точки зрения инфраструктуры). Обеспечение непрерывной доступности и максимальной свежести индекса — критически важные задачи для современных поисковых систем. Принципы, описанные в этом патенте ключевыми инженерами Google (Джеффри Дин и Майкл Берроуз), лежат в основе эффективной работы распределенных систем хранения и индексирования Google.

Важность для SEO

Минимальное влияние (1/10). Это чисто инфраструктурный патент. Он не описывает алгоритмы ранжирования, факторы качества или методы анализа контента. Он объясняет техническую реализацию того, как Google обеспечивает возможность частых обновлений индекса без остановки системы. Для SEO-специалиста этот патент не предоставляет прямых рекомендаций по оптимизации, но дает понимание потенциальной скорости, с которой изменения могут быть учтены в поиске.

Термины и определения

Accessible Range (Доступный диапазон): Диапазон позиций в репозитории, который содержит действительные документы, доступные для запросов. Определяется начальной (BeginRepositoryPos) и конечной (EndRepositoryPos) позициями. Обеспечивает консистентный снимок данных для запроса.
Epoch (Эпоха): Механизм для отслеживания активности запросов и управления сборкой мусора. Позволяет системе отслеживать, какие запросы могут ссылаться на данные, запланированные к удалению.
FIFOArray (Массив FIFO - First-In-First-Out): Специализированная структура данных, используемая для хранения репозитория. Данные добавляются только в конец («back end») и удаляются только из начала («front end»).
Garbage Collection List (Список сборки мусора): Структура данных, содержащая записи для каждой Epoch. Каждая запись включает счетчик активных потоков (ThreadCount) и список элементов для удаления (DeleteItems).
Invalidation (Инвалидация): Процесс пометки старой версии документа как недействительной. Она остается физически доступной для уже запущенных запросов, но становится невидимой для новых запросов.
Query Processor/Thread (Поток запроса): Процесс или поток, отвечающий за выполнение поисковых запросов пользователей.
Synchronization Lock (Блокировка синхронизации): Глобальная блокировка, используемая для защиты ключевых структур данных (таких как Accessible Range) во время их кратковременного обновления.
Tokenspace Repository (Репозиторий пространства токенов): Основное хранилище данных, где документы хранятся как непрерывная последовательность токенов. Реализован с использованием FIFOArray.
Treadmilling («Беговая дорожка»/Перемещение данных): Процесс дефрагментации FIFOArray. Действительные данные копируются из начала массива в его конец, после чего исходные данные в начале удаляются, освобождая память.
Write Processor/Thread (Поток записи): Процесс или поток, отвечающий за добавление и обновление документов в репозитории и индексе.

Ключевые утверждения (Анализ Claims)

Патент описывает инфраструктурный механизм управления данными.

Claim 1 (Независимый пункт): Описывает основной метод обновления документа без прерывания запросов.

Первая версия документа (V1) хранится в Accessible Range репозитория.
Система получает вторую версию (V2).
V2 сохраняется в репозитории, но за пределами текущего Accessible Range.
Конец (second end) Accessible Range изменяется так, чтобы включить V2. Теперь и V1, и V2 доступны потокам.
V1 помечается как недействительная (invalidating), но не удаляется.
Критическое условие (Snapshot Isolation): Инвалидированная V1 остается доступной для тех запросов, которые начали выполняться до инвалидации. Запросы, начавшиеся после инвалидации, не могут получить доступ к V1 (они будут использовать V2).
Запросы выполняются непрерывно во время всех этих операций.
Инвалидированная V1 удаляется только тогда, когда на нее больше не ссылается ни один активный поток.

Claim 2 (Зависимый от 1): Уточняет синхронизацию индекса.

Одновременно с изменением Accessible Range репозитория для включения V2, изменяется и доступный диапазон соответствующих индексных записей (index records), чтобы включить записи, соответствующие как V1, так и V2.

Claim 3 (Зависимый от 1): Определяет модель консистентности для запросов.

Каждый поток выполняет запрос, используя тот диапазон репозитория (Accessible Range), который был доступен в момент начала выполнения запроса. Изменения в Accessible Range, происходящие во время выполнения запроса, игнорируются этим запросом.

Где и как применяется

Этот патент описывает фундаментальный механизм управления данными, находящийся на стыке процессов индексирования и обслуживания запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе Write Processors обрабатывают новый или обновленный контент и записывают его в Tokenspace Repository и Tokenspace Inverted Index. Описанный механизм управляет тем, как именно эти данные записываются, когда они становятся видимыми и как удаляются старые версии.

RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах Query Processors постоянно обращаются к репозиторию и индексу для получения данных. Механизм патента гарантирует, что эти запросы могут выполняться непрерывно и получать согласованное представление данных (Accessible Range), не конфликтуя с процессами индексирования.

Входные данные:

Новые или обновленные версии документов (от Write Processors).
Входящие поисковые запросы (для Query Processors).
Системные данные о состоянии репозитория (Accessible Range, Epoch, ThreadCount).

Выходные данные:

Обновленное состояние Tokenspace Repository и Inverted Index.
Результаты поисковых запросов.

На что влияет

Это инфраструктурный механизм. Он влияет на все типы контента, все типы запросов, все тематики и все языки одинаково. Его основное влияние заключается в повышении общей свежести (freshness) индекса и скорости его обновления, а не в изменении ранжирования.

Когда применяется

Алгоритмы применяются непрерывно:

При обновлении данных: Каждый раз, когда Write Processor добавляет новый документ или обновляет существующий.
При выполнении запросов: Каждый раз, когда Query Processor начинает обработку нового запроса (для определения Accessible Range и обновления счетчиков Epoch).
При обслуживании: Периодически для физического удаления недействительных данных (Garbage Collection) и дефрагментации хранилища (Treadmilling).

Пошаговый алгоритм

Система состоит из трех основных параллельных процессов.

Процесс А: Обновление документа (Write Thread)

Получение обновления: Получить новую версию документа (V2).
Сохранение (вне диапазона): Сохранить V2 в конец Tokenspace Repository (в FIFOArray), за пределами текущего Accessible Range. Обновить индекс.
Захват блокировки: Захватить глобальную Synchronization Lock.
Обновление диапазона: Изменить конечную позицию (EndRepositoryPos) Accessible Range так, чтобы включить V2.
Освобождение блокировки: Освободить Synchronization Lock. (Шаги 4-5 выполняются очень быстро).
Инвалидация старой версии: Пометить старую версию (V1) как недействительную. Добавить V1 в список удаления (DeleteItems) для текущей Epoch.

Процесс Б: Выполнение запроса (Query Thread)

Получение запроса: Получить запрос на выполнение.
Захват блокировки: Захватить глобальную Synchronization Lock.
Получение диапазона: Зафиксировать текущий Accessible Range для использования этим запросом.
Регистрация в Эпохе: Увеличить счетчик активных потоков (ThreadCount) для текущей Epoch в Garbage Collection List.
Освобождение блокировки: Освободить Synchronization Lock.
Выполнение: Выполнить запрос, используя зафиксированный Accessible Range. Изменения в репозитории игнорируются.
Захват блокировки: Захватить глобальную Synchronization Lock.
Дерегистрация из Эпохи: Уменьшить ThreadCount для соответствующей Epoch.
Освобождение блокировки: Освободить Synchronization Lock.

Процесс В: Сборка мусора (Garbage Collection)

Мониторинг Эпох: Отслеживать ThreadCount для всех активных Epochs.
Определение завершенных Эпох: Идентифицировать Эпохи, где ThreadCount достиг нуля (при условии, что все предыдущие Эпохи также завершены).
Физическое удаление: Удалить данные (DeleteItems), которые были инвалидированы в этих завершенных Эпохах, и освободить память.

Какие данные и как использует

Патент фокусируется исключительно на механизмах хранения и управления доступом, а не на анализе контента или ранжировании.

Данные на входе

Контентные данные (Токены): Документы используются как последовательности токенов (GTokenIDs). Содержание токенов не имеет значения для этого алгоритма.
Индексные данные: Записи в инвертированном индексе, указывающие на позиции токенов в репозитории.
Системные/Управляющие данные:
- Accessible Range (Начальная и конечная позиции).
- Synchronization Lock (Состояние блокировки).
- Epoch (Текущий идентификатор эпохи).
- ThreadCount (Счетчики активных потоков).
- Идентификаторы документов (GDocID, LDocID).

Никакие SEO-специфичные факторы (ссылочные, поведенческие, технические, временные и т.д.) в данном патенте не упоминаются и не используются.

Какие метрики используются и как они считаются

Accessible Range: Определяется двумя значениями: BeginRepositoryPos и EndRepositoryPos. Изменяется потоком записи для включения новых данных и сборщиком мусора для исключения удаленных данных.
ThreadCount: Счетчик. Увеличивается при старте запроса и уменьшается при его завершении.
Пороговое значение для сборки мусора: Данные Эпохи могут быть удалены, когда ее ThreadCount достигает предопределенного значения (обычно 0), и все предыдущие Эпохи также завершены.

Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO.

Приоритет доступности и свежести: Изобретение демонстрирует, как Google решает инженерную задачу обеспечения высокой доступности (система всегда отвечает на запросы) и свежести данных (обновления применяются быстро), устраняя конфликты между записью и чтением.
Управление параллелизмом (MVCC): Система использует механизм, функционально схожий с MVCC, для обеспечения параллельного доступа с минимальными блокировками. Блокировки используются только на очень короткое время для обновления указателей или счетчиков.
Консистентность снимков (Snapshot Isolation): Концепция Accessible Range гарантирует, что любой запрос видит согласованный снимок индекса на момент своего запуска, даже если индекс обновляется параллельно.
Управляемая сборка мусора: Удаление старых версий документов точно контролируется механизмом Epochs и счетчиками потоков (ThreadCount). Это гарантирует, что данные не будут удалены физически, пока они используются хотя бы одним активным запросом.
Дефрагментация хранилища: Механизм Treadmilling используется для борьбы с фрагментацией хранилища (FIFOArray) и эффективного освобождения памяти.

ВАЖНО: Патент является инфраструктурным и не дает прямых практических выводов или рекомендаций для SEO-специалистов по оптимизации контента или сайтов.

Best practices (это мы делаем)

Обеспечение технической доступности сайта: Понимание этого механизма подтверждает, что инфраструктура Google способна очень быстро обрабатывать и индексировать обновления. Это подчеркивает важность технической оптимизации сайта для быстрого сканирования (быстрые ответы сервера, корректное управление Crawl Budget), чтобы обновления оперативно попадали в индекс.
Фокус на своевременности контента: Поскольку система спроектирована для обеспечения максимальной свежести, это косвенно подтверждает важность предоставления актуального и своевременно обновляемого контента.

Worst practices (это делать не надо)

Предположение о задержках индексации: Опираться на стратегии, предполагающие, что Google медленно обновляет свой индекс, рискованно. Инфраструктура рассчитана на обновления в режиме, близком к реальному времени, поэтому тактики, основанные на задержках (например, краткосрочные манипуляции контентом), могут быть неэффективны.

Стратегическое значение

Стратегическое значение патента заключается в понимании возможностей инфраструктуры Google. Он подтверждает, что Google ставит в приоритет скорость, доступность и свежесть данных. Это означает, что задержки в обновлении поисковой выдачи чаще связаны с приоритетами сканирования (Crawling) и временем на переоценку сигналов ранжирования (Ranking), а не с техническими ограничениями на скорость записи данных в индекс (Indexing).

Практические примеры

Практических примеров для SEO нет, так как патент описывает внутреннюю инфраструктуру управления репозиторием и параллельными запросами.

Описывает ли этот патент какие-либо факторы ранжирования?

Нет. Патент полностью посвящен инфраструктуре хранения данных, управлению параллельным доступом и обновлению индекса. В нем не упоминаются никакие сигналы, которые могли бы использоваться для оценки релевантности или качества документов.

Означает ли этот патент, что Google индексирует контент в реальном времени?

Патент описывает инфраструктуру, которая делает индексацию в почти реальном времени возможной. Он устраняет технический барьер, связанный с блокировкой базы данных во время обновлений. Благодаря этому механизму, как только контент обработан, он может быть добавлен в основной репозиторий с минимальной задержкой и сразу стать доступным для поиска.

Что такое «Accessible Range» (Доступный диапазон)?

Это часть репозитория, видимая для поисковых запросов. Когда запрос стартует, он фиксирует текущий Accessible Range и использует его на протяжении всего времени выполнения. Это гарантирует, что запрос видит согласованный снимок индекса, даже если он обновляется параллельно.

Что такое «Эпоха» (Epoch) в контексте этого патента?

Эпоха — это механизм для безопасной сборки мусора. Это период времени, в течение которого система отслеживает, какие запросы активны. Устаревшие данные нельзя удалять, пока не завершатся все запросы той эпохи, в которой эти данные были актуальны или были помечены для удаления.

Исчезает ли старая версия страницы мгновенно, когда индексируется новая?

Нет. Согласно патенту, обе версии кратковременно сосуществуют. Старая версия помечается как недействительная, но остается доступной для тех запросов, которые уже начали выполняться. Она удаляется только после того, как все эти запросы завершатся.

Что такое «Treadmilling» («Беговая дорожка»)?

Это метод для освобождения места в хранилище типа FIFO (FIFOArray). Поскольку данные могут удаляться только с начала массива, система периодически копирует актуальные данные с начала в конец. Это позволяет «сдвигать» массив и освободить непрерывные блоки памяти в начале, занятые устаревшими данными.

Связан ли этот патент с обновлением Google Caffeine?

Да, концептуально он тесно связан. Обновление Caffeine (около 2010 года) было направлено на переход от пакетной обработки к непрерывному обновлению индекса. Механизмы, описанные в этом патенте (поданном в 2006), предоставляют техническую основу для реализации такой непрерывной и быстрой индексации.

Как эта система минимизирует использование блокировок (locking)?

Вместо блокировки всего индекса во время обновления или запроса, блокировки используются только на очень короткое время для атомарного обновления метаданных (указателя Accessible Range и счетчиков ThreadCount). Сами процессы записи данных и выполнения долгих поисковых запросов происходят без удержания глобальной блокировки.

Какова практическая польза этого патента для SEO-специалиста?

Прямой пользы для тактического SEO нет. Патент полезен для общего понимания того, как работает инфраструктура Google. Он подчеркивает, что Google инвестирует значительные ресурсы в обеспечение свежести данных и скорости работы, что косвенно подтверждает важность актуального контента и хорошей технической оптимизации для быстрой индексации.

Авторы патента — Джеффри Дин и Майкл Берроуз. О чем это говорит?

Это говорит о высокой значимости изобретения для инфраструктуры Google. Это ключевые инженеры Google, ответственные за разработку фундаментальных технологий хранения и обработки данных (например, BigTable, MapReduce). Их участие указывает на то, что описанные механизмы лежат в основе критически важных систем компании.

Как Google непрерывно обновляет индекс и удаляет старые данные, не замедляя работу поиска с помощью механизма «Эпох»

Google использует инфраструктурный механизм «Эпох» для обновления поискового индекса в реальном времени. Система отслеживает активные поисковые запросы и гарантирует, что устаревшие данные (например, старые версии документов) удаляются только тогда, когда ни один активный запрос их больше не использует. Это позволяет поддерживать максимальную свежесть индекса без прерывания обслуживания пользователей.

US7769792B1
2010-08-03

Индексация
Свежесть контента

Как Google непрерывно обновляет свой индекс и освобождает место, используя систему хранения "Treadmilling" (Беговая дорожка)

Анализ инфраструктурного патента Google, описывающего высокоэффективную систему управления хранилищем данных (Tokenspace Repository). Патент раскрывает механизм "Treadmilling", который позволяет Google постоянно обновлять документы в индексе и эффективно удалять старые версии, восстанавливая дисковое пространство без остановки обработки поисковых запросов. Это основа для обеспечения свежести и масштабируемости поиска.

US7617226B1
2009-11-10

Свежесть контента
Индексация
Техническое SEO

Как Google обновляет индекс визуального поиска в реальном времени, используя динамические и статические индексы

Патент Google, описывающий инфраструктуру визуального поиска (например, Google Images, Lens). Система использует два индекса: быстрый «Динамический индекс» для немедленного добавления новых изображений (несжатые данные) и основной «Статический индекс» (сжатый и распределенный по шардам) для масштабного поиска. Патент объясняет, как эти индексы периодически объединяются без прерывания работы системы.

US8898139B1
2014-11-25

Индексация
Свежесть контента
Мультимедиа

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности

Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.

US7702618B1
2010-04-20

Индексация
Техническое SEO
Свежесть контента

Как Google мгновенно обновляет права доступа к документам в индексе без полного переиндексирования (для корпоративного поиска)

Патент описывает инфраструктурный механизм для корпоративных поисковых систем (Search Appliances). Он позволяет мгновенно отражать изменения прав доступа к документам в поисковой выдаче, не дожидаясь полного переиндексирования. Система использует "отпечатки безопасности" для маркировки общедоступных документов и фильтрации результатов в реальном времени.

US8473480B1
2013-06-25

Индексация
Безопасный поиск
Свежесть контента

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя

Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.

US8909655B1
2014-12-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

US9275147B2
2016-03-01

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа