Как Google эффективно сопоставляет запросы с большими архивами документов с помощью FIFO-буферов и параллельной обработки

METHOD AND SYSTEM FOR MATCHING QUERIES TO DOCUMENTS (Метод и система для сопоставления запросов с документами)

US8732158B1
Google LLC
2012-05-09
2014-05-20

Google использует инфраструктурный метод для высокоскоростного поиска точных совпадений в больших коллекциях документов. Запросы и документы токенизируются, а затем система использует FIFO-буфер (скользящее окно) для последовательного сравнения токенов. Это позволяет эффективно масштабировать обработку данных в распределенной среде.

Какую проблему решает

Патент решает проблему высокой вычислительной нагрузки и временных затрат при анализе огромных коллекций документов (например, корпоративных архивов, системных логов, данных для e-discovery) на предмет наличия множества заданных терминов или выражений. Изобретение направлено на повышение эффективности и масштабируемости процесса точного сопоставления (exact matching) в условиях больших данных и распределенных систем.

Что запатентовано

Запатентованы метод и система для высокоэффективного сопоставления запросов с документами. Ключевой механизм включает унифицированную токенизацию и использование буфера, работающего по принципу First-In-First-Out (FIFO), для сравнения последовательностей токенов методом «скользящего окна». Также защищен механизм параллельной обработки с асинхронным обновлением статистики совпадений (например, $Matches(ANY)$ ) в глобальной памяти (global memory).

Как это работает

Система работает следующим образом:

Унифицированная токенизация: Запросы и документы обрабатываются с использованием единых правил (Tokenizing Rules) для создания упорядоченных последовательностей токенов, игнорируя незначимые элементы (теги, пунктуацию).
Конфигурация буфера: Для текущего запроса настраивается FIFO-буфер, размер которого равен длине запроса в токенах.
Потоковая обработка («Скользящее окно»): Токены документа последовательно подаются в FIFO-буфер. При переполнении самый старый токен удаляется.
Сравнение: На каждом шаге, когда буфер заполнен, его содержимое (текущая подпоследовательность документа) сравнивается с токенами запроса.
Масштабируемость: Процесс выполняется параллельно несколькими процессами (Tasks), которые асинхронно обновляют общую статистику.

Актуальность для SEO

Высокая (с точки зрения инфраструктуры). Эффективная обработка массивных наборов данных остается фундаментальной задачей для любой системы анализа данных. Использование FIFO-буфера для сравнения последовательностей является стандартной и высокоэффективной техникой для задач точного сопоставления строк в распределенных средах.

Важность для SEO

Минимальное/Инфраструктура (1/10). Патент описывает внутренние, низкоуровневые процессы оптимизации вычислений. Он не касается алгоритмов ранжирования, оценки качества контента (E-E-A-T), понимания намерений пользователя или каких-либо сигналов, используемых для SEO. Это чисто технический патент об эффективности обработки данных.

Термины и определения

Token (Токен): Единица данных (слово, символ), полученная в результате токенизации запроса или документа.
Tokenizing Rules (Правила токенизации): Конфигурируемые правила, определяющие, как генерируются токены. Например, правила для игнорирования пробелов, пунктуации или HTML-тегов.
FIFO Buffer (FIFO-буфер): Буфер, работающий по принципу "First-In-First-Out" (первым пришел — первым ушел). Используется для хранения подпоследовательности токенов документа (Document Token Buffer) и реализации механизма "скользящего окна".
Global Memory (Глобальная память): Область памяти, доступная различным параллельным процессам для асинхронного обновления статистики совпадений.
Matches(ANY), Matches(ALL), Matches(i): Статистические показатели, собираемые для документа. Указывают, соответствует ли документ хотя бы одному запросу ( $ANY$ ), всем запросам ( $ALL$ ) или конкретному запросу 'i'.
Tasks / Processes (Задачи / Процессы): Параллельно выполняемые экземпляры обработки документов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс сопоставления и его выполнение в распределенной среде.

(a-b) Токенизация запросов и документов.
(c-d) Выбор упорядоченных последовательностей токенов документа и запроса.
(e) Конфигурирование буфера для хранения подпоследовательности токенов документа.
(f) Сравнение токенов запроса с последовательными подпоследовательностями (successive subsequences) токенов документа в буфере. Длина подпоследовательности и запроса в токенах одинаковы.
(g) Определение результата совпадения (match result).
(h) Обновление статистики на основе результата. Ключевой аспект: статистики хранятся в Global Memory и обновляются асинхронно двумя или более процессами, выполняющими шаги (a)-(g). Результаты этих параллельных процессов комбинируются.

Пункт (h) определяет архитектуру системы как распределенную и параллельную, что критично для масштабируемости.

Claim 2 (Зависимый от 1): Уточняет конфигурацию буфера.

Буфер конфигурируется как first-in-first-out (FIFO) buffer. Его размер равен количеству токенов в выбранном запросе.

Claim 3 и 4 (Зависимые): Детализируют механизм сравнения и «скользящего окна».

Токены документа последовательно вводятся в FIFO-буфер. При каждом вводе токена происходит сравнение. Процесс ввода включает удаление самого раннего введенного токена (earliest input token). Это обеспечивает эффективное перемещение окна сравнения по документу за один проход.

Где и как применяется

Патент описывает инфраструктурный механизм, применяемый на этапах, где требуется эффективное и точное сопоставление строк в больших масштабах.

INDEXING – Индексирование и извлечение признаков
На этом этапе эффективные механизмы сопоставления могут использоваться во время извлечения признаков (Feature Extraction) для быстрой идентификации конкретных фраз, паттернов или сущностей в документе. Также это применимо для анализа больших архивов (логи, email), как указано в патенте.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
На этапе первичного отбора система может использовать этот механизм для быстрого поиска точных совпадений (exact match) запроса в индексе, чтобы сформировать первоначальный набор документов-кандидатов.

Входные данные:

Сырые документы (Documents).
Запросы (Queries).
Правила токенизации (Tokenizing Rules).

Выходные данные:

Результаты сопоставления (Match result) — булево значение (совпало/не совпало).
Статистика соответствий: $Matches(ANY)$ , $Matches(ALL)$ , $Matches(i)$ .

На что влияет

Алгоритм влияет исключительно на скорость, вычислительную эффективность и масштабируемость обработки данных. Это универсальный метод сопоставления строк, который не зависит от типов контента, специфики запросов, ниш, тематик, языковых или географических особенностей.

Когда применяется

Алгоритм применяется, когда системе необходимо проверить, содержит ли документ точную упорядоченную последовательность токенов, соответствующую запросу. Это базовая операция при обработке поисковых запросов или анализе данных в распределенных системах (например, e-discovery).

Пошаговый алгоритм

Описание процесса сопоставления одного запроса с одним документом (детализация механизма FIFO).

Инициализация:
- Конфигурируется буфер для хранения токенов текущего запроса (Query Token Buffer).
- Инициализируется FIFO-буфер для токенов документа (Document Token Buffer). Его размер устанавливается равным длине запроса в токенах.
Подача токена: Следующий токен из упорядоченной последовательности токенов документа добавляется в FIFO-буфер.
Управление размером (FIFO): Проверяется размер FIFO-буфера. Если он превышает длину запроса, самый старый (первый введенный) токен удаляется. Это реализует "скольжение окна".
Проверка готовности к сравнению: Проверяется, равен ли текущий размер FIFO-буфера длине запроса.
- Если НЕТ: Перейти к шагу 2 (если токены еще есть).
- Если ДА: Перейти к шагу 5.
Сравнение: Содержимое FIFO-буфера сравнивается с буфером токенов запроса (точное сравнение последовательности).
Определение результата:
- Если совпадение найдено: Фиксируется результат "Match found". Процесс может остановиться или продолжиться для поиска других вхождений.
- Если совпадения нет: Проверяется наличие следующих токенов в документе. Если токены есть, возврат к шагу 2. Если токенов нет, фиксируется результат "No match".

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на механизме сопоставления и использует минимальный набор данных:

Контентные факторы: Используется сырой текст запросов и документов в качестве входных данных для токенизации.
Структурные и Технические факторы: Tokenizing Rules (Правила токенизации). Эти правила определяют, как система обрабатывает специальные элементы контента. В патенте упоминается возможность игнорирования:
- HTML или других форматирующих тегов.
- Пробелов (white space).
- Пунктуации (punctuation).

Патент не упоминает использование ссылочных, поведенческих, временных, географических или пользовательских факторов.

Какие метрики используются и как они считаются

Длина запроса (в токенах): Используется для конфигурации размера FIFO-буфера.
Результат сравнения (Boolean): Определяется путем точного сравнения двух буферов одинаковой длины (Claim 5: comparing two buffers of a same dimension).
Статистика соответствий: Метрики обновляются асинхронно в Global Memory для каждого документа:
- $Matches(ANY)$ : Устанавливается в TRUE, если хотя бы один запрос совпал.
- $Matches(ALL)$ : Устанавливается в FALSE, если хотя бы один запрос не совпал (инициализируется в TRUE).
- $Matches(i)$ : Устанавливается в TRUE, если запрос 'i' совпал.
Методы анализа текста: Используется базовая токенизация с фильтрацией. Сложные NLP или ML методы не применяются.

Патент является чисто инфраструктурным и не дает практических выводов для SEO-стратегии. Он описывает внутренние механизмы повышения эффективности работы системы.

Фокус на эффективности и масштабируемости: Основная цель изобретения — предоставить быстрый и масштабируемый метод для точного сопоставления (exact match) множества запросов в большом количестве документов. Это патент об оптимизации вычислений, а не о ранжировании.
Механизм FIFO-буфера: FIFO-буфер является центральным техническим элементом, позволяющим реализовать эффективное сравнение по типу "скользящего окна", минимизируя накладные расходы при потоковой обработке документа за один проход.
Ориентация на параллельную обработку: Система спроектирована для работы в распределенных вычислительных средах. Это подтверждается механизмом асинхронного сбора статистики в Global Memory (Claim 1h).
Универсальная токенизация: Патент подчеркивает важность применения единых Tokenizing Rules как к запросам, так и к документам для обеспечения консистентности сопоставления и фильтрации шума (теги, пунктуация).
Отсутствие связи с качеством поиска: Патент не содержит информации о том, как результаты сопоставления используются для ранжирования, оценки качества или релевантности. Он решает задачу бинарного определения наличия совпадения.

ВАЖНО: Патент является инфраструктурным и не дает практических выводов для SEO-стратегий, направленных на улучшение ранжирования.

Best practices (это мы делаем)

Практических рекомендаций по SEO (контентных, ссылочных или технических), основанных на механизмах этого патента, нет. Он описывает низкоуровневую механику поиска точных совпадений строк.

Worst practices (это делать не надо)

Попытки манипуляции токенизацией: Хотя это не является основной темой патента, описанный механизм токенизации (FIG. 5) подразумевает, что вставка невидимых символов, избыточных тегов или пунктуации между словами ключевой фразы будет неэффективной. Tokenizing Rules предназначены для игнорирования таких элементов и восстановления базовой последовательности токенов.

Стратегическое значение

Стратегическое значение для SEO отсутствует. Патент имеет значение для инженеров, занимающихся разработкой систем обработки больших данных (Big Data) и инфраструктуры поисковых движков. Он подтверждает необходимость использования высокоэффективных алгоритмов для выполнения базовых операций в масштабах интернета, но не влияет на долгосрочную SEO-стратегию.

Практические примеры

Практических примеров для SEO нет.

Описывает ли этот патент новые факторы ранжирования или сигналы качества?

Нет. Патент фокусируется исключительно на вычислительной эффективности процесса сопоставления запросов и документов. Он не вводит новых сигналов ранжирования, не касается E-E-A-T и не описывает, как результаты сопоставления влияют на позицию документа в выдаче.

Что такое FIFO-буфер и как он помогает в поиске?

FIFO (First-In-First-Out) — это структура данных, работающая по принципу очереди. В данном патенте FIFO-буфер используется для реализации механизма "скользящего окна". Он хранит текущий фрагмент документа, равный длине запроса, и позволяет эффективно сравнивать запрос с каждым участком документа по мере его потоковой обработки за один проход.

Как система обрабатывает HTML-теги, пунктуацию и пробелы?

Система использует конфигурируемые правила токенизации (Tokenizing Rules). В патенте явно упоминается возможность настройки этих правил таким образом, чтобы игнорировать HTML-теги, пунктуацию и пробелы при генерации токенов. Это гарантирует, что сравнение происходит на уровне значимых терминов.

Может ли этот механизм использоваться для поиска неточных или семантических совпадений?

Нет. Механизм, описанный в патенте, предназначен исключительно для поиска точного совпадения (exact match) упорядоченной последовательности токенов. Он не учитывает синонимы, семантическую близость (как BERT или MUM), морфологию или нечеткие совпадения (fuzzy matching).

Что означают статистики Matches(ANY) и Matches(ALL)?

Это показатели для агрегированного анализа. $Matches(ANY)$ указывает, что документ содержит хотя бы одно из искомых выражений. $Matches(ALL)$ указывает, что документ содержит все искомые выражения. Это часто используется в системах анализа данных и eDiscovery.

Что означает "асинхронное обновление статистики в глобальной памяти" (Claim 1h)?

Это указывает на то, что система спроектирована для параллельной работы в распределенной среде. Множество процессов могут одновременно анализировать разные документы и независимо друг от друга обновлять общую статистику в общей памяти (Global Memory) без ожидания и блокировок, что критично для масштабируемости.

Где именно в архитектуре поиска Google может применяться этот алгоритм?

Этот алгоритм применяется на низком уровне инфраструктуры. Вероятнее всего, он используется на этапах, требующих массовой обработки текста, таких как индексирование (во время извлечения признаков) или первичный отбор кандидатов (L1 Retrieval), для быстрого выполнения базовых операций сопоставления.

Означает ли этот патент, что Google ищет только точные вхождения ключевых слов?

Нет. Этот патент описывает лишь один из множества инструментов, предназначенный для эффективного выполнения конкретной задачи — точного сопоставления. Современный поиск Google использует сложные NLP-модели для глубокого семантического понимания контента, выходя далеко за рамки точных совпадений.

Какова основная ценность этого изобретения для Google?

Основная ценность заключается в экономии вычислительных ресурсов и времени. Эффективный алгоритм позволяет обрабатывать петабайты данных быстрее и дешевле, что критически важно для инфраструктуры Google.

Как SEO-специалисту использовать информацию из этого патента в своей работе?

Информация из этого патента не имеет прямого практического применения в повседневной работе SEO-специалиста. Она дает общее представление о том, как решаются инфраструктурные задачи в поисковых системах, но не предлагает actionable insights для оптимизации сайтов или влияния на ранжирование.

Как Google непрерывно обновляет свой индекс и освобождает место, используя систему хранения "Treadmilling" (Беговая дорожка)

Анализ инфраструктурного патента Google, описывающего высокоэффективную систему управления хранилищем данных (Tokenspace Repository). Патент раскрывает механизм "Treadmilling", который позволяет Google постоянно обновлять документы в индексе и эффективно удалять старые версии, восстанавливая дисковое пространство без остановки обработки поисковых запросов. Это основа для обеспечения свежести и масштабируемости поиска.

US7617226B1
2009-11-10

Свежесть контента
Индексация
Техническое SEO

Как Google эффективно извлекает Топ-N результатов с помощью итеративного битового поиска по ранжирующим оценкам

Патент Google, описывающий инфраструктурный механизм для повышения эффективности поиска. Система использует итеративный битовый поиск по атрибутам документов (Sort Keys), таким как качество или дата, чтобы быстро найти заданное количество результатов (Топ-N). Это позволяет избежать полного сканирования и сортировки всех релевантных документов, оптимизируя скорость извлечения данных.

US10235432B1
2019-03-19

SERP
Свежесть контента
Индексация

Как Google непрерывно обновляет индекс и удаляет старые данные, не замедляя работу поиска с помощью механизма «Эпох»

Google использует инфраструктурный механизм «Эпох» для обновления поискового индекса в реальном времени. Система отслеживает активные поисковые запросы и гарантирует, что устаревшие данные (например, старые версии документов) удаляются только тогда, когда ни один активный запрос их больше не использует. Это позволяет поддерживать максимальную свежесть индекса без прерывания обслуживания пользователей.

US7769792B1
2010-08-03

Индексация
Свежесть контента

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба

Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.

US8131751B1
2012-03-06

Индексация

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

US8407239B2
2013-03-26

Семантика и интент

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента

Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.

US8892549B1
2014-11-18

EEAT и качество
Семантика и интент

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

US20140188927A1
2014-07-03

Персонализация
SERP
Ссылки

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы