
Патент описывает систему для автоматического улучшения поисковых запросов в контексте юридического обнаружения (E-Discovery). Система использует обучающую выборку документов, размеченных юристами как релевантные/нерелевантные, для итеративного уточнения запроса (комбинации ключевых слов и булевых операторов), максимизируя количество найденных релевантных документов и минимизируя нерелевантные. Патент не относится к публичному веб-поиску.
Патент решает проблему высокой стоимости и трудоемкости процесса юридического электронного обнаружения (E-Discovery). В ходе судебных разбирательств стороны обязаны найти и предоставить все релевантные электронные документы (например, корпоративную переписку). Ручной просмотр всех документов крайне затратен, а стандартный поиск по ключевым словам часто неточен. Изобретение направлено на автоматическую генерацию высококачественных поисковых запросов, которые эффективно отфильтровывают закрытый корпус документов, сокращая объем ручной работы.
Запатентована система и метод для автоматического предложения и оптимизации поисковых запросов в контексте E-Discovery (litigation hold). Система использует методы контролируемого машинного обучения, опираясь на обучающую выборку документов (training set), размеченных вручную (например, юристами) как релевантные или нерелевантные. На основе этого набора данных система итеративно генерирует и тестирует варианты запросов (комбинации ключевых слов и булевых операторов), чтобы найти оптимальный запрос.
Система работает итеративно:
seed set). Результаты поиска просматриваются экспертами, которые помечают документы как релевантные или нет (relevance indicator), формируя training set.discriminatory power) терминов.neighboring queries), модифицируя текущий запрос путем добавления, удаления или изменения терминов и операторов (AND, OR, NOT) — процесс «расширения» (growing) и «сужения» (shrinking).Query Quality/Goodness), таких как Precision, Recall или F1 measure.Средняя. Описанные методы информационного поиска (IR) являются классическими и актуальными для ниши E-Discovery (например, в продуктах типа Google Vault). Однако патент не отражает архитектуру современного публичного веб-поиска Google, которая больше полагается на нейронные сети и векторные представления (embeddings), чем на генерацию явных булевых запросов, описанную здесь.
Влияние на SEO минимальное (1/10). Патент явно сфокусирован на E-Discovery и поиске в закрытом корпусе документов (например, внутренняя корпоративная почта). Он не описывает алгоритмы ранжирования публичного веб-индекса (Google.com) и не имеет прямого отношения к стратегиям SEO для веб-сайтов.
linear support vector machine (SVM)), обученная на размеченных данных для предсказания релевантности неразмеченных документов и определения весов (discriminatory power) ключевых слов.spatial proximity) двух ключевых слов. Примеры: window context (в пределах N слов), paragraph context (в одном абзаце), document context (в одном документе).point-wise mutual information (PMI), Jaccard coefficient, cosine similarity.mutual information) или веса классификатора.growing) или «сжатия» (shrinking) его терминов или добавления/удаления булевых операторов.Precision (Точность), Recall (Полнота) или F1 measure.Relevance Indicators. Используется для обучения системы и оценки качества запросов.Патент фокусируется на автоматизированном и итеративном процессе улучшения поисковых запросов на основе контролируемого обучения.
Claim 1, 13, 18 (Независимые пункты): Описывают основной итеративный процесс генерации оптимального запроса (алгоритм типа hill climbing).
training set документов с relevance indicators и исходный запрос (initial query).spatial proximity) между ключевыми словами исходного запроса и другими ключевыми словами в обучающем наборе.neighboring queries на основе этой пространственной близости.quality score) каждого соседнего запроса, и определяется запрос с наивысшим рейтингом (highest ranked neighboring query).quality score лучшего соседнего запроса не станет ниже, чем quality score текущего исходного запроса (т.е. улучшение прекратилось).Claim 9 (Зависимый): Уточняет метод генерации соседних запросов.
Генерация включает определение discriminatory power для набора ключевых слов и выбор дополнительных ключевых слов с более высокой discriminatory power для использования в соседних запросах.
Claim 14 и 19 (Зависимые): Уточняют метрики оценки качества.
Neighboring queries оцениваются на основе одной или нескольких метрик: Precision, Recall или F1 score.
Этот патент не описывает архитектуру публичного веб-поиска Google. Он описывает специализированный инструмент (например, Google Vault или аналогичные платформы E-Discovery), используемый в закрытой среде для анализа определенного корпуса документов (например, корпоративных данных).
INDEXING – Индексирование
Корпус документов должен быть предварительно проиндексирован, чтобы инструмент мог выполнять поиск и анализировать содержимое и признаки (ключевые слова, метаданные).
Процессы внутри инструмента (Мета-уровень)
Основное применение патента. Система не ранжирует веб-страницы для пользователей интернета. Вместо этого она выполняет мета-процесс: итеративно генерирует и тестирует различные формулировки запросов (Query Generation) на основе обучающей выборки, чтобы найти оптимальный запрос для аналитика. Это процесс оптимизации запроса, а не процесс ранжирования.
Входные данные:
Training set) с ручной разметкой (Relevance indicators).Seed keywords) или начальный запрос (Initial query).Выходные данные:
Discriminatory power.Патент влияет исключительно на процесс поиска в закрытых корпусах данных в контексте E-Discovery.
YMYL, e-commerce и т.д.).E-Discovery во время судебного разбирательства или внутреннего расследования.training set).Процесс А: Генерация ключевых слов (Keyword Generation)
seed set) и идентифицирует соответствующие документы.indication of relevance (вручную или предсказанные классификатором), формируя training set.discriminatory power ключевых слов (например, с помощью mutual information или SVM classifier).random walk.Процесс Б: Итеративная генерация запросов (Iterative Query Generation)
initial query).neighboring queries. Например, добавление нового слова через OR или AND, или удаление слова.training set (например, с помощью F1 score).base query).Патент фокусируется на использовании контролируемых данных в закрытом корпусе.
spatial proximity / co-occurrence context).Relevance Indicators. Это метки (релевантно/нерелевантно), предоставленные экспертами для training set.custodians).Mutual Information).SVM).PMI, Jaccard coefficient или cosine similarity.training set. Используются стандартные метрики IR: Precision (Точность).Recall (Полнота).training set — данных, вручную размеченных экспертами. Этот подход принципиально отличается от веб-поиска, который в основном использует неконтролируемые или слабо контролируемые методы и неявные сигналы.neighboring queries) и оцениваются по метрикам качества.Discriminatory Power и Co-occurrence Consistency, для определения важности ключевых слов и их взаимосвязей.E-E-A-T или методы обработки спама в интернете.ВАЖНО: Этот патент описывает инфраструктуру для специализированного юридического поиска (E-Discovery) и не дает практических рекомендаций для веб-SEO.
Патент не предоставляет применимых инсайтов или рекомендаций для оптимизации веб-сайтов под поисковую систему Google.
Патент не дает информации о неэффективных или опасных SEO-тактиках в контексте публичного веб-поиска.
Стратегическое значение для веб-SEO отсутствует. Патент подтверждает, что Google применяет классические методы информационного поиска (Information Retrieval) в своих корпоративных продуктах. Он демонстрирует техническую реализацию автоматизации сложных поисковых задач в закрытых средах, но не дает понимания приоритетов Google в отношении ранжирования веб-сайтов.
Практических примеров применения данного патента в SEO нет, так как он относится к другой области (юридическое электронное обнаружение). Ниже приведен пример, иллюстрирующий работу патента в его целевой области — E-Discovery.
Сценарий: Поиск документов по внутреннему расследованию
Initial Query): проект AND альфа.Discriminatory Power), а в нерелевантных — "кино".(проект AND альфа) AND бюджет(проект AND альфа) AND (бюджет OR сроки)(проект AND альфа) AND NOT киноОбъясняет ли этот патент, как Google ранжирует веб-страницы на Google.com?
Нет. Этот патент не имеет отношения к алгоритмам ранжирования публичного веб-поиска. Он описывает узкоспециализированную технологию для юридического электронного обнаружения (E-Discovery), предназначенную для поиска документов в закрытых системах (например, внутри корпоративной сети или в Google Vault).
Что такое E-Discovery и чем он отличается от веб-поиска?
E-Discovery — это юридический процесс сбора электронных доказательств для судебного разбирательства. В отличие от веб-поиска, который фокусируется на ранжировании публичных страниц, E-Discovery фокусируется на максимально полном и точном извлечении всех релевантных документов из определенного закрытого корпуса данных (например, почтовых ящиков сотрудников).
Используются ли описанные техники (например, «Discriminatory power») в веб-поиске?
Хотя концепции информационного поиска, такие как Discriminatory Power (различительная способность терминов) и метрики качества (F1 score, Precision, Recall), являются фундаментальными, данный патент описывает их применение только в контексте итеративной оптимизации булевых запросов для E-Discovery. Он не раскрывает, как именно эти метрики применяются в алгоритмах веб-ранжирования.
Что такое «обучающая выборка» (Training set) в контексте этого патента?
Это набор документов, которые были вручную просмотрены юристами или экспертами и помечены как релевантные или нерелевантные для конкретного дела. Эта разметка служит эталоном (ground truth), позволяя системе машинного обучения понять, какие характеристики присущи релевантным документам.
Что означает «итеративная оптимизация запроса», описанная в FIG. 6?
Это процесс постепенного улучшения запроса (алгоритм типа Hill Climbing). Система начинает с базового запроса, создает его вариации (добавляя или удаляя слова/операторы), тестирует, какая вариация работает лучше всего на training set, и затем использует эту лучшую вариацию как основу для следующего раунда модификаций. Процесс повторяется, пока качество не перестанет расти.
Связан ли этот патент с E-E-A-T или PageRank?
Нет. Патент полностью сосредоточен на анализе текста и метаданных внутри закрытого корпуса документов для задачи E-Discovery. Факторы авторитетности сайта (E-E-A-T) или ссылочный профиль (PageRank) здесь не применяются.
Что такое «анализ совместной встречаемости» (Co-occurrence analysis), описанный в патенте?
Это анализ того, как часто определенные слова появляются вместе в заданном контексте (например, в одном предложении или документе). Если слово часто встречается рядом с уже известным релевантным ключевым словом, система может предположить, что это новое слово также является индикатором релевантности и предложить добавить его в запрос.
Что такое «соседние запросы» (Neighboring queries)?
Это запросы, которые немного отличаются от текущего запроса. Например, если базовый запрос — (A AND B), соседними могут быть (A AND B) OR C (рост/growing) или просто A (сжатие/shrinking). Система генерирует их, чтобы проверить, улучшат ли эти небольшие изменения качество поиска.
Почему влияние этого патента на SEO оценено так низко?
Оценка низкая, потому что технология предназначена для совершенно другой среды (юридический поиск в закрытых данных) и решает другие задачи (максимизация полноты извлечения с помощью булевых запросов), чем веб-поиск (ранжирование публичных веб-страниц с помощью нейронных сетей). Патент не дает никаких прикладных знаний для SEO-специалистов.
Какова основная ценность этого патента для SEO-специалиста?
Основная ценность заключается в четком понимании того, что этот патент НЕ относится к веб-поиску. Он служит примером того, как Google решает специфические задачи информационного поиска в корпоративной среде, используя методы (контролируемое обучение, булевы запросы), которые сильно отличаются от алгоритмов, используемых в Google Search.

Семантика и интент


Персонализация
Поведенческие сигналы
SERP

SERP

EEAT и качество
Ссылки
SERP

Поведенческие сигналы
Семантика и интент
SERP

Антиспам
Ссылки
SERP

Персонализация
Семантика и интент
Local SEO

Семантика и интент
SERP
Персонализация

Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Индексация
Мультимедиа

EEAT и качество
Семантика и интент

Мультиязычность
Семантика и интент
Ссылки
