
Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов путем удаления префиксов, являющихся стоп-словами (например, артиклей в арабском языке), используя статистические черные списки для предотвращения ошибок. Оба варианта сохраняются в индексе.
Патент решает проблему эффективности и полноты поиска (Recall). Традиционное расширение запросов синонимами (query expansion) происходит в момент получения запроса, что увеличивает нагрузку и время ответа. Патент предлагает перенести часть генерации синонимов на этап индексации (index-side synonym generation), чтобы ускорить обработку запросов. Конкретно решаются две задачи: улучшение поиска по буквенно-числовым идентификаторам (например, номерам моделей, SKU) и улучшение обработки языков, где стоп-слова часто являются префиксами (например, арабский).
Запатентована система, которая дополняет поисковый индекс синонимами во время индексации ресурсов. Система реализует два ключевых механизма: 1) Извлечение числовых частей (numeric portions) из буквенно-числовых токенов. 2) Нормализация токенов путем удаления префиксов-стоп-слов (stopword prefixes), используя черный список (blacklist) для предотвращения ошибок нормализации. В обоих случаях в индекс добавляется и исходный токен, и его вариант.
Система работает на этапе индексации с помощью Index Augmentation Module:
blacklist. Если токен не в списке, префикс удаляется, и нормализованная форма (normalized form) сохраняется в индексе вместе с оригиналом.Query Modification Engine дополняет его так, чтобы он соответствовал предварительно рассчитанным вариантам в индексе. Например, запрос «42 PC» может быть расширен до «(42 ИЛИ вариант_42) PC».Средняя/Высокая. Принципы обработки данных на стороне индекса критически важны для эффективности современных поисковых систем. Механизм извлечения чисел остается высокоактуальным для e-commerce и технических тематик (поиск по SKU, номерам деталей). Обработка стоп-слов префиксов необходима для таких языков, как арабский и иврит. Хотя современные векторные методы (embeddings) могут частично заменять прямую нормализацию, базовые лингвистические правила и повышение эффективности за счет предварительной обработки остаются актуальными.
Патент имеет умеренное значение (6/10) для SEO. Он не описывает алгоритмы ранжирования, но дает глубокое понимание процессов индексации и нормализации. Это критически важно для International SEO (особенно для рынков Ближнего Востока) и для сайтов с большим количеством технических идентификаторов (e-commerce, каталоги). Патент объясняет, как Google может связать различные написания номеров моделей или нормализовать ключевые слова, игнорируя артикли и предлоги.
stopword prefix, но в контексте данного слова этот префикс не является стоп-словом. Используется для предотвращения ошибочной нормализации.stopword prefix.Blacklist.Патент содержит три основных независимых блока утверждений, описывающих три разных аспекта изобретения: извлечение чисел, нормализацию префиксов и генерацию черного списка.
Claim 1 (Независимый пункт): Извлечение чисел. Описывает метод обработки буквенно-числовых токенов.
numeric portion) и нечисловой части (non-numeric portion).augmenting) запрос новым токеном, который будет соответствовать извлеченной числовой части, если она совпадает с числом в запросе.Claim 7 (Зависимый от 1): Уточняет ранжирование. Новому (добавленному) токену присваивается вес так, чтобы ресурсы, соответствующие исходному числовому токену в запросе, ранжировались выше (weighted more highly), чем ресурсы, соответствующие только новому токену.
Claim 8 (Независимый пункт): Нормализация префиксов-стоп-слов. Описывает метод обработки слов в языках с префиксами-стоп-словами.
Blacklist.stopword prefix.Blacklist.normalized form путем удаления этого префикса.Claim 15 (Независимый пункт): Генерация черного списка. Описывает статистический метод создания Blacklist.
stopword prefixes (включая составные).Training Dataset), включая частотность полных и частично нормализованных форм.whole token), если его частота выше порога и он имеет stopword prefix.Blacklist, ЕСЛИ (i) нормализованный токен не имеет других stopword prefix И (ii) соотношение частоты нормализованного токена к частоте полного токена ниже порогового значения.Это правило определяет, что если нормализованная форма встречается значительно реже, чем полная форма, то префикс является неотъемлемой частью слова, и его нельзя удалять.
Изобретение применяется в основном на этапе индексирования и влияет на этап понимания запросов.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются данные (ресурсы), которые служат входными данными для Training Dataset, используемого для генерации Blacklist.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Index Augmentation Module работает во время токенизации и анализа контента.
numeric portions, и они добавляются в индекс как синонимы.stopword prefixes и Blacklist. Нормализованные формы генерируются и добавляются в индекс как синонимы.Blacklist происходит как отдельный офлайн-процесс анализа корпуса текстов (Training Dataset).QUNDERSTANDING – Понимание Запросов
На этом этапе Query Modification Engine изменяет запрос пользователя, чтобы он соответствовал дополненному индексу. Запрос дополняется числовыми вариантами или нормализованными формами токенов запроса.
RANKING – Ранжирование
Система ранжирования использует дополненный запрос для поиска в дополненном индексе. Система назначает веса (weights) токенам в дополненном запросе, чтобы ресурсы, соответствующие исходному запросу, ранжировались выше, чем ресурсы, соответствующие только синонимам (Claim 7, 14).
Входные данные:
stopword prefixes.Blacklist токенов.Training Dataset (для генерации Blacklist).Выходные данные:
Алгоритмы применяются при выполнении специфических условий во время индексации:
non-numeric character).stopword prefixes И токен отсутствует в Blacklist.Система реализует три основных процесса.
Процесс А: Извлечение числовых частей
Этап Индексации:
Этап Обработки Запроса:
Процесс Б: Нормализация префиксов-стоп-слов
Этап Индексации:
Blacklist.stopword prefix, проверяется его отсутствие в Blacklist.Этап Обработки Запроса:
Blacklist.Процесс В: Генерация Blacklist (Офлайн)
Часть 1: Создание набора данных токенов (Token Dataset)
Training Dataset для сбора токенов и их частот.compound) или одиночным (single) stopword prefix.Token Dataset.Token Dataset.Часть 2: Генерация Blacklist из Token Dataset
whole token) из Token Dataset, частота которого выше порога и который имеет stopword prefix.stopword prefix. Blacklist.Blacklist.Патент фокусируется на обработке символьных данных и использовании статистической информации.
stopword prefixes (одиночных и составных) для целевого языка.frequency of occurrence) в большом корпусе текстов (Training Dataset).Blacklist.Blacklist для отбора только часто встречающихся слов в языке.Blacklist. Рассчитывается как: . Если Ratio ниже определенного порога, считается, что префикс является неотъемлемой частью слова.stopword prefixes не является простым удалением. Она использует статистически сгенерированные Blacklist для предотвращения ошибок, когда префикс является частью корня слова.Blacklist основана на анализе частотности слов в реальном корпусе текстов, что позволяет системе адаптироваться к живому языку и выявлять исключения из правил.Blacklist опирается на частотный анализ, поэтому общепринятое написание гарантирует корректную обработку.stopword prefixes не имеет смысла в языках, где этот механизм активен, так как они будут нормализованы к единой форме на этапе индексации.Этот патент демонстрирует глубину и сложность этапа индексации Google. Для Senior SEO-специалистов важно понимать, что индексация — это не простое сохранение текста, а сложный процесс нормализации и извлечения признаков. Стратегии, основанные на использовании технических идентификаторов или продвижении на рынках с языками, имеющими сложную морфологию, должны учитывать эти механизмы предварительной обработки. Это также подчеркивает важность статистического анализа данных для принятия решений в SEO, отражая то, как Google использует частотный анализ для построения своих лингвистических моделей.
Сценарий 1: Поиск батареи для ноутбука (Извлечение чисел)
Сценарий 2: Поиск на арабском языке (Нормализация префиксов)
Blacklist. Если слова там нет, система удаляет префикс «ال» и получает нормализованную форму «مستقبل» (Mustaqbal). В индекс попадают оба варианта.Что означает «Генерация синонимов на стороне индекса» и зачем это нужно Google?
Это означает, что Google предварительно вычисляет и сохраняет варианты (синонимы) слов непосредственно при индексации документа. Это делается для повышения эффективности: обработка синонимов во время выполнения запроса пользователя требует больших ресурсов и времени. Выполняя эту работу заранее, Google может быстрее находить релевантные документы.
Как механизм извлечения чисел влияет на SEO для E-commerce?
Он оказывает значительное влияние на поиск по артикулам, SKU и номерам моделей. Google может извлечь число из буквенно-числового идентификатора (например, «1080» из «GTX1080Ti») и использовать его для поиска. Это означает, что ваш товар может быть найден, даже если пользователь вводит запрос с другим форматированием или только числовую часть модели.
Что такое префиксы-стоп-слова и для каких языков это актуально?
Это стоп-слова (артикли, предлоги, союзы), которые в некоторых языках присоединяются к началу слова, а не пишутся отдельно. Например, артикль «the» в английском — отдельное слово, а в арабском («ال») — префикс. Этот механизм критически актуален для таких языков, как арабский и иврит.
Зачем нужен Blacklist при нормализации стоп-слов?
Blacklist необходим для предотвращения ошибок нормализации. Некоторые слова могут начинаться с последовательности символов, которая выглядит как стоп-слово, но на самом деле является частью корня. Если бы мы предположили, что «but» — это префикс-стоп-слово в английском, без Blacklist слово «butterfly» было бы нормализовано до «terfly». Blacklist содержит исключения (например, «butterfly»), которые нельзя нормализовать.
Как Google определяет, какие слова добавить в Blacklist?
Google использует статистический анализ большого корпуса текстов (Training Dataset). Основной метод — сравнение частотности полного слова и его нормализованной формы. Если нормализованная форма встречается значительно реже, чем полная (соотношение частот ниже порога), это сигнализирует о том, что префикс является частью слова, и полное слово добавляется в Blacklist.
Если Google сохраняет синонимы в индексе, значит ли это, что точное соответствие запросу теряет важность?
Нет. Патент (Claim 7 и 14) явно указывает, что система назначает веса (weights) различным токенам в модифицированном запросе. Вес исходного токена запроса устанавливается выше, чем вес добавленного синонима (извлеченного числа или нормализованной формы). Это гарантирует, что документы с точным соответствием будут ранжироваться выше.
Применяются ли эти механизмы ко всем токенам во время индексации?
Нет, они применяются выборочно. Извлечение чисел применяется только к буквенно-числовым токенам. Нормализация префиксов применяется только в соответствующих языках, только если токен начинается со stopword prefix, и только если токен не находится в Blacklist.
Может ли система извлечь несколько чисел из одного токена?
Да, патент предусматривает такую возможность. Если токен выглядит как «e42PC148x9», система может извлечь «42», «148» и «9» как отдельные числовые части и связать их все с документом в индексе.
Как этот патент соотносится с современными методами NLP, такими как BERT или MUM?
Этот патент описывает более ранние, основанные на правилах и статистике методы нормализации и синонимизации. Современные модели (BERT, MUM) понимают контекст и семантику на более глубоком уровне, используя векторные представления (embeddings), что может снижать потребность в явной генерации синонимов. Однако подобные механизмы предварительной обработки все еще могут использоваться для повышения эффективности и обработки очевидных случаев (например, технических идентификаторов) до применения тяжелых нейронных сетей.
Стоит ли изменять форматирование артикулов на сайте, основываясь на этом патенте?
Не обязательно изменять существующее форматирование, но критически важно обеспечить его консистентность и доступность в виде текста. Главный вывод — не нужно беспокоиться о пробелах или дефисах внутри артикулов так сильно, как о наличии правильного числового идентификатора. Google, вероятно, сможет извлечь его и сопоставить с запросом пользователя независимо от форматирования.

Индексация

Семантика и интент

Семантика и интент
SERP

Индексация


Антиспам
SERP
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
Поведенческие сигналы
Персонализация

EEAT и качество
Ссылки
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Ссылки
SERP

EEAT и качество
SERP
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
Семантика и интент
Индексация
