Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет, какие стоп-слова (a, the, in) важны для понимания запроса, а какие можно игнорировать

    LOCATING MEANINGFUL STOPWORDS OR STOP-PHRASES IN KEYWORD-BASED RETRIEVAL SYSTEMS (Поиск значимых стоп-слов или стоп-фраз в системах поиска на основе ключевых слов)
    • US10452718B1
    • Google LLC
    • 2019-10-22
    • 2004-03-31
    2004 Paul Haahr SERP Simon Tong Патенты Google Семантика и интент

    Google использует систему для анализа контекста запроса, чтобы определить, являются ли стоп-слова (или фразы) значимыми. Система сравнивает результаты поиска или релевантные категории для запроса со стоп-словом и без него. Если результаты сильно различаются, стоп-слово сохраняется в запросе для более точного поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности в системах поиска, которые традиционно игнорируют часто встречающиеся слова (stopwords) или фразы (stop-phrases), такие как «a», «the», «show me». Хотя эти слова часто не несут смысловой нагрузки, иногда они критически важны для понимания интента (например, в запросе «the matrix» слово «the» отличает фильм от математического термина). Изобретение устраняет риск потери точности из-за слепого удаления стоп-слов, предлагая механизм их контекстуальной оценки.

    Что запатентовано

    Запатентована система (Stopword Detection Component), которая определяет значимость потенциальных стоп-слов в контексте конкретного запроса перед его выполнением. Система генерирует «контекстные данные» (Context Data) для разных версий запроса (со стоп-словом и без него) и сравнивает их. Если контекстные данные существенно различаются, стоп-слово признается значимым и сохраняется; в противном случае оно игнорируется.

    Как это работает

    Механизм работает следующим образом:

    • Идентификация: Система парсит запрос и выявляет потенциальные стоп-слова, сверяясь со списком (Stopword List).
    • Генерация вариантов: Создаются варианты запроса: один с включением стоп-слов (S+), другой без них (S-), или несколько вариантов с разными комбинациями.
    • Генерация контекста: Для каждого варианта генерируются Context Data. Это могут быть либо результаты поиска из индекса, либо (что подчеркивается в патенте) список релевантных категорий из таксономии (taxonomy of categories).
    • Сравнение: Система сравнивает наборы Context Data.
    • Решение: Если наборы «существенно похожи» (substantially similar), стоп-слово игнорируется. Если они различны, стоп-слово считается значимым и включается в финальный поисковый запрос.

    Актуальность для SEO

    Высокая. Точное понимание запросов является центральной задачей современных поисковых систем. С развитием NLP и моделей, таких как BERT и MUM, интерпретация роли каждого слова в запросе, включая стоп-слова, критически важна для обеспечения высокой точности и релевантности выдачи. Этот патент описывает базовый механизм контекстуальной оценки слов.

    Важность для SEO

    Влияние на SEO значительно (7.5/10). Патент напрямую касается этапа понимания запроса (Query Understanding). Он влияет на то, как Google интерпретирует запросы, содержащие общие слова, что особенно важно для брендовых запросов, названий продуктов, фильмов, книг и точных фраз. Это подчеркивает, что SEO-специалистам необходимо фокусироваться на естественном языке и контексте, а не на механическом использовании ключевых слов.

    Детальный разбор

    Термины и определения

    Stopword / Stop-phrase (Стоп-слово / Стоп-фраза)
    Слова или фразы, которые часто встречаются и обычно не связаны с искомой информацией (например, «a», «the», «in», «show me»). В контексте патента они рассматриваются как потенциальные стоп-слова, пока их значимость не будет оценена.
    Stopword List (Список стоп-слов)
    Предварительно составленный список потенциальных стоп-слов. Может быть создан вручную или автоматически, например, на основе низкой обратной частоты документа (IDF).
    Stopword Detection Component (Компонент обнаружения стоп-слов)
    Основная система, описанная в патенте, которая оценивает значимость стоп-слов в запросе.
    Context Data (Контекстные данные)
    Информация, генерируемая для оценки влияния стоп-слова на смысл запроса. Патент описывает два типа: (1) Набор документов, полученных в результате поиска; (2) Список релевантных категорий.
    Substantially Similar (Существенно похожи)
    Метрика сравнения двух наборов Context Data. Если разница между наборами мала, они считаются существенно похожими, что указывает на незначимость стоп-слова.
    Context Generation Component (Компонент генерации контекста)
    Система, которая принимает запрос и возвращает Context Data. Может включать поисковый компонент и индекс документов или генератор категорий и базу данных категорий.
    Category Database / Taxonomy of Categories (База данных категорий / Таксономия)
    Хранилище категорий и их описательной информации (category descriptive information). Используется для определения релевантных тем запроса.
    Relevance Scores (Оценки релевантности)
    Числовые значения, указывающие степень релевантности категории запросу. Используются для взвешенного сравнения списков категорий.

    Ключевые утверждения (Анализ Claims)

    Формула изобретения в данном патенте (который является продолжением более ранних заявок) сфокусирована конкретно на использовании категорий для определения значимости стоп-слов.

    Claim 1 (Независимый пункт): Описывает метод определения значимости стоп-слова с использованием таксономии.

    1. Система получает запрос с несколькими терминами.
    2. Идентифицируется потенциальное стоп-слово (potential stopword).
    3. Определяется релевантная категория из хранимой taxonomy of categories путем сравнения запроса (включающего стоп-слово) с описательной информацией категории.
    4. На основе этой релевантной категории система определяет, является ли потенциальное стоп-слово фактическим стоп-словом (actual stopword).
    5. Если определено, что оно НЕ является фактическим стоп-словом (т.е. оно значимо), оно классифицируется соответствующим образом.
    6. В ответ на получение запроса и классификацию слова как значимого, система выполняет поиск, который ВКЛЮЧАЕТ это потенциальное стоп-слово.
    7. Представляются результаты этого поиска.

    Claim 2 (Зависимый от 1): Уточняет критерий значимости.

    Потенциальное стоп-слово классифицируется как значимое (не фактическое стоп-слово), если категория релевантна запросу с этим словом (как в Claim 1), И если эта же категория НЕ релевантна уточненной версии запроса, из которой это слово удалено.

    Если удаление слова меняет релевантные категории, значит, слово было важным для определения контекста.

    Claim 3 (Зависимый от 1): Описывает действие в случае, если слово является фактическим стоп-словом.

    Если на основе анализа категорий слово классифицируется как actual stopword, система выполняет поиск, который ИСКЛЮЧАЕТ это потенциальное стоп-слово, и представляет результаты.

    Где и как применяется

    Изобретение применяется на этапе предварительной обработки запроса, до основного ранжирования.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Stopword Detection Component анализирует входящий запрос, чтобы определить его точный смысл и решить, какие термины должны быть переданы на этап ранжирования. Это процесс переписывания или валидации запроса.

    Взаимодействие с компонентами:

    • Parser Component: Разбирает запрос на термины.
    • Stopword List: Предоставляет кандидатов для анализа.
    • Context Generation Component: Критически важный компонент. Он взаимодействует либо с Document Index (индекс документов), либо с Category Database (таксономия), чтобы получить контекст для анализа.
    • Search Engine (RANKING): Получает на вход финальную, уточненную версию запроса от Stopword Detection Component.

    Входные данные:

    • Исходный запрос пользователя.
    • Stopword List.
    • Доступ к источнику Context Data (Индекс или Таксономия).

    Выходные данные:

    • Модифицированный (или оригинальный) запрос, передаваемый поисковой системе для выполнения.
    • (Опционально) Уведомление пользователя о модификации запроса с возможностью отмены.

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на навигационные и информационные запросы, где стоп-слова являются частью названия сущности (бренда, фильма, книги, песни). Например, «The Who» (группа) против «who» (вопрос), «Let It Be» (песня) против «be».
    • Точные фразы (Exact Match): Влияет на интерпретацию длиннохвостых запросов, где точная последовательность слов определяет интент.

    Когда применяется

    • Триггеры активации: Алгоритм активируется, когда Parser Component обнаруживает в запросе слово или фразу, присутствующую в Stopword List.
    • Исключения и особые случаи: Патент упоминает возможность использования эвристик для определения того, следует ли применять этот механизм. Например, он может применяться только тогда, когда потенциальные стоп-слова находятся в конце поискового запроса (например, «how to write a will»).

    Пошаговый алгоритм

    Описаны два основных варианта алгоритма: простой (FIG. 7) и сложный (FIG. 8).

    Вариант А: Простой анализ (S+ против S-)

    1. Парсинг запроса: Получение и разбор входящего запроса.
    2. Идентификация стоп-слов: Сравнение терминов запроса со Stopword List.
    3. Генерация вариантов: Если стоп-слова найдены, создаются два запроса: S+ (оригинальный запрос со всеми терминами) и S- (запрос без стоп-слов, возможно с использованием плейсхолдеров).
    4. Генерация контекста: S+ и S- передаются в Context Generation Component для получения соответствующих наборов Context Data (результатов поиска или категорий).
    5. Сравнение контекста: Comparator Component анализирует два набора Context Data.
    6. Оценка схожести: Определяется, являются ли наборы Substantially Similar.
    7. Выбор запроса:
      • Если ДА (похожи): Использовать S- (стоп-слова незначимы).
      • Если НЕТ (различны): Использовать S+ (стоп-слова значимы).
    8. Выполнение поиска: Выбранный запрос выполняется поисковой системой.

    Вариант Б: Сложный анализ (Множественные стоп-слова)

    1. Парсинг и Идентификация: Аналогично Варианту А.
    2. Генерация комбинаций: Если найдено несколько стоп-слов, создается несколько запросов (S1…Sn), основанных на различных комбинациях включения/исключения этих стоп-слов.
    3. Генерация контекста: Получение Context Data для всех S1…Sn.
    4. Парное сравнение: Сравнение пар результатов (например, сравнение каждого варианта с оригинальным запросом).
    5. Идентификация значимых стоп-слов: Выявление тех стоп-слов, удаление которых приводит к тому, что результаты становятся НЕ Substantially Similar оригинальным.
    6. Конструирование финального запроса: Создание нового запроса, который включает не-стоп-слова плюс только те стоп-слова, которые были идентифицированы как значимые.
    7. Выполнение поиска: Финальный запрос выполняется поисковой системой.

    Какие данные и как использует

    Данные на входе

    • Системные данные:
      • Stopword List: Список часто встречающихся слов и фраз. Упоминается, что он может быть основан на inverse document frequency (IDF) – слова с низким IDF являются кандидатами.
    • Источники контекстных данных (используется один из вариантов):
      • Document Index: Индекс документов (например, веб-индекс), используемый для генерации результатов поиска в качестве Context Data.
      • Category Database / Taxonomy: База данных категорий, содержащая названия категорий и описательную информацию (category descriptive information). Используется для генерации списка категорий в качестве Context Data.

    Какие метрики используются и как они считаются

    Ключевой метрикой является Substantial Similarity Metric (Метрика существенного сходства). Патент описывает несколько методов ее расчета в зависимости от типа Context Data.

    1. Для документов (Search Results):

    • Сравнение частоты слов: Сравнение частоты встречаемости слов в обоих наборах документов. Если частоты относительно равны, наборы похожи.
    • Процент пересечения: Простой анализ процента документов, которые появляются в обоих наборах.

    2. Для категорий (Categories):

    • Прямое сравнение (Пересечение): Расчет доли общих категорий. (Количество общих категорий) / (Общее количество уникальных категорий в двух наборах).
    • Взвешенное сравнение по Relevance Scores: Категории могут иметь оценку релевантности запросу. Метрика может быть рассчитана как (Сумма оценок релевантности общих категорий) / (Сумма всех оценок релевантности уникальных категорий).
    • Нормализованное сравнение: Нормализация оценок релевантности для каждого набора (например, чтобы сумма была равна 1) и последующее суммирование произведений оценок совпадающих категорий.
    • Сравнение с учетом схожести категорий: Учитывается не только совпадение категорий, но и category similarity score (насколько похожи две разные категории, например, два типа мультфильмов). Метрика рассчитывается на основе сравнения каждой пары категорий, вычисления их схожести, умножения на оценки релевантности и нормализации.
    • Игнорирование неинформативных категорий: Некоторые категории (например, категория «Вопрос», активируемая словами «where», «what») могут игнорироваться при расчете схожести, так как они не несут информации о реальном значении запроса.

    Выводы

    1. Стоп-слова оцениваются динамически: Google не имеет фиксированного списка слов, которые всегда игнорируются. Статус стоп-слова определяется динамически для каждого запроса на основе его контекста.
    2. Контекст определяет значимость: Система специально разработана для того, чтобы определить, влияет ли удаление слова на смысл запроса. Это достигается путем сравнения результатов (Context Data).
    3. Использование таксономии для понимания контекста: Формула изобретения (Claims) данного патента явно защищает метод использования taxonomy of categories для оценки значимости стоп-слов. Если запрос со стоп-словом попадает в одну категорию, а без него — в другую, слово считается значимым.
    4. Механизм повышения точности (Precision): Этот механизм направлен на улучшение точности поиска, гарантируя, что важные элементы запроса (например, части названий) не будут проигнорированы, даже если они состоят из общих слов.
    5. Сложность обработки множественных стоп-слов: Система способна обрабатывать запросы с несколькими стоп-словами, анализируя их комбинации, чтобы определить, какие из них значимы, а какие нет.

    Практика

    Best practices (это мы делаем)

    • Использование естественного языка в контенте и заголовках: Пишите естественно. Не нужно избегать использования стоп-слов в заголовках (Title, H1) или тексте, если они являются неотъемлемой частью названия бренда, продукта или устоявшейся фразы (например, «The New York Times», «How to Train Your Dragon»). Система предназначена для распознавания таких случаев.
    • Создание четкой тематической ассоциации (Topical Authority): Работайте над тем, чтобы контент четко соответствовал определенным темам и категориям. Поскольку патент опирается на сравнение Context Data (включая категории), четкая тематическая направленность поможет системе правильно интерпретировать контекст запросов, связанных с вашим контентом, и корректно обрабатывать стоп-слова в них.
    • Анализ ключевых слов в контексте: При исследовании ключевых слов учитывайте, что включение или исключение стоп-слов может кардинально менять интент запроса. Анализируйте выдачу по обоим вариантам (например, «seo guide» и «the seo guide»), чтобы понять, как Google интерпретирует эти запросы.

    Worst practices (это делать не надо)

    • Искажение названий и фраз: Не удаляйте артикли или предлоги из названий брендов или продуктов в попытке «оптимизировать» их. Если ваш бренд называется «The Digital Agency», не пытайтесь продвигать его как «Digital Agency».
    • Неестественное построение фраз (Keyword Stuffing): Попытки строить неестественные фразы или перенасыщать текст ключевыми словами, избегая стоп-слов, не нужны. Современные системы понимают естественный язык.
    • Игнорирование стоп-слов при анализе интента: Нельзя предполагать, что стоп-слова всегда не важны. Это может привести к неправильной оценке интента пользователя и созданию нерелевантного контента.

    Стратегическое значение

    Этот патент является одним из фундаментальных элементов перехода Google от лексического поиска к семантическому пониманию запросов. Он демонстрирует, что даже самые распространенные слова обрабатываются с учетом контекста. Для SEO это подтверждает стратегическую важность создания контента, который точно соответствует интенту пользователя и четко сигнализирует о своей тематике, позволяя системам Google (включая категоризаторы) правильно интерпретировать связанные запросы.

    Практические примеры

    Сценарий 1: Интерпретация названия сущности

    1. Запрос пользователя: «the who»
    2. Анализ: Система идентифицирует «the» и «who» как потенциальные стоп-слова.
    3. Генерация вариантов: S+ («the who»), S- (пустой запрос или запрос с плейсхолдерами).
    4. Генерация контекста:
      • Context Data (S+): Категории: Arts>Music>Bands>The Who. Результаты поиска: ссылки на рок-группу.
      • Context Data (S-): Неопределенный контекст или результаты, связанные с вопросительным словом.
    5. Сравнение: Контекстные данные НЕ являются Substantially Similar.
    6. Результат: Слова «the» и «who» признаются значимыми в этом контексте. Финальный запрос: «the who».

    Сценарий 2: Обработка информационного запроса

    1. Запрос пользователя: «a hotel in London»
    2. Анализ: Система идентифицирует «a» и «in» как потенциальные стоп-слова.
    3. Генерация вариантов: S+ («a hotel in London»), S- («hotel London»).
    4. Генерация контекста:
      • Context Data (S+): Категории: Travel>Lodging>Hotels. Результаты поиска: агрегаторы отелей в Лондоне.
      • Context Data (S-): Категории: Travel>Lodging>Hotels. Результаты поиска: агрегаторы отелей в Лондоне.
    5. Сравнение: Контекстные данные являются Substantially Similar.
    6. Результат: Слова «a» и «in» признаются фактическими стоп-словами. Финальный запрос: «hotel London».

    Вопросы и ответы

    Что такое «стоп-слово» в контексте этого патента?

    В этом патенте термин «стоп-слово» (stopword) относится к часто встречающимся словам или фразам (например, артикли, предлоги), которые поисковые системы часто игнорируют. Однако ключевая идея патента в том, что эти слова рассматриваются как потенциальные стоп-слова. Система динамически определяет, является ли слово фактическим стоп-словом (незначимым) или оно несет смысл в контексте данного конкретного запроса.

    Как именно система определяет, что стоп-слово является значимым?

    Система сравнивает «контекстные данные» (Context Data) для запроса со стоп-словом и без него. Если результаты существенно различаются (not substantially similar), слово считается значимым. Например, если удаление слова меняет релевантные категории поиска или приводит к совершенно другому набору топовых результатов, система сохраняет это слово в финальном запросе.

    Что такое «Контекстные данные» (Context Data)?

    Патент описывает два основных типа Context Data. Первый — это набор документов, возвращаемых в результате поиска по запросу. Второй, на котором сделан акцент в формуле изобретения, — это список релевантных категорий из таксономии (taxonomy of categories). Сравнение этих данных позволяет оценить семантический сдвиг при удалении стоп-слова.

    Означает ли это, что Google использует свою внутреннюю таксономию для понимания всех запросов?

    Патент указывает, что использование таксономии и генератора категорий является одним из защищенных методов для определения значимости стоп-слов. Это подтверждает, что системы классификации и категоризации играют важную роль в процессе понимания запросов (Query Understanding), помогая определить контекст и интент пользователя до выполнения основного ранжирования.

    Как это влияет на подбор ключевых слов в SEO?

    Это подчеркивает необходимость анализа интента с учетом стоп-слов. Нельзя автоматически отбрасывать варианты ключевых фраз, содержащие предлоги или артикли. Необходимо проверять выдачу для разных вариантов (например, с предлогом и без), чтобы понять, видит ли Google разницу в интенте. В некоторых случаях фраза со стоп-словом может быть основным целевым запросом.

    Стоит ли мне удалять стоп-слова из Title и H1 для лучшей оптимизации?

    Нет, если это делает заголовок неестественным или меняет его смысл. Патент показывает, что Google способен распознавать, когда стоп-слова важны. Если они являются частью названия бренда, продукта или устоявшегося термина, их необходимо сохранить. Фокус должен быть на естественности языка и точности передачи смысла.

    Как система обрабатывает несколько стоп-слов в одном запросе?

    Патент описывает сложный алгоритм (FIG. 8), в котором система генерирует несколько версий запроса с различными комбинациями стоп-слов. Затем она сравнивает контекстные данные для этих версий, чтобы изолировать влияние каждого стоп-слова. Финальный запрос будет включать только те стоп-слова, которые существенно влияют на контекст.

    Что такое метрика «Существенного сходства» (Substantial Similarity)?

    Это расчетная метрика, определяющая степень схожести двух наборов контекстных данных. Если используются результаты поиска, она может основываться на проценте общих документов или сравнении частоты слов. Если используются категории, она может рассчитываться как доля общих категорий, возможно, с учетом их оценок релевантности (Relevance Scores).

    Влияет ли этот патент на ранжирование моего сайта?

    Напрямую на алгоритмы ранжирования (Ranking) он не влияет. Он влияет на то, какой именно запрос попадет в систему ранжирования (Query Understanding). Правильная интерпретация запроса гарантирует, что ваш сайт будет конкурировать в релевантной выдаче. Если интент определен неверно из-за неправильной обработки стоп-слов, релевантный контент может не появиться в выдаче.

    Актуален ли этот механизм в эпоху нейронных сетей (BERT, MUM)?

    Да, концепция актуальна. Хотя современные NLP-модели (такие как BERT) по своей архитектуре учитывают все слова и их контекст (не игнорируя стоп-слова в традиционном смысле), описанные в патенте принципы контекстуальной оценки значимости слов остаются фундаментальными для понимания и интерпретации пользовательского интента в поисковых системах.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.