Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс нормализует и обобщает запросы, используя «основные синонимы» для эффективного сопоставления фраз

    СПОСОБ И СИСТЕМА ОБРАБОТКИ ПОИСКОВЫХ ЗАПРОСОВ (Method and system of processing of search requests)
    • RU2632134C2
    • Yandex LLC
    • 2017-10-02
    • 2015-12-28
    2017 Интент пользователя Патенты Яндекс Семантический поиск Яндекс Директ

    Яндекс патентует метод эффективной обработки синонимов в запросах, избегая «комбинаторного взрыва». Система использует двухэтапный процесс: нормализация (приведение слов к базовой форме/лексеме) и обобщение (замена лексем на самый популярный «основной синоним»). Это позволяет быстро сопоставлять семантически схожие, но текстуально разные фразы, особенно для показа целевого контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «комбинаторного взрыва» (combinatorial explosion) при обработке поисковых запросов, содержащих синонимы. Традиционный подход генерации всех возможных комбинаций синонимов приводит к экспоненциальному росту вариантов (2N-1), что требует огромных вычислительных ресурсов, особенно при обработке длинных запросов. Изобретение направлено на уменьшение вычислительных ресурсов и ускорение времени отклика за счет эффективной канонизации запросов без генерации всех комбинаций,.

    Что запатентовано

    Запатентована система и способ обработки поисковых запросов, основанные на двухэтапном процессе: Нормализации (обработка морфологии) и Обобщения (обработка синонимов). Суть изобретения заключается в приведении различных словоформ к базовой лексеме (Нормализованный запрос), а затем приведении различных синонимичных лексем к единой канонической форме – «основному синониму» (Обобщенный запрос). Результаты компилируются в эффективную индексную структуру (Логические деревья) для быстрого сопоставления.

    Как это работает

    Система работает офлайн и онлайн. В офлайн-режиме обрабатывается история запросов. Каждый запрос сначала нормализуется: удаляются незначимые слова, а значимые приводятся к лексемам (например, «buying cars» → «buy car»). Затем запрос обобщается: каждая лексема заменяется на наиболее популярный «основной синоним» (например, если «automobile» менее популярен, чем «car», то «buy automobile» → «buy car»). Эти обобщенные запросы индексируются в виде древовидной структуры. При обработке нового запроса или поисковой фразы (например, ключевого слова рекламодателя) система выполняет ту же нормализацию и обобщение и быстро находит соответствия в индексе, избегая перебора синонимов,.

    Актуальность для SEO

    Высокая. Лингвистическая нормализация (лемматизация) и канонизация синонимов являются фундаментальными компонентами современных поисковых систем. Хотя современные нейросетевые методы (YATI/BERT) обрабатывают синонимию более сложно, описанный механизм приведения запросов к наиболее популярной форме для повышения эффективности остается актуальным, особенно в высоконагруженных системах, таких как Яндекс.Директ.

    Важность для SEO

    Влияние на SEO среднее (6/10). Патент напрямую описывает применение этой технологии для сопоставления запросов с «целевым содержимым» и «поисковыми фразами», предоставляемыми рекламодателями,,. Он не описывает механизмы органического ранжирования. Однако, понимание того, как Яндекс обрабатывает морфологию и, что критически важно, как он определяет канонический «основной синоним» на основе популярности, имеет стратегическое значение для выбора ключевых слов и оптимизации контента.

    Детальный разбор

    Термины и определения

    Generalized Query (GQ) (Обобщенный запрос)
    Каноническая форма запроса. Получается из Нормализованного запроса путем замены каждой лексемы на ее Основной синоним. Например, «buy vehicle» и «purchase automobile» могут быть обобщены до «buy car».
    Index Structure (Индексная структура)
    Структура данных, скомпилированная на основе Обобщенных запросов для эффективного поиска. В патенте реализована как набор Логических деревьев.
    Lexeme (Лексема)
    Базовая (словарная) форма слова. Например, для слов «buying», «bought» лексемой является «buy».
    Logical Trees (Логические деревья)
    Реализация индексной структуры, по сути представляющая собой префиксное дерево (Trie). Обобщенные запросы организованы иерархически. Узлы дерева хранят ссылки на связанные Нормализованные запросы,.
    Main Synonym (Основной синоним)
    Наиболее популярный или часто используемый синоним для данной лексемы. Определяется на основе «указаний популярности». Например, для лексем «purchase» и «buy» основным синонимом может быть «buy»,.
    Normalized Query (NQ) (Нормализованный запрос)
    Форма запроса, полученная из исходного поискового запроса путем удаления незначимых слов и приведения значимых слов к их лексемам.
    Search Phrase (Поисковая фраза)
    Фраза, предоставляемая поставщиком целевого содержимого (рекламодателем) для установления соответствия рекламного объявления с поисковым запросом пользователя. Аналог ключевого слова в контекстной рекламе,.
    Significant Words (Значимые слова)
    Слова в запросе, несущие основную семантическую нагрузку (все слова, кроме предлогов и стоп-слов).
    Комбинаторный взрыв (Combinatorial Explosion)
    Экспоненциальный рост количества возможных комбинаций синонимов при обработке запроса (2N-1). Проблема, которую решает патент.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод эффективной обработки запросов и синонимов через многоступенчатую канонизацию и индексацию.

    Claim 1 (Независимый пункт): Описывает основной офлайн-процесс построения индекса.

    1. Получение множества исторических поисковых запросов.
    2. Обработка запросов, включающая:
      1. Получение наборов лексем и синонимов.
      2. Вычисление набора Нормализованных запросов (NQ) на основе лексем (Лемматизация).
      3. Вычисление набора Обобщенных запросов (GQ) на основе NQ и синонимов (Канонизация синонимов). Каждый NQ связан с соответствующим GQ.
      4. Компиляция Индексной структуры путем вычисления набора Логических деревьев. Каждое дерево представляет GQ, связанный с одним или несколькими NQ.

    Claim 2 (Зависимый пункт): Описывает применение системы для обработки Поисковых фраз (ключевых слов рекламодателей).

    1. Получение Поисковой фразы.
    2. Обработка фразы:
      1. Вычисление Нормализованной поисковой фразы.
      2. Вычисление Обобщенной поисковой фразы.
      3. Связывание исторических NQ с этой Поисковой фразой на основе Обобщенной поисковой фразы и Индексной структуры. Это механизм расширения ключевого слова всеми релевантными историческими формулировками.

    Claim 4 (Зависимый пункт): Конкретизирует механизм Обобщения.

    Для каждого NQ система идентифицирует Основной синоним для каждой лексемы и создает GQ из этих основных синонимов. Это ключевой механизм канонизации, предотвращающий комбинаторный взрыв.

    Claim 8 (Зависимый пункт): Уточняет, что Основной синоним определяется на основе «указаний популярности» синонимов (т.е. выбирается самый частотный/популярный вариант).

    Claim 11 (Зависимый пункт): Описывает онлайн-применение системы при обработке текущего запроса пользователя.

    1. Получение текущего поискового запроса.
    2. Обработка запроса (Нормализация и Обобщение).
    3. Связывание текущего запроса с целевым содержимым (рекламой). Связывание происходит, если текущий запрос совпадает (на уровне NQ или GQ) с Поисковой фразой или с историческими NQ, которые были связаны с этой фразой (в п.2).

    Где и как применяется

    Изобретение описывает инфраструктурный механизм лингвистической обработки и индексации, который применяется на нескольких этапах, преимущественно в контексте систем показа таргетированного контента (например, Яндекс.Директ).

    INDEXING – Индексирование и извлечение признаков
    Основная часть работы происходит на этом слое в офлайн-режиме. Система (Модуль обработки 110 и Модуль создания индекса 112) обрабатывает логи поисковых запросов (База 140), используя лингвистические базы данных (Лексем 120, Синонимов 130). Происходит вычисление NQ и GQ и компиляция Индексной структуры (Логических деревьев) в Индексную базу 170. Также здесь обрабатываются Поисковые фразы рекламодателей (База 150) для связывания их с историческими NQ.

    QUERY PROCESSING – Понимание Запросов
    Во время выполнения запроса (онлайн) текущий запрос пользователя проходит те же этапы лингвистической обработки: Нормализацию и Обобщение,. Это позволяет привести запрос пользователя к той же канонической форме, которая используется в Индексной структуре.

    На что влияет

    • Обработка синонимов и словоформ: Система обеспечивает полное покрытие всех словоформ (через Нормализацию) и синонимов (через Обобщение).
    • Длинные запросы (Long-tail): Механизм особенно эффективен для длинных запросов, где проблема комбинаторного взрыва наиболее актуальна.
    • Целевой контент/Реклама: Напрямую влияет на то, насколько широко будет показана реклама по семантически связанным запросам, даже если они текстуально отличаются от ключевого слова рекламодателя.

    Когда применяется

    Система работает в двух режимах:

    • Офлайн-обработка (Прекомпиляция): Периодическая обработка исторических логов запросов для построения/обновления Индексной структуры. Обработка Поисковых фраз рекламодателей и установление связей с NQ.
    • Онлайн-обработка (Рантайм): При получении каждого текущего запроса пользователя для его нормализации, обобщения и сопоставления с целевым контентом.

    Пошаговый алгоритм

    Процесс А: Офлайн Построение Индекса (Claims 1, 3-10)

    1. Сбор данных: Получение множества исторических поисковых запросов (SQ) из логов.
    2. Нормализация (Вычисление NQ): Для каждого SQ:
      1. Парсинг и идентификация Значимых слов (удаление стоп-слов).
      2. Определение Лексемы (базовой формы) для каждого значимого слова (Лемматизация).
      3. Создание Нормализованного запроса (NQ) путем объединения лексем.
      4. Подсчет Нормализованного счетчика частоты.
    3. Обобщение (Вычисление GQ): Для каждого NQ:
      1. Определение Основного синонима для каждой лексемы в NQ. Основной синоним выбирается как самый популярный вариант на основе «указаний популярности»,.
      2. Создание Обобщенного запроса (GQ) путем объединения основных синонимов.
      3. Подсчет Обобщенного счетчика частоты.
    4. Компиляция Индексной структуры:
      1. Вычисление набора Логических деревьев (префиксных деревьев) на основе GQ.
      2. Индексация GQ в дереве (например, GQ «buy car Moscow» индексируется как путь Buy → Car → Moscow)-[111].
      3. Связывание конечного узла пути с соответствующим GQ и всеми связанными с ним NQ.

    Процесс Б: Офлайн Обработка Поисковых Фраз (Claim 2)

    1. Получение Поисковой фразы (например, ключевое слово рекламодателя).
    2. Нормализация и Обобщение: Вычисление Нормализованной и Обобщенной поисковой фразы,.
    3. Связывание: Поиск Обобщенной поисковой фразы в Индексной структуре.
    4. Ассоциация: Связывание Поисковой фразы (и связанной с ней рекламы) со всеми историческими NQ, найденными в соответствующем узле дерева.

    Процесс В: Онлайн Обработка Текущего Запроса (Claim 11)

    1. Получение текущего запроса от пользователя.
    2. Нормализация: Вычисление Нормализованного текущего запроса.
    3. Сопоставление (Путь 1): Попытка сопоставить Нормализованный текущий запрос с Нормализованными поисковыми фразами или историческими NQ, связанными с рекламой.
    4. Обобщение (Путь 2, если Путь 1 не дал результата): Вычисление Обобщенного текущего запроса-[143].
    5. Сопоставление (Путь 2): Попытка сопоставить Обобщенный текущий запрос с Обобщенными поисковыми фразами (GQ), связанными с рекламой.
    6. Выбор контента: Выбор целевого содержимого (рекламы) на основе успешного сопоставления.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Тексты исторических поисковых запросов (SQ). Тексты поисковых фраз рекламодателей (Search Phrases). Текст текущего запроса пользователя.
    • Временные факторы: Множество исторических поисковых запросов (логи), используемые для построения индекса и определения популярности.
    • Лингвистические данные (Внешние/Системные):
      • База данных лексем (120): Хранит связи между словоизмененными парадигмами и их базовыми формами (лексемами). Используется для Нормализации.
      • База данных синонимов (130): Хранит наборы синонимов. Критически важно, что она также содержит «указания популярности» для каждого синонима. Используется для Обобщения и выбора Основного синонима,.

    Какие метрики используются и как они считаются

    • Указание популярности (Popularity Indication): Метрика популярности/частотности синонима в языке. Используется для определения Основного синонима. Метод расчета в патенте не описан, но указано, что он хранится в Базе синонимов.
    • Нормализованный счетчик частоты (Normalized Frequency Counter): Подсчет количества исходных исторических запросов (SQ), которые соответствуют данному Нормализованному запросу (NQ). $Count_{NQ} = \sum (SQ \rightarrow NQ)$,.
    • Обобщенный счетчик частоты (Generalized Frequency Counter): Подсчет количества Нормализованных запросов (NQ), которые соответствуют данному Обобщенному запросу (GQ). $Count_{GQ} = \sum (NQ \rightarrow GQ)$,.

    Система использует детерминированные лингвистические правила и структурированный поиск в префиксном дереве. Алгоритмы машинного обучения или векторные представления в патенте не упоминаются.

    Выводы

    1. Эффективность через Канонизацию: Ключевая идея патента — решение проблемы «комбинаторного взрыва» синонимов не путем генерации всех вариантов, а путем приведения запросов к единой канонической форме (Обобщенный запрос, GQ). Это значительно ускоряет обработку.
    2. Двухэтапная обработка языка: Яндекс четко разделяет Нормализацию (обработка морфологии/словоформ) и Обобщение (обработка синонимов).
    3. Концепция «Основного синонима» и Популярность: При обобщении система выбирает Основной синоним, основываясь строго на его популярности (частоте использования). Это означает, что Яндекс канонизирует понятия в сторону наиболее распространенных терминов.
    4. Инфраструктура для Целевого Контента (Рекламы): Описанное применение фокусируется на сопоставлении запросов пользователей с поисковыми фразами рекламодателей. Это инфраструктура, вероятно, используемая в Яндекс.Директ.
    5. Лингвистическая база Поиска: Хотя патент описывает применение в рекламе, используемые лингвистические механизмы (лемматизация, канонизация синонимов) с высокой вероятностью являются базовыми для всего Поиска Яндекса, включая этап Понимания Запросов (Query Understanding) для органической выдачи.

    Практика

    Best practices (это мы делаем)

    • Использование наиболее популярной терминологии (Main Synonyms): Анализируйте частотность запросов и выбирайте для оптимизации (в Title, H1, тексте) те синонимы, которые наиболее часто используются вашей аудиторией. Яндекс, согласно патенту, считает наиболее популярный синоним «основным» и приводит к нему все остальные варианты.
    • Фокус на базовых формах (Лексемах): Не нужно чрезмерно фокусироваться на использовании всех возможных словоформ ключевого слова. Система нормализует их до базовой лексемы. Важнее обеспечить естественность текста.
    • Анализ семантического кластера через каноническую форму: При анализе семантики старайтесь определить каноническую форму (Обобщенный запрос) для всего кластера. Убедитесь, что ваша страница оптимизирована под эту основную форму, даже если она также содержит QBST фразы (другие синонимы).
    • (Для специалистов по Контекстной Рекламе): Патент подтверждает, что система автоматически расширяет охват ключевых слов (Поисковых фраз) за счет синонимов и словоформ, сопоставляя их с широким набором исторических запросов пользователей (NQ).

    Worst practices (это делать не надо)

    • Оптимизация под редкие синонимы или жаргон: Если вы используете узкоспециализированный или редкий синоним в качестве основного ключевого слова, в то время как существует гораздо более популярный аналог, вы усложняете работу системе. Лучше сразу соответствовать популярному интенту (Основному синониму).
    • Создание отдельных страниц под близкие синонимы (Каннибализация): Создание разных страниц под, например, «автомобиль» и «машина» может быть избыточным, если система определяет один из них как Основной синоним и обобщает оба термина к единой форме (GQ).
    • Перечисление словоформ (Keyword Stuffing): Попытки использовать все формы слова (купить, купил, купленный) неэффективны, так как система нормализует их до единой лексемы (NQ).

    Стратегическое значение

    Патент демонстрирует глубокую интеграцию лингвистических технологий в инфраструктуру Яндекса. Стратегически важно понимать, что Яндекс не просто ищет совпадения слов, а приводит запрос к его канонической семантической форме, основанной на популярности использования терминов в языке. Это подтверждает приоритет естественного языка и частотности употребления терминов. Для долгосрочной SEO-стратегии это означает необходимость говорить на том же языке, что и большинство пользователей, выбирая наиболее востребованные формулировки.

    Практические примеры

    Сценарий: Определение основного синонима и оптимизация контента

    1. Задача: Оптимизировать страницу о покупке подержанного транспорта.
    2. Анализ терминов: Существуют термины: «автомобиль», «машина», «тачка», «vehicle».
    3. Определение популярности: Анализ частотности (например, через Wordstat) показывает, что «машина» является самым популярным термином.
    4. Предполагаемое действие системы (по патенту): Яндекс определяет «машина» как Основной синоним. Запросы с другими терминами будут обобщены до этой формы (например, GQ: «купить машина»).
    5. Действия SEO-специалиста: Использовать «машина» в качестве основного ключевого слова в Title и H1. Другие синонимы («автомобиль») использовать в тексте для естественности, но не делать на них основной акцент.
    6. Ожидаемый результат: Страница лучше соответствует канонической форме запроса (GQ), что упрощает ее интерпретацию поисковой системой.

    Вопросы и ответы

    В чем разница между Нормализованным запросом (NQ) и Обобщенным запросом (GQ)?

    Нормализованный запрос (NQ) — это результат первого этапа обработки. В нем удалены стоп-слова, а остальные слова приведены к их базовой словарной форме (лексеме). Например, «buying cars» станет «buy car». Обобщенный запрос (GQ) — это результат второго этапа. В нем лексемы из NQ заменяются на самый популярный синоним (Основной синоним). Например, если NQ был «purchase automobile», а основными синонимами являются «buy» и «car», то GQ станет «buy car».

    Что такое «Основной синоним» и как Яндекс его определяет?

    Основной синоним (Main Synonym) — это каноническая форма для группы синонимов. Согласно патенту, он определяется на основе «указаний популярности», хранящихся в базе данных синонимов. Это означает, что Яндекс выбирает тот синоним, который чаще всего используется в языке или в поисковых запросах. Для SEO это значит, что нужно ориентироваться на самую частотную лексику.

    Применяется ли этот патент к органическому поиску или только к рекламе?

    В патенте явно описано применение для сопоставления запросов с «целевым содержимым» и «поисковыми фразами», предоставленными рекламодателями. Он не описывает алгоритмы органического ранжирования. Однако, описанные лингвистические процессы (нормализация и обобщение) являются базовыми и, скорее всего, используются Яндексом повсеместно, в том числе на этапе понимания запросов (Query Understanding) для органического поиска.

    Как этот патент решает проблему «комбинаторного взрыва»?

    Традиционный подход предполагает генерацию всех возможных комбинаций синонимов для запроса, что ведет к экспоненциальному росту вариантов. Патент решает эту проблему путем канонизации. Вместо расширения запроса множеством вариантов, он сводит (обобщает) и запрос пользователя, и поисковую фразу к единой канонической форме (GQ), используя только основные синонимы. Сопоставление происходит на уровне этих канонических форм, что требует значительно меньше ресурсов.

    Как мне следует выбирать ключевые слова, учитывая этот патент?

    Стратегия должна заключаться в приоритизации наиболее частотных и популярных терминов, которые используют пользователи. Если есть несколько синонимов для описания услуги (например, «клининг» и «уборка»), выбирайте тот, который имеет наибольшую популярность, так как он, вероятно, будет определен Яндексом как «Основной синоним». Использование редких синонимов в качестве основы семантического ядра менее эффективно.

    Нужно ли мне использовать все возможные словоформы ключевого слова на странице?

    Нет, это неэффективно. Первый этап обработки, описанный в патенте, — это Нормализация, которая приводит все словоформы к базовой лексеме. Например, «строительство», «строить», «построил» будут нормализованы к лексеме «строить». Важнее сосредоточиться на естественном использовании языка и наличии самой концепции (лексемы), а не на перечислении всех ее форм.

    Что такое «Логические деревья» в контексте этого патента?

    Логические деревья (Logical Trees) — это реализация Индексной структуры, используемой для хранения Обобщенных запросов (GQ). Это префиксное дерево (Trie), которое позволяет очень быстро находить соответствия. Например, запрос «buy car Moscow» хранится как путь Buy → Car → Moscow. В конечном узле («Moscow») хранятся ссылки на все связанные Нормализованные запросы (NQ). Это инфраструктурный элемент, обеспечивающий скорость работы системы.

    Если я оптимизирую страницу под низкочастотный синоним, найдет ли ее Яндекс по высокочастотному?

    Да, механизм Обобщения предназначен именно для этого. Если ваша страница оптимизирована под «приобретение автомобиля» (НЧ), а пользователь ищет «покупка машины» (ВЧ), система должна привести оба запроса к единому Обобщенному запросу (например, «купить машина»), если «машина» и «купить» являются основными синонимами. Это позволит установить семантическое соответствие.

    Влияет ли частота запроса (NQ/GQ Frequency Counters) на ранжирование?

    В патенте упоминается подсчет частот для Нормализованных (NQ) и Обобщенных (GQ) запросов,. Однако патент не описывает использование этих счетчиков в формуле ранжирования. Они используются для статистики и, возможно, для определения популярности, но их прямое влияние на ранг документа в этом документе не раскрыто.

    Используются ли в этом механизме нейросети или эмбеддинги?

    Нет. Описанный в патенте механизм основан на детерминированных лингвистических правилах и структурах данных: словарях лексем, словарях синонимов с указанием популярности и префиксных деревьях. Он не использует векторные представления (эмбеддинги) или модели машинного обучения для выполнения нормализации и обобщения.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.