Google использует комплексный подход для улучшения понимания запросов. Система анализирует поведение пользователей для выявления контекстных синонимов, в реальном времени разделяет составные слова (например, «vlcmediaplayer» на «vlc media player») и применяет принцип транзитивности (если A=B и B=C, то A=C). Это позволяет находить релевантные документы, даже если они не содержат точных формулировок запроса.
Описание
Какую задачу решает
Патент решает проблему «терминологического разрыва» между запросами пользователей и контентом документов. Традиционные методы (например, тезаурусы) неэффективны, так как игнорируют контекст и плохо справляются с новыми или составными словами (compound words). Изобретение направлено на улучшение полноты поиска (Recall) путем выявления контекстно-зависимых синонимов, обработки сложных слов на лету и расширения набора синонимов через транзитивные связи.
Что запатентовано
Запатентована система для генерации и использования синонимов при обработке поисковых запросов, объединяющая три ключевых механизма: (1) Выявление контекстных синонимов путем анализа логов запросов и поведения пользователей (session analysis). (2) Online Decompounding — разделение составных слов на компоненты в реальном времени во время выполнения запроса. (3) Transitivity — идентификация непрямых синонимов через промежуточные термины (если A=B и B=C, то A=C).
Как это работает
Система работает по нескольким направлениям:
- Контекстные синонимы: Анализируются логи запросов, сгруппированные по сессиям. Если пользователи часто меняют термин A на термин B в одном контексте (session switching), и результаты поиска значительно пересекаются (common results), B валидируется как контекстный синоним A.
- Онлайн-декомпозиция: При получении запроса с составным словом система динамически разделяет его на возможные подтермины (subterms), используя предварительно созданный частотный словарь. Наилучший вариант разделения используется как синоним.
- Транзитивность: Набор синонимов расширяется за счет выявления цепочек синонимических связей.
- Лексические варианты: Система учитывает доверенные лексические связи (стемминг, акронимы, аббревиатуры). Для них требования к поведенческим подтверждениям снижаются.
Актуальность для SEO
Высокая. Понимание запросов и семантическое соответствие являются ядром современных поисковых систем (BERT, MUM). Способность обрабатывать синонимы с учетом контекста и разбирать составные слова на лету (что критично для многих языков, например, немецкого) фундаментальна для обеспечения релевантности выдачи.
Важность для SEO
Патент имеет критическое значение (9/10) для SEO. Он детально описывает механизмы, с помощью которых Google выходит за рамки прямого соответствия ключевых слов. Понимание того, как Google идентифицирует контекстные синонимы, обрабатывает составные термины и расширяет запросы через транзитивность, необходимо для построения эффективных семантических стратегий и оптимизации контента под интент пользователя, а не только под конкретные формулировки.
Детальный разбор
Термины и определения
- Altered Query (Измененный запрос)
- Запрос, полученный путем замены фразы в исходном запросе на кандидата в синонимы.
- Compound Term (Составной термин / Компаунд)
- Слово, состоящее из двух или более подслов (например, «vlcmediaplayer»).
- Context (Контекст)
- Набор дополнительных терминов в запросе, окружающих анализируемую фразу. Определяет условия применимости синонима.
- Decompounding (Декомпозиция)
- Процесс разделения составного слова на его компоненты (подтермины). Online Decompounding — выполнение этого процесса в реальном времени (at search time).
- Dynamic Programming (Динамическое программирование)
- Метод, используемый для Online Decompounding, позволяющий эффективно найти оптимальный способ разделения термина.
- Evidence (Свидетельство / Оценка уверенности)
- Итоговая мера уверенности в синониме, рассчитываемая на основе комбинации различных поведенческих тестов.
- Fugenmorphemes (Фугенморфемы)
- Соединительные элементы (например, буква ‘s’ в немецком), которые добавляются между словами при создании составного слова и должны быть удалены при декомпозиции.
- Lexical Variants (Лексические варианты)
- Слова, имеющие лексическую связь: общий корень (стемминг), акронимы, аббревиатуры, разница в пунктуации или пробелах. Рассматриваются как высоконадежные синонимы.
- Pseudo-query (Псевдозапрос)
- Фрагмент запроса, сформированный путем замены одной фразы маркером (токеном). Пример: [gm : car prices]. Используется для поиска запросов, различающихся только этой фразой.
- Pseudostemming (Псевдостемминг)
- Агрессивная техника стемминга, основанная на длине общего префикса и расстоянии редактирования (edit distance) оставшихся частей слов.
- Session (Сессия)
- Последовательность запросов от одного пользователя в течение определенного временного интервала (например, один час).
- Transitivity (Транзитивность)
- Принцип, согласно которому, если фраза B является синонимом A, а фраза C является синонимом B, то C является синонимом A.
Ключевые утверждения (Анализ Claims)
Патент является продолжением (Continuation) более ранних заявок и объединяет несколько концепций. Текст описывает контекстные синонимы, декомпозицию и транзитивность, однако Claims (Формула изобретения) фокусируются именно на транзитивности.
Claim 1 (Независимый пункт): Описывает применение транзитивности к контекстным синонимам.
- Система выбирает термин A в поисковом запросе, находящийся в определенном контексте (набор дополнительных терминов).
- Определяется, что термин B является контекстно-зависимым синонимом (context-dependent substitute) для A в этом контексте. Это определение основано строго на метрике общих результатов поиска (measure of search results in common) между запросами с A и запросами с B (в данном контексте).
- Определяется, что термин C является синонимом B. При этом C напрямую не идентифицирован как синоним A.
- Система принимает решение, стоит ли изменять исходный запрос (содержащий A) для включения C. Решение базируется на совокупности фактов: наличие контекста, валидность B как контекстного синонима A (на основе общих результатов), и валидность C как синонима B.
Ядро изобретения — это применение транзитивной логики (A->B->C) для расширения запроса, при строгом условии, что начальная связь (A->B) должна быть подтверждена как контекстно-зависимый синоним в рамках текущего запроса.
Механизм Online Decompounding (На основе Description и FIG. 5, 6): Хотя это не является фокусом Claims 1-24, патент детально описывает этот механизм.
- Офлайн: Создание словаря терминов путем анализа корпуса документов. Каждому термину присваивается оценка (score) на основе частотности (frequency).
- Онлайн: При получении запроса с составным термином (compound term), система генерирует варианты разделения (splits).
- Используя динамическое программирование, рассчитывается общая оценка для каждого разделения (сумма оценок подтерминов).
- Выбираются лучшие варианты разделения, и запрос дополняется (augmented) этими подтерминами.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, преимущественно Query Understanding.
INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе анализируется корпус документов для создания словаря терминов и расчета их частотности. Эти данные используются для оценки (scoring) подтерминов при Online Decompounding.
QUNDERSTANDING – Понимание Запросов
Основной этап применения.
- Офлайн: Анализ логов запросов (query logs) и сессий пользователей для выявления контекстных синонимов. Расчет статистики по заменам терминов (session switching) и пересечению результатов поиска (common results).
- Онлайн (в реальном времени):
- Online Decompounding: Разделение составных слов с использованием динамического программирования и словаря.
- Contextual Analysis: Определение контекста и применимости синонимов.
- Transitivity Application: Расширение набора синонимов через транзитивные связи.
- Query Augmentation: Формирование расширенного запроса.
RANKING – Ранжирование
Система ранжирования получает на вход расширенный запрос (исходный запрос + синонимы/подтермины) и ищет соответствующие документы.
Входные данные:
- Исходный запрос пользователя.
- Словарь терминов с оценками частотности.
- База данных контекстных синонимов (сгенерированная офлайн).
Выходные данные:
- Расширенный (augmented) запрос.
На что влияет
- Языковые особенности: Критическое влияние на языки с активным словосложением (немецкий, голландский, скандинавские). Патент упоминает обработку Fugenmorphemes (соединительных элементов) для корректной декомпозиции.
- Составные термины и жаргон: Улучшает обработку слипшихся слов, технических терминов, артикулов товаров, хештегов (например, «iphonecamerareview») и запросов с ошибками слитного написания (например, [usedrugs]).
- Ниши с богатой синонимией: E-commerce, медицина, технологии, где используются акронимы, аббревиатуры и разнообразная терминология.
Когда применяется
- Триггеры активации (Декомпозиция): Наличие в запросе длинных или редких терминов, которые потенциально являются составными и могут быть разделены на известные подтермины с высокой оценкой.
- Триггеры активации (Синонимы): Наличие фразы, для которой известны валидированные синонимы, соответствующие текущему контексту.
- Пороговые значения: Система использует пороги для валидации синонимов, например, требуемый процент пересечения результатов (упоминается 60-70%) или минимальная частота замены в сессиях. Для доверенных лексических вариантов (стемминг, акронимы) эти пороги значительно снижаются.
Пошаговый алгоритм
Процесс А: Офлайн-генерация контекстных синонимов
- Сбор и сортировка данных: Сбор логов запросов. Сортировка по User ID и времени для группировки в сессии.
- Генерация псевдозапросов: Для каждого запроса создаются pseudo-queries путем замены фразы на токен (например, [gm used car prices] -> [gm : car prices]).
- Компиляция информации: Группировка запросов по pseudo-query. Сбор статистики о заменах фраз в сессиях и сравнение топ-результатов поиска.
- Категоризация и контекстуализация: Расчет статистики для каждого кандидата в синонимы в общем и специфических контекстах.
- Валидация (Qualification): Применение набора тестов (FIG. 4: frequently_alterable, frequently_much_in_common и др.) для расчета меры уверенности (evidence). Если уверенность выше порога (например, 0.6), синоним валидируется.
Процесс Б: Обработка запроса (Онлайн-декомпозиция и Транзитивность) (FIG. 8)
- Получение запроса.
- Итерация по терминам.
- Онлайн-декомпозиция:
- Поиск оценок подтерминов в частотном словаре.
- Использование динамического программирования для расчета суммарных оценок всех возможных способов разделения (splits).
- Выбор наилучших разделений (максимизирующих оценку).
- Добавление подтерминов в список синонимов для термина.
- Расширение синонимов и Транзитивность:
- Для термина и его подтерминов ищется первый набор синонимов (Set 1), проверяя контекст.
- Транзитивное расширение: Поиск синонимов для синонимов из Set 1 (Set 2). Повторение до N уровней.
- Аугментация запроса: Формирование расширенного запроса с включением всех найденных синонимов и подтерминов.
- Выполнение поиска.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Query Logs и Sessions): Критически важные данные. Анализируются последовательности запросов в сессиях для определения частоты замен терминов (session switching).
- Результаты поиска (Search Results Data): Используются для сравнения выдачи по исходному и измененному запросу. Количество общих результатов (common results) является ключевым сигналом валидации.
- Контентные/Лингвистические данные (Corpus Data): Анализ большого корпуса документов для создания словаря и расчета частотности терминов. Это основа для оценок при декомпозиции.
- Лексические данные: Данные стеммеров, правила обработки диакритических знаков, алгоритмы расчета расстояния редактирования (edit-distance) для выявления лексических вариантов.
Какие метрики используются и как они считаются
Система использует сложную систему оценки для валидации синонимов (детализировано в FIG. 4):
- frequently_alterable: Доля запросов с фразой, для которых существует соответствующий измененный запрос в логах. (Порог в патенте: 0.01).
- frequently_much_in_common: Доля пар запросов (исходный и измененный), которые имеют значительное количество общих результатов (например, хотя бы 3). (Порог в патенте: 0.6).
- frequently_altered: Частота, с которой за исходным запросом следует измененный запрос в рамках одной сессии. (Порог в патенте: 0.0005).
- high_altering_ratio: Соотношение частоты замен A->B к частоте замен B->A в сессиях. (Порог в патенте: 1.0).
Эти метрики агрегируются с помощью функции Scale для расчета итоговой меры уверенности (evidence).
Метрики для декомпозиции:
- Term Frequency Score: Оценка термина в словаре, основанная на частоте его встречаемости в корпусе (например, логарифм частоты), с возможными штрафами.
- Total Split Score: Сумма оценок подтерминов для данного варианта разделения.
Модификаторы для лексических вариантов: Для терминов, признанных лексическими вариантами, требования к поведенческим метрикам и общим результатам значительно снижаются (например, до 1/3 от стандартного требования или до нуля), так как лексическая связь считается сильным сигналом.
Выводы
- Валидация синонимов через поведение и результаты: Google в значительной степени полагается на анализ поведения пользователей (session switching) и пересечение результатов поиска (common results) для валидации синонимов, а не на стандартные тезаурусы.
- Контекст имеет решающее значение: Система явно учитывает контекст. Слово может быть синонимом только тогда, когда оно окружено определенными другими словами, и эта связь подтверждена данными.
- Динамическая обработка новых слов: Online Decompounding позволяет системе «на лету» разбирать составные слова, которых она ранее не видела. Это критично для адаптивности поиска и обработки языков со словосложением.
- Транзитивность как множитель охвата: Использование транзитивности (A=B, B=C => A=C) значительно расширяет семантическое поле запроса, позволяя связывать термины, которые напрямую не заменяют друг друга в логах.
- Доверие к лексическим связям: Лексические варианты (стемминг, акронимы, аббревиатуры) считаются высоконадежными. Для них система снижает пороги валидации, так как лексическая близость является сильным сигналом семантической связи.
Практика
Best practices (это мы делаем)
- Развитие Topical Authority и семантического покрытия: Создавайте контент, который всесторонне покрывает тему, используя разнообразную лексику и связанные концепции. Это увеличивает вероятность того, что ваш контент будет признан релевантным для расширенного запроса, включающего транзитивные синонимы.
- Анализ словоформ и составных слов в нише: Изучайте, как пользователи формируют запросы (слитно или раздельно). Если в вашей нише распространены составные слова (артикулы, технические термины), убедитесь, что ваш контент содержит как составную форму, так и ее компоненты, если это естественно.
- Использование естественных аббревиатур и акронимов: Включайте в контент распространенные аббревиатуры и их расшифровки. Патент подтверждает, что Google распознает такие связи как доверенные Lexical Variants.
- Оптимизация под контекст: При анализе семантического ядра фокусируйтесь на контексте использования ключевого слова. Понимайте, какие синонимы Google может применить именно в этом контексте, анализируя выдачу и связанные запросы.
- Лингвистическая корректность (для мультиязычных сайтов): Для языков с активным словосложением (немецкий) уделяйте внимание структуре терминов. Система учитывает лингвистические особенности (Fugenmorphemes) при декомпозиции.
Worst practices (это делать не надо)
- Искусственное насыщение синонимами (Keyword Stuffing): Попытки перечислить все возможные синонимы неэффективны. Система валидирует синонимы на основе реального поведения пользователей и контекста, а не плотности слов на странице.
- Фокус только на прямых синонимах: Ограничение семантического ядра только очевидными синонимами игнорирует механизм транзитивности, который может привести трафик по менее очевидным, но семантически связанным запросам.
- Игнорирование контекста ключевых слов: Предположение, что ключевое слово всегда имеет одно и то же значение, игнорирует механизмы контекстуального анализа Google.
Стратегическое значение
Этот патент подчеркивает стратегический переход Google от буквального сопоставления текста к глубокому семантическому и контекстуальному пониманию. Способность системы динамически адаптировать запрос с помощью декомпозиции и транзитивности означает, что SEO-стратегии должны быть направлены на построение широкого тематического авторитета (Topical Authority). Контент должен отвечать на интент пользователя, используя естественный язык, отражающий разнообразие терминологии в данной области.
Практические примеры
Сценарий 1: Онлайн-декомпозиция в E-commerce
- Запрос пользователя: [nikond750bodyonly] (слипшийся запрос).
- Действие системы: Google применяет Online Decompounding. Анализируются варианты. «nikon», «d750», «body», «only» имеют высокие оценки частотности. Система определяет, что [nikon d750 body only] является лучшим вариантом разделения.
- Результат для SEO: Страница товара, оптимизированная под [Nikon D750 Body Only], будет успешно ранжироваться по слипшемуся запросу, даже если она не содержит точного вхождения «nikond750bodyonly».
Сценарий 2: Применение Транзитивности
- Запрос пользователя: [configuring linksys router].
- Действие системы:
- Шаг 1 (Лексическая связь): Google определяет, что «configuring» является лексическим вариантом слова «configure».
- Шаг 2 (Контекстный синоним): Анализируя логи, Google знает, что пользователи часто заменяют «configure» на «setup» в контексте «router».
- Шаг 3 (Транзитивность): Google устанавливает связь: «configuring» = «configure», «configure» = «setup». Следовательно, «configuring» = «setup».
- Результат для SEO: Статья, озаглавленная «Linksys Router Setup Guide», получит высокий ранг по запросу [configuring linksys router], благодаря транзитивному расширению запроса.
Вопросы и ответы
Что такое «Онлайн-декомпозиция» (Online Decompounding) и почему это важно для SEO?
Это процесс разделения составных слов (например, слипшихся запросов типа «советыпоремонтуквартиры» или немецких компаундов) на отдельные компоненты в реальном времени, когда пользователь вводит запрос. Это критически важно для SEO, так как позволяет вашему контенту ранжироваться по таким запросам, даже если он не содержит точного слитного вхождения, но содержит его компоненты в правильном контексте.
Как работает механизм транзитивности синонимов?
Он работает по принципу: если A является синонимом B, а B является синонимом C, то A считается синонимом C. Это позволяет Google значительно расширять понимание запроса, включая термины, которые напрямую не заменяют друг друга в поведении пользователей, но связаны через промежуточные слова. Это увеличивает полноту поисковой выдачи (Recall).
Что такое «контекстные синонимы» и как Google их определяет?
Это термины, которые являются синонимами только в определенном контексте. Google определяет их, анализируя логи сессий (session analysis): если пользователи часто меняют один термин на другой в одном и том же контексте (session switching), и результаты поиска при этом сильно пересекаются (common results), термины признаются контекстными синонимами.
Насколько сильно Google доверяет лексическим вариантам (стемминг, акронимы)?
Патент указывает, что Google считает Lexical Variants высоконадежными синонимами. Для их использования система значительно снижает требования к подтверждению через поведение пользователей и пересечение результатов. Это означает, что стемминг, акронимы и аббревиатуры почти всегда учитываются при расширении запроса.
Что такое «Псевдозапросы» (Pseudo-queries) и для чего они используются?
Pseudo-queries — это инструмент внутреннего анализа логов. Google берет реальный запрос, например [gm used car prices], и заменяет одно слово токеном: [gm : car prices]. Затем система ищет все другие запросы, соответствующие этому шаблону. Это позволяет эффективно находить кандидатов в синонимы («used» и «new») в конкретном контексте ([gm… car prices]).
Как этот патент влияет на подбор ключевых слов?
Он снижает необходимость поиска всех возможных словоформ и очевидных синонимов, так как система справляется с этим автоматически. Однако он повышает важность понимания контекста и использования разнообразной, тематически релевантной лексики (Topical Authority), чтобы охватить менее очевидные транзитивные связи и различные варианты декомпозиции.
Как система оценивает качество разделения при декомпозиции?
Система использует предварительно созданный словарь, где каждому слову присвоена оценка на основе его частотности в вебе. При декомпозиции система перебирает все возможные варианты разделения и суммирует оценки компонентов. Вариант с наибольшей суммой оценок считается лучшим (например, Score(«vlc»+»media»+»player») сравнивается с Score(«vlc»+»mediaplayer»)).
Влияет ли этот патент на сайты на немецком или других языках с активным словосложением?
Да, и очень значительно. Механизм декомпозиции критически важен для таких языков. Патент даже упоминает обработку Fugenmorphemes (соединительных элементов в немецком языке), что указывает на глубокую адаптацию этой функциональности для корректного разделения сложных слов в разных языках.
Что такое Pseudostemming, описанный в патенте?
Это более агрессивная техника стемминга по сравнению со стандартными алгоритмами. Она определяет близость слов, анализируя длину общего префикса и рассчитывая расстояние редактирования (edit distance) для оставшихся частей слов. Это позволяет идентифицировать больше лексических вариантов как синонимы.
Какие метрики используются для оценки уверенности в синониме?
Используется комбинированная метрика evidence. Она рассчитывается на основе нескольких тестов, включая frequently_much_in_common (как часто запросы имеют общие результаты) и frequently_altered (как часто пользователи сами делают такую замену в рамках одной сессии). Для применения синонима эта оценка должна превысить определенный порог.