
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
Патент решает проблему точной и автоматической идентификации составных фраз (compounds, также называемых N-граммами или биграммами) в поисковых запросах. Традиционные методы (словари, энциклопедии) неполны и быстро устаревают. Системе необходимо отличать последовательности слов, которые образуют единое понятие (например, "San Francisco" или "Larry Page"), от случайных сочетаний (например, "London hotels"). Точная идентификация позволяет лучше понять интент пользователя и улучшить ранжирование, предпочитая документы, содержащие фразу целиком.
Запатентована система автоматической идентификации составных фраз на основе анализа поведения пользователей (user selections или кликов). Суть изобретения заключается в расчете вероятности (likelihood) того, что последовательность слов является составной фразой. Эта вероятность вычисляется на основе того, как часто пользователи выбирают результаты поиска, в сводке (summary) которых эта последовательность присутствует именно как неразрывная фраза.
Система работает путем анализа исторических данных о запросах и кликах:
Dwell Time).candidate compounds).Ratio высок (например, выше 90%), последовательность считается составной фразой (Strong Compound) и используется как сигнал для повышения в ранжировании страниц, содержащих ее в точном виде.Высокая. Идентификация N-грамм и понимание структуры запроса являются фундаментальными задачами в Information Retrieval и Query Understanding. Хотя современные нейросетевые модели (например, BERT, MUM) используют сложные методы для выявления семантических связей, использование агрегированных поведенческих данных для валидации того, как реальные пользователи интерпретируют и используют фразы, остается актуальным и мощным сигналом.
Патент имеет высокое значение для SEO. Он описывает фундаментальный механизм понимания запросов, который напрямую влияет на оценку релевантности контента. Если фраза идентифицирована как compound, система будет активно предпочитать страницы с точным вхождением этой фразы, а не страницы, где слова встречаются раздельно. Это подчеркивает важность фразового соответствия и качества поведенческих сигналов (Dwell Time).
N-gram или Bigram.Dwell Time).title) и/или один или несколько сниппетов (snippets).likelihood) того, что кандидат является составной фразой. Рассчитывается путем деления числа кликов на результаты, содержащие фразу, на общее число кликов.Claim 1 (Независимый пункт): Описывает основной метод идентификации составных фраз.
candidate compound из поискового запроса (два или более последовательных термина).candidate compound (как фразу), были выбраны пользователем (Selections with Compound).Ratio).Claim 3 и 4 (Зависимые): Уточняют использование Ratio.
Система определяет, является ли кандидат составной фразой, сравнивая Ratio с пороговым значением. Сравнение с несколькими порогами позволяет классифицировать фразу как "сильную" (Strong Compound) или "слабую" (Weak Compound).
Claim 5 (Зависимый): Описывает обратный процесс (Splitting).
Система может определить вероятность того, что кандидат не является составной фразой, анализируя количество кликов на результаты, которые не содержат кандидата как единую фразу.
Claim 7 (Зависимый): Уточняет место анализа.
Подсчет выборов (шаг 3 в Claim 1) учитывает наличие candidate compound именно в сводке (summary) выбранного результата.
Claim 10 (Зависимый): Вводит понятие Dwell Time (Long Clicks).
Результат считается выбранным пользователем, только если пользователь просматривал его дольше, чем пороговый период времени. Это позволяет учитывать только качественные взаимодействия.
Claims 11-13 (Зависимые): Описывают использование контекста (context).
Вероятность может определяться с учетом окружающих терминов в запросе. Это включает определение условной вероятности (conditional probability) того, что кандидат является составной фразой при наличии данного контекста.
Claims 14-15 (Зависимые): Описывают агрегацию.
Система может рассчитывать отдельные вероятности для одного и того же кандидата в разных запросах, а затем определять общую вероятность путем усреднения весов (averaging weights).
Claims 16-17 (Зависимые): Описывают применение в ранжировании.
Система определяет оценку (score) для результатов поиска на основе того, содержат ли они candidate compound. Оценка увеличивается, если вероятность того, что кандидат является составной фразой, превышает порог.
Изобретение в основном применяется на этапе понимания запросов и влияет на ранжирование, используя офлайн-анализ поведения пользователей.
QUNDERSTANDING – Понимание Запросов (Офлайн)
Основное применение. Система выполняет офлайн-анализ логов запросов и поведения пользователей (selections). На основе этого анализа строится база данных составных фраз (compounds) и рассчитываются их вероятности (Ratio).
QUNDERSTANDING – Понимание Запросов (Онлайн)
При получении нового запроса система использует заранее рассчитанные данные для его интерпретации – определения, какие слова следует рассматривать вместе как Compounds.
RANKING – Ранжирование
Рассчитанные вероятности используются как сигнал ранжирования. Если система идентифицирует последовательность слов в запросе как strong compound, она повышает в ранжировании (scoring) документы, которые содержат эту фразу в точном виде.
Входные данные:
User Selections/Клики).Summaries: заголовки и сниппеты) выбранных результатов.Dwell Time) (опционально).Выходные данные:
Compounds).Likelihood/Ratio) или классификация (сильный/слабый) для каждой фразы.Ratio > 90%, кандидат маркируется как strong bigram; если < 75% — как weak bigram. Также используется порог времени просмотра (Dwell Time) для валидации клика (Claim 10).Процесс А: Офлайн-идентификация составных фраз
Selections).Dwell Time). Учитываются только "длинные клики" (Claim 10).candidate compounds). Каждый кандидат — это N последовательных терминов из запроса.Selections для запросов, содержащих кандидата (Total Selections).Selections, где сводка (summary: сниппет или заголовок) выбранного результата содержала кандидата как точную фразу (Selections with Compound).Ratio с предопределенными порогами для классификации (сильная/слабая фраза).conditional probability) на основе окружающих слов в запросе (Claims 11-13).Compounds.Процесс Б: Применение при обработке запроса (Онлайн)
Query Understanding система идентифицирует в запросе известные Compounds, используя офлайн-базу.Ranking система корректирует оценки (Scores) документов. Документы, содержащие идентифицированные Compounds в целостном виде, получают повышение в ранжировании (Claim 17).Selections (Клики): Основной источник данных для анализа.Dwell Time (Время на сайте): Используется для валидации качества клика и фильтрации шума (коротких кликов).Summary (Заголовки и Сниппеты): Текст в сводке выбранных результатов. Система анализирует этот текст на наличие точного вхождения фразы-кандидата.Формула расчета:
Ratio, используемые для классификации фраз (например, >90% = сильная; <75% = слабая).selection).strong compound, система будет активно предпочитать документы, содержащие эту последовательность как неразрывную фразу. Целостность фразы становится сильным сигналом релевантности.Dwell Time (Long Clicks) как фильтра (Claim 10) подтверждает использование метрик удовлетворенности пользователей для обучения алгоритмов.conditional probability.Summaries (Title и Snippet) кликнутых результатов, важно, чтобы ваши сниппеты четко отображали основные составные фразы в точном соответствии. Это повышает вероятность того, что ваши клики будут засчитаны в пользу идентификации этих фраз.Dwell Time для фильтрации кликов (Claim 10), крайне важно создавать контент, который удерживает пользователя. Удовлетворенные пользователи генерируют качественные поведенческие сигналы, которые используются для обучения алгоритмов понимания языка.compound.Compound.Dwell Time). Согласно патенту, такие клики могут быть отфильтрованы и не будут участвовать в анализе.Этот патент подтверждает стратегическую важность поведенческих факторов не только для ранжирования, но и для базовых механизмов понимания запросов (Query Understanding). Он демонстрирует переход от оптимизации под отдельные слова к оптимизации под фразы и понятия. Для SEO это означает, что лингвистическая точность и фокус на удовлетворении интента пользователя (подтвержденном через Long Clicks) имеют высокий приоритет.
Сценарий 1: Идентификация сильной составной фразы (Strong Compound)
Ratio 98% и определяет "Galaxy Z Fold" как strong compound.Сценарий 2: Разделение фразы (Weak/Split Compound)
Ratio 60%.weak compound или не compound. Нет необходимости строго придерживаться фразы "London hotels". Важнее оптимизация под сущности "London" и "Hotels" и их синонимы в рамках одной страницы.Что такое "составная фраза" (Compound/N-gram) в контексте этого патента?
Это последовательность из двух или более слов, которая вместе образует единое понятие и часто имеет иное значение, чем эти слова по отдельности. Примеры из патента включают "San Francisco" и "Larry Page". Система стремится отличать такие фразы от случайных сочетаний слов, например, "London hotels".
Как именно система определяет, является ли фраза составной?
Система использует статистику кликов пользователей. Она рассчитывает соотношение (Ratio): сколько раз пользователи кликнули на результаты, содержащие эту фразу целиком в сниппете или заголовке (Summary), по сравнению с общим числом кликов по запросу. Если этот показатель высок (например, выше 90%), фраза считается составной.
Какую роль в этом патенте играет Dwell Time (время на сайте)?
Патент явно упоминает (Claim 10), что система может учитывать только те клики (Selections), после которых пользователь просматривал документ дольше определенного порога времени. Это означает использование Dwell Time (Long Clicks) для фильтрации некачественных взаимодействий (коротких кликов) и повышения точности анализа, основываясь только на удовлетворенных пользователях.
Как это влияет на ранжирование?
Если система идентифицировала фразу как составную (особенно как Strong Compound), она будет повышать оценку (score) документов, которые содержат эту фразу в точном, неразрывном виде. Документы, где эти слова разделены или идут в другом порядке, будут считаться менее релевантными для данного понятия.
Что это значит для использования ключевых слов на странице?
Это подчеркивает критическую важность использования точного фразового соответствия для устоявшихся терминов и названий. Не следует искусственно разбивать ключевые фразы, которые представляют собой единое понятие. Они должны присутствовать в тексте, и особенно в Title и сниппетах, в своем естественном виде.
Может ли одна и та же фраза быть составной в одном запросе и не быть в другом?
Да. Патент описывает механизм учета контекста (Context) — окружающих слов в запросе (Claims 11-13). Система может рассчитывать условную вероятность (conditional probability), определяя значение фразы в зависимости от соседних терминов. Это позволяет гибко интерпретировать язык.
Как система обрабатывает новые или редкие фразы?
Поскольку механизм основан на анализе логов запросов и кликов, он способен автоматически идентифицировать новые составные фразы (например, названия новых продуктов), как только по ним накопится достаточно статистики. Это позволяет системе быстро адаптироваться к изменениям в языке.
Что такое "сильные" (Strong) и "слабые" (Weak) составные фразы?
Это классификация, основанная на рассчитанной вероятности (Ratio). Если подавляющее большинство пользователей кликает на результаты с цельной фразой (например, >90%), она классифицируется как сильная (Strong Compound). Если процент ниже (например, <75%), она может быть классифицирована как слабая (Weak Compound). Это влияет на вес сигнала при ранжировании.
Как этот патент соотносится с современными NLP моделями типа BERT?
Этот патент описывает статистический метод, основанный на поведении пользователей. Современные модели, такие как BERT, анализируют контекст на основе языковых паттернов. Эти подходы дополняют друг друга: NLP модели предлагают семантическую интерпретацию, а механизм из патента валидирует эту интерпретацию на основе реального поведения пользователей.
Учитывает ли система клики, где слова из фразы присутствуют, но не рядом?
Да, но они учитываются иначе. Они входят в знаменатель при расчете Ratio (общее число кликов). Если пользователи часто кликают на результаты, где слова разделены, Ratio будет низким, и система решит, что это не составная фраза (в патенте это называется "split a candidate bigram").

Семантика и интент

Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Local SEO

Индексация
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

EEAT и качество
Антиспам
Ссылки

SERP
Поведенческие сигналы

Ссылки
Мультимедиа
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Антиспам

Ссылки
Семантика и интент
SERP

Knowledge Graph
Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
Поведенческие сигналы
SERP
