
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
Патент решает проблему ограничений традиционных алгоритмов стемминга, которые полагаются на лингвистические правила и могут не идентифицировать все релевантные семантические варианты слова (например, нестандартные формы или связанные существительные, такие как «pizza» и «pizzeria»). Изобретение улучшает процесс расширения запросов (Query Broadening), находя семантически связанные варианты на основе поведения пользователей и категоризации сущностей, а не только лингвистического анализа.
Запатентована система для идентификации вариантов основы (Stem Variants) с использованием комбинации лингвистического сходства и семантического сходства, выведенного из намерений пользователя. Система анализирует, приводят ли разные поисковые запросы к выбору пользователями результатов, принадлежащих к одной и той же категории (например, категории бизнеса). Если да, и если запросы удовлетворяют определенным порогам (либо по сходству написания, либо по объему кликов), термины идентифицируются как варианты одной основы.
Система работает путем анализа журналов поисковых запросов и последующих действий пользователей:
Edit Distance (редакционное расстояние) между терминами. Если оно ниже порога.Stem Variant Repository и используются для расширения будущих запросов.Высокая. Понимание и расширение запросов остаются критически важными задачами поиска. Хотя современные нейронные модели (BERT, MUM) хорошо обрабатывают контекст, этот метод предоставляет сильный поведенческий сигнал семантического сходства. Он особенно актуален для локального поиска (Local Search), где категоризация сущностей является надежным сигналом интента, и может использоваться для генерации обучающих данных для NLP-моделей.
Патент имеет значительное влияние на SEO (7.5/10). Он демонстрирует, как Google использует поведенческие данные для понимания взаимосвязей между словами и намерениями пользователей. Это влияет на контент-стратегию: важно фокусироваться на удовлетворении основного намерения (которое часто связано с категорией результата). Также критически подчеркивается важность точной категоризации локального бизнеса (например, в Google Business Profile).
Organization Entity), таких как «pizza restaurant» или «Outdoor Recreation Business».Local Search Server System.Edit Distance для признания двух терминов лингвистически схожими (например, 4 или 5).Патент содержит два ключевых независимых пункта (Claim 1 и Claim 11), которые описывают два разных подхода к идентификации вариантов основы. Это критически важно для понимания гибкости изобретения.
Claim 1 (Независимый пункт – Поведенческий метод): Описывает метод, основанный на объеме пользовательских выборов.
threshold number of user selections).Stem Variants на основе совпадения категорий И достижения порога выборов.В этом методе Edit Distance НЕ является обязательным условием. Два совершенно разных по написанию слова (синонимы) могут быть признаны вариантами, если они часто приводят к выбору результатов одной категории и объем этих выборов статистически значим.
Claim 11 (Независимый пункт – Лингвистическо-поведенческий метод): Описывает метод, основанный на редакционном расстоянии.
Edit Distance между терминами из Q1 и Q2. Проверяется, находится ли оно в пределах порогового значения (Threshold Edit Distance).Edit Distance ниже порога, термины идентифицируются как Stem Variants.В этом методе объем пользовательских выборов НЕ является обязательным условием, но требуется лингвистическое сходство. Это фокусируется на морфологических вариантах.
Claim 4, 5, 6 (Зависимые): Уточняют метрики лингвистического сходства, которые могут использоваться: Edit Distance (Claim 4), пороговое количество общих символов (Claim 5) или пороговое количество начальных общих символов (Claim 6).
Claim 14 (Зависимый): Уточняет обработку локальных запросов. При определении Edit Distance система может игнорировать термины, указывающие на местоположение (location terms). Например, в запросах «pizza nyc» и «pizzeria manhattan» термины «nyc» и «manhattan» будут проигнорированы при сравнении «pizza» и «pizzeria».
Изобретение в основном применяется на этапе понимания запросов, но требует данных, собранных на этапе индексирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна определить и сохранить категории (Categories) для сущностей (например, бизнесов), которые появляются в результатах поиска. Эти данные хранятся в Category Storage.
QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
Основная логика патента выполняется здесь, в офлайн-режиме (Stem Variant System).
Edit Distance и объемов выборов.Stem Variant Storage.QUNDERSTANDING – Понимание Запросов (Реальное время)
Во время обработки нового запроса система обращается к Stem Variant Storage. Если термин в запросе имеет идентифицированные варианты, система выполняет Query Expansion (расширение запроса), добавляя эти варианты (например, запрос «camp» расширяется до «camp OR camping»).
Входные данные:
Category Storage).Выходные данные:
Stem Variant Storage).Local Search) и тематики, где результаты четко категоризированы (бизнесы, организации, места). Примеры в патенте строго сфокусированы на бизнесе.Edit Distance между терминами Q1 и Q2 ниже порога (Метод по Claim 11).Процесс идентификации вариантов (Офлайн)
Same Category).Ветка А (Лингвистическая, на основе Claim 11):
Edit Distance: Вычисление редакционного расстояния между терминами Q1 и Q2.Edit Distance с пороговым значением (например, <= 4).Ветка Б (Поведенческая, на основе Claim 1):
threshold number of user selections.Stem Variants.Stem Variant Storage.Процесс применения (Реальное время)
Stem Variant Storage.Search Query) и данные о выборе пользователями результатов поиска (Result Selection / клики).Categories), связанные с результатами поиска. В патенте это явно категории организационных сущностей (type of organization entity) или бизнеса.location terms) в запросах. Они используются для определения локального контекста, но затем исключаются при расчете Edit Distance (Claim 14).Edit Distance, Claim 11). Эффективен для морфологических вариантов (например, «camp» и «camping»).Edit Distance (например, «Florist» и «Flower Shop»).Local Search) и для запросов, связанных с бизнесом и организациями.Category Storage. Точная категоризация помогает Google понять, для каких запросов (и всех их вариантов/синонимов) ваш бизнес релевантен.Query Expansion).Патент подтверждает стратегический сдвиг от буквального сопоставления ключевых слов к пониманию намерений пользователя на основе сущностей (Entity-Oriented Search). Он показывает, как поведение пользователей напрямую обучает алгоритмы Google пониманию языка и взаимосвязей между терминами. Стратегически важно не только привлечь клик, но и удовлетворить потребность пользователя, так как эта информация (клик + категория) используется для уточнения самого понимания запроса системой.
Сценарий 1: Идентификация синонимов с высоким Edit Distance (по методу Claim 1)
Edit Distance между «Florist» и «Flower Shop» высокое. Лингвистическое сходство низкое.Threshold Number of User Selections.Сценарий 2: Идентификация морфологических вариантов (по методу Claim 11)
Edit Distance между «Camp» и «Camping» равно 3.Threshold Edit Distance (например, 4).Stem Variants, даже если объем кликов пока невысок (порог объема кликов не обязателен для этого метода).Чем этот метод отличается от традиционного стемминга?
Традиционный стемминг использует предопределенные лингвистические правила для удаления окончаний и суффиксов. Этот патент описывает метод, основанный на данных (data-driven), который использует поведение пользователей (клики) и категории результатов для определения семантической связи между словами, даже если они не соответствуют стандартным правилам стемминга (например, «pizza» и «pizzeria»).
Может ли система связать слова, если их Edit Distance велико (например, синонимы с разным написанием)?
Да. Независимый пункт Claim 1 описывает метод, который не требует низкого Edit Distance. Если два разных слова (например, «Врач» и «Доктор») постоянно приводят к выбору результатов одной категории («Medical Clinic») и совокупный объем этих выборов превышает порог статистической значимости, система может идентифицировать их как варианты (синонимы).
Что такое Edit Distance (Редакционное расстояние) и когда оно используется?
Это мера того, насколько два слова отличаются по написанию (количество вставок, удалений, замен символов). Оно используется в методе, описанном в Claim 11, как обязательное условие: два слова считаются вариантами, если их Edit Distance ниже порога И они ведут к одной категории результатов. Это гарантирует лингвистическое сходство.
Насколько важна категоризация в Google Business Profile (GBP) в свете этого патента?
Она критически важна для локального SEO. Патент напрямую использует категории сущностей (Category Storage) как основу для определения семантической связи между запросами. Правильная и точная категоризация вашего бизнеса помогает Google понять, к каким запросам и их вариантам вы релевантны.
Применяется ли этот алгоритм только к локальному поиску (Local Search)?
В патенте примеры и описание системы (Local Search Server System) сильно сфокусированы на локальном поиске и категориях бизнеса, так как там данные наиболее структурированы. Хотя теоретически он может применяться шире (например, в E-commerce), его основная сила и описанное применение связаны с локальными сущностями и организациями.
Означает ли это, что мне больше не нужно использовать вариации ключевых слов в контенте?
Не совсем. Хотя этот механизм улучшает способность Google распознавать варианты, использование естественных синонимов и релевантных терминов по-прежнему является хорошей практикой. Это помогает повысить тематический авторитет и гарантировать релевантность для запросов, для которых Google еще не установил связи через этот метод (например, из-за нехватки данных).
Как этот патент соотносится с современными NLP-моделями, такими как BERT?
Современные модели, такие как BERT, понимают контекст на более глубоком уровне. Однако методы, описанные в этом патенте, не устарели. Они предоставляют конкретные, основанные на поведении пользователей сигналы связи между терминами. Эти данные могут использоваться как для прямого расширения запросов, так и в качестве ценных обучающих данных для тонкой настройки (fine-tuning) больших языковых моделей.
Как Google обрабатывает термины местоположения в запросах?
Патент явно указывает (Claim 14), что система идентифицирует термины местоположения (например, «NYC» или «Manhattan») и исключает их перед расчетом Edit Distance между остальными терминами запроса. Это позволяет сравнивать намерения пользователей в разных географических точках и устанавливать общие связи между терминами.
Является ли этот процесс идентификации вариантов real-time процессом?
Нет. Идентификация новых Stem Variants путем анализа логов, расчета Edit Distance и проверки категорий происходит в офлайн-режиме. Однако применение этих вариантов для расширения запросов (Query Expansion) происходит в реальном времени, когда пользователь вводит запрос.
Что важнее: сходство написания или объем кликов?
Патент описывает два независимых метода. В одном (Claim 11) критично сходство написания (низкий Edit Distance). В другом (Claim 1) критичен объем кликов (Threshold Number of User Selections). Система может использовать один из них или оба для идентификации вариантов, что обеспечивает максимальный охват.

Семантика и интент

Семантика и интент
SERP

Индексация

Поведенческие сигналы
Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP

SERP
Персонализация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Антиспам

Поведенческие сигналы
SERP

Структура сайта
Техническое SEO
Ссылки

Персонализация
Ссылки

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
Свежесть контента

Семантика и интент
Техническое SEO
EEAT и качество
