Как Google использует таксономии для понимания иерархических отношений между соседними словами в запросе (например, «Город, Страна»)

Google анализирует соседние слова в поисковом запросе для выявления иерархических отношений (например, «Город, Страна» или «Род, Вид»), используя данные таксономии. Система генерирует различные интерпретации запроса, оценивает их на основе шаблонов и местоположения пользователя и использует лучшую интерпретацию для уточнения поиска, улучшая понимание структурированных запросов.

Описание

Какую задачу решает

Патент решает проблему неоднозначности и недостаточной точности при обработке поисковых запросов, содержащих термины с иерархическими отношениями. Традиционные системы часто рассматривают такие термины как простые ключевые слова, игнорируя структурный контекст (например, рассматривая запрос «Zurich Switzerland» как набор слов, а не как структуру «Город, Страна»). Это приводит к менее релевантным результатам, поскольку истинное намерение пользователя не распознается.

Что запатентовано

Запатентована система для интерпретации поисковых запросов путем выявления иерархических отношений между смежными (соседними) терминами. Система парсит запрос и сравнивает комбинации слов с базой данных иерархической таксономии (например, географической, биологической, бизнес-таксономии). Если обнаруживается иерархическая связь (например, один термин является родителем или потомком другого), система генерирует структурированную интерпретацию запроса, которая затем оценивается на основе шаблонов и контекста пользователя.

Как это работает

Механизм работает в несколько этапов:

Парсинг: Поисковый запрос разбивается на все возможные комбинации смежных (adjacent) терминов.
Поиск соответствий: Каждая комбинация сравнивается с индексом (Name Table), который ссылается на узлы в базе данных иерархической таксономии (Tree).
Определение отношений: Для смежных терминов, найденных в таксономии, система проверяет наличие иерархической связи. Используется алгоритм «walk-up» (обход дерева вверх), чтобы определить, связаны ли узлы (например, находится ли город внутри страны).
Генерация интерпретаций: На основе найденных связей генерируются возможные структурированные интерпретации запроса.
Оценка (Scoring): Каждая интерпретация оценивается с использованием шаблонов (Templates, например, «City, Country»), атрибутов сущностей (например, их важности или популярности — Stand-alone value) и местоположения пользователя.
Выбор и Поиск: Выбирается интерпретация с наивысшей оценкой (превышающей порог), и на ее основе выполняется поиск.

Актуальность для SEO

Высокая. Понимание структурированного намерения из неструктурированного текста запроса является фундаментальной задачей современных поисковых систем (работа с Knowledge Graph, распознавание сущностей). Этот патент описывает базовый механизм для распознавания структуры в запросах на этапе Query Understanding, что особенно актуально для локального поиска, E-commerce и запросов, связанных с сущностями.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он определяет, как Google интерпретирует структуру внутри запросов, основываясь на порядке слов и известных таксономиях. Это имеет критическое значение для локального поиска (географическая иерархия), электронной коммерции (таксономия продуктов) и любых ниш с четкой структурой. Понимание этого механизма требует внимания к архитектуре информации и контекстуальному использованию сущностей.

Детальный разбор

Термины и определения

Adjacent Search Terms (Смежные поисковые термины): Термины, которые расположены рядом друг с другом в исходном поисковом запросе. Система фокусируется на анализе иерархических связей именно между соседними комбинациями.
Hierarchical Relationship (Иерархическое отношение): Связь между терминами, основанная на ранге, классе или классификации (например, родитель-потомок, класс-подкласс, род-вид).
Hierarchical Taxonomy Data (Данные иерархической таксономии): Структурированные данные, организованные в иерархию. Примеры: географические данные, биологическая классификация, категории бизнеса, объекты, концепции, события.
Tree (Дерево): Структура данных, хранящая Hierarchical Taxonomy Data. Состоит из узлов (сущностей), связанных иерархически.
Name Table (Таблица имен): Индекс, содержащий имена сущностей (например, «Paris»). Каждое имя имеет указатели на все соответствующие ему узлы в Tree (например, Paris, France и Paris, Texas).
Walk-up (Обход вверх): Алгоритм обхода дерева таксономии от конкретного узла к его родителям. Используется для проверки иерархических отношений между двумя разными узлами (например, чтобы определить, является ли один предком другого).
Templates (Шаблоны): Предопределенные паттерны иерархических терминов, соответствующие тому, как пользователи обычно формулируют запросы (например, «City, State» или «State, Country»). Используются для оценки интерпретаций.
Stand-alone value (Значение автономной важности): Метрика глобальной важности или известности сущности. Может основываться на популярности, населении, количестве поисков или веб-страниц. Более важные сущности (например, «New York») имеют более высокое значение.
Country stand-alone value (Значение важности в контексте страны): Метрика важности сущности в контексте конкретной страны (например, Valencia в Испании важнее, чем Valencia в Канаде).
Triangular Array (Треугольный массив): Структура данных, используемая для хранения всех комбинаций смежных поисковых терминов, полученных при парсинге запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод интерпретации запроса с учетом иерархии и контекста пользователя.

Система определяет, соответствует ли первый поисковый термин термину на первом иерархическом уровне таксономии, И соответствует ли второй поисковый термин термину на втором (отличном от первого) иерархическом уровне.
Если оба соответствия найдены, система определяет, что между первым и вторым поисковыми терминами существует иерархическое отношение (hierarchical relationship).
Система генерирует интерпретацию для комбинации этих двух терминов. Эта генерация основана на обнаруженном иерархическом отношении И на местоположении (location), связанном с пользовательским устройством.
Система определяет оценку (score) для этой интерпретации.
Если оценка превышает пороговое значение (threshold), система идентифицирует результаты поиска на основе этой интерпретации.

Claim 7 (Независимый пункт): Описывает систему, реализующую метод, с фокусом на смежности терминов.

Система идентифицирует иерархическое отношение между первым и вторым смежными терминами (adjacent search terms), где каждый термин ассоциирован с разным уровнем иерархии. Затем генерируется и оценивается интерпретация, и если оценка превышает порог, выполнятся поиск.

Claim 9 и 10 (Зависимые): Детализируют механизм оценки.

Оценка интерпретации определяется на основе шаблона (template) (Claim 9). Этот шаблон выбирается из множества шаблонов на основе информации о местоположении пользовательского устройства (Claim 10). Это означает, что предпочтительные паттерны запросов могут различаться в зависимости от региона пользователя.

Claim 14 (Зависимый): Детализирует факторы оценки.

Оценка интерпретации может основываться на мере важности (measure of importance) одного термина по отношению к другому (соответствует Stand-alone value в описании).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно обработанные данные для интерпретации запроса в реальном времени.

INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает и структурирует Hierarchical Taxonomy Data. Создаются структуры данных Tree и Name Table. Также вычисляются и сохраняются атрибуты сущностей, такие как Stand-alone value и Country stand-alone value.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система работает в реальном времени для преобразования текста запроса в структурированное намерение.

Парсинг: Запрос разбивается на смежные комбинации.
Распознавание Структуры: Идентифицируются иерархические отношения между терминами с использованием Tree и Name Table.
Интерпретация и Оценка: Генерируются и оцениваются возможные интерпретации с учетом Templates, атрибутов сущностей и контекста пользователя (местоположение).

RANKING – Ранжирование
Результаты этапа QUNDERSTANDING (наилучшая структурированная интерпретация запроса) используются для выполнения поиска и ранжирования документов, релевантных точному значению терминов.

Входные данные:

Поисковый запрос (текст).
Hierarchical Taxonomy Data (Tree, Name Table).
Шаблоны (Templates).
Данные о местоположении пользователя.

Выходные данные:

Набор оцененных интерпретаций запроса.
Выбранная наилучшая интерпретация (структурированное намерение) для поиска.

На что влияет

Конкретные ниши и типы контента: Наибольшее влияние оказывается на ниши с четкими таксономиями:
- Локальный поиск (Local SEO): Критическое влияние, так как географические данные являются основным примером иерархии (Город, Регион, Страна).
- E-commerce: Влияет на понимание запросов по категориям товаров (Категория, Бренд, Модель).
- Наука, медицина (YMYL), бизнес-листинги: Понимание биологических, медицинских или бизнес-таксономий.
Специфические запросы: Влияет на запросы, содержащие комбинацию сущностей разных уровней иерархии (например, «Restaurants Amsterdam», «Apple iPhone 15»).
Языковые и географические ограничения: Механизм чувствителен к географии пользователя. Templates адаптируются к локальным особенностям порядка слов и иерархий.

Когда применяется

Триггеры активации: Алгоритм активируется, когда смежные термины в запросе обнаруживают соответствия в Name Table.
Условия работы: Применяется, если система может идентифицировать иерархическое отношение между этими смежными терминами с помощью анализа таксономии (например, через «walk-up») и если они относятся к разным уровням иерархии.
Пороговые значения: Интерпретация используется для поиска только в том случае, если ее оценка (score) превышает определенный порог (threshold).

Пошаговый алгоритм

Процесс обработки запроса для генерации результатов поиска:

Получение запроса: Система получает поисковый запрос и информацию о местоположении пользователя.
Парсинг запроса: Запрос разбирается на все комбинации смежных поисковых терминов. (Хранятся, например, в Triangular Array).
Поиск соответствий в таксономии: Для каждой комбинации выполняется поиск.
- Термины сравниваются с Name Table.
- При совпадении используются указатели для обращения к соответствующим узлам в Tree.
Определение иерархических отношений (Walk-up): Если смежные термины в комбинации соответствуют разным узлам в Tree на разных уровнях иерархии, система проверяет наличие связи. Выполняется «walk-up» для поиска пересечений. Это также помогает разрешить неоднозначность (например, Amsterdam в New York vs. Amsterdam в Netherlands).
Генерация интерпретаций: Для комбинаций, где найдена иерархическая связь, генерируются интерпретации. Например, «Amsterdam the Netherlands» интерпретируется как {City: Amsterdam, Country: The Netherlands}. (Сохраняются, например, в Hit List).
Оценка интерпретаций (Scoring): Каждая интерпретация оценивается. Оценка учитывает:
- Шаблоны (Templates): Соответствие ожидаемым паттернам. Шаблоны могут выбираться или взвешиваться на основе местоположения пользователя.
- Атрибуты Сущностей: Использование Stand-alone value (важность/известность сущностей).
Фильтрация и Выбор: Отбираются интерпретации, чья оценка превышает пороговое значение (threshold).
Выполнение поиска: Проводится поиск на основе выбранной структурированной интерпретации, и результаты возвращаются пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы (в контексте запроса): Текст запроса. Порядок слов и смежность терминов критически важны.
Структурные факторы (Таксономия): Предварительно проиндексированные и структурированные данные таксономий (Tree, Name Table). Патент упоминает географические, биологические таксономии, бизнес-листинги, объекты, концепции.
Географические и Пользовательские факторы: Местоположение пользователя. Используется для выбора и взвешивания Templates при оценке интерпретаций и разрешения неоднозначностей.

Какие метрики используются и как они считаются

Определение иерархических отношений: Используется алгоритмический метод «walk-up» (обход дерева вверх) для нахождения связей между узлами в таксономии.
Метрики оценки интерпретаций (Scoring): Оценка рассчитывается на основе комбинации факторов:
- Template Scores (Оценки шаблонов): Оценки, присваиваемые на основе соответствия интерпретации предопределенным паттернам (Templates). Вес шаблона зависит от локали пользователя.
- Stand-alone value (Глобальная важность): Предварительно рассчитанная метрика важности сущности. Может основываться на популяции, количестве поисков, количестве веб-страниц.
- Country stand-alone value (Важность в контексте страны): Важность сущности в контексте конкретной страны.
- Relational value (Реляционное значение): Учитывает, является ли имя основным, официальным или разговорным.
Пороговые значения (Thresholds): Используются для фильтрации интерпретаций с низкой оценкой. Только интерпретации, превышающие порог, используются для поиска.

Выводы

Структурирование запросов через таксономии: Google активно преобразует неструктурированные текстовые запросы в структурированные интерпретации, используя известные иерархические таксономии (часть Knowledge Graph). Это ключевой механизм Query Understanding.
Смежность как сильный сигнал связи: Система полагается на предположение, что пользователи размещают иерархически связанные термины рядом друг с другом. Анализируются только смежные комбинации.
Разрешение неоднозначностей (Disambiguation): Механизм walk-up является ключевым для определения контекста. Он позволяет системе понять, что в запросе «Paris Texas» имеется в виду город в Техасе, а не столица Франции, благодаря подтверждению иерархической связи.
Использование шаблонов для понимания интента: Система использует предопределенные шаблоны (Templates), такие как «City, Country», чтобы оценить вероятность того, что данная интерпретация соответствует намерению пользователя.
Контекстуальная оценка (Contextual Scoring): Местоположение пользователя напрямую влияет на интерпретацию и оценку. Система может предпочесть разные шаблоны или по-разному оценивать важность сущностей в зависимости от того, откуда пришел запрос.
Важность авторитетности сущностей (Entity Authority): Метрики типа Stand-alone value (глобальная важность/популярность) используются для оценки интерпретаций. Это подчеркивает важность авторитетности и известности сущностей (брендов, мест и т.д.).

Практика

Best practices (это мы делаем)

Оптимизация Информационной Архитектуры (IA) и соответствие таксономиям: Проектируйте структуру сайта так, чтобы она отражала естественные иерархические отношения в вашей нише (например, Категория -> Подкатегория -> Продукт или Страна -> Город). Это помогает Google сопоставить ваш контент с известными таксономиями.
Использование стандартных иерархических паттернов (Local SEO): При указании местоположения используйте общепринятые паттерны, соответствующие Templates (например, «Город, Штат» или «Город, Страна»). Обеспечьте консистентность NAP (Name, Address, Phone).
Устранение неоднозначности в контенте: При упоминании сущностей, которые могут быть неоднозначными (например, город «Springfield»), всегда предоставляйте достаточный иерархический контекст (например, указание штата). Это помогает системе выполнить корректную валидацию через Walk-up.
Построение авторитетности сущностей: Работайте над известностью и авторитетностью ваших ключевых сущностей (бренда, продукта, местоположения). Высокий показатель Stand-alone value (коррелирующий с популярностью) улучшает шансы на то, что интерпретация, включающая вашу сущность, получит высокую оценку.
Внедрение структурированных данных (Schema.org): Используйте разметку (например, BreadcrumbList, LocalBusiness), чтобы явно указать на иерархические отношения между страницами и сущностями.

Worst practices (это делать не надо)

Нарушение естественного порядка и иерархии: Создание контента или использование нестандартного порядка иерархических элементов (например, указание адреса в обратном порядке) может помешать системе сопоставить запрос с оптимальным Template.
Игнорирование географического контекста (Международное SEO): Применение одних и тех же структурных паттернов для разных стран неэффективно, так как система использует локализованные Templates для интерпретации запросов в зависимости от местоположения пользователя.
Разделение иерархически связанных терминов: Вставка лишних слов между терминами, которые должны быть интерпретированы как единая структура. Система анализирует только смежные (adjacent) термины для выявления иерархии.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на понимание запросов через призму сущностей и их взаимосвязей (Entity-based SEO). Он демонстрирует конкретный механизм, с помощью которого порядок слов и контекст пользователя преобразуются в структурированный интент. Для долгосрочной стратегии это означает, что Информационная Архитектура (IA) сайта и четкое соответствие контента общепринятым таксономиям являются фундаментальными факторами успеха, особенно в локальном поиске и E-commerce.

Практические примеры

Сценарий 1: Оптимизация локального бизнеса (Local SEO) и разрешение неоднозначности

Задача: Оптимизировать страницу филиала в городе Спрингфилд, штат Иллинойс.
Применение патента: Необходимо убедиться, что система правильно свяжет «Springfield» и «Illinois», а не Спрингфилд в другом штате.
Действия:
- В Title, H1 и контенте использовать паттерн «Springfield, Illinois». Это соответствует стандартному шаблону Template («City, State»).
- Внедрить разметку LocalBusiness, явно определяя иерархию (addressLocality и addressRegion).
Ожидаемый результат: Когда пользователь ищет «[Услуга] Springfield Illinois», система с помощью механизма walk-up подтвердит иерархическую связь именно для Иллинойса, присвоит этой интерпретации высокий балл и использует ее для ранжирования.

Сценарий 2: Оптимизация категории E-commerce

Задача: Ранжироваться по запросу «Ноутбуки Dell XPS».
Действия:
- Создать четкую иерархию категорий: Ноутбуки > Dell > XPS. Использовать «хлебные крошки» (включая разметку).
- В заголовках и тексте использовать фразы, отражающие иерархию («Ноутбуки линейки XPS от Dell»).
Ожидаемый результат: Система распознает иерархическую связь в продуктовой таксономии: «Dell» (Бренд) и «XPS» (Линейка). Интерпретация запроса будет сфокусирована на этой иерархии, и страница категории, отражающая эту структуру, получит преимущество.

Вопросы и ответы

Как этот патент влияет на локальное SEO (Local SEO)?

Влияние критическое. Географические данные являются основным примером иерархической таксономии, описанной в патенте (Город, Регион, Страна). Патент объясняет, как Google интерпретирует запросы типа «[Бизнес] [Местоположение]». Корректное использование географической иерархии в контенте, разметке и обеспечение консистентности NAP помогает Google точно понять местоположение бизнеса и его релевантность локальному запросу.

Что такое «Шаблоны» (Templates) и как они используются?

Templates — это предопределенные паттерны, отражающие то, как пользователи обычно формулируют запросы, включающие иерархические термины (например, «City, State» или «Brand, Product»). Когда система генерирует интерпретацию запроса, она сравнивает ее с этими шаблонами. Соответствие популярному шаблону значительно повышает оценку (score) интерпретации, увеличивая уверенность системы в правильности понимания интента.

Как местоположение пользователя влияет на интерпретацию запроса?

Местоположение пользователя используется для контекстуальной оценки и выбора Templates. Например, шаблон указания адреса в США отличается от шаблона в других странах. Система адаптирует понимание запроса под локальные особенности пользователя, чтобы точнее определить его интент. Также локальный контекст помогает разрешать неоднозначности.

Что такое «Stand-alone value» и как это связано с SEO?

Stand-alone value — это метрика глобальной важности, известности или популярности сущности. Она может основываться на количестве поисков или веб-страниц, связанных с сущностью. Для SEO это коррелирует с авторитетностью и силой бренда/сущности (Prominence). Чем выше эта метрика, тем выше может быть оценка интерпретации, включающей данную сущность.

Применяется ли этот механизм только к географическим данным?

Нет. Хотя в описании патента в основном используются географические примеры, в тексте и Claims четко указано, что механизм применим к любым данным иерархической таксономии. Сюда входят биологические классификации, категории бизнеса (E-commerce), объекты, концепции и события.

Почему система анализирует только смежные (adjacent) термины?

Система основана на наблюдении, что пользователи склонны размещать иерархически связанные термины рядом друг с другом в запросе. Анализ только смежных комбинаций позволяет значительно сократить вычислительную сложность, при этом сохраняя высокую точность распознавания структурированного интента.

Как система обрабатывает неоднозначные названия (например, «Paris»)?

Неоднозначные названия индексируются в Name Table с указателями на все соответствующие сущности в Tree (например, Paris, France и Paris, Texas). Если в запросе присутствует смежный термин (например, «Paris Texas»), система использует иерархическую проверку («walk-up»), чтобы определить, какая именно сущность «Paris» имеет иерархическую связь с «Texas». Это позволяет выбрать правильную интерпретацию.

Что такое «walk-up» и зачем он нужен?

«Walk-up» (обход вверх) — это алгоритм перемещения от конкретного узла в дереве таксономии к его родительским узлам. Он используется для проверки иерархической связи между двумя разными терминами. Если при обходе вверх от двух узлов они пересекаются (один является предком другого), система подтверждает наличие иерархического отношения.

Как этот патент связан с Knowledge Graph и распознаванием сущностей (NER)?

Этот патент описывает фундаментальный механизм, который поддерживает работу Knowledge Graph и NER на этапе Query Understanding. Иерархические таксономии (Tree) по сути являются частью графа знаний. Патент предоставляет метод для идентификации сущностей и, что более важно, отношений между ними на основе структуры запроса и данных таксономии.

Влияет ли информационная архитектура (IA) сайта на этот алгоритм?

Да, он подчеркивает важность логичной иерархической структуры сайта. Если ваша IA соответствует общепринятым таксономиям (например, в e-commerce: Категория -> Подкатегория), вы помогаете Google понять контекст вашего контента. Это улучшает способность системы сопоставлять страницы вашего сайта с запросами, содержащими иерархические термины.