
Google решает проблему создания языковых моделей для доменов с огромным количеством комбинаций (например, географических адресов). Система анализирует логи запросов для определения популярных форматов ввода (Template Distribution) и популярности конкретных мест (Location Distribution). Эти данные объединяются для создания вероятностной языковой модели, которая позволяет исправлять орфографические ошибки в запросах пользователей, предлагая более вероятные варианты.
Патент решает проблему создания эффективных языковых моделей (Language Models) для проверки орфографии в доменах со структурированными данными, где количество допустимых комбинаций слов слишком велико для стандартных подходов. В качестве основного примера рассматривается домен географических названий и адресов, который характеризуется огромным словарем (названия улиц, городов и т.д.) и разнообразием форматов ввода в разных странах и языках. Традиционные методы, основанные на грамматических правилах естественного языка, здесь неэффективны.
Запатентована система для автоматического создания вероятностной языковой модели в доменах структурированных данных. Вместо хранения всех возможных комбинаций система вычисляет вероятности на двух уровнях: (1) вероятность различных порядков типов сущностей (например, <УЛИЦА, ГОРОД, ШТАТ>) — Template Distribution; и (2) вероятность упоминания конкретных сущностей (например, города "New York") — Location Distribution. Объединение этих распределений позволяет создать компактную языковую модель для эффективной проверки орфографии.
Система работает в несколько этапов:
Query Log).Query Log и базу структурированных данных (Geographic Database).Entity Graph) и шаблонах из Template Distribution. Каждой комбинации присваивается оценка (Score).Высокая. Понимание и корректная интерпретация запросов, содержащих структурированные данные (адреса, названия организаций, имена людей, сложные термины), остаются критически важными для поиска, особенно в Local SEO и при работе с Knowledge Graph. Описанный метод создания языковых моделей на основе структурированных баз данных и логов запросов является фундаментальным подходом к обработке таких доменов.
Патент имеет существенное значение (6.5/10), особенно для Local SEO и сайтов, зависящих от точности распознавания структурированных данных (например, адресов, каталогов). Он показывает, что вероятность корректной интерпретации запроса зависит от популярности сущности (Location Distribution) и стандартизированности формата ввода (Template Distribution). Это подчеркивает важность NAP (Name, Address, Phone) консистентности и необходимость обеспечения четкой структуры данных, чтобы соответствовать моделям, которые Google генерирует для конкретного домена или региона.
Query Log.Query Log и Geographic Database.Template Distribution и Location Distribution. Используется для расчета условных вероятностей и проверки орфографии.Language Model.Claim 1 (Независимый пункт): Описывает основной метод генерации географической языковой модели.
Template Distribution из лога запросов: количественная оценка вероятностей шаблонов (упорядоченных наборов типов сущностей).Geographic Distribution (Location Distribution) из лога запросов: количественная оценка вероятностей того, что запросы ссылаются на конкретные географические сущности.Language Model на основе Template Distribution и Geographic Distribution. Модель содержит комбинации названий сущностей и связанные с ними оценки (Scores), основанные на вероятности их появления в запросе.Language Model.Claim 2 и 3 (Зависимые): Описывают применение сгенерированной модели.
Conditional Probabilities) появления слов в запросах на основе Language Model (Claim 2).Claim 4 (Зависимый): Детализирует вычисление оценки (Score) для пары названий в языковой модели.
Оценка для пары (Название Сущности 1, Название Сущности 2) вычисляется с использованием: (a) вероятности соответствующего шаблона из Template Distribution и (b) вероятности Сущности 1 из Geographic Distribution.
Claim 7 (Зависимый): Описывает процесс выбора комбинаций для включения в языковую модель.
Изобретение в основном применяется на этапе предварительной обработки данных и на этапе понимания запросов.
INDEXING / Офлайн-обработка данных
Основная часть работы происходит офлайн:
Geographic Database и построение Entity Graph.Query Logs.Template Distribution и Location Distribution.Language Model.Conditional Probabilities.QUNDERSTANDING – Понимание Запросов
На этом этапе система применяет сгенерированную модель в реальном времени (Query Spell Check module):
Conditional Probabilities.Входные данные (Офлайн):
Geographic Database (Сущности, типы, названия, связи).Query Log (Исторические запросы).Выходные данные (Офлайн):
Template Distribution.Location Distribution.Language Model.Conditional Probabilities.Входные данные (Онлайн):
Conditional Probabilities.Выходные данные (Онлайн):
Template Distributions, так как форматы адресов различаются (например, США vs Россия).Процесс А: Генерация распределений (Офлайн)
Geographic Database и Query Log.Query Log идентифицируется соответствующий шаблон (порядок типов сущностей).Geographic Database идентифицируются запросы в Query Log, содержащие одно из названий этой сущности.Процесс Б: Генерация Языковой Модели (Офлайн)
Geographic Database:Template Distribution (например, CITY, POSTAL_CODE).Language Model.Процесс В: Расчет условных вероятностей (Офлайн)
Language Model рассматривается как корпус документов, где каждая комбинация — это предложение, а ее оценка определяет частоту встречаемости.Процесс Г: Проверка орфографии (Онлайн)
Template Distribution) и вероятность контента (Location Distribution). Это позволяет системе адаптироваться как к локальным особенностям форматирования, так и к популярности конкретных сущностей.Location Distribution напрямую использует частоту запросов к сущности. Чем популярнее сущность (например, город или известная улица), тем выше ее вес в языковой модели и тем точнее будет работать исправление орфографии для запросов, связанных с ней.Entity Graph), что гарантирует семантическую корректность предложенных исправлений (например, улица и город, в котором она находится).Templates в вашей локали.Geographic Database), которые затем используются для генерации языковых моделей.Templates), чтобы повысить вероятность корректной интерпретации.Location Distribution) влияет на точность ее распознавания. Работа над узнаваемостью бренда и увеличением числа запросов, связанных с вашей сущностью (например, брендовые или локальные запросы), косвенно улучшает способность Google корректно обрабатывать эти запросы.Entity Graph и генерацию языковой модели.Патент подчеркивает стратегическую важность интеграции структурированных данных и анализа поведения пользователей для улучшения понимания запросов. Для SEO это означает, что точность и полнота данных, предоставляемых поисковой системе (через сайт, микроразметку, внешние каталоги), напрямую влияют на то, как система будет интерпретировать и исправлять запросы, связанные с этими данными. В доменах со сложной структурой (Local, E-commerce, специализированные ниши) стратегическое преимущество получают те, кто обеспечивает максимальную консистентность и структурированность информации, соответствующую ожиданиям пользователей в их регионе.
Сценарий: Оптимизация распознавания адреса для локального бизнеса в России
Template Distribution): SEO-специалист анализирует, как пользователи в России ищут адреса. Он обнаруживает, что шаблон <ГОРОД, УЛИЦА, ДОМ> является доминирующим.Location Distribution): Специалист видит, что улица, на которой находится бизнес, имеет несколько вариантов написания и не очень популярна в запросах (низкая P(Location)).Как этот патент связан с Local SEO и консистентностью NAP?
Патент напрямую объясняет механизм, лежащий в основе важности NAP (Name, Address, Phone). Система генерирует Template Distribution, изучая, как пользователи вводят адреса в определенной локали. Если бизнес использует консистентный NAP, соответствующий популярному шаблону, он повышает вероятность того, что система правильно распознает и обработает запросы, связанные с его адресом, даже при наличии ошибок в запросе.
Влияет ли популярность моего бизнеса на то, как Google исправляет ошибки в запросах о нем?
Да, влияет. Патент описывает Location Distribution — вероятность того, что запрос относится к конкретной сущности, основанную на логах запросов. Чем чаще ищут вашу локацию или бренд, тем выше эта вероятность. Эта метрика используется при расчете оценки в Language Model. Для более популярных сущностей языковая модель будет более точной и надежной.
Применяется ли этот подход только к географическим данным?
Нет. Хотя патент использует географические данные в качестве основного примера, в нем явно указано, что метод применим к любым доменам структурированных данных. Упоминаются имена людей, а также сложные термины в медицине, биологии, химии и фармацевтике. Это означает, что Google может использовать аналогичный подход для генерации языковых моделей в этих специализированных нишах.
Как система определяет, какой шаблон (Template) является правильным?
Система не определяет "правильность" в абсолютном смысле. Она определяет вероятность на основе статистики использования. Template Distribution генерируется путем анализа Query Log: какие порядки типов сущностей (например, <УЛИЦА, ГОРОД> vs <ГОРОД, УЛИЦА>) встречаются чаще в запросах пользователей. Чем чаще используется шаблон, тем выше его вероятность.
Учитывает ли система региональные различия в форматировании адресов?
Да, это ключевая особенность системы. В патенте указано, что для разных локалей (locales — сочетание страны и языка) могут поддерживаться отдельные логи запросов и генерироваться отдельные Template Distributions. Это позволяет системе обучаться специфическим для региона форматам, например, различиям в порядке адресации между США и Россией.
Что такое "Граф сущностей" (Entity Graph) в контексте этого патента и зачем он нужен?
Entity Graph представляет собой структуру данных, где сущности (например, улицы, города) являются узлами, а их взаимосвязи (например, улица находится в городе) — ребрами. Он используется при генерации Language Model для того, чтобы предлагать только семантически корректные комбинации. Система ищет "соседей" в этом графе, гарантируя, что в модель попадут только связанные сущности.
Что означает R(Q) (Ранг типа сущности) в формуле оценки?
R(Q) — это числовое значение, присваиваемое типу сущности на основе его специфичности. Например, STREET может иметь ранг 5, а CITY — 4. Этот ранг используется как весовой коэффициент при расчете оценки комбинации в языковой модели. Это придает больший вес более специфичным сущностям при определении вероятности запроса.
Как система рассчитывает условные вероятности, например, P("York" | "New")?
Система рассматривает сгенерированную Language Model как большой корпус текста, где каждая комбинация (например, "New York City") является предложением, а ее оценка (Score) определяет частоту встречаемости. Затем применяются стандартные статистические методы: подсчет частоты N-грамм (слов и словосочетаний) и расчет условных вероятностей на основе этих частот.
Как этот патент связан с микроразметкой (Schema.org)?
Микроразметка помогает Google строить и уточнять свои базы структурированных данных (аналог Geographic Database, описанной в патенте). Чем точнее и полнее база данных Google о сущностях и их связях, тем более качественную Language Model система сможет сгенерировать. Использование Schema.org для разметки адресов, имен и других структурированных данных напрямую поддерживает механизмы, описанные в патенте.
Что делать, если моя сущность имеет несколько вариантов написания или аббревиатур?
В патенте указано, что Geographic Database хранит различные названия для одной сущности (официальные, неформальные, аббревиатуры, языковые варианты). Важно убедиться, что Google знает обо всех этих вариантах и ассоциирует их с вашей сущностью. Это достигается через консистентное использование вариантов в авторитетных источниках и управление профилем сущности (например, в Google Business Profile).

Local SEO
Семантика и интент
Индексация

Local SEO
Семантика и интент
Персонализация

Семантика и интент
Local SEO
Мультиязычность

Мультиязычность
Семантика и интент
Индексация

Структура сайта
Персонализация
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
Поведенческие сигналы
Семантика и интент

Knowledge Graph
EEAT и качество
Семантика и интент

SERP
Поведенческие сигналы
Персонализация

Knowledge Graph
Ссылки
EEAT и качество

SERP
Персонализация
Поведенческие сигналы

Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
Персонализация
EEAT и качество
