
Google создает базу данных, связывающую имена сущностей (бренды, люди, продукты) со словами, которые часто появляются рядом с ними (контекст). Когда пользователь допускает опечатку в имени, Google использует другие слова в этом запросе как контекстные подсказки, чтобы найти наиболее вероятную подразумеваемую сущность, учитывая её популярность, силу связи с контекстом и вероятность конкретной опечатки.
Патент решает проблему неэффективности традиционных систем проверки орфографии при обработке запросов, содержащих опечатки в именах сущностей (Entity Names) — например, именах людей, названиях компаний, брендов или продуктов. Традиционные системы полагаются на словари, в которых часто отсутствуют имена собственные, особенно менее известные. Это приводит к тому, что система не может исправить опечатку и возвращает нерелевантные результаты.
Запатентована система для исправления орфографии имен сущностей, основанная на контексте. Система создает и использует Context-Entity Name Index, который хранит статистические связи между сущностями и словами, которые появляются рядом с ними в текстах (Context Terms). При получении запроса с опечаткой система использует другие слова в запросе как контекст, чтобы найти наиболее вероятную правильную форму написания сущности.
Система работает в двух режимах: офлайн и онлайн.
Офлайн: Система анализирует большой корпус текстов (веб-документы, логи запросов) для создания индекса. Она идентифицирует name-context pairs и вычисляет Context Consistency Measure (P(c∣e) – вероятность контекста при наличии сущности). Также вычисляется общая популярность сущности (Popularity Measurement, P(e)).
Онлайн: При получении запроса система разделяет его на предполагаемое имя сущности (e') и контекстные термины (c). Она ищет в индексе кандидатов (e), которые ассоциированы с этим контекстом. Кандидаты оцениваются по формуле, учитывающей P(e), P(c∣e) и вероятность того, что e' является опечаткой для e (Mistyping Probability, P(e′∣e)). Лучший кандидат используется для исправления запроса.
Высокая. Понимание сущностей и контекста является фундаментом современного семантического поиска (Knowledge Graph, BERT, MUM). Хотя методы распознавания сущностей эволюционировали, базовая проблема исправления опечаток в именах собственных, особенно для менее известных сущностей (Long Tail Entities), остается актуальной. Описанный механизм контекстного анализа для уточнения намерений пользователя критически важен.
Патент имеет высокое значение для SEO, особенно в области брендового поиска (Branded Search) и управления репутацией (ORM/SERM). Он напрямую влияет на то, как Google интерпретирует запросы, связанные с конкретными брендами, продуктами или персоналиями. Если контекстные ассоциации вокруг сущности слабые или размытые, Google может неверно исправлять опечатки в ее названии, уводя трафик. Это подчеркивает важность создания четких и последовательных контекстных сигналов вокруг ключевых сущностей.
name-context pairs и связанные с ними метрики (Context Consistency Measure, Popularity Measurement). Позволяет быстро находить сущности по заданному контексту.Entity Name и Context Term, которые встретились вместе в исходном тексте.Патент описывает как офлайн-процесс создания индекса, так и онлайн-процесс его использования для исправления запросов.
Claim 1, 20 (Независимые пункты): Описывают офлайн-процесс генерации индекса контекста и сущностей.
Text Sources).name-context pairs.Context Consistency Measure (P(c∣e)). Эта мера оценивает вероятность того, что если имя сущности появляется в тексте, то и контекстный термин также появится в этом тексте.context-entity name data) в виде поисковой структуры (индекса).Claim 11 (Зависимый от 1): Детализирует процесс фильтрации данных в индексе.
name-context pair.Claim 12 (Зависимый от 11): Определяет, как рассчитывается оценка для фильтрации.
Оценка для пары рассчитывается на основе P(c∣e) этой пары и средней меры согласованности для данного контекстного термина со всеми сущностями. Это позволяет выделить пары, где связь значительно сильнее средней (т.е. контекст специфичен для сущности).
Claim 14 и 15 (Зависимые от 11): Описывают механизм корректировки оценок для борьбы со спамом или дублированным контентом (Anti-Spam/Anti-Duplication).
Если пара имя-контекст извлечена из нескольких источников, система анализирует схожесть этих источников (используя Fingerprint Buckets, Claim 15). Если распределение источников сильно искажено (skewed from a normal distribution), что указывает на дублирование контента, оценка этой пары дисконтируется (понижается). Это предотвращает искусственное завышение оценок из-за многократного повторения одного и того же текста.
Изобретение применяется на двух ключевых этапах поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-обработка данных для построения Context-Entity Name Index. Система анализирует текстовые источники (веб-документы, логи запросов), извлекает сущности, определяет их контекст (Window of Text) и рассчитывает ключевые метрики: P(c∣e) и P(e). Также на этом этапе могут рассчитываться данные для P(e′∣e) на основе анализа логов исправлений запросов пользователями.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения изобретения в реальном времени. Когда пользователь вводит запрос, система (Spell Correction Engine) использует описанный механизм для анализа запроса, определения потенциальной сущности и контекста, и использования Context-Entity Name Index для поиска и оценки вероятных правильных написаний (Query Rewriting).
Входные данные (Онлайн):
Context-Entity Name Index.Mistyping Probability).Выходные данные (Онлайн):
Relation Score).Процесс А: Офлайн-генерация индекса (Index Generation)
Window of Text (окружающие слова, заголовки, анкоры, предыдущие запросы сессии). Из этого окна извлекаются контекстные термины (c), формируя name-context pairs.Context Consistency Measure P(c∣e).Popularity Measurement P(e).Fingerprint Buckets. Если пара часто встречается в схожем контенте (спам, шаблоны), ее оценка дисконтируется (понижается).Context-Entity Name Index.Процесс Б: Онлайн-исправление запроса (Spell Correction)
Context-Entity Name Index. Поиск осуществляется по контекстным терминам (c) и/или частям имени e'.Window of Text).Window of Text (Claim 6).Window of Text.Query Logs и Query Sessions используются многократно: Mistyping Probability P(e′∣e) путем анализа того, как часто пользователи исправляют одно написание на другое в рамках сессии.Related Names/Nicknames) на основе последовательных уточнений запросов (Claim 17).Fingerprint Buckets) (Claim 15).Window of Text) при исправлении текущего запроса.Система использует три ключевые метрики для оценки кандидатов на исправление:
Итоговая оценка (Score): Итоговая оценка кандидата 'e' при запросе с именем 'e'' и контекстом 'c' аппроксимируется как произведение этих трех метрик:
Score≈P(e)×P(c∣e)×P(e′∣e)
Context Consistency Measure как на основной сигнал релевантности.Window of Text критически важно. Оно включает не только близлежащие слова на странице, но явно упоминает заголовки (Titles) и анкорные тексты (Anchor Texts), подтверждая их роль в формировании контекста сущности.Fingerprint Buckets) для предотвращения искусственного завышения оценок путем дисконтирования данных, полученных из дублированного или шаблонного контента (boilerplate content).Context Consistency Measure P(c∣e).Window of Text, их следует оптимизировать для укрепления связи между сущностью и ее контекстом. Входящие ссылки и внутренняя перелинковка должны использовать релевантный контекст.Popularity Measurement P(e), тем выше вероятность, что система предложит вашу сущность в качестве исправления при опечатке.name-context pairs.Fingerprint Buckets) для дисконтирования оценок, полученных из схожих источников.Патент подтверждает стратегическую важность управления семантическим окружением сущностей (Entity Context Management). Для SEO это означает, что работа над брендом должна включать не только наращивание упоминаний, но и контроль за тем, в каком контексте эти упоминания происходят. Система демонстрирует, как Google использует статистический анализ совместной встречаемости (co-occurrence) для разрешения неоднозначностей и понимания намерений пользователя, что является базовым принципом семантического поиска и перехода к Entity-Oriented Search.
Сценарий: Оптимизация контекста для локального специалиста
Цель: Гарантировать, что при опечатках в фамилии доктора Google правильно идентифицирует его, используя контекст специализации и города.
Как этот патент влияет на стратегию брендового SEO (Branded Search)?
Он критически важен. Патент показывает, что Google полагается на контекст вокруг вашего бренда, чтобы отличить его от похожих названий и правильно исправлять опечатки. Для защиты брендового трафика необходимо убедиться, что ваш бренд постоянно упоминается вместе с ключевыми дескрипторами (категория продукта, сфера деятельности). Это укрепляет Context Consistency Measure и гарантирует, что при опечатках пользователи все равно найдут вас.
Что такое "Window of Text" и почему это важно для SEO?
Window of Text — это область текста, которую Google анализирует для определения контекста сущности. Патент указывает, что это могут быть слова непосредственно до и после имени, заголовок (Title) документа, анкорный текст (Anchor Text) ссылок и даже предыдущие запросы пользователя в сессии. Для SEO это означает, что оптимизация этих элементов напрямую влияет на то, как Google понимает и классифицирует ваши ключевые сущности (бренд, продукты, экспертов).
Как рассчитывается Context Consistency Measure P(c|e)?
Это оценка вероятности увидеть контекстное слово 'c' при наличии сущности 'e'. Упрощенно, это частота, с которой слово 'c' появляется в Window of Text сущности 'e', деленная на общее количество слов в этих окнах. Для SEO-специалиста это означает, что чем чаще релевантное слово появляется рядом с вашим брендом в качественных источниках, тем сильнее связь.
Влияет ли популярность бренда на вероятность его правильного исправления?
Да, напрямую. Одним из трех компонентов формулы оценки является Popularity Measurement P(e). Более популярные (часто упоминаемые в интернете или запрашиваемые) сущности имеют больше шансов быть выбранными в качестве исправления, при прочих равных условиях. Это подчеркивает важность Digital PR и наращивания качественных упоминаний бренда.
Что такое Mistyping Probability P(e'|e) и как Google её определяет?
Это вероятность того, что пользователь допустил конкретную опечатку (ввел e', имея в виду e). Google определяет это двумя основными способами: анализируя логи запросов (как часто пользователи сами исправляют e' на e в рамках одной сессии) и вычисляя расстояние редактирования (Edit Distance или Bucket Distance — насколько сильно отличаются два написания по буквам). SEO-специалист напрямую не влияет на эту метрику.
Есть ли в патенте механизмы защиты от спама и манипуляций контекстом?
Да. Патент специально описывает механизм дисконтирования (понижения) оценок для name-context pairs, которые были извлечены из схожих источников (Claims 14, 15). Если система видит, что одна и та же пара многократно повторяется в дублированном или шаблонном контенте (определяется через Fingerprint Buckets), вклад этих повторений в общую оценку снижается.
Учитывает ли система синонимы или псевдонимы (nicknames)?
Да. Патент описывает механизм определения связанных имен (Related Names) (Claim 17), например, путем анализа последовательных запросов пользователей (когда пользователь меняет "Joe" на "Joseph"). Эти связанные имена могут использоваться при поиске кандидатов в индексе, расширяя охват системы и улучшая точность идентификации сущностей.
Что делать, если Google неправильно исправляет название моего бренда?
Это указывает на то, что у другой сущности (куда ведет исправление) более сильная комбинация популярности P(e) и согласованности контекста P(c∣e) для данного запроса. Необходимо срочно усилить контекстные сигналы вокруг вашего бренда на вашем сайте, в заголовках, анкорах и внешних упоминаниях, чтобы перевесить оценку конкурента.
Использует ли Google историю поиска пользователя для исправления опечаток в именах?
Да. Патент явно указывает, что Window of Text может включать текст из предыдущих запросов, отправленных пользователем в рамках той же сессии. Это позволяет системе использовать недавний контекст пользователя для более точного исправления текущего запроса, даже если сам текущий запрос содержит мало информации.
Применяется ли этот механизм только к именам людей?
Нет. В патенте указано, что сущность (Entity) может быть человеком, бизнесом, организацией, продуктом, брендом, командой, произведением искусства или музыкальным произведением. Механизм универсален для любых названий, которые могут отсутствовать в стандартных словарях и требуют контекста для идентификации.

Семантика и интент

Семантика и интент

Поведенческие сигналы
Семантика и интент
EEAT и качество


Семантика и интент
Мультиязычность

Local SEO
SERP
Ссылки

Ссылки
SERP

Антиспам
Ссылки
Семантика и интент

EEAT и качество
Ссылки

Local SEO
Антиспам
Поведенческие сигналы

Ссылки
SERP

EEAT и качество
Свежесть контента
Семантика и интент

Антиспам
Ссылки
SERP

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
SERP
