Google использует контекстные слова в запросе (например, профессию, местоположение) для исправления ошибок в написании имен сущностей (людей, брендов, мест). Система создает индекс ассоциаций между сущностями и их контекстом на основе веб-документов и логов запросов. При получении запроса с ошибкой Google находит наиболее вероятную сущность, соответствующую контексту, и может изменить структуру SERP, выделяя результаты для исправленной сущности в специальный блок.
Описание
Какую задачу решает
Патент решает проблему исправления орфографических ошибок в названиях сущностей (entity names) в поисковых запросах. Традиционные системы исправления ошибок полагаются на словари, но многие названия сущностей (особенно имена непубличных людей, названия местных бизнесов, продуктов) в них отсутствуют. Это затрудняет поиск релевантной информации, если пользователь допустил опечатку в названии сущности.
Что запатентовано
Запатентована система, которая использует контекстуальные подсказки в запросе для идентификации правильного написания сущности. Система создает Context-Entity Name Index, связывающий сущности с контекстными терминами, часто встречающимися рядом с ними в документах или логах запросов. При обработке запроса система использует эти ассоциации и вероятность опечатки для выбора наилучшего исправления (candidate name). Кроме того, патент (в частности, Claim 1) описывает специфический способ представления результатов, при котором выдача для исправленной сущности визуально отделяется и выделяется.
Как это работает
Система работает в два этапа: офлайн-индексация и онлайн-обработка запроса.
- Офлайн: Система анализирует тексты (веб-документы, логи запросов) и извлекает пары name-context. Для каждой пары рассчитывается Context Consistency Measure (насколько часто контекст появляется с сущностью) и Popularity Measurement (общая популярность сущности). Эти данные сохраняются в индексе.
- Онлайн: При получении запроса система разделяет его на предполагаемое имя сущности (возможно, с ошибкой) и контекстные термины. Она ищет в индексе кандидатов, которые соответствуют контексту и похожи на написание в запросе. Кандидаты оцениваются на основе популярности, контекстной согласованности и вероятности опечатки (mistyping probability). Лучший кандидат используется для ответа на запрос, часто с изменением структуры SERP для выделения этого результата.
Актуальность для SEO
Высокая. Патент был выдан в конце 2023 года (хотя основан на более ранних заявках, начиная с 2010/2011 гг.). Точное распознавание и понимание сущностей является критически важным компонентом современного поиска (E-E-A-T, Knowledge Graph). Этот механизм напрямую влияет на то, как Google интерпретирует запросы, связанные с брендами, людьми и продуктами, особенно при наличии неоднозначности или ошибок ввода.
Важность для SEO
Влияние на SEO значительное (85/100). Патент демонстрирует, что для корректного распознавания сущности Google в значительной степени полагается на контекст, а не только на само название. Это подчеркивает стратегическую важность создания сильных, последовательных и недвусмысленных ассоциаций между сущностью (брендом, автором) и ее ключевыми контекстными атрибутами (местоположение, профессия, тематика). Если эти ассоциации слабые, Google может неверно интерпретировать запрос или не исправить опечатку.
Детальный разбор
Термины и определения
- Candidate Name (Имя-кандидат)
- Потенциальный вариант исправления для имени сущности, введенного пользователем. Альтернативная версия исходного имени.
- Context Consistency Measure (P(c|e)) (Мера контекстной согласованности)
- Оценка вероятности того, что контекстный термин ‘c’ появится в тексте, если в нем присутствует имя сущности ‘e’.
- Context Term (Контекстный термин)
- Термин, который появляется в тексте, ассоциированном с именем сущности. В запросе это слова, не являющиеся частью имени сущности.
- Context-Entity Name Index (Индекс контекст-сущность)
- Структура данных, хранящая name-context pairs и связанные с ними метрики (например, Context Consistency Measure). Обычно индексируется по контекстным терминам.
- Entity Name (Имя сущности)
- Один или несколько терминов, используемых для обозначения сущности (человека, бизнеса, продукта и т.д.).
- Fingerprint bucket (Бакет цифрового отпечатка)
- Механизм для обнаружения дублирующегося или шаблонного контента путем хеширования текста или URL. Используется для дисконтирования оценок, полученных из повторяющихся источников.
- Mistyping Probability (P(e’|e)) (Вероятность опечатки)
- Оценка вероятности того, что пользователь, намереваясь ввести сущность ‘e’ (кандидат), фактически ввел ‘e» (исходное написание в запросе).
- Name-Context Pair (Пара имя-контекст)
- Ассоциация между именем сущности и контекстным термином, извлеченная из источника текста.
- Name Detector (Детектор имен)
- Компонент (например, классификатор), используемый для идентификации имен сущностей в тексте.
- Popularity Measurement (P(e)) (Мера популярности)
- Оценка вероятности того, что имя сущности ‘e’ появляется в тексте в целом. Используется как априорная вероятность того, что пользователь искал именно эту сущность.
- Window of Text (Окно текста)
- Текст, ассоциированный с именем сущности в источнике. Может включать заданное количество слов до и после имени, заголовок документа, анкорный текст или предыдущие запросы в сессии.
Ключевые утверждения (Анализ Claims)
Патент US11847176B1 является продолжением (continuation) более ранних патентов. В то время как описание (Description) подробно описывает механизм индексации и скоринга, ключевые утверждения (Claims) этого конкретного патента сосредоточены на процессе обработки запроса и, что особенно важно, на способе представления результатов.
Claim 1 (Независимый пункт): Описывает метод обработки запроса и генерации страницы результатов поиска (SERP).
- Система получает поисковый запрос (в виде единой строки), который включает (i) name portion (с ошибками в написании имени сущности) и (ii) context portion (описательные слова).
- Система обрабатывает запрос, чтобы разделить его на name portion и context portion.
- Система идентифицирует particular candidate entity (конкретную сущность-кандидата) как релевантную запросу. Эта идентификация основана на co-occurrences (совместной встречаемости) контекстных слов из запроса и сущности-кандидата в наборе документов. Эта сущность представляет собой исправленное написание.
- Система предоставляет SERP, включающий first portion (первую часть) и second portion (вторую часть).
- First portion предоставляется в ответ на идентификацию particular candidate entity. Она включает: само исправленное название сущности, контекстные слова, информацию о сущности (включая результаты поиска для исправленного запроса и изображение сущности).
- Second portion описывает информацию, связанную с другими сущностями-кандидатами.
- Первая и вторая части визуально разграничены (visually distinguished).
Ядром изобретения в этом патенте является не просто механизм исправления ошибок на основе контекста, а специфический способ структурирования SERP. Система принимает решение о наиболее вероятной интерпретации запроса (исправленной сущности) и агрессивно продвигает эту интерпретацию, выделяя для нее специальный блок с результатами и медиа, при этом отделяя результаты для других (менее вероятных) интерпретаций.
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры.
CRAWLING & INDEXING (Сканирование и Индексирование)
На этих этапах происходит офлайн-процесс построения Context-Entity Name Index. Система анализирует Text Sources (документы и логи запросов), идентифицирует сущности и связанные с ними контексты, рассчитывает метрики P(c|e) и P(e).
QUNDERSTANDING (Понимание Запросов)
Основной этап применения онлайн-процесса. Когда поступает запрос, система должна распознать в нем потенциальное имя сущности и контекст. Затем активируется Spell Correction Engine, который использует Context-Entity Name Index для генерации и оценки кандидатов на исправление.
RANKING & METASEARCH (Ранжирование и Метапоиск)
После выбора лучшего кандидата система генерирует запросы для этой исправленной сущности. На этапе Метапоиска происходит формирование структуры SERP, описанной в Claim 1, где результаты для основного кандидата и других кандидатов объединяются и визуально разделяются.
Входные данные (Офлайн):
- Тексты из Text Sources (веб-документы, логи запросов).
Входные данные (Онлайн):
- Поисковый запрос пользователя (единая строка).
- Данные из Context-Entity Name Index.
- Данные о вероятностях опечаток (Mistyping Probability).
Выходные данные:
- Структурированная страница результатов поиска (SERP), выделяющая результаты для исправленной сущности (Claim 1), ИЛИ
- Предложение по исправлению запроса («Did you mean…»), ИЛИ
- Автоматически исправленный запрос, поданный в поисковую систему.
На что влияет
- Типы контента и сущности: Влияет на поиск любых сущностей, которые могут быть написаны с ошибками и имеют различимый контекст: имена людей (особенно непубличных), названия местных компаний (Local SEO), бренды, названия продуктов, произведений искусства.
- Специфические запросы: Наибольшее влияние на информационные и транзакционные запросы, содержащие имя сущности и дополнительные уточняющие слова (например, [имя] + [профессия], [бренд] + [модель], [компания] + [город]).
Когда применяется
- Триггеры активации: Когда система идентифицирует в запросе комбинацию потенциального имени сущности (особенно если оно редкое или отсутствует в словарях) и контекстных терминов. Активация происходит, если система может найти в своем индексе кандидатов, которые лучше соответствуют контексту, чем исходное написание.
- Условия (из Описания): Система может не активироваться, если исходное имя сущности является очень популярным (popular entity name) или если связь между исходным именем и контекстом уже достаточно сильна (превышает порог relation score).
Пошаговый алгоритм
Процесс А: Офлайн-генерация индекса (Context-Entity Name Index)
- Сбор данных: Получение текстов из источников (документы, логи запросов).
- Извлечение пар: Использование Name Detector для идентификации имен сущностей в текстах. Для каждой сущности определяются контекстные термины в пределах Window of Text. Формируются name-context pairs.
- Расчет метрик: Для каждой уникальной пары рассчитывается Context Consistency Measure (P(c|e)). Для каждой сущности рассчитывается Popularity Measurement (P(e)).
- Фильтрация и скоринг (Опционально): Расчет скоринга для пар (например, сравнение P(c|e) со средним P(c|e0)) для удаления шума. Применение дисконтирования для пар, извлеченных из похожего/шаблонного контента (используя fingerprint buckets).
- Аугментация (Опционально): Добавление канонических форм и связанных имен (related names, например, никнеймов).
- Индексация: Сохранение данных в Context-Entity Name Index, обычно с ключом по контекстному термину.
Процесс Б: Онлайн-обработка запроса и генерация SERP
- Получение запроса: Система получает запрос от пользователя.
- Идентификация компонентов: Запрос разделяется на предполагаемое имя сущности (e’) и контекстные термины (c).
- Генерация кандидатов: Система формирует запрос к Context-Entity Name Index, используя контекстные термины (c) и части имени (e’), чтобы найти потенциальные исправления (кандидаты ‘e’).
- Скоринг кандидатов: Для каждого кандидата ‘e’ рассчитывается оценка. Используется формула, аппроксимирующая вероятность того, что пользователь имел в виду ‘e’, введя ‘e» в контексте ‘c’. Примерная формула: P(e) * P(c|e) * P(e’|e).
- P(e) – Популярность кандидата.
- P(c|e) – Контекстная согласованность кандидата и контекста запроса.
- P(e’|e) – Вероятность опечатки (на основе расстояния редактирования или логов).
- Выбор лучших кандидатов: Выбираются один или несколько кандидатов с наивысшими оценками.
- Генерация ответа (согласно Claim 1):
- Идентификация основного кандидата (particular candidate entity).
- Формирование SERP с визуально разделенными частями.
- First portion: Отображение основного кандидата, его контекста, результатов поиска для него и его изображения.
- Second portion: Отображение информации о других кандидатах.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст документов, заголовки документов (Title), анкорный текст ссылок на документ. Все это используется для определения Window of Text и извлечения контекстных терминов.
- Поведенческие факторы: Логи запросов (query sessions). Используются как источник текстов для индексации. Также используются для определения Mistyping Probability (анализ того, как часто пользователи исправляют одно написание на другое) и для аугментации контекста (использование предыдущих запросов в сессии).
- Структурные факторы: Шаблоны документов (template) могут использоваться для определения Window of Text на сайтах с похожей структурой.
Какие метрики используются и как они считаются
- Context Consistency Measure (P(c|e)): Рассчитывается как отношение числа появлений контекста ‘c’ в окнах для сущности ‘e’ к общему числу терминов в окнах для ‘e’ (или другие варианты нормализации, например, по числу документов).
- Popularity Measurement (P(e)): Рассчитывается как отношение числа появлений сущности ‘e’ к общему числу появлений всех сущностей в корпусе текстов.
- Mistyping Probability (P(e’|e)): Оценивается на основе анализа исправлений в логах запросов или с использованием метрик расстояния между строками (Edit distance, Bucket distance).
- Score(e, c) (Оценка пары имя-контекст для фильтрации индекса): Может рассчитываться для фильтрации шума в индексе. Пример формулы: log(P(c|e) / P(c|e0)) * P(c|e), где P(c|e0) – средняя контекстная согласованность для контекста ‘c’ по всем сущностям.
- Fingerprint Buckets: Хеширование контента или URL для выявления дублирующегося или шаблонного контента и дисконтирования оценок, полученных из него.
- Итоговый скоринг кандидата (Онлайн): Агрегация метрик, аппроксимирующая P(e, c | e’, c). Пример: P(e) * P(c|e) * P(e’|e).
Выводы
- Контекст критичен для распознавания сущностей: Патент демонстрирует, что Google полагается на контекстуальные ассоциации для понимания и исправления написания сущностей, особенно тех, которые не являются общеизвестными. Сила этих ассоциаций (Context Consistency Measure) напрямую влияет на выбор правильного варианта.
- Комплексный скоринг для исправления ошибок: Выбор исправления базируется не только на схожести написания (Mistyping Probability), но и на общей популярности сущности (Popularity Measurement) и соответствии контексту запроса. Это позволяет отличить реальную опечатку от поиска другой, менее известной сущности с похожим написанием.
- Источники данных: Веб-документы и Поведение пользователей: Context-Entity Name Index строится на основе как контента веб-страниц, так и логов запросов. То, как сущность представлена на сайтах и как ее ищут пользователи, формирует ее контекстный профиль.
- Борьба с шумом и спамом в индексе: Система включает механизмы для дисконтирования данных, полученных из повторяющегося или шаблонного контента (использование fingerprint buckets), что повышает качество индекса ассоциаций.
- Специфическое представление SERP (Claim 1): Ключевой аспект патента — это изменение структуры выдачи. Google не просто исправляет запрос, но может создать специальный блок для своей основной интерпретации (включая результаты и медиа), визуально отделяя его от других вариантов. Это указывает на высокую степень уверенности системы в своем выборе.
Практика
Best practices (это мы делаем)
- Создание сильных и последовательных контекстных ассоциаций: Необходимо убедиться, что ключевые сущности (бренды, авторы, продукты) постоянно упоминаются вместе с их основными контекстными атрибутами. Это формирует высокий Context Consistency Measure.
- Для людей: профессия, место работы, город, тематика экспертизы.
- Для бизнеса (Local SEO): точный адрес, категория бизнеса, ключевые услуги.
- Для продуктов: бренд, категория товара, ключевые характеристики.
- Обеспечение консистентности NAP (Name, Address, Phone): Для локального бизнеса критически важна точность и согласованность данных в каталогах, на сайте и в других источниках. Это формирует надежный контекстный профиль, который поможет Google правильно идентифицировать компанию даже при опечатках в названии.
- Использование структурированных данных (Schema.org): Разметка помогает явно указать атрибуты сущности (например, jobTitle, address, brand), что может усиливать контекстные ассоциации, используемые этой системой.
- Мониторинг контекста в Поиске: Анализируйте, как пользователи ищут вашу сущность (через GSC). Если пользователи часто используют определенные контекстные слова, убедитесь, что эти слова присутствуют в вашем контенте рядом с названием сущности.
- Разнообразие источников упоминаний: Поскольку система дисконтирует данные из повторяющихся источников (fingerprint buckets), важно добиваться упоминаний сущности в правильном контексте на разнообразных и авторитетных сайтах.
Worst practices (это делать не надо)
- Непоследовательное представление сущности: Использование разных названий, адресов или описаний деятельности в разных источниках размывает контекстный профиль и снижает Context Consistency Measure.
- Оптимизация под опечатки: Создание страниц, таргетированных на неправильное написание вашего бренда, становится менее эффективным. Google стремится исправить такие запросы, используя контекст, и показать результаты для правильного бренда.
- Игнорирование контекста вокруг упоминаний: Размещение названия бренда или имени автора в изоляции, без окружающего тематического или описательного контекста (в пределах Window of Text), не помогает в построении индекса ассоциаций.
- Спам шаблонным контентом: Создание множества однотипных страниц или использование синдицированного контента для масштабирования упоминаний может быть неэффективно из-за механизмов дисконтирования дублирующегося контента.
Стратегическое значение
Этот патент подтверждает стратегию Google на глубокое понимание сущностей и их связей (Knowledge Graph и E-E-A-T). Контекст, окружающий сущность, является ключевым фактором для ее идентификации и ранжирования. Долгосрочная SEO-стратегия должна фокусироваться на построении четкого и авторитетного контекстного профиля для ключевых сущностей сайта. Это обеспечивает не только лучшее ранжирование по прямым запросам, но и корректную обработку запросов с ошибками или неоднозначностями.
Практические примеры
Сценарий: Исправление ошибки в названии локального бизнеса
- Сущность: Стоматологическая клиника «Dr. William Jones» в городе Sparta, Wisconsin.
- Контекстный профиль (в индексе Google): У клиники сильные ассоциации с терминами «doctor», «Sparta», «Wisconsin».
- Запрос пользователя: [doctor will jonis sparta wisconsin]. Имя «William Jones» написано с ошибками («will jonis»).
- Обработка: Система разделяет запрос. Entity: «will jonis». Context: «doctor», «sparta», «wisconsin».
- Поиск кандидатов: Система ищет в Context-Entity Name Index сущности, связанные с контекстом «doctor», «sparta», «wisconsin». Она находит «William Jones».
- Скоринг:
- P(c|e): Высокая (контекст запроса точно совпадает с профилем «William Jones»).
- P(e’|e): Высокая (расстояние редактирования между «will jonis» и «William Jones» небольшое).
- P(e): Умеренная (популярность клиники).
- Результат (согласно Claim 1): Google формирует SERP, где в верхней части (First portion) выделен блок для «William Jones (doctor, sparta, wisconsin)», включающий результаты поиска для этой клиники и, возможно, ее фото или карту. Ниже (Second portion) могут быть показаны результаты для других интерпретаций (например, если существует спортсмен Sam Jonis из Wisconsin).
Вопросы и ответы
Как Google определяет, какие слова в запросе являются именем сущности, а какие — контекстом?
Система использует Name Detector (классификатор, обученный на распознавание имен) для идентификации потенциального имени сущности в запросе. Если детектор не срабатывает сразу, система может применить стандартное исправление орфографии и повторить попытку. Оставшиеся слова в запросе (за исключением стоп-слов) рассматриваются как контекстные термины.
Откуда Google берет данные для построения индекса ассоциаций сущностей и контекста?
Патент упоминает Text Sources, которые включают два основных типа данных: документы (например, веб-страницы, новостные статьи, бизнес-справочники) и сессии запросов (query sessions). Google анализирует, какие слова появляются рядом с именами сущностей как на веб-страницах, так и в поисковых запросах пользователей.
Что такое «Мера контекстной согласованности» (Context Consistency Measure) и почему она важна?
Это метрика P(c|e), оценивающая вероятность появления контекста ‘c’ при наличии сущности ‘e’. Она показывает, насколько сильно конкретное слово связано с сущностью. Например, если слово «стоматолог» появляется в 80% текстов о «Докторе Смите», мера будет высокой. Это ключевой сигнал, позволяющий системе понять, что пользователь, ищущий [доктор смит опечатка], скорее всего, ищет именно этого стоматолога.
Как этот патент влияет на Local SEO?
Влияние очень велико. Для локального бизнеса контекстом являются город, район, улица и тип деятельности. Создание сильных и последовательных ассоциаций (например, через NAP-консистентность в каталогах) гарантирует, что Google правильно идентифицирует компанию, даже если пользователь допустил ошибку в названии, но правильно указал город или услугу.
Стоит ли по-прежнему оптимизировать сайт под запросы с опечатками в названии бренда?
Этот патент снижает необходимость такой оптимизации. Цель системы — использовать контекст для автоматического исправления опечатки и показа результатов для правильной сущности. Лучше сосредоточить усилия на укреплении контекстного профиля основного бренда, чтобы система могла уверенно выполнять исправление.
Что такое «вероятность опечатки» (Mistyping Probability) и как она рассчитывается?
Это метрика P(e’|e), оценивающая вероятность того, что пользователь ввел неправильное написание (e’), имея в виду правильное (e). Она рассчитывается двумя основными способами: анализом расстояния редактирования (насколько строки похожи) и анализом логов запросов (как часто пользователи сами исправляют e’ на e в рамках одной сессии).
Патент описывает разделение SERP на две части. Что это значит на практике?
Согласно Claim 1, если система уверена в исправлении, она может создать выделенный блок (First portion) для своей основной интерпретации, включающий результаты поиска и медиа (например, фото) для исправленной сущности. Другие интерпретации или результаты для исходного (неправильного) написания будут показаны отдельно (Second portion) и визуально отделены. Это похоже на комбинацию результатов поиска и Панели Знаний.
Как система борется с накруткой контекстных ассоциаций?
Патент описывает механизм дисконтирования для контента, который часто дублируется (спам, шаблоны, boilerplate). Система использует fingerprint buckets (хеши контента или URL) для выявления таких повторений. Если пара имя-контекст извлекается преимущественно из похожих источников, ее оценка искусственно понижается.
Может ли система использовать никнеймы или сокращения?
Да. Патент предусматривает аугментацию индекса с помощью related names. Система может хранить связи между официальными именами и их вариантами (например, «Joseph» и «Joe»). Это позволяет находить правильную сущность, даже если пользователь использовал никнейм в сочетании с контекстом.
Как SEO-специалист может улучшить контекстный профиль сущности?
Необходимо обеспечить частое и естественное упоминание сущности вместе с ее ключевыми атрибутами в разнообразных источниках. Это включает оптимизацию контента на собственном сайте, работу с внешними площадками (каталоги, СМИ) и использование микроразметки Schema.org для явного указания атрибутов (профессия, адрес, сфера деятельности).