Как Google решает, нужно ли автоматически ограничивать поиск сайтом или источником, если в запросе обнаружено название сущности

Google анализирует запросы на наличие названий брендов, новостных источников или других сущностей. Если название уникально (например, «MSNBC»), система может автоматически переписать запрос, чтобы ограничить поиск этой сущностью. Если название является обычным словом (например, «Time» или «Apple»), система выполняет исходный поиск, но предлагает ссылку на ограниченный поиск, чтобы устранить неоднозначность интента.

Описание

Какую задачу решает

Патент решает проблему неоднозначности пользовательского интента, когда запрос содержит название сущности (Entity Name), например, бренда, магазина или новостного источника. Пользователи часто подразумевают поиск в рамках этой сущности, но не используют специальные операторы ограничения (например, site: или source:). Система должна определить, ищет ли пользователь информацию внутри этой сущности или он использовал слово в его общем значении (например, «Time» как журнал или как время). Это улучшает точность поиска, автоматизируя ограничение результатов конкретным доменом или источником, когда это уместно.

Что запатентовано

Запатентована система для выборочного переписывания запросов (Query Rewriting) на основе обнаружения сущностей и оценки их неоднозначности. Ключевым механизмом является определение того, связано ли обнаруженное название сущности с обычным словом или фразой (common word or phrase). На основе этого определения система решает, следует ли автоматически ограничить поиск этой сущностью или предложить такое ограничение в виде ссылки.

Как это работает

Система работает следующим образом:

Обнаружение сущности: Система сравнивает термины в запросе со списком известных названий сущностей и их вариаций (Candidate Strings).
Оценка неоднозначности: Определяется, является ли название сущности также common word or phrase (например, с помощью словаря или анализа частотности IDF).
Принятие решения:

Если название сущности Уникально (не является обычным словом, например, «MSNBC»), система автоматически переписывает запрос, добавляя идентификатор ограничения (Restrict Identifier, например, source:msnbc), выполняет поиск по переписанному запросу и предлагает ссылку на исходный запрос.
Если название сущности Неоднозначно (является обычным словом, например, «Time»), система выполняет поиск по исходному запросу, но предлагает ссылку на переписанный (ограниченный) запрос.

Актуальность для SEO

Высокая. Распознавание сущностей (Entity Detection), устранение неоднозначности и определение области поиска (scoping) являются фундаментальными задачами Query Understanding. Хотя конкретные методы, описанные в патенте (например, использование IDF), могли эволюционировать с появлением современных NLU-моделей, базовая логика остается критически важной, особенно в вертикалях Новостей (учитывая участие Krishna Bharat, одного из создателей Google News) и E-commerce.

Важность для SEO

Патент имеет существенное значение для SEO (7.5/10). Он напрямую касается обработки запросов, включающих названия брендов и издателей. Он описывает механизм, с помощью которого Google решает, ищет ли пользователь информацию на сайте этой сущности или информацию о ней (или вообще не связанную с ней). Это критически важно для управления брендовым трафиком и понимания того, как Google интерпретирует узнаваемость и уникальность вашего бренда.

Детальный разбор

Термины и определения

Candidate Strings (Строки-кандидаты): Предварительно сгенерированный список вариаций названий сущностей и их идентификаторов. Создается путем применения трансформаций к именам (например, удаление «Inc.», «www», «.com», обработка пробелов/дефисов). Используется для обнаружения сущностей в запросах.
Common word or phrase (Обычное слово или фраза): Термин, который имеет общее лексическое значение помимо того, что он является названием сущности (например, «Time», «Apple»). Используется для оценки неоднозначности. Может определяться с помощью словарей или статистических методов, таких как IDF.
Entity (Сущность): Объект, который может быть ассоциирован с определенными документами. Примеры включают новостные источники, магазины, бренды, производителей, авторов, людей, места и организации.
Entity Identifier (Идентификатор сущности): Уникальный идентификатор, связанный с сущностью, например, доменное имя домашней страницы (homepage domain name) или идентификатор категории. Используется для ограничения поиска.
Inverse Document Frequency (IDF) (Обратная частота документа): Один из методов, упомянутых для определения того, является ли термин Common Word or Phrase. Анализ корпуса документов позволяет выявить часто встречающиеся слова (имеющие низкий IDF).
Restrict Identifier (Идентификатор ограничения): Специальный оператор, добавляемый к запросу для сужения поиска до определенной сущности или домена (например, source: в контексте новостей).

Ключевые утверждения (Анализ Claims)

Патент описывает систему с двумя основными сценариями обработки запросов. Патент US8805867B2 является продолжением (continuation) более ранних заявок, и его независимые пункты формулы (например, Claim 1) фокусируются на одном конкретном сценарии (обработка неоднозначных имен), хотя спецификация описывает оба.

Сценарий А: Имя сущности ЯВЛЯЕТСЯ обычным словом (Неоднозначное).

Этот сценарий детально описан в Claim 1.

Система получает первый поисковый запрос (Q1), включающий определенный термин.
Определяется, что этот термин соответствует одному из слов или фраз, хранящихся в структуре данных (т.е. он классифицирован как Common Word or Phrase).
Первый запрос модифицируется для получения второго запроса (Q2). Q2 включает информацию, которая ограничивает поиск определенным доменом (Entity Identifier).
Поиск выполняется на основе первого (исходного) запроса Q1.
Система предоставляет результаты поиска Q1 и ссылку на второй (переписанный/ограниченный) запрос Q2.

Пример: Запрос «Time Korea». «Time» – обычное слово. Выполняется поиск по «Time Korea». Предлагается ссылка на «Korea source:time.com».

Сценарий Б: Имя сущности НЕ ЯВЛЯЕТСЯ обычным словом (Уникальное).

Этот сценарий описан в спецификации патента (например, в Abstract и Description).

Система получает запрос и определяет, что имя сущности НЕ связано с Common Word or Phrase.
Исходный запрос переписывается для включения Restrict Identifier.
Поиск выполняется на основе переписанного запроса.
Система предоставляет результаты поиска и ссылку на исходный (широкий) запрос.

Пример: Запрос «George Bush MSNBC». «MSNBC» – уникальное имя. Запрос переписывается как «George Bush source:msnbc.com». Предлагается ссылка на «George Bush MSNBC».

Где и как применяется

Изобретение применяется на этапе понимания запросов, используя данные, подготовленные во время индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят офлайн-процессы подготовки данных:

Генерация списков сущностей: Идентификация сущностей и их Entity Identifiers (например, доменов). Генерация списка Candidate Strings путем применения трансформаций к этим именам.
Анализ частотности: Анализ корпуса документов для расчета метрик (например, IDF) и определения списка Common Words or Phrases. Также может включать выявление устоявшихся фраз, которые не следует разделять.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента в реальном времени:

Обнаружение сущности: Анализ входящего запроса и поиск совпадений с Candidate Strings (часто проверяются крайние левые или правые термины).
Разрешение неоднозначности: Проверка, является ли обнаруженное имя сущности Common Word or Phrase, и не является ли оно частью устоявшейся фразы (например, «time travel»).
Принятие решения и переписывание: Выбор стратегии (автоматическое переписывание или предложение ссылки) и генерация соответствующего запроса с Restrict Identifier.

RANKING – Ранжирование
Система ранжирования получает на вход запрос от этапа QUnderstanding (исходный или переписанный) и выполняет поиск в соответствующем наборе документов.

На что влияет

Конкретные ниши и вертикали: Наибольшее влияние в вертикалях, где важны источники и бренды: Новости (Google News), Электронная коммерция (бренды, магазины), Развлечения (авторы, исполнители).
Специфические запросы: Запросы, содержащие названия брендов или источников, особенно те, которые являются неоднозначными (например, Apple, Amazon, Time).
Брендовый трафик: Напрямую влияет на то, как обрабатываются запросы, включающие название бренда, и определяет состав выдачи по ним.

Когда применяется

Триггеры активации: Когда один или несколько терминов в запросе совпадают с записью в списке Candidate Strings.
Исключения и особые случаи: Система включает опциональную проверку целостности фраз. Если имя сущности является частью устоявшегося выражения (например, «time travel»), механизм переписывания может быть деактивирован, чтобы не нарушать смысл фразы.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка данных (INDEXING)

Сбор данных о сущностях: Получение списка Entity Names и соответствующих Entity Identifiers (например, доменов) из директорий или анализа документов.
Генерация вариаций: Применение трансформаций к именам и идентификаторам (удаление модификаторов типа «the», «inc.»; обработка пунктуации; удаление www/.com) для создания списка Candidate Strings.
Анализ распространенности: Анализ корпуса документов для идентификации Common Words or Phrases (например, с использованием IDF и порогов частотности) и выявления устоявшихся фраз.

Процесс Б: Обработка запроса в реальном времени (QUNDERSTANDING)

Получение запроса: Система получает запрос от пользователя.
Идентификация сущности: Термины запроса (например, в крайней левой или правой позиции) сравниваются со списком Candidate Strings.
(Опционально) Проверка целостности фраз: Определение, является ли обнаруженная сущность частью более широкой общей фразы, которую не следует разбивать. Если да, процесс может остановиться.
Оценка неоднозначности: Если сущность обнаружена, система определяет, является ли ее имя Common Word or Phrase.
Принятие решения и Действие (Выборочное переписывание):
- Сценарий Б (Уникальное Имя): Имя НЕ является Common Word.
  a. Исходный запрос модифицируется путем добавления Restrict Identifier.
  b. Выполняется поиск по переписанному запросу.
  c. Создается ссылка на исходный (неограниченный) запрос.
- Сценарий А (Неоднозначное Имя): Имя ЯВЛЯЕТСЯ Common Word.
  a. Исходный запрос используется без изменений.
  b. Выполняется поиск по исходному запросу.
  c. Создается ссылка на переписанный (ограниченный) запрос.
Презентация результатов: Отображение результатов выполненного поиска вместе с соответствующей сгенерированной ссылкой.

Какие данные и как использует

Данные на входе

Структурные/Системные данные:
- Список сущностей: База данных, содержащая Entity Names и соответствующие им Entity Identifiers (домены, URL).
- Candidate Strings: Предварительно сгенерированный список вариаций.
Лингвистические данные:
- Словарь (Dictionary): Может использоваться для определения common word or phrase.
- Список устойчивых фраз: Используется для предотвращения разбиения фраз.
Статистические данные (полученные из Контентных факторов):
- Inverse Document Frequency (IDF): Анализ корпуса документов для определения частоты встречаемости терминов. Используется для определения «обычности» слова.

Какие метрики используются и как они считаются

Совпадение с Candidate String: Булева метрика, определяющая наличие названия сущности в запросе.
Ассоциация с Common Word/Phrase: Метрика, определяющая неоднозначность. Может быть булевой (на основе словаря) или пороговой. В патенте упоминается использование IDF или анализ частотности: если частота термина в корпусе документов превышает определенный порог, он считается обычным.
Наличие устойчивой фразы: Булева метрика, определяющая, следует ли предотвратить переписывание запроса из-за контекста фразы.
Трансформации названий: Набор правил для генерации Candidate Strings (например, удаление «inc.», замена пробелов дефисами, удаление «.com»).

Выводы

Активное устранение неоднозначности интента: Google активно пытается определить намерение пользователя при упоминании сущностей. Система принимает решение о том, как интерпретировать запрос (как ограничение поиска или как ключевое слово), основываясь на лексических характеристиках названия сущности.
Уникальность бренда определяет обработку запроса: То, как Google обрабатывает брендовые запросы, напрямую зависит от того, считает ли система название бренда уникальным или обычным словом (Common Word). Уникальные бренды получают автоматическое уточнение поиска, тогда как общие названия требуют подтверждения интента.
Важность распознавания и нормализации сущностей: Система полагается на обширный список Candidate Strings, сгенерированный офлайн. Это подчеркивает важность того, чтобы Google знал обо всех вариациях названия сущности (бренда, сайта) и мог связать их с единым идентификатором (доменом).
Контекст может блокировать переписывание: Патент предусматривает механизм защиты от ошибочного переписывания, если название сущности является частью устойчивой фразы (например, «time travel»), что указывает на важность контекстного анализа вокруг сущности.
Автоматизация операторов поиска: Система стремится автоматизировать использование продвинутых операторов поиска (таких как site: или source:), предугадывая намерение пользователя.

Практика

Best practices (это мы делаем)

Обеспечение распознавания сущности (Entity Recognition): Необходимо убедиться, что Google корректно распознает ваш бренд как сущность и связывает его с правильным доменом (Entity Identifier). Это включает использование микроразметки (Organization, Publisher), поддержание актуальности в Knowledge Graph и последовательное использование названия бренда.
Управление уникальностью бренда: Если возможно, выбирайте уникальное название бренда. Если название является Common Word, активно работайте над сигналами сущности, чтобы в вашем тематическом контексте это слово ассоциировалось в первую очередь с вашим брендом.
Мониторинг вариаций бренда (Candidate Strings): Проанализируйте, какие вариации названия вашего бренда используют пользователи. Убедитесь, что Google ассоциирует эти вариации с вашей сущностью, чтобы механизм переписывания работал корректно.
Анализ интерпретации брендовых запросов: Мониторьте выдачу по запросам, содержащим название вашего бренда. Автоматически ли Google ограничивает поиск вашим сайтом (подразумевая уникальность) или предлагает ограничение в виде ссылки (подразумевая неоднозначность)? Это индикатор классификации вашего бренда системой.

Worst practices (это делать не надо)

Использование слишком общих названий для брендов: Выбор названия, которое является очень распространенным словом, усложняет работу системы. Она будет считать его Common Word и с меньшей вероятностью автоматически ограничит поиск вашим сайтом, предпочитая безопасный вариант с предложением ссылки.
Непоследовательный брендинг и частые изменения названия: Затрудняет для системы поддержание актуального списка Candidate Strings и надежной связи с Entity Identifier, что снижает вероятность корректного распознавания сущности в запросе.
Выбор названия, идентичного устоявшейся фразе: Если бренд называется, например, «Time Travel», система может применить логику исключения и не распознать интент поиска внутри этого бренда, считая это фразой, которую нельзя разбивать.

Стратегическое значение

Этот патент является фундаментальным примером перехода Google от поиска по ключевым словам к пониманию сущностей и интентов (Entity-Oriented Search). Он показывает, что интерпретация запроса может радикально изменить состав SERP еще до начала ранжирования. Стратегически это подтверждает необходимость инвестиций в построение четко идентифицируемого бренда (сущности). Для издателей и e-commerce это критически важно для обеспечения видимости в соответствующих вертикалях (News, Shopping) и управления брендовым трафиком.

Практические примеры

Сценарий 1: Уникальное название бренда (Автоматическое переписывание)

Запрос пользователя: «обзор маршрутизатора synology»
Анализ системы: Система распознает «Synology» как Entity Name. Она определяет, что «Synology» НЕ является common word or phrase.
Действие: Система автоматически переписывает запрос (например, используя внутренний Restrict Identifier для бренда Synology или эквивалент site:synology.com).
Результат: Пользователь видит выдачу, сфокусированную на продуктах этой компании или ограниченную ее сайтом. Также отображается ссылка: «Искать ‘обзор маршрутизатора synology’ без ограничений».

Сценарий 2: Общее название бренда (Предложение переписывания)

Запрос пользователя: «time korea»
Анализ системы: Система распознает «Time» как Entity Name (журнал). Она определяет, что «Time» ЯВЛЯЕТСЯ common word or phrase.
Действие: Система выполняет поиск по исходному запросу «time korea».
Результат: Пользователь видит смешанную выдачу (например, о времени в Корее). Также отображается ссылка (предложение): «Искать ‘korea’ в источнике ‘Time'».

Вопросы и ответы

Как система определяет, является ли название бренда «обычным словом» (common word or phrase)?

Патент предлагает несколько методов. Основные включают сравнение со словарем общеупотребительных слов и фраз или использование статистических методов, таких как Inverse Document Frequency (IDF). Анализируется большой корпус документов, и если слово встречается чаще определенного порога (имеет низкий IDF), оно может быть классифицировано как общеупотребимое.

Что такое Candidate Strings и как они формируются?

Candidate Strings — это список всех возможных вариаций названия сущности, сгенерированный офлайн. Он формируется путем применения правил трансформации к основному названию и идентификатору (домену). Примеры правил: удаление «Inc.» или «LLC», замена пробелов на дефисы, удаление «www» или «.com». Это позволяет системе распознавать сущность, даже если пользователь ввел ее нестандартно.

Что такое «Restrict Identifier»?

Это оператор, используемый для сужения поиска до определенной сущности. В патенте приводится пример source: для контекста новостей. В основном веб-поиске это может быть эквивалентно оператору site:. Это инструкция для поисковой системы искать только в документах, связанных с указанным идентификатором (например, доменом).

Что произойдет, если система обнаружит уникальное (неоднозначное) имя сущности в запросе?

Если имя сущности не классифицировано как Common Word (например, «MSNBC» или «Reddit»), система автоматически перепишет запрос, чтобы сузить поиск до этой сущности (например, добавив Restrict Identifier). Пользователь увидит суженные результаты, но ему также будет предложена ссылка для выполнения исходного, более широкого поиска.

Что произойдет, если система обнаружит неоднозначное имя сущности в запросе?

Если имя сущности классифицировано как Common Word (например, «Time» или «Apple»), система действует консервативно. Она выполнит поиск по исходному запросу, чтобы избежать ложного сужения. Однако она сгенерирует переписанный (суженный) запрос и предложит его пользователю в виде ссылки (например, «Искать на сайте time.com»).

Может ли система ошибиться и неправильно переписать запрос?

Да. Для защиты от этого предусмотрено два механизма. Во-первых, система может проверять наличие устойчивых фраз (например, «time travel») и не разбивать их. Во-вторых, в обоих сценариях система всегда предоставляет пользователю ссылку на альтернативный вариант поиска, позволяя ему скорректировать интент, если автоматическое решение было неверным.

Как этот патент влияет на SEO для новых или небольших брендов?

Он подчеркивает важность быстрого установления вашего бренда как распознаваемой сущности. Пока Google не добавит ваш бренд и его вариации в свой список Candidate Strings и не свяжет его с вашим доменом (Entity Identifier), этот механизм автоматического сужения работать не будет. Необходимо фокусироваться на консистентном брендинге и построении авторитета.

Применяется ли этот механизм только в Google News?

Нет. Хотя примеры в патенте часто используют новостные источники (и оператор source:), определение «Entity» гораздо шире. Оно включает магазины, категории продуктов, бренды, производителей, авторов, людей, места и организации. Принцип применим в любом контексте, где можно определить сущность и соответствующий ей идентификатор.

Влияет ли позиция названия бренда в запросе на его обнаружение?

Да. В патенте упоминается, что в одной из реализаций система может проверять слова в крайней левой или крайней правой позиции запроса на совпадение с Candidate Strings. Это повышает вероятность обнаружения сущности, если пользователи ставят название бренда в начало или конец фразы, хотя также возможна проверка всех терминов.

Актуален ли этот механизм, учитывая развитие нейронных сетей и BERT?

Да, концепция высокоактуальна. Обнаружение сущностей и разрешение неоднозначности остаются ядром Query Understanding. Хотя современные модели (BERT, MUM) используют более сложные методы, чем описанные в патенте (IDF, словари), базовая задача и логика принятия решений — определить интент при наличии неоднозначного термина и скорректировать запрос — остаются прежними.