Google использует этот механизм для улучшения точности понимания запросов и предотвращения «дрейфа темы». Система учится отличать настоящие синонимы от терминов, которые связаны, но не взаимозаменяемы (когипонимы, например, «красный» и «синий»). Патент описывает, как Google анализирует списки на веб-страницах, географические связи и использует машинный перевод для создания многоязычных «черных списков». Это блокирует ошибочное переписывание запросов и повышает релевантность выдачи.
Описание
Какую задачу решает
Патент решает проблему ложного срабатывания систем генерации синонимов, когда связанные, но не взаимозаменяемые термины (когипонимы или correlated terms) ошибочно идентифицируются как синонимы. Это приводит к «topicality-drifting» (дрейфу темы) при автоматическом расширении запроса. Например, система может ошибочно заменить «Январь» на «Февраль» или «Нью-Йорк» на «Нью-Джерси», что существенно меняет интент пользователя и ухудшает качество выдачи.
Что запатентовано
Запатентована система для идентификации и фильтрации связанных, но не синонимичных терминов (ложных синонимов). Система использует несколько подходов: анализ географических данных для предотвращения сдвига локации; анализ совместной встречаемости терминов в списках (lists) для выявления связанных, но разных сущностей. Ядро изобретения (Claim 1) фокусируется на кросс-языковом переносе знаний о когипонимах через машинный перевод для создания многоязычных «черных списков» (blacklists).
Как это работает
Система работает как набор фильтров качества для кандидатов в синонимы:
- Кросс-языковой фильтр (Основной механизм): Система берет известные пары когипонимов на одном языке (например, цвета) и переводит их на другие языки. Эти переведенные пары добавляются в глобальный черный список (Gathered List).
- Фильтр совместной встречаемости (Lists): Система анализирует списки (например, HTML-списки) в веб-документах. Термины, которые часто встречаются вместе в одних и тех же списках (например, разные бренды автомобилей), идентифицируются как коррелирующие, но не синонимичные.
- Географический фильтр: Система проверяет, являются ли термины географическими объектами. Если да, она определяет их отношения (например, город в штате, два разных города) и блокирует подстановку, если она нежелательно меняет локацию.
Если пара терминов попадает в любой из этих фильтров, она либо исключается из синонимов, либо к ней применяются значительно более высокие требования к confidence score (оценке уверенности).
Актуальность для SEO
Высокая. Точное понимание разницы между синонимией и связанностью критически важно для современных поисковых систем, использующих сложные NLP-модели (BERT, MUM). Предотвращение дрейфа темы (topicality-drifting) остается фундаментальной задачей в области Query Understanding для обеспечения высокой релевантности ответов.
Важность для SEO
Патент имеет значительное стратегическое влияние на SEO (75/100). Он не описывает факторы ранжирования, но критически важен для понимания того, как Google интерпретирует запросы и контент. Патент подчеркивает важность семантической точности и структуры контента. Использование четких списков для перечисления различных сущностей помогает Google понять, что эти термины являются связанными (когипонимами), но не взаимозаменяемыми. Это требует от SEO-специалистов точного таргетинга контента под конкретные интенты.
Детальный разбор
Термины и определения
- Blacklist / Gathered List (Черный список / Собранный список)
- Список пар терминов, идентифицированных как коррелирующие или связанные, но не синонимичные (когипонимы). Генерируется в том числе путем перевода известных пар на разные языки. Используется для фильтрации ложных синонимов.
- Cohyponyms (Когипонимы)
- Термины, которые имеют общий гипероним (родительское понятие), но обозначают разные сущности на одном уровне иерархии. Например, «красный» и «зеленый» — когипонимы для «цвет». Система направлена на их выявление.
- Confidence Score/Value (Оценка уверенности)
- Метрика, определяющая вероятность того, что два термина являются синонимами. Если пара найдена в Blacklist, эта оценка может быть снижена.
- Correlated Geographic Synonym (Коррелирующий географический синоним)
- Пара географических терминов, которые связаны (например, находятся рядом или один содержит другой), но их подстановка может нежелательно изменить локацию запроса (например, Miami -> Florida).
- Correlated Terms (Коррелирующие термины)
- Термины, которые часто встречаются вместе (например, в списках), но не являются синонимами.
- Geographic Data Set (Набор географических данных)
- База данных географических сущностей (страны, регионы, города) и их отношений (иерархия, координаты, многоязычные названия).
- List (Список)
- Структурированные данные в документе, содержащие перечисление элементов. Включает HTML-списки (<OL>, <UL>), таблицы или заголовки.
- Session Switching (Переключение в сессии)
- Поведение пользователя, когда он изменяет запрос в рамках одной сессии (например, заменяет один термин). Используется как сигнал для генерации синонимов.
- Topicality-drifting (Дрейф темы)
- Нежелательное изменение темы или интента запроса в результате автоматической подстановки ложного синонима.
Ключевые утверждения (Анализ Claims)
Патент описывает несколько механизмов фильтрации, но основное независимое утверждение (Claim 1) фокусируется на кросс-языковом переносе знаний о когипонимах.
Claim 1 (Независимый пункт): Описывает метод предотвращения использования когипонимов в качестве синонимов путем их перевода на другие языки.
- Система получает первую коллекцию терминов на первом языке, обозначенных как cohyponyms (например, список цветов).
- Система генерирует вторую коллекцию терминов путем перевода терминов из первой коллекции на второй язык.
- Система получает пару терминов-кандидатов в синонимы на втором языке.
- Система определяет, присутствуют ли оба термина-кандидата во второй (переведенной) коллекции.
- На основании того, что оба термина присутствуют в этой коллекции, система принимает решение не переписывать запрос (determining to not revise a query), включающий первый термин, для включения второго термина.
Ядро изобретения — использование машинного перевода для масштабирования «черного списка» когипонимов на множество языков. Если система знает, что «Красный» и «Зеленый» не синонимы в английском, она переведет их и будет знать, что «Rojo» и «Verde» также не синонимы в испанском, и заблокирует попытку их подстановки.
Claim 7 (Зависимый): Уточняет механизм действия.
Решение «не переписывать запрос» может быть реализовано путем снижения confidence value (оценки уверенности) для этой пары кандидатов, указывая на низкий уровень уверенности в том, что они являются синонимами.
Где и как применяется
Изобретение применяется на этапах, связанных с пониманием запросов и генерацией синонимов, используя данные, собранные при индексировании.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит анализ корпуса документов для обнаружения списков (Lists). Система извлекает термины из структурных элементов (HTML-списки, таблицы) для последующего офлайн-анализа совместной встречаемости.
QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Механизмы используются как в офлайн-процессах, так и при переписывании запроса.
- Офлайн-генерация черных списков:
- Анализ совместной встречаемости терминов в списках (извлеченных на этапе INDEXING) для создания blacklist коррелирующих пар.
- Использование Geographic Data Set для идентификации географических пар, вызывающих сдвиг локации.
- Перевод известных когипонимов на разные языки для создания многоязычного Gathered List (Claim 1).
- Фильтрация синонимов (Онлайн или Офлайн): Когда система генерации синонимов предлагает пару (Термин А -> Термин Б), описанные фильтры проверяют эту пару. Если пара обнаружена в черных списках, правило синонимии отклоняется или его confidence score понижается.
Входные данные:
- Пара терминов-кандидатов в синонимы.
- Корпус документов (для анализа списков).
- Geographic Data Set.
- Начальный список известных когипонимов (для кросс-языкового переноса).
- Система машинного перевода.
Выходные данные:
- Валидированное правило синонимии (возможно, с пониженной оценкой уверенности).
- ИЛИ: Отклонение правила синонимии.
- Сгенерированные черные списки (Blacklists/Gathered List).
На что влияет
- Специфические запросы: Влияет на запросы, содержащие термины, которые имеют много связанных, но отличных понятий. Это касается названий брендов, типов продуктов (например, LCD vs OLED), цветов, дат (Понедельник vs Вторник) и географических названий.
- Конкретные ниши: Высокое влияние в e-commerce (разные модели товаров), путешествиях (разные города или регионы) и информационных запросах, где важна точность сущностей.
- Языковые ограничения: Механизм специально разработан для работы на разных языках.
Когда применяется
- Условия активации: Алгоритмы активируются в процессе валидации кандидатов в синонимы. Это происходит всякий раз, когда система пытается установить синонимическую связь между двумя терминами для целей расширения или переписывания запроса.
- Пороговые значения: Применяется, если корреляция между терминами (вычисленная по спискам) превышает заданный порог, если географические отношения соответствуют критериям нежелательного сдвига, или если пара найдена в Gathered List.
Пошаговый алгоритм
Патент описывает три взаимодополняющих механизма фильтрации.
Механизм А: Кросс-языковая идентификация когипонимов (Claim 1)
- Получение исходных данных (Офлайн): Система получает коллекцию известных когипонимов на языке А (например, список цветов).
- Перевод: Каждый термин переводится на язык Б с помощью системы машинного перевода. Могут быть получены множественные переводы и словоформы.
- Генерация пар на языке Б: Система генерирует все возможные комбинации (cross-product) переведенных терминов.
- Сохранение: Переведенные пары добавляются в общий черный список (Gathered List).
- Использование (Онлайн): При получении кандидата в синонимы на языке Б система проверяет его наличие в этом списке и блокирует подстановку (или снижает confidence score), если он найден.
Механизм Б: Идентификация когипонимов через анализ списков (Lists)
- Обход корпуса и извлечение списков (Офлайн): Система сканирует документы и извлекает структурированные списки.
- Учет частотности: Система подсчитывает, в скольких уникальных списках встречается каждый термин и пары терминов.
- Вычисление ассоциации (корреляции): Для пар терминов (A, B) система вычисляет силу связи (например, как часто они встречаются вместе по отношению к их общей частоте).
- Фильтрация по порогу: Если корреляция превышает порог, пара (A, B) добавляется в blacklist коррелирующих пар.
- Применение фильтра: При получении кандидата в синонимы система проверяет его наличие в blacklist и применяет более строгие пороги уверенности.
Механизм В: Идентификация коррелирующих географических синонимов
- Получение пары: Система получает термин и его возможный синоним.
- Географический поиск: Система проверяет, присутствуют ли оба термина в Geographic Data Set.
- Проверка условий: Если оба термина найдены, система сравнивает их местоположения и отношения на основе критериев (например, являются ли они разными странами, разными городами в одном регионе, или один содержит другой).
- Принятие решения: Если пара соответствует критериям нежелательного сдвига локации, она помечается как Correlated Geographic Synonym.
- Действие: Фильтрация или корректировка информации о синониме.
Какие данные и как использует
Данные на входе
- Контентные и Структурные факторы: Система анализирует структуру документов для выявления списков. Используются HTML-теги (<OL>, <UL>, <DL>, заголовки), а также неявные списки (таблицы, элементы через запятую). Анализируется текст внутри этих структур.
- Географические факторы: Используется внешний Geographic Data Set, содержащий названия географических сущностей на разных языках, их иерархию и координаты.
- Лингвистические данные: Данные систем машинного перевода для кросс-языкового переноса знаний о когипонимах.
- Системные данные: Заранее определенные списки известных когипонимов (Seed lists).
- Поведенческие факторы (косвенно): Фильтры применяются к синонимам, часто генерируемым на основе анализа поведения пользователей (Session Switching). Высокая частота Session Switching может потребоваться для преодоления фильтрации.
Какие метрики используются и как они считаются
- Корреляция совместной встречаемости в списках: Метрика, оценивающая, насколько часто два термина появляются вместе в списках по сравнению с их общей частотой. Одна из формул в патенте: (Количество раз, когда A встречается с B) * log [(Общее количество уникальных списков) / (Количество уникальных списков, содержащих A)].
- Пороги корреляции: Заданные значения, при превышении которых пара считается коррелирующей.
- Критерии географического сдвига: Набор правил для определения нежелательных географических подстановок (например, правило: «если оба термина — разные города в одном штате, это нежелательный сдвиг»).
- Confidence Score (Оценка уверенности синонима): Метрики качества синонима. Данный патент описывает, как эти метрики ужесточаются или как Confidence Score снижается для коррелирующих пар или когипонимов.
Выводы
- Google активно разграничивает синонимию и связанность. Система инвестирует значительные ресурсы в предотвращение «дрейфа темы» (Topicality-drifting). Связанные термины (Correlated Terms, Cohyponyms) активно фильтруются, чтобы не допустить их использования в качестве синонимов.
- Структура контента (Списки) как источник семантических знаний. Google использует то, как авторы структурируют контент, в частности списки (Lists), как важный сигнал для понимания отношений между сущностями. Списки помогают идентифицировать когипонимы.
- Географическая точность является приоритетом. Существуют специализированные механизмы для обработки географических терминов, предотвращающие ошибочное смешивание разных локаций (Correlated Geographic Synonyms), даже если они близки или связаны иерархически.
- Знания о ложных синонимах масштабируются через языки. Ядро изобретения (Claim 1) — это механизм использования машинного перевода для переноса знаний о когипонимах из одного языка в другие, создавая глобальный Gathered List (черный список).
- Адаптивные пороги уверенности. Система использует гибкие пороги. Для подозрительных (коррелирующих) пар требования к confidence score значительно повышаются, или их уверенность искусственно занижается.
Практика
Best practices (это мы делаем)
- Используйте точную терминологию и понимайте иерархию понятий. Четко разделяйте синонимы и когипонимы в контент-стратегии. Если вы продаете и OLED, и QLED телевизоры, оптимизируйте страницы под каждый тип отдельно, не ожидая, что Google будет считать их взаимозаменяемыми.
- Структурируйте контент с помощью списков. При перечислении различных элементов (услуг, моделей, брендов, ингредиентов) используйте семантически верные HTML-списки (<ul>, <ol>). Это помогает поисковой системе идентифицировать эти элементы как отдельные, но связанные сущности (когипонимы), что улучшает понимание структуры контента.
- Обеспечивайте точное географическое таргетирование. В локальном SEO используйте конкретные названия городов и районов. Не полагайтесь на то, что запрос по близлежащему крупному городу автоматически включит ваш бизнес, если система посчитает это нежелательным сдвигом локации (Correlated Geographic Synonym).
- Анализируйте кластеризацию запросов. Обращайте внимание на то, какие запросы Google считает взаимозаменяемыми в выдаче, а какие — нет. Если близкие по смыслу запросы дают разную выдачу, это может быть результатом работы описанных фильтров, и для них нужны отдельные страницы.
Worst practices (это делать не надо)
- Смешивание когипонимов в качестве синонимов. Попытки оптимизировать страницу под связанные, но разные понятия в надежде на расширение охвата. Например, оптимизация страницы о «кошках» под запрос «собаки». Этот патент направлен на предотвращение такого поведения поиска.
- Смешивание различных сущностей в неструктурированном тексте. Перечисление разных услуг или товаров в одном абзаце через запятую вместо использования списков затрудняет для Google их разделение и может привести к неправильной интерпретации релевантности.
- Манипуляции с географическими запросами. Использование названий соседних городов или более крупных регионов в качестве синонимов для гиперлокального таргетинга может быть неэффективным из-за географических фильтров.
Стратегическое значение
Патент подтверждает стремление Google к максимальной семантической точности при интерпретации запросов. Критически важно не просто насыщать текст ключевыми словами, а строить четкую структуру контента, отражающую реальные отношения между сущностями. Стратегии, основанные на построении Topical Authority, должны учитывать разницу между расширением темы (охват связанных когипонимов на разных страницах) и углублением темы (охват синонимов и частных случаев на одной странице). Система становится более точной и менее подверженной манипуляциям.
Практические примеры
Сценарий 1: Структурирование страницы услуг (Использование Списков)
- Задача: Описать различные направления работы юридической фирмы (Корпоративное право, Уголовное право, Семейное право).
- Реализация с учетом патента: Использование структурированного списка (List):
<ul> <li>Корпоративное право</li> <li>Уголовное право</li> <li>Семейное право</li> </ul>
- Результат: Анализируя этот список (Механизм анализа списков), Google с большей вероятностью идентифицирует эти термины как когипонимы (связанные, но разные услуги) и не будет считать их синонимами. Это помогает точнее ранжировать страницу по конкретным запросам.
Сценарий 2: Кросс-языковая точность (Использование Перевода)
- Ситуация: Google знает, что в английском «lemon» (лимон) и «lime» (лайм) — это когипонимы.
- Работа алгоритма (Механизм кросс-языкового переноса): Google переводит эту пару на испанский как (limón, lima) и добавляет в Gathered List.
- Результат: Если пользователь ищет на испанском «receta con limón», система проверит возможность замены на «lima». Обнаружив пару в Gathered List, система заблокирует переписывание запроса на «receta con lima», предотвращая дрейф темы.
Вопросы и ответы
Что такое «когипонимы» и почему Google их фильтрует?
Когипонимы (Cohyponyms) — это термины, которые находятся на одном уровне иерархии и имеют общее родительское понятие, но обозначают разные сущности. Например, «собака» и «кошка» — когипонимы для «домашнее животное». Google фильтрует их, чтобы предотвратить «topicality-drifting» (дрейф темы). Если бы они считались синонимами, запрос [корм для собак] мог бы быть переписан как [корм для кошек], что полностью меняет интент пользователя.
Как структура моего контента помогает Google выявлять когипонимы?
Патент описывает механизм анализа списков (Lists) в документах. Если вы перечисляете разные товары или услуги с помощью структурированных HTML-списков (<ul>, <ol>), Google анализирует совместную встречаемость этих терминов. Частое появление терминов в одном списке сигнализирует о том, что они связаны (принадлежат к одной категории), но являются отдельными сущностями, а не синонимами.
Означает ли этот патент, что Google не будет показывать мой сайт по связанным запросам?
Не совсем. Патент направлен на предотвращение автоматической *подстановки* одного термина другим при переписывании запроса. Ваш сайт все еще может ранжироваться по связанным запросам, если он релевантен им по другим сигналам (например, через общую семантическую близость). Однако Google не будет считать, что запрос [А] эквивалентен запросу [Б], если А и Б — когипонимы.
Как работает географический фильтр синонимов?
Система проверяет, являются ли термин и его кандидат в синонимы географическими объектами, используя Geographic Data Set. Если да, она анализирует их отношения: иерархию (город в стране) или расположение (два разных города). Если подстановка приводит к нежелательному изменению локации, система блокирует этот синоним или понижает его вес, чтобы сохранить точность локального поиска.
Как Google переносит знания о ложных синонимах на другие языки?
Это ключевая часть патента (Claim 1). Google берет коллекцию известных когипонимов на одном языке (например, английские названия цветов) и использует машинный перевод для их перевода на другие языки. Эти переведенные термины формируют Gathered List (черный список) для целевого языка. Таким образом, знание о семантических отношениях автоматически переносится между языками.
Что такое «blacklist» коррелирующих пар и как он формируется?
Это список пар терминов, которые часто встречаются вместе, но не являются синонимами. Он формируется тремя основными путями: 1) Анализом списков на веб-страницах (выявление Common Co-Occurring Elements). 2) Анализом географических данных. 3) Кросс-языковым переводом известных когипонимов. Он используется для фильтрации ошибок системы генерации синонимов.
Если пара терминов попала в «blacklist», они никогда не будут считаться синонимами?
Патент предлагает гибкий подход. Попадание в blacklist не всегда означает полный запрет. Вместо этого система может значительно повысить требования к confidence score (оценке уверенности) для этой пары или снизить текущую оценку. Например, чтобы коррелирующая пара стала синонимом, может потребоваться исключительно высокая частота переключения пользователями между этими терминами в сессиях.
Как использовать информацию из этого патента при работе с e-commerce сайтом?
Критически важно четко структурировать каталоги и карточки товаров. Используйте списки для перечисления характеристик, где элементы являются разными значениями (например, список доступных цветов или размеров). Это поможет Google понять, что «Размер M» и «Размер L» связаны, но не взаимозаменяемы. Разделяйте разные модели товаров на отдельные страницы.
Влияет ли этот патент на локальное SEO?
Да, значительно. Механизм географической фильтрации направлен на повышение точности локального поиска. Это означает, что оптимизация под конкретный город или район становится более важной. Нельзя полагаться на то, что Google автоматически расширит запрос по близлежащему крупному городу до вашего местоположения, или наоборот.
Какие типы списков анализирует Google согласно патенту?
Google анализирует различные типы структурированных данных. В первую очередь упоминаются HTML-списки: упорядоченные (<OL>), неупорядоченные (<UL>) и списки определений (<DL>). Также упоминается анализ заголовков (<H1>-<H6>), таблиц и даже неявных списков, где элементы разделены запятыми или пробелами.