Как Google использует анализ самой длинной общей подпоследовательности (LCS) для определения лексических синонимов и вариантов слов

LONGEST-COMMON-SUBSEQUENCE DETECTION FOR COMMON SYNONYMS (Обнаружение самой длинной общей подпоследовательности для общих синонимов)

US8001136B1
Google LLC
2008-07-02
2011-08-16

Семантика и интент

Google использует метод Longest Common Subsequence (LCS) для идентификации лексически близких слов, таких как словоформы, аббревиатуры и составные слова. Система вычисляет самую длинную общую последовательность символов между двумя терминами и сравнивает её длину с длиной более длинного термина. Если коэффициент схожести и расстояние редактирования соответствуют порогам, слова считаются кандидатами в синонимы, что улучшает понимание запросов.

Какую проблему решает

Патент решает проблему неэффективности существующих методов генерации синонимов при идентификации лексически связанных слов (например, словоформ, аббревиатур, акронимов, составных слов). Стандартный стемминг часто бывает слишком консервативным. Более ранние методы псевдостемминга (pseudostemming), основанные на совпадении общих префиксов, плохо работали с составными словами (compounds), где различия находятся в середине слова (например, в немецком языке). Изобретение направлено на улучшение точности обнаружения таких lexical synonyms.

Что запатентовано

Запатентован метод идентификации кандидатов в синонимы на основе лексического сходства. Ядром изобретения является использование анализа Longest Common Subsequence (LCS) — самой длинной общей подпоследовательности. Этот метод позволяет более точно измерять сходство между двумя терминами по сравнению с простым сравнением префиксов, особенно для составных слов.

Как это работает

Система использует двухэтапный процесс валидации. Сначала она получает два термина и вычисляет их LCS. Затем рассчитывается отношение (LCS Ratio) длины LCS к длине более длинного из двух терминов. Если это отношение превышает первый установленный порог, система выполняет вторую проверку, вычисляя Edit Distance (расстояние редактирования) между терминами. Если Edit Distance находится ниже второго порога, термины помечаются как кандидаты в синонимы.

Актуальность для SEO

Высокая. Понимание того, как Google идентифицирует синонимы, словоформы и лексические варианты, является фундаментальным аспектом современного SEO и Query Understanding. Хотя современные NLP-модели (BERT, MUM) обрабатывают глубокую семантику, точное лексическое сопоставление остается критически важным для обеспечения полноты поиска (Recall). Описанные методы (LCS, Edit Distance) являются стандартными и актуальными в конвейерах NLP.

Важность для SEO

Патент имеет существенное значение (6.5/10) для понимания инфраструктуры этапа Query Understanding. Он объясняет, как система определяет эквивалентность терминов с разным написанием (например, аббревиатуры, различия в пунктуации или составные слова). Хотя патент не описывает сигналы ранжирования, он оказывает влияние на исследование ключевых слов и оптимизацию контента, определяя границы синонимии и вариативности терминов.

Термины и определения

Longest Common Subsequence (LCS) (Самая длинная общая подпоследовательность): Самая длинная последовательность символов, которая присутствует в обоих сравниваемых терминах с сохранением порядка символов, но не обязательно непрерывно. Например, LCS для "architekturwettbewerb" и "architektenwettbewerb" — это "architektwettbewerb".
Edit Distance (Расстояние редактирования): Минимальное количество операций (вставок, удалений, замен символов), необходимых для преобразования одного термина в другой.
Pseudostemming (Псевдостемминг): Техника идентификации лексически схожих слов, которая является более инклюзивной (широкой), чем стандартный стемминг. В патенте метод LCS предлагается как улучшение для псевдостемминга.
Lexical Synonyms (Лексические синонимы): Высокодоверенные синонимы, имеющие явную лексическую связь с исходным словом. Примеры включают словоформы, акронимы, аббревиатуры, а также различия в пунктуации или пробелах.
Compounding/Decompounding: Процесс объединения нескольких слов в одно составное слово (Compounding) или разделения одного слова на несколько (Decompounding). Например, "wood stock" и "woodstock".

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации кандидатов в синонимы.

Система получает первый и второй термины.
Идентифицируется самая длинная подпоследовательность (LCS), общая для обоих терминов.
Определяется, какой из терминов длиннее.
Вычисляется отношение (ratio) между длиной LCS и длиной более длинного термина.
Определяется, соответствует ли это отношение первому порогу (first threshold).
Вычисляется расстояние редактирования (Edit Distance) между терминами.
Расстояние редактирования сравнивается со вторым порогом (second threshold).
Определяется, соответствует ли расстояние редактирования второму порогу.
Термины обозначаются как кандидаты в синонимы на основании того, что и отношение LCS, и расстояние редактирования соответствуют своим порогам.

Ядром изобретения является специфический двухэтапный фильтр для идентификации кандидатов в синонимы, основанный исключительно на лексической структуре. Шаг 1 (LCS Ratio) измеряет общее сходство состава и порядка символов, что эффективнее анализа префиксов для составных слов. Шаг 2 (Edit Distance) измеряет близость различий. Оба условия должны быть выполнены. Это представляет собой точное определение лексического сходства, используемое системой для pseudostemming.

Где и как применяется

Изобретение применяется на этапах предварительной обработки данных и понимания запросов.

INDEXING – Индексирование / QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основное применение. Описанные методы (анализ LCS, а также упомянутые в патенте методы для аббревиатур, акронимов, составных слов) используются для генерации списков потенциальных синонимов в офлайн-режиме. Это происходит путем анализа больших корпусов текстов или логов запросов. В результате формируются предопределенные списки lexical synonyms.

QUNDERSTANDING – Понимание Запросов (В реальном времени)
Когда пользователь отправляет запрос, система использует предварительно сгенерированные данные о синонимах для интерпретации интента запроса. Это может включать перезапись (rewriting) или расширение (expansion) запроса для включения этих лексических вариантов.

Входные данные:

Два термина (Термин А, Термин Б), оцениваемые на предмет синонимии.

Выходные данные:

Определение того, являются ли Термин А и Термин Б кандидатами в синонимы (Да/Нет).

На что влияет

Специфические запросы: Влияет на все типы запросов, но особенно сильно на запросы, содержащие аббревиатуры, акронимы, технические термины, названия брендов с вариациями пунктуации и составные слова.
Языковые и географические ограничения: В патенте прямо упоминается немецкий язык (в контексте составных слов) и неанглийские языки (в контексте диакритических знаков), что указывает на критическую важность этого метода для мультиязычного поиска, особенно для языков со словосложением.

Когда применяется

Условия применения: Алгоритм применяется в процессе генерации синонимов для оценки лексического сходства между двумя терминами.
Пороговые значения: Для активации необходимо, чтобы LCS Ratio превышал первый порог, а Edit Distance был ниже второго порога. В описании патента упоминаются примеры порогов (например, 0.5 для LCS Ratio), но в Claims они не зафиксированы.

Пошаговый алгоритм

Процесс работы системы по методу LCS (согласно FIG. 6):

Получение данных: Система получает два термина для сравнения.
Вычисление LCS: Вычисляется самая длинная общая подпоследовательность (LCS) двух терминов. (Патент детально описывает использование динамического программирования для этого вычисления).
Вычисление коэффициента LCS: Определяется длина LCS и длина более длинного из двух терминов. Вычисляется отношение длины LCS к длине более длинного термина.
Первая фильтрация (LCS Ratio): Система проверяет, превышает ли коэффициент LCS первый установленный порог.
- Если НЕТ: Процесс завершается (термины не считаются лексическими синонимами).
- Если ДА: Переход к следующему шагу.
Вычисление Edit Distance: Система вычисляет расстояние редактирования между двумя терминами.
Вторая фильтрация (Edit Distance): Система проверяет, меньше ли расстояние редактирования второго установленного порога.
Идентификация: Если оба порога пройдены, термины помечаются как кандидаты в синонимы.

Какие данные и как использует

Данные на входе

Контентные (Лексические) факторы: Основными данными являются сами символы, составляющие два сравниваемых термина. В описании упоминаются варианты реализации, где перед сравнением может происходить нормализация: удаление пунктуации и пробелов (для Compounding/Decompounding) или удаление диакритических знаков (Diacriticals).

Какие метрики используются и как они считаются

Length of Term (Длина термина).
Length of LCS (Длина LCS).
LCS Ratio (Коэффициент LCS): Рассчитывается по формуле: $\frac{\text{Длина LCS}}{\text{Длина более длинного термина}}$ .
Edit Distance (Расстояние редактирования).
Пороговые значения: Используются предопределенные пороги (predetermined thresholds) для LCS Ratio и Edit Distance для принятия решения.

Лексический анализ как основа: Google активно использует методы лексического анализа (помимо семантического) для определения синонимов, словоформ и вариантов написания. Это фундаментальный слой в Query Understanding.
Преимущество LCS над префиксами: Longest Common Subsequence (LCS) является предпочтительным методом по сравнению с простым совпадением префиксов для pseudostemming. Он более устойчив к изменениям в начале или середине слова и лучше обрабатывает составные слова (compounds).
Двухфакторная валидация сходства: Идентификация лексических синонимов проходит строгую фильтрацию. Требуется как высокое общее сходство символов и их порядка (высокий LCS Ratio), так и небольшое количество различий (низкий Edit Distance).
Учет специфических лексических связей: Система включает механизмы для учета различных типов лексических отношений: стемминг, акронимы, аббревиатуры, различия в пунктуации, пробелах и диакритических знаках.
Лексическая связь как сильный сигнал: В патенте отмечается, что для lexical synonyms требования к другим сигналам подтверждения (например, общим результатам поиска или переключению запросов в рамках сессии) могут быть снижены, поскольку сильная лексическая связь сама по себе является надежным индикатором семантической близости.

Best practices (это мы делаем)

Естественная вариативность ключевых слов: Не следует чрезмерно беспокоиться о мелких различиях в написании (пунктуация, пробелы, диакритические знаки) или использовании общепринятых аббревиатур и акронимов. Google с высокой вероятностью распознает их как эквиваленты благодаря описанным механизмам (LCS, нормализация).
Интернационализация (i18n): При работе с языками, где распространены составные слова (например, немецкий, финский, русский), этот патент подтверждает способность Google связывать варианты. Важно использовать естественное и грамматически правильное написание для целевого языка, не опасаясь, что поисковая система не поймет составное слово.
Фокус на семантике, а не на словоформах: Поскольку Google эффективно группирует лексические варианты (используя pseudostemming с помощью LCS), SEO-стратегия должна фокусироваться на покрытии семантических сущностей и интентов, а не на оптимизации под каждую отдельную словоформу или аббревиатуру.

Worst practices (это делать не надо)

Keyword Stuffing вариантами написания: Попытки «оптимизировать» текст путем включения всех возможных вариантов написания, пунктуации, аббревиатур и словоформ избыточны. Это ухудшает читаемость и не дает преимуществ, так как система уже умеет связывать эти варианты.
Создание дублирующего контента под варианты: Создание отдельных страниц для [wood stock] и [woodstock], или [USA] и [U.S.A.] неэффективно. Система нормализует эти различия и считает термины эквивалентными.

Стратегическое значение

Патент раскрывает часть инфраструктуры, отвечающей за нормализацию и расширение запросов на этапе Query Understanding. Это подтверждает, что Google инвестирует значительные ресурсы в точное сопоставление лексических единиц еще до этапа глубокого семантического анализа. Для SEO это означает дальнейшее смещение фокуса с точного совпадения ключевых слов на создание качественного контента, отвечающего на интент, который стоит за целой группой лексически связанных запросов.

Практические примеры

Сценарий: Обработка составных слов в немецком языке (Пример из патента)

Задача: Определить, являются ли синонимами "Architekturwettbewerb" (конкурс архитектуры) и "Architektenwettbewerb" (конкурс архитекторов).
Анализ (Предыдущий метод на основе префиксов): Общий префикс "architekt" (8 символов). Длина слов 21 символ. Отношение 8/21 ≈ 0.38. Если порог 0.5, то слова не считаются синонимами.
Анализ (Новый метод LCS):
- LCS: "architektwettbewerb" (19 символов).
- LCS Ratio: 19/21 ≈ 0.90. Это значительно выше порога 0.5.
- Edit Distance: 2 (замена 'ur' на 'en'). Это ниже типичного порога.
Результат: Система идентифицирует эти термины как лексические синонимы.
SEO Вывод: Страница, оптимизированная под один из этих терминов, будет релевантна запросам по другому, что критически важно для SEO в языках со словосложением.

Что такое Longest Common Subsequence (LCS) и чем он отличается от совпадения префикса?

LCS — это самая длинная последовательность символов, которая присутствует в обоих словах в одинаковом порядке, но не обязательно подряд. Совпадение префикса требует, чтобы символы совпадали строго в начале слова. Например, у слов «architekturwettbewerb» и «architektenwettbewerb» общий префикс короткий («architekt»), но LCS очень длинный («architektwettbewerb»). LCS позволяет выявлять сходство, даже если различия находятся в середине слова.

Означает ли этот патент, что мне больше не нужно использовать полные названия и их акронимы в тексте?

Патент показывает, что Google имеет надежные механизмы для распознавания акронимов и аббревиатур как lexical synonyms. Однако для удобства пользователей и максимальной ясности лучшей практикой остается указание полного названия при первом упоминании, а затем использование акронима (например, «National Aeronautics and Space Administration (NASA)»). Это помогает установить четкий контекст.

Как Google обрабатывает различия в пунктуации и пробелах, например, "Wi-Fi" и "Wifi"?

В патенте описан метод Compounding/Decompounding. Система может нормализовать термины, удаляя пунктуацию и пробелы, и затем сравнивать результаты с помощью LCS/Edit Distance. Если они идентичны или очень похожи, они классифицируются как лексические варианты. Таким образом, "Wi-Fi", "Wifi" и "Wi Fi" будут распознаны как один и тот же термин.

Как метод LCS помогает Google в обработке длинных составных слов (например, в немецком языке)?

Составные слова часто имеют общую основу, но могут различаться в одном из компонентов. Метод LCS вычисляет общее сходство по всему слову, а не только в начале. Если отношение длины LCS к общей длине слова высокое (например, >0.5), это сигнализирует о сильной связи, даже если слова не имеют длинного общего префикса. Это критически важно для языков с богатой морфологией и словосложением.

Что такое "Edit Distance" и как оно используется вместе с LCS?

Edit Distance (расстояние редактирования) — это минимальное количество изменений (вставка, удаление, замена символа), необходимых для превращения одного слова в другое. Патент использует двухэтапную проверку: сначала проверяется общее сходство через LCS Ratio, а затем, если сходство достаточное, проверяется Edit Distance. Это гарантирует, что слова не только имеют много общих символов, но и их различия минимальны.

Заменяет ли этот механизм стандартный стемминг?

Не заменяет, а дополняет и улучшает. Патент описывает этот метод как улучшение для Pseudostemming — более инклюзивного подхода по сравнению со стандартными стеммерами. LCS позволяет улавливать лексические связи, которые могут быть упущены стандартными алгоритмами стемминга, основанными на правилах.

Если два слова определены как лексические синонимы по этому методу, всегда ли Google считает их эквивалентными?

Не всегда. Этот метод идентифицирует их как synonym candidates. Однако в патенте упоминается, что лексические синонимы считаются высокодоверенными (highly-trusted). Для них могут быть снижены требования к другим подтверждающим сигналам (например, частоте совместного появления в результатах поиска). В большинстве случаев они будут считаться эквивалентными, если контекст не предполагает иного.

Влияет ли этот патент на ранжирование?

Напрямую нет. Патент не описывает факторы ранжирования. Он описывает процесс понимания и расширения запроса (Query Understanding). Однако, улучшая понимание того, какие слова являются синонимами, система может найти больше релевантных документов, что косвенно влияет на то, какие документы попадут на этап ранжирования.

Как обрабатываются диакритические знаки (акценты) в разных языках?

Патент упоминает, что система может удалять диакритические знаки с использованием как языкозависимых, так и универсальных методов. Если слова становятся идентичными или очень похожими (по метрикам LCS/Edit Distance) после удаления акцентов, они классифицируются как лексические варианты. Это позволяет пользователям находить релевантный контент, даже если они не использовали акценты в запросе.

На каком этапе поиска применяется этот механизм?

Этот механизм применяется преимущественно в офлайн-процессах на этапе Indexing или предобработки данных для предварительного вычисления и сохранения списков синонимов. Результаты этой работы затем используются на этапе Query Understanding для нормализации и расширения запроса в реальном времени.

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

US9183297B1
2015-11-10

Семантика и интент

Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части

Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.

US8392441B1
2013-03-05

Семантика и интент

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз

Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.

US8166045B1
2012-04-24

Индексация
Семантика и интент

Как Google консолидирует оценки популярности и фильтрует подсказки в Autocomplete для оптимизации выдачи

Google использует механизм консолидации оценок в Autocomplete: популярность длинных запросов суммируется с популярностью их коротких префиксов. Это позволяет точнее определить реальный спрос. Затем система фильтрует список, предпочитая более длинные и информативные подсказки коротким, если длинная подсказка составляет значительную часть популярности короткой, оптимизируя интерфейс пользователя.

US8713042B1
2014-04-29

SERP

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента

Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.

US8892549B1
2014-11-18

EEAT и качество
Семантика и интент

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

US20140188927A1
2014-07-03

Персонализация
SERP
Ссылки

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей

Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.

US9213748B1
2015-12-15

SERP
Семантика и интент
Поведенческие сигналы