Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google выявляет связанные, но не синонимичные термины (анти-синонимы) для предотвращения смещения тематики

    IDENTIFYING COMMON CO-OCCURRING ELEMENTS IN LISTS (Идентификация общих совместно встречающихся элементов в списках)
    • US9239823B1
    • Google LLC
    • 2016-01-19
    • 2008-07-02
    2008 SERP Trystan G. Upstill Индексация Патенты Google Семантика и интент

    Google анализирует списки на веб-страницах (например, списки моделей авто, городов, ингредиентов), чтобы выявить термины, которые часто встречаются вместе, но не являются синонимами (например, «кошка» и «собака», «январь» и «февраль»). Эти «коррелирующие пары» добавляются в черный список, чтобы предотвратить их ошибочную замену в запросе и избежать смещения тематики выдачи.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «смещения тематики» (topicality-drifting) в поисковых системах. Системы идентификации синонимов часто ошибочно определяют как синонимы термины, которые тесно связаны, но не взаимозаменяемы (например, «белый» и «желтый», «январь» и «февраль», «армия» и «флот»). Это приводит к нежелательному расширению запроса и включению в выдачу результатов, не соответствующих интенту пользователя. Изобретение направлено на повышение точности (precision) системы определения синонимов путем выявления таких ложных срабатываний.

    Что запатентовано

    Запатентована система для выявления коррелирующих, но не синонимичных пар терминов (анти-синонимов) и создания «черного списка» (correlated-pair list или blacklist). Основной механизм заключается в анализе совместной встречаемости (co-occurrence) терминов внутри списков (HTML-списки, таблицы, перечисления), найденных в большом корпусе документов. Также описаны методы для выявления географических корреляций и расширения черного списка на разные языки.

    Как это работает

    Система работает в нескольких направлениях:

    • Анализ списков: Система сканирует корпус документов, идентифицирует списки и анализирует, какие термины часто появляются вместе в этих списках. Вычисляется показатель корреляции. Пары с высокой корреляцией добавляются в correlated-pair list.
    • Географический анализ: Система использует географические данные для выявления пар, представляющих разные, но связанные локации (например, «Нью-Йорк» и «Нью-Джерси»), чтобы предотвратить нежелательное смещение географии поиска.
    • Кросс-языковое расширение: Система берет известные пары не-синонимов (например, «красный», «зеленый») и переводит их на другие языки (например, «rojo», «verde»), добавляя переведенные пары в черный список.
    • Применение черного списка: Когда основная система предлагает кандидата в синонимы, он проверяется по correlated-pair list. Если пара найдена в списке, к ней применяются значительно более строгие критерии (например, требуется очень высокая частота замен в пользовательских сессиях), чтобы она была принята в качестве синонима.

    Актуальность для SEO

    Высокая. Точное понимание запросов и предотвращение смещения тематики остаются критически важными задачами для Google. По мере развития NLP и распознавания сущностей, способность системы отличать связанные сущности от взаимозаменяемых терминов становится все более важной для качества поиска.

    Важность для SEO

    Патент имеет значительное влияние на SEO-стратегию (7/10). Он демонстрирует, что Google активно борется с размытием тематики и не всегда рассматривает близкие по смыслу понятия как синонимы. Это подчеркивает важность использования точной терминологии на страницах и построения четкой тематической релевантности, вместо того чтобы полагаться на то, что Google самостоятельно свяжет смежные, но различные концепции.

    Детальный разбор

    Термины и определения

    Authorship (Авторство)
    Критерий для фильтрации документов в корпусе. Используется для обеспечения разнообразия источников данных. Может определяться по IP-адресу, поддиректориям сайта или ID пользователя (например, на форумах).
    Corpus (Корпус)
    Коллекция документов (например, веб-страниц), используемая для анализа.
    Correlated Geographic Synonym (Коррелирующий географический синоним)
    Пара терминов, идентифицированных как связанные, но различные географические сущности (например, город и штат, или два соседних города). Рассматриваются как потенциальные анти-синонимы.
    Correlated-pair list (Список коррелирующих пар / Черный список)
    Список пар терминов, которые часто встречаются вместе в списках, но считаются не синонимичными (анти-синонимы). Используется для фильтрации или пессимизации кандидатов в синонимы.
    Geographic Data Set (Набор географических данных)
    База данных мировых географических сущностей (страны, регионы, города) и отношений между ними (включая переводы названий).
    List (Список)
    Структурированные данные, содержащие перечисление элементов. Включают HTML-списки (<OL>, <UL>, <DL>), таблицы, заголовки (<H1>—<H6>) и перечисления, разделенные специальными символами (например, запятыми).
    Topicality-drifting (Смещение тематики)
    Нежелательный эффект, когда система ошибочно заменяет термин в запросе на связанный, но не синонимичный термин, что приводит к изменению темы поиска (например, замена «январь» на «февраль»).

    Ключевые утверждения (Анализ Claims)

    Примечание: Патент US9239823B1 является продолжением (continuation) более ранних заявок. Хотя его описание (Description) подробно рассматривает анализ списков и географических данных для создания черного списка, конкретные пункты формулы изобретения (Claims 1-11) в этой версии патента фокусируются исключительно на механизме кросс-языкового расширения черного списка.

    Claim 1 (Независимый пункт): Описывает метод расширения списка известных не-синонимов на разные языки.

    1. Система получает пару терминов на первом языке, которые часто встречаются вместе, но не являются синонимами (commonly co-occurring non-synonyms).
    2. Определяются вариации для каждого термина.
    3. Генерируется набор входных пар на основе этих вариаций.
    4. Для каждой входной пары система автоматически переводит (automatic translation system) каждый термин на множество языков, генерируя набор переведенных терминов.
    5. Переведенные термины добавляются в blacklist (черный список) известных пар не-синонимов для соответствующих языков.
    6. Система использует этот blacklist для определения того, являются ли пара терминов-кандидатов синонимами.

    Claim 3 (Зависимый от 1): Уточняет генерацию входных пар (шаг 3 в Claim 1). Набор генерируется путем вычисления декартова произведения (cross-product) между наборами вариаций для каждого из двух исходных терминов.

    Где и как применяется

    Изобретение применяется на этапах индексирования и понимания запросов для повышения точности системы идентификации синонимов.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходят офлайн-процессы генерации черных списков:

    • Анализ списков: Система анализирует Corpus документов, извлекает Lists и вычисляет корреляцию между терминами на основе их совместной встречаемости. Результаты сохраняются в Correlated-pair list.
    • Фильтрация авторства: При анализе корпуса система может фильтровать документы для обеспечения разнообразия Authorship.
    • Географический анализ: Анализируется Geographic Data Set для выявления Correlated Geographic Synonyms.

    QUNDERSTANDING – Понимание Запросов
    На этом этапе черные списки используются для валидации синонимов:

    • Валидация: Когда система понимания запросов предлагает кандидата в синонимы для расширения запроса, этот кандидат проверяется по Correlated-pair list (и другим черным спискам).
    • Корректировка: Если кандидат найден в списке, он либо отбрасывается, либо к нему применяются более строгие критерии (например, требуется более высокий confidence level или высокая вероятность замен в сессиях), чтобы он был принят как синоним.

    Входные данные:

    • Corpus документов.
    • Структура документов (HTML-теги списков, таблиц).
    • Кандидаты в синонимы (от основной системы генерации синонимов).
    • Geographic Data Set.
    • Начальный список известных не-синонимов (для кросс-языкового расширения).

    Выходные данные:

    • Correlated-pair list (Черный список анти-синонимов).
    • Валидированные или отклоненные правила синонимов.
    • Скорректированные оценки уверенности (confidence scores) для синонимов.

    На что влияет

    • Специфические запросы: Влияет на запросы, содержащие термины, которые имеют много связанных, но различных концепций (например, бренды, цвета, даты, виды продуктов, географические названия).
    • Конкретные ниши: Особенно актуально в E-commerce (сравнение моделей или категорий товаров) и локальном поиске (предотвращение смещения локации).
    • Языковые аспекты: Механизм кросс-языкового расширения позволяет применять фильтрацию не-синонимов к запросам на разных языках.

    Когда применяется

    • Триггеры активации (Офлайн): Процессы генерации черных списков запускаются периодически во время индексирования и анализа корпуса.
    • Триггеры активации (Онлайн/Офлайн): Проверка по черному списку активируется каждый раз, когда система рассматривает возможность использования синонима для термина в запросе.
    • Условия: Применение более строгих критериев происходит только тогда, когда пара терминов идентифицирована в Correlated-pair list.

    Пошаговый алгоритм

    Патент описывает несколько взаимосвязанных процессов.

    Процесс А: Генерация черного списка путем анализа списков

    1. Обход корпуса: Система обходит документы в корпусе. Может применяться фильтрация для обеспечения разнообразия авторства.
    2. Извлечение списков: Идентифицируются и извлекаются списки (HTML-списки, таблицы, перечисления).
    3. Регистрация встречаемости: Фиксируется присутствие терминов и частота их появления в списках.
    4. Построение карты терминов: Создается карта терминов и определяется количество уникальных списков, в которых они встречаются.
    5. Вычисление ассоциации/корреляции: Для пар терминов (A, B) вычисляется сила связи. Учитывается, как часто A и B встречаются вместе, по сравнению с тем, как часто они встречаются по отдельности (редкость).
    6. Фильтрация и сохранение: Если корреляция превышает порог, пара (A, B) добавляется в Correlated-pair list (черный список).

    Процесс Б: Генерация черного списка (Кросс-языковое расширение)

    1. Получение входных данных: Система получает пару терминов, которые заведомо связаны, но не являются синонимами (например, «красный», «зеленый»).
    2. Генерация вариаций: Вычисляются вариации и нормализованные версии для каждого термина.
    3. Создание входных пар: Генерируется набор входных пар путем вычисления декартова произведения наборов вариаций.
    4. Перевод: Каждый термин в каждой паре переводится на все доступные языки.
    5. Нормализация переводов: Генерируются нормализованные версии переведенных терминов.
    6. Создание переведенных пар: Вычисляется декартово произведение между наборами переведенных терминов.
    7. Сохранение: Исходные и переведенные пары добавляются в общий черный список.

    Процесс В: Применение черного списка (Валидация синонимов)

    1. Получение кандидата: Основная система генерации синонимов предлагает кандидата (Оригинал -> Синоним).
    2. Проверка по списку: Система проверяет, присутствует ли эта пара в Correlated-pair list.
    3. Применение ограничений: Если пара в списке, система применяет дополнительные ограничения или повышает пороговые значения уверенности (confidence thresholds). Например, требуется более высокая вероятность того, что пользователи часто заменяют эти термины в сессиях.
    4. Финальная оценка: Система определяет, соответствует ли кандидат новым, более строгим порогам.
    5. Результат: Если соответствует, кандидат принимается как синоним. Если нет (или если не соответствует стандартным порогам в случае отсутствия в черном списке), кандидат отклоняется или пессимизируется.

    Какие данные и как использует

    Данные на входе

    • Структурные факторы: Критически важные данные. Используются HTML-теги для идентификации списков: <OL>, <UL>, <LI>, <DL>, <DT>. Также используются теги заголовков <H1>—<H6>, структура таблиц и разделители (запятые, пробелы) для выявления перечислений.
    • Технические факторы: IP-адреса, структура URL (поддиректории) могут использоваться для определения Authorship и фильтрации корпуса.
    • Географические факторы: Используется Geographic Data Set, включающий названия локаций, координаты, ограничивающие рамки (bounding box) и отношения включения (город в регионе, регион в стране).
    • Поведенческие факторы: Данные о заменах терминов пользователями в рамках одной сессии (session switching). Используются на этапе валидации синонимов для определения того, может ли пара из черного списка все же считаться синонимом.
    • Лингвистические данные: Данные автоматического перевода и правила обработки диакритических знаков используются для кросс-языкового расширения черных списков.

    Какие метрики используются и как они считаются

    • Correlation Score (Оценка корреляции в списках): Измеряет силу связи между двумя терминами (A и B). В одном из вариантов рассчитывается как отношение числа списков, где присутствуют оба термина, к общему числу списков, где присутствует хотя бы один из них. Корреляция увеличивается с ростом первого показателя и уменьшается с ростом второго.
    • Метрика редкости (Rarity): В другом варианте расчета корреляции используется вес, учитывающий редкость термина: log [(общее число уникальных списков) / (число уникальных списков, содержащих термин A)].
    • Session Switching Probability (Вероятность замены в сессии): Измеряет вероятность того, что пользователь заменит запрос с оригинальным термином (O) на запрос с альтернативным термином (A). Рассчитывается как: (Число переходов O->A) / (Общее число запросов, содержащих O).
    • Критерии географической корреляции: Используются для определения Correlated Geographic Synonym. Включают проверку на: разные страны; разные регионы/города в одном регионе; отношение включения (город внутри страны/региона); близость (города в пределах заданного расстояния).

    Выводы

    1. Фокус на предотвращении смещения тематики: Патент демонстрирует, что Google активно работает над повышением точности (Precision) системы синонимов, идентифицируя «анти-синонимы» (связанные не-синонимы), чтобы избежать topicality-drifting.
    2. Списки как источник знаний о связях: Списки на веб-страницах (HTML-списки, таблицы) являются ключевым источником данных для понимания того, какие сущности связаны между собой как элементы одного класса (например, «Мерседес» и «БМВ» в списке автобрендов), но не являются синонимами друг для друга.
    3. Многоуровневая генерация черных списков: Система создает Correlated-pair list (черный список) используя анализ списков, специализированный географический анализ и кросс-языковой перевод известных не-синонимов.
    4. Динамическая валидация синонимов: Попадание в черный список не означает автоматического исключения. Это означает применение значительно более строгих критериев валидации. Пара может быть принята как синоним, только если есть очень сильные сигналы (например, высокая Session Switching Probability), подтверждающие их взаимозаменяемость в контексте запросов пользователей.
    5. Приоритет точности над полнотой: Система предпочитает не расширять запрос (жертвуя полнотой/Recall), если есть риск использования неточного синонима (снижения Precision).

    Практика

    Best practices (это мы делаем)

    • Использование точной терминологии: Используйте максимально точные термины для описания продуктов, услуг или тем. Не полагайтесь на то, что Google будет рассматривать тесно связанные, но различные концепции как синонимы (например, «OLED» и «LCD», «кроссовки» и «кеды»). Если вы хотите ранжироваться по обоим терминам, создавайте контент, четко разграничивающий их или таргетирующий оба.
    • Четкое структурирование списков: При использовании списков (например, перечисление брендов, ингредиентов, моделей, городов) используйте корректную HTML-разметку (<UL>, <OL>, таблицы). Это помогает Google правильно интерпретировать элементы списка как связанные сущности одного класса, а не как синонимы друг для друга.
    • Поддержание тематической чистоты: Сохраняйте четкий тематический фокус страницы. Если страница посвящена нескольким связанным сущностям, структура контента должна ясно отражать взаимоотношения между ними (сравнение, обзор, перечисление), чтобы избежать двусмысленности.
    • Анализ географической привязки: Для локального SEO убедитесь, что географическая привязка контента точна. Не используйте названия соседних городов или регионов как взаимозаменяемые, так как система может идентифицировать это как Correlated Geographic Synonym и ограничить ранжирование.

    Worst practices (это делать не надо)

    • Использование двусмысленных терминов: Использование термина, который имеет много связанных, но не синонимичных значений, в надежде, что система расширит его до нужного интента. Система скорее ограничит интерпретацию, чтобы избежать смещения тематики.
    • Неструктурированные перечисления: Представление важных перечислений (например, ключевых характеристик или поддерживаемых моделей) в виде плохо структурированного текста вместо использования списков или таблиц может затруднить извлечение связей между элементами.
    • Подмена понятий: Оптимизация страницы под один термин, но использование в тексте связанного не-синонима как эквивалента.

    Стратегическое значение

    Патент подтверждает стратегический фокус Google на точности интерпретации запросов (Precision). Система становится все более сложной в различении нюансов между связанными сущностями и взаимозаменяемыми терминами. Для SEO это означает, что стратегия ключевых слов должна быть основана на специфичности и четком таргетинге интента. Построение тематического авторитета требует не только охвата связанных тем, но и понимания границ между ними.

    Практические примеры

    Сценарий: Оптимизация страницы категории E-commerce (Смартфоны)

    1. Задача: Создать страницу категории, перечисляющую различные бренды смартфонов (Apple, Samsung, Google Pixel).
    2. Действия (Правильно): Использовать маркированный список (<UL>) для перечисления брендов. <ul><li>Apple</li><li>Samsung</li><li>Google Pixel</li></ul>.
    3. Ожидаемый результат (на основе патента): Google анализирует этот список и понимает, что «Apple», «Samsung» и «Google Pixel» часто встречаются вместе в контексте смартфонов. Они добавляются в Correlated-pair list. Это помогает системе понять, что запрос [смартфоны Apple] не следует расширять до [смартфоны Samsung], так как это связанные, но разные сущности (анти-синонимы).
    4. Действия (Неправильно): Использовать эти бренды как взаимозаменяемые синонимы в тексте или полагаться, что оптимизация под один бренд поможет ранжироваться по другому.
    5. Результат (Неправильно): Система применит строгие критерии и не будет рассматривать их как синонимы, что приведет к потере релевантности по нецелевым запросам.

    Вопросы и ответы

    О чем этот патент: о поиске синонимов или о чем-то другом?

    Этот патент посвящен поиску «анти-синонимов», то есть терминов, которые тесно связаны и часто встречаются вместе, но не являются взаимозаменяемыми. Цель изобретения — создать «черный список» (Correlated-pair list) таких пар, чтобы предотвратить их ошибочное использование в качестве синонимов и избежать смещения тематики (topicality-drifting) поисковой выдачи.

    Как Google определяет, что два термина связаны, но не являются синонимами?

    Основной метод, описанный в патенте, — это анализ списков (HTML-списки, таблицы, перечисления) в большом корпусе документов. Если два термина очень часто встречаются вместе в одних и тех же списках (например, «кошка» и «собака» в списках домашних животных), система маркирует их как коррелирующую пару. Также используются географические данные для выявления связанных, но разных локаций.

    Что происходит, если система пометила пару терминов как «коррелирующую пару» (анти-синоним)?

    Когда основная система предлагает использовать эти термины как синонимы, активируется проверка по черному списку. Если пара в нем есть, к ней применяются значительно более строгие критерии валидации. Чтобы такая пара была принята как синоним, требуются очень сильные сигналы, например, очень высокая частота, с которой пользователи сами заменяют один термин на другой в рамках одной поисковой сессии.

    Как это влияет на мою стратегию ключевых слов?

    Это подчеркивает необходимость использования точной и специфичной терминологии. Не стоит рассчитывать, что Google будет рассматривать близкие, но разные понятия как эквиваленты. Например, если вы продаете OLED-телевизоры, оптимизируйтесь под «OLED», а не полагайтесь на то, что Google расширит запрос [LCD телевизоры] до вашего контента, так как «LCD» и «OLED», скорее всего, находятся в черном списке как связанные не-синонимы.

    Как использование HTML-списков на моем сайте влияет на этот алгоритм?

    Правильное использование HTML-списков (<UL>, <OL>) помогает Google понять взаимоотношения между перечисляемыми элементами. Структурируя контент таким образом, вы помогаете системе идентифицировать элементы как связанные сущности одного класса, а не как синонимы друг друга. Это улучшает общее понимание контента страницы.

    Что такое «смещение тематики» (topicality-drifting), с которым борется этот патент?

    Это ситуация, когда система ошибочно заменяет термин в запросе на связанное понятие, что меняет интент поиска. Например, если пользователь ищет [фотографии январь], а система расширяет запрос до [фотографии февраль]. Термины связаны (оба месяцы), но интент изменился. Патент направлен на предотвращение таких ситуаций.

    Как система обрабатывает географические названия?

    Патент описывает специальный механизм для географических терминов. Система использует Geographic Data Set для выявления пар, которые представляют разные, но связанные локации (например, город и включающий его штат, или два соседних города). Такие пары маркируются как Correlated Geographic Synonym и обрабатываются с повышенной строгостью, чтобы избежать нежелательного изменения географии поиска.

    Что значит «фильтрация по авторству» (Authorship) при анализе корпуса?

    Чтобы избежать искажений из-за того, что один автор или сайт часто использует определенный набор терминов, система старается анализировать документы из разных источников. Authorship может определяться по IP-адресу, домену или структуре URL. Это обеспечивает более объективную оценку корреляции между терминами в масштабах всего веба.

    Как работает кросс-языковое расширение черного списка?

    Система берет известную пару не-синонимов на одном языке (например, «красный», «зеленый») и использует автоматический перевод для получения эквивалентов на других языках (например, «rojo», «verde» на испанском). Эти переведенные пары также добавляются в черный список. Это позволяет применять фильтрацию анти-синонимов глобально, независимо от языка запроса.

    Отдает ли Google приоритет точности (Precision) или полноте (Recall) при работе с синонимами?

    Этот патент ясно показывает, что в контексте расширения запросов синонимами Google отдает приоритет точности (Precision). Система предпочтет показать более узкую, но точную выдачу, чем расширить запрос с риском включения нерелевантных результатов из-за использования неточного синонима.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.