SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google генерирует синонимы во время индексации, извлекая числа из токенов и нормализуя слова с префиксами-стоп-словами

INDEX-SIDE SYNONYM GENERATION (Генерация синонимов на стороне индекса)
  • US8375042B1
  • Google LLC
  • 2010-11-09
  • 2013-02-12
  • Индексация
  • Мультиязычность
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов путем удаления префиксов, являющихся стоп-словами (например, артиклей в арабском языке), используя статистические черные списки для предотвращения ошибок. Оба варианта сохраняются в индексе.

Описание

Какую проблему решает

Патент решает проблему эффективности и полноты поиска (Recall). Традиционное расширение запросов синонимами (query expansion) происходит в момент получения запроса, что увеличивает нагрузку и время ответа. Патент предлагает перенести часть генерации синонимов на этап индексации (index-side synonym generation), чтобы ускорить обработку запросов. Конкретно решаются две задачи: улучшение поиска по буквенно-числовым идентификаторам (например, номерам моделей, SKU) и улучшение обработки языков, где стоп-слова часто являются префиксами (например, арабский).

Что запатентовано

Запатентована система, которая дополняет поисковый индекс синонимами во время индексации ресурсов. Система реализует два ключевых механизма: 1) Извлечение числовых частей (numeric portions) из буквенно-числовых токенов. 2) Нормализация токенов путем удаления префиксов-стоп-слов (stopword prefixes), используя черный список (blacklist) для предотвращения ошибок нормализации. В обоих случаях в индекс добавляется и исходный токен, и его вариант.

Как это работает

Система работает на этапе индексации с помощью Index Augmentation Module:

  • Извлечение чисел: Если токен содержит и буквы, и цифры (например, «e42PC»), система извлекает числовую часть («42») и сохраняет в индексе оба варианта.
  • Нормализация префиксов: Для языков, где стоп-слова присоединяются к началу слова (например, артикль в арабском), система проверяет токен по blacklist. Если токен не в списке, префикс удаляется, и нормализованная форма (normalized form) сохраняется в индексе вместе с оригиналом.
  • Обработка запроса: При получении запроса Query Modification Engine дополняет его так, чтобы он соответствовал предварительно рассчитанным вариантам в индексе. Например, запрос «42 PC» может быть расширен до «(42 ИЛИ вариант_42) PC».

Актуальность для SEO

Средняя/Высокая. Принципы обработки данных на стороне индекса критически важны для эффективности современных поисковых систем. Механизм извлечения чисел остается высокоактуальным для e-commerce и технических тематик (поиск по SKU, номерам деталей). Обработка стоп-слов префиксов необходима для таких языков, как арабский и иврит. Хотя современные векторные методы (embeddings) могут частично заменять прямую нормализацию, базовые лингвистические правила и повышение эффективности за счет предварительной обработки остаются актуальными.

Важность для SEO

Патент имеет умеренное значение (6/10) для SEO. Он не описывает алгоритмы ранжирования, но дает глубокое понимание процессов индексации и нормализации. Это критически важно для International SEO (особенно для рынков Ближнего Востока) и для сайтов с большим количеством технических идентификаторов (e-commerce, каталоги). Патент объясняет, как Google может связать различные написания номеров моделей или нормализовать ключевые слова, игнорируя артикли и предлоги.

Детальный разбор

Термины и определения

Blacklist (Черный список токенов)
Список слов, которые начинаются с последовательности символов, совпадающей со stopword prefix, но в контексте данного слова этот префикс не является стоп-словом. Используется для предотвращения ошибочной нормализации.
Compound Stopword Prefix (Составной префикс-стоп-слово)
Последовательность из нескольких одиночных стоп-префиксов, которая является корректным префиксом в языке.
Index Augmentation Module (Модуль дополнения индекса)
Компонент системы индексации, отвечающий за генерацию и добавление синонимов (числовых частей и нормализованных форм) в индекс.
Index-Side Synonym Generation (Генерация синонимов на стороне индекса)
Процесс создания и сохранения синонимов во время индексации документа, а не во время выполнения запроса.
Normalized Form (Нормализованная форма)
Вариант токена, созданный путем удаления stopword prefix.
Numeric Portion (Числовая часть)
Одна или более последовательных цифр, извлеченных из токена, который также содержит нечисловые символы.
Query Modification Engine (Движок модификации запросов)
Компонент, который изменяет входящие запросы, добавляя токены, необходимые для сопоставления с дополненным индексом.
Stopword Prefix (Стоп-префикс)
Стоп-слово (например, артикль, предлог), которое в данном языке присоединяется к началу слова.
Training Dataset (Обучающий набор данных)
Корпус текстов (например, веб-документы, логи запросов), используемый для статистического анализа частотности токенов при генерации Blacklist.

Ключевые утверждения (Анализ Claims)

Патент содержит три основных независимых блока утверждений, описывающих три разных аспекта изобретения: извлечение чисел, нормализацию префиксов и генерацию черного списка.

Claim 1 (Независимый пункт): Извлечение чисел. Описывает метод обработки буквенно-числовых токенов.

  1. Система индексирует токен из ресурса.
  2. Определяется, что токен состоит из числовой части (numeric portion) и нечисловой части (non-numeric portion).
  3. Числовая часть извлекается.
  4. В поисковый индекс сохраняется ассоциация ресурса как с исходным токеном, так и с извлеченной числовой частью (как отдельными терминами индекса).
  5. При получении поискового запроса, содержащего числовой токен, система дополняет (augmenting) запрос новым токеном, который будет соответствовать извлеченной числовой части, если она совпадает с числом в запросе.

Claim 7 (Зависимый от 1): Уточняет ранжирование. Новому (добавленному) токену присваивается вес так, чтобы ресурсы, соответствующие исходному числовому токену в запросе, ранжировались выше (weighted more highly), чем ресурсы, соответствующие только новому токену.

Claim 8 (Независимый пункт): Нормализация префиксов-стоп-слов. Описывает метод обработки слов в языках с префиксами-стоп-словами.

  1. Система получает Blacklist.
  2. Система индексирует токен, который начинается с префикса, совпадающего со stopword prefix.
  3. Проверяется, что токен отсутствует в Blacklist.
  4. Если его там нет, генерируется normalized form путем удаления этого префикса.
  5. В индекс сохраняется ассоциация ресурса как с исходным токеном, так и с нормализованной формой.
  6. При получении запроса система генерирует нормализованную форму для токена запроса и дополняет запрос этой формой.

Claim 15 (Независимый пункт): Генерация черного списка. Описывает статистический метод создания Blacklist.

  1. Система получает набор эталонных stopword prefixes (включая составные).
  2. Генерируется набор данных токенов из обучающего корпуса (Training Dataset), включая частотность полных и частично нормализованных форм.
  3. Выбирается полный токен (whole token), если его частота выше порога и он имеет stopword prefix.
  4. Генерируется нормализованный токен путем удаления самого длинного совпадающего префикса.
  5. Применяется правило: полный токен добавляется в Blacklist, ЕСЛИ (i) нормализованный токен не имеет других stopword prefix И (ii) соотношение частоты нормализованного токена к частоте полного токена ниже порогового значения.

Это правило определяет, что если нормализованная форма встречается значительно реже, чем полная форма, то префикс является неотъемлемой частью слова, и его нельзя удалять.

Где и как применяется

Изобретение применяется в основном на этапе индексирования и влияет на этап понимания запросов.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются данные (ресурсы), которые служат входными данными для Training Dataset, используемого для генерации Blacklist.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Index Augmentation Module работает во время токенизации и анализа контента.

  • Извлечение чисел: Анализируются токены, извлекаются numeric portions, и они добавляются в индекс как синонимы.
  • Нормализация: Токены сравниваются со списком stopword prefixes и Blacklist. Нормализованные формы генерируются и добавляются в индекс как синонимы.
  • Офлайн-процесс: Генерация Blacklist происходит как отдельный офлайн-процесс анализа корпуса текстов (Training Dataset).

QUNDERSTANDING – Понимание Запросов
На этом этапе Query Modification Engine изменяет запрос пользователя, чтобы он соответствовал дополненному индексу. Запрос дополняется числовыми вариантами или нормализованными формами токенов запроса.

RANKING – Ранжирование
Система ранжирования использует дополненный запрос для поиска в дополненном индексе. Система назначает веса (weights) токенам в дополненном запросе, чтобы ресурсы, соответствующие исходному запросу, ранжировались выше, чем ресурсы, соответствующие только синонимам (Claim 7, 14).

Входные данные:

  • Последовательность токенов из ресурса.
  • Набор эталонных stopword prefixes.
  • Blacklist токенов.
  • Training Dataset (для генерации Blacklist).

Выходные данные:

  • Дополненный поисковый индекс, содержащий исходные токены, извлеченные числовые части и нормализованные формы.

На что влияет

  • Конкретные типы контента и ниши:
    • E-commerce, каталоги, техническая документация: Механизм извлечения чисел критически важен для поиска по SKU, номерам моделей, артикулам (например, поиск по «GTX 1080» найдет «GTX1080Ti»).
  • Языковые ограничения:
    • Механизм нормализации префиксов специфичен для языков, где стоп-слова присоединяются к словам (например, арабский, иврит).
    • Механизм извлечения чисел является языконезависимым.

Когда применяется

Алгоритмы применяются при выполнении специфических условий во время индексации:

  • Условие 1 (Числа): Когда токен содержит как минимум одну цифру и как минимум один нечисловой символ (non-numeric character).
  • Условие 2 (Нормализация): Когда начало токена совпадает с одним из эталонных stopword prefixes И токен отсутствует в Blacklist.

Пошаговый алгоритм

Система реализует три основных процесса.

Процесс А: Извлечение числовых частей

Этап Индексации:

  1. Получение последовательности токенов документа.
  2. Для токена определяется наличие числовой части и нечисловой части.
  3. Числовая часть (или части) извлекается из токена.
  4. В индекс сохраняются данные, связывающие документ как с исходным токеном, так и с извлеченной числовой частью. (Опционально: числовая часть помечается специальным префиксом, например, *np*, чтобы указать ее происхождение).

Этап Обработки Запроса:

  1. Получение поискового запроса.
  2. Идентификация числового токена в запросе.
  3. Дополнение запроса токеном, который будет соответствовать числовым частям, извлеченным из документов в индексе (например, добавление *np*42 к запросу, содержащему 42).
  4. Назначение весов токенам в дополненном запросе, при этом вес исходного токена выше веса добавленного варианта.

Процесс Б: Нормализация префиксов-стоп-слов

Этап Индексации:

  1. Получение Blacklist.
  2. Получение последовательности токенов документа.
  3. Для токена, начинающегося со stopword prefix, проверяется его отсутствие в Blacklist.
  4. Если он отсутствует, генерируется нормализованная форма путем удаления префикса.
  5. В индекс сохраняются данные, связывающие документ как с исходным токеном, так и с нормализованной формой. (Опционально: нормализованная форма помечается специальным префиксом, например, *sp*).

Этап Обработки Запроса:

  1. Получение поискового запроса.
  2. Для токена запроса проверяется его отсутствие в Blacklist.
  3. Генерируется нормализованная форма токена.
  4. Запрос дополняется нормализованной формой (и/или ее помеченной версией, например, *sp*форма).
  5. Назначение весов, при этом вес исходного токена выше веса нормализованной формы.

Процесс В: Генерация Blacklist (Офлайн)

Часть 1: Создание набора данных токенов (Token Dataset)

  1. Анализ Training Dataset для сбора токенов и их частот.
  2. Для каждого токена проверяется совпадение начала с составным (compound) или одиночным (single) stopword prefix.
  3. Если префикс составной, система последовательно удаляет одиночные префиксы, добавляя каждую промежуточную форму и ее частоту в Token Dataset.
  4. Если префикс одиночный, система удаляет его и добавляет результат и его частоту в Token Dataset.

Часть 2: Генерация Blacklist из Token Dataset

  1. Выбор полного токена (whole token) из Token Dataset, частота которого выше порога и который имеет stopword prefix.
  2. Генерация нормализованного токена путем удаления самого длинного совпадающего префикса.
  3. Проверка, имеет ли нормализованный токен stopword prefix.
    • Если ДА (Правило 1): Нормализованный токен добавляется в Blacklist.
    • Если НЕТ (Правило 2): Вычисляется соотношение частоты нормализованного токена к частоте полного токена. Если соотношение ниже порога (т.е. нормализованная форма редка), полный токен добавляется в Blacklist.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке символьных данных и использовании статистической информации.

  • Контентные факторы: Токены (последовательности символов), извлеченные из текста ресурса или метаданных. Система анализирует состав символов (цифры или нет) и начальные символы (префиксы).
  • Лингвистические данные: Предопределенный набор эталонных stopword prefixes (одиночных и составных) для целевого языка.
  • Статистические данные (для Blacklist): Частоты встречаемости токенов (frequency of occurrence) в большом корпусе текстов (Training Dataset).
  • Системные данные: Сгенерированный Blacklist.

Какие метрики используются и как они считаются

  • Frequency Threshold (Порог частоты): Используется при генерации Blacklist для отбора только часто встречающихся слов в языке.
  • Frequency Ratio (Соотношение частот): Метрика для генерации Blacklist. Рассчитывается как: Ratio=Freq(NormalizedToken)Freq(WholeToken)Ratio = \frac{Freq(Normalized Token)}{Freq(Whole Token)}. Если Ratio ниже определенного порога, считается, что префикс является неотъемлемой частью слова.
  • Weights (Веса): Используются на этапе выполнения запроса. Вес синонима (извлеченного числа или нормализованной формы) устанавливается ниже веса исходного токена запроса, чтобы обеспечить приоритет точному совпадению при ранжировании.

Выводы

  1. Эффективность через предварительную обработку: Патент подтверждает стратегию Google по переносу сложных вычислений с этапа выполнения запроса на этап индексации. Предварительная генерация синонимов ускоряет поиск.
  2. Два различных механизма синонимизации: Система использует разные подходы для обработки технических идентификаторов (извлечение чисел) и лингвистических особенностей (нормализация префиксов).
  3. Извлечение чисел улучшает Recall для технических запросов: Система индексирует числа внутри буквенно-числовых токенов как отдельные токены, что позволяет находить документы независимо от окружающих букв или форматирования (например, поиск по SKU).
  4. Сложная лингвистическая нормализация (для языков с префиксами): Обработка stopword prefixes не является простым удалением. Она использует статистически сгенерированные Blacklist для предотвращения ошибок, когда префикс является частью корня слова.
  5. Статистический анализ корпуса для определения правил языка: Генерация Blacklist основана на анализе частотности слов в реальном корпусе текстов, что позволяет системе адаптироваться к живому языку и выявлять исключения из правил.
  6. Баланс между полнотой и точностью: Хотя генерация синонимов увеличивает полноту (Recall), система сохраняет точность (Precision) за счет назначения более низких весов синонимам по сравнению с исходными терминами запроса.

Практика

Best practices (это мы делаем)

  • Оптимизация под технические идентификаторы (E-commerce, каталоги):
    • Обеспечьте консистентность написания SKU, артикулов и номеров моделей. Убедитесь, что они представлены в виде текста, а не изображений.
    • Понимайте, что Google может извлечь числовую часть. Если у вас есть продукт «XYZ-1234-ABC», он может быть найден по запросу «1234». Используйте это при формировании структуры страниц и внутренней перелинковки.
    • При исследовании ключевых слов для технических товаров проверяйте варианты запросов, содержащие только числовую часть идентификатора.
  • Повышение релевантности через точное совпадение: Так как точное совпадение имеет больший вес (Claim 7), рекомендуется упоминать ключевые идентификаторы не только в составе сложного кода, но и отдельно, если это естественно для контента. Например, указать и "Canon-EOS-R5", и отдельно "R5".
  • International SEO (Арабский, Иврит и т.п.):
    • Учитывайте, что Google с высокой вероятностью нормализует артикли и предлоги, присоединенные к началу слова.
    • Фокусируйтесь на семантическом значении ключевых слов, а не на конкретных формах с разными префиксами.
    • Используйте стандартную лексику. Механизм Blacklist опирается на частотный анализ, поэтому общепринятое написание гарантирует корректную обработку.

Worst practices (это делать не надо)

  • Манипуляция написанием идентификаторов: Попытки скрыть контент или избежать обнаружения путем слияния чисел и текста (например, «GTX1080» вместо «GTX 1080») неэффективны, так как система извлечет «1080» в обоих случаях.
  • Спам вариантами стоп-слов: Создание отдельных страниц или перенасыщение текста вариантами ключевых слов с разными stopword prefixes не имеет смысла в языках, где этот механизм активен, так как они будут нормализованы к единой форме на этапе индексации.
  • Использование изображений для идентификаторов: Размещение SKU или номеров моделей только на изображениях не позволит системе применить механизм извлечения числовых частей.

Стратегическое значение

Этот патент демонстрирует глубину и сложность этапа индексации Google. Для Senior SEO-специалистов важно понимать, что индексация — это не простое сохранение текста, а сложный процесс нормализации и извлечения признаков. Стратегии, основанные на использовании технических идентификаторов или продвижении на рынках с языками, имеющими сложную морфологию, должны учитывать эти механизмы предварительной обработки. Это также подчеркивает важность статистического анализа данных для принятия решений в SEO, отражая то, как Google использует частотный анализ для построения своих лингвистических моделей.

Практические примеры

Сценарий 1: Поиск батареи для ноутбука (Извлечение чисел)

  1. Контент на сайте: В описании товара указан совместимый парт-номер: «Battery Part# HSTNN-DB72».
  2. Индексация: Google индексирует токен «HSTNN-DB72». Система определяет числовую часть «72». В индекс попадают «HSTNN-DB72» и вариант «72» (например, *np*72).
  3. Запрос пользователя: Пользователь ищет «батарея для ноутбука DB 72».
  4. Обработка запроса: Google модифицирует запрос, включая варианты для «72»: «батарея для ноутбука DB (72 OR *np*72)».
  5. Результат: Страница с «HSTNN-DB72» находится, так как *np*72 в индексе соответствует *np*72 в модифицированном запросе.

Сценарий 2: Поиск на арабском языке (Нормализация префиксов)

  1. Язык: Арабский. Стоп-слово (артикль): «ال» (Al-).
  2. Контент на сайте: Текст содержит слово «المستقبل» (Almustaqbal - «Будущее» с артиклем).
  3. Индексация: Google проверяет Blacklist. Если слова там нет, система удаляет префикс «ال» и получает нормализованную форму «مستقبل» (Mustaqbal). В индекс попадают оба варианта.
  4. Запрос пользователя: Пользователь ищет «مستقبل» (без артикля).
  5. Результат: Страница, содержащая «المستقبل», находится, так как запрос соответствует нормализованной форме, сохраненной в индексе.

Вопросы и ответы

Что означает «Генерация синонимов на стороне индекса» и зачем это нужно Google?

Это означает, что Google предварительно вычисляет и сохраняет варианты (синонимы) слов непосредственно при индексации документа. Это делается для повышения эффективности: обработка синонимов во время выполнения запроса пользователя требует больших ресурсов и времени. Выполняя эту работу заранее, Google может быстрее находить релевантные документы.

Как механизм извлечения чисел влияет на SEO для E-commerce?

Он оказывает значительное влияние на поиск по артикулам, SKU и номерам моделей. Google может извлечь число из буквенно-числового идентификатора (например, «1080» из «GTX1080Ti») и использовать его для поиска. Это означает, что ваш товар может быть найден, даже если пользователь вводит запрос с другим форматированием или только числовую часть модели.

Что такое префиксы-стоп-слова и для каких языков это актуально?

Это стоп-слова (артикли, предлоги, союзы), которые в некоторых языках присоединяются к началу слова, а не пишутся отдельно. Например, артикль «the» в английском — отдельное слово, а в арабском («ال») — префикс. Этот механизм критически актуален для таких языков, как арабский и иврит.

Зачем нужен Blacklist при нормализации стоп-слов?

Blacklist необходим для предотвращения ошибок нормализации. Некоторые слова могут начинаться с последовательности символов, которая выглядит как стоп-слово, но на самом деле является частью корня. Если бы мы предположили, что «but» — это префикс-стоп-слово в английском, без Blacklist слово «butterfly» было бы нормализовано до «terfly». Blacklist содержит исключения (например, «butterfly»), которые нельзя нормализовать.

Как Google определяет, какие слова добавить в Blacklist?

Google использует статистический анализ большого корпуса текстов (Training Dataset). Основной метод — сравнение частотности полного слова и его нормализованной формы. Если нормализованная форма встречается значительно реже, чем полная (соотношение частот ниже порога), это сигнализирует о том, что префикс является частью слова, и полное слово добавляется в Blacklist.

Если Google сохраняет синонимы в индексе, значит ли это, что точное соответствие запросу теряет важность?

Нет. Патент (Claim 7 и 14) явно указывает, что система назначает веса (weights) различным токенам в модифицированном запросе. Вес исходного токена запроса устанавливается выше, чем вес добавленного синонима (извлеченного числа или нормализованной формы). Это гарантирует, что документы с точным соответствием будут ранжироваться выше.

Применяются ли эти механизмы ко всем токенам во время индексации?

Нет, они применяются выборочно. Извлечение чисел применяется только к буквенно-числовым токенам. Нормализация префиксов применяется только в соответствующих языках, только если токен начинается со stopword prefix, и только если токен не находится в Blacklist.

Может ли система извлечь несколько чисел из одного токена?

Да, патент предусматривает такую возможность. Если токен выглядит как «e42PC148x9», система может извлечь «42», «148» и «9» как отдельные числовые части и связать их все с документом в индексе.

Как этот патент соотносится с современными методами NLP, такими как BERT или MUM?

Этот патент описывает более ранние, основанные на правилах и статистике методы нормализации и синонимизации. Современные модели (BERT, MUM) понимают контекст и семантику на более глубоком уровне, используя векторные представления (embeddings), что может снижать потребность в явной генерации синонимов. Однако подобные механизмы предварительной обработки все еще могут использоваться для повышения эффективности и обработки очевидных случаев (например, технических идентификаторов) до применения тяжелых нейронных сетей.

Стоит ли изменять форматирование артикулов на сайте, основываясь на этом патенте?

Не обязательно изменять существующее форматирование, но критически важно обеспечить его консистентность и доступность в виде текста. Главный вывод — не нужно беспокоиться о пробелах или дефисах внутри артикулов так сильно, как о наличии правильного числового идентификатора. Google, вероятно, сможет извлечь его и сопоставить с запросом пользователя независимо от форматирования.

Похожие патенты

Как Google стандартизирует словоформы в индексе для ускорения поиска и повышения полноты выдачи
Google повышает эффективность поиска, обрабатывая словоформы (например, «голосовать» и «голосование») на этапе индексирования, а не во время выполнения запроса. Система определяет корень слова (стемму), выбирает наиболее частотную «репрезентативную» форму и сохраняет в индексе как исходное слово, так и этот вариант. Это позволяет быстрее находить все релевантные документы без необходимости перебирать варианты слов в момент поиска.
  • US11423029B1
  • 2022-08-23
  • Индексация

Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части
Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.
  • US8392441B1
  • 2013-03-05
  • Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google автоматически генерирует правила нормализации слов и поиска вариантов с помощью суффиксных деревьев
Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и использует алгоритмы оптимизации, чтобы определить, когда эти правила применимы, а когда нет. Это обеспечивает точность обработки языка даже для редких слов.
  • US8352247B2
  • 2013-01-08
  • Индексация

Как Google использует анализ окончаний запросов (суффиксов) для улучшения работы Автокомплита, игнорируя начало запроса
Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.
  • US8417718B1
  • 2013-04-09

Популярные патенты

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам
Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).
  • US9135317B2
  • 2015-09-15
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
  • US9092529B1
  • 2015-07-28
  • Поведенческие сигналы

  • Персонализация

  • EEAT и качество

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)
Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.
  • US9146966B1
  • 2015-09-29
  • Поведенческие сигналы

  • SERP

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента
Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.
  • US8959093B1
  • 2015-02-17
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News
Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.
  • US8375073B1
  • 2013-02-12
  • EEAT и качество

  • SERP

  • Ссылки

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

seohardcore