Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

CLASSIFYING TEXT INTO HIERARCHICAL CATEGORIES (Классификация текста в иерархические категории)

US8145636B1
Google LLC
2009-03-13
2012-03-27

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

Какую проблему решает

Патент решает проблему точной классификации текста в большое количество узкоспециализированных (fine-grained) иерархических категорий при сохранении высоких показателей точности (precision) и полноты (recall). Традиционные методы классификации часто теряют эффективность при работе с очень детальными системами категорий. Изобретение улучшает существующие техники классификации, позволяя делать более релевантные рекомендации контента.

Что запатентовано

Запатентован метод гибридной классификации текста. Он сочетает результаты работы стандартного классификатора (определяющего общие категории) с данными, извлеченными из поисковых логов и поведения пользователей (confirmed valid search results). Система использует общие категории для фильтрации детальных категорий, которые связаны с терминами в тексте через поисковые запросы, обеспечивая высокую точность итоговой классификации.

Как это работает

Система работает в несколько этапов:

Общая классификация: Текст анализируется стандартным классификатором для определения высокоуровневых категорий.
Извлечение терминов: Из текста извлекаются N-grams (термины).
Идентификация кандидатов: Система ищет детальные категории, которые связаны с этими терминами. Связь устанавливается, если пользователи вводили запрос с этим термином и кликали на результат, принадлежащий к данной категории (confirmed valid search result).
Фильтрация по предкам: Ключевой шаг. Детальные категории-кандидаты исключаются, если их родительские категории не соответствуют высокоуровневым категориям из первого шага.
Взвешивание и выбор: Оставшиеся кандидаты взвешиваются с использованием TF-IDF и эвристических бустингов (например, за глубину в иерархии). Категории, превысившие порог релевантности, присваиваются тексту.

Актуальность для SEO

Высокая. Точное понимание и классификация контента являются фундаментальными задачами поиска. Использование пользовательских сигналов (кликов) и гибридных подходов, сочетающих различные модели для повышения точности, полностью соответствует современным тенденциям развития поисковых систем и NLP. Методы, описанные в патенте, лежат в основе систем понимания тематики контента.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он раскрывает механизм, как Google может использовать данные о поведении пользователей (клики по запросам) для обучения своих систем классификации контента. Это подчеркивает важность не только наличия ключевых слов на странице, но и того, как пользователи взаимодействуют с контентом в выдаче. Если пользователи кликают на страницу по определенным запросам, это укрепляет связь между N-grams в этих запросах и тематикой (категорией) страницы.

Термины и определения

Category Graph (Граф категорий): Структура данных (например, направленный ациклический граф, дерево или лес), представляющая иерархические отношения между категориями. Узлы представляют категории, а ребра — отношения родитель-потомок.
Confirmed Valid Search Result (Подтвержденный действительный результат поиска): Результат поиска, выбранный пользователем (например, клик по ссылке). Этот выбор подтверждает, что результат релевантен запросу пользователя.
First Subject Matter Categories (Первые категории): Высокоуровневые или общие категории, присвоенные тексту на начальном этапе с помощью стандартного классификатора (например, naive Bayes classifier).
N-gram: Последовательность элементов (слов, частей слов, составных фраз) из запроса или текста. Используются как термины для классификации.
ODP (Open Directory Project / DMOZ): Упоминается в патенте как пример источника иерархических категорий для существующего контента.
Second Subject Matter Categories (Вторые категории): Детальные, иерархические категории (например, из ODP), которые являются кандидатами для классификации текста. Они связаны с поисковыми запросами через confirmed valid search results.
Supporters (Поддерживающие термины): N-grams из поискового запроса, которые ассоциируются с определенной категорией. Ассоциация возникает, когда результат, принадлежащий этой категории, был кликнут пользователем для данного запроса.
TF-IDF (Term Frequency-Inverse Document Frequency): Статистическая мера, используемая для расчета начального веса категории на основе важности N-grams (supporters), которые связывают текст с категорией.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации текста и последующей рекомендации контента.

Текст классифицируется в первые (общие) категории.
Идентифицируются вторые (детальные) категории. Условие идентификации: вторая категория является иерархической классификацией confirmed valid search results для запросов, и хотя бы один такой запрос содержит термин из классифицируемого текста.
Идентифицированные вторые категории фильтруются: исключаются те, чьи предки (ancestors) отсутствуют среди первых категорий.
Для каждой оставшейся второй категории:
- Извлекаются составляющие термины (constituent terms / N-grams) из связанных запросов, которые также присутствуют в тексте.
- Рассчитывается начальный вес категории как сумма TF-IDF значений этих извлеченных терминов.
- Категория выбирается на основе начального веса и порога релевантности.
Выбранные категории используются как основа для рекомендации контента пользователю.

Claim 2 (Зависимый от 1): Детализирует расчет TF-IDF.

Расчет TF-IDF включает вычисление IDF (Inverse Document Frequency) термина относительно корпуса документов и TF (Term Frequency) термина, а затем их комбинирование.

Claim 4 и 5 (Зависимые от 2): Описывают два варианта расчета TF.

Claim 4: TF рассчитывается на основе частоты термина в классифицируемом тексте (деленной на длину текста).

Claim 5: TF рассчитывается на основе частоты термина в confirmed valid search results, связанных с запросами, из которых извлечен термин.

Claim 6 (Зависимый от 1): Вводит эвристику для выбора категории.

Подсчитывается количество различных (distinct) извлеченных терминов (N-grams). Категория выбирается (как first selected category), если это количество удовлетворяет первому порогу. Это фильтр против случайных совпадений.

Claim 7 (Зависимый от 6): Описывает механизм бустинга (повышения веса) категории.

Идентифицируются термины, которые соответствуют уточнению (refinement) в иерархии выбранной категории, и определяется уровень этого уточнения.
Начальный вес повышается на первую величину (first boost value), соразмерную уровню уточнения (Depth Boost). Получается первый повышенный вес.
Первый повышенный вес повышается на вторую величину (second boost value), соразмерную общему количеству терминов (Supporter Count Boost). Получается второй повышенный вес.
Категория окончательно выбирается, если второй повышенный вес удовлетворяет второму порогу.

Claim 8 (Зависимый от 1): Определяет, что такое Confirmed Valid Search Result.

Это результат, полученный в ответ на поисковый запрос и выбранный пользователем (клик).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, как в офлайн-режиме (построение модели), так и в онлайн-режиме (классификация нового контента).

Офлайн-процессы (Построение Графа Категорий):

CRAWLING & INDEXING (Сбор данных и Индексирование)
Система собирает документы и определяет их существующие категории (например, из ODP). Эти данные сохраняются.

RANKING & RERANKING (Анализ логов)
Система анализирует логи поисковых запросов и взаимодействия пользователей с результатами поиска. Ключевой процесс — идентификация confirmed valid search results (кликов). На основе этих данных строится System Category Graph: N-grams из запросов становятся supporters для категорий кликнутых документов.

Онлайн-процессы (Классификация нового текста):

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этапе индексирования нового документа (или при анализе любого текста, например, для таргетинга рекламы или рекомендаций). Система выполняет многоступенчатую классификацию для глубокого понимания тематики контента.

Применяется стандартный классификатор (Feature Extraction).
Извлекаются N-grams.
Система обращается к заранее построенному System Category Graph для поиска кандидатов.
Происходит фильтрация, взвешивание (TF-IDF) и бустинг.
Результат: Документ ассоциируется с набором детальных иерархических категорий.

Входные данные:

Текст для классификации.
System Category Graph (содержит иерархию категорий, связанные с ними запросы/N-grams (supporters) и confirmed valid search results).
Корпус документов (для расчета IDF).

Выходные данные:

Набор выбранных детальных иерархических категорий, ассоциированных с текстом.

На что влияет

Типы контента: Влияет на любой текстовый контент (веб-страницы, email, сообщения), который требует детальной тематической классификации.
Специфические запросы и Ниши: Наибольшее влияние оказывает на информационные и узкоспециализированные тематики, где важна глубина иерархии (например, хобби, наука, технологии), в отличие от слишком общих тем.
Форматы контента: Механизм бустинга за глубину иерархии может давать преимущество лонгридам и экспертным статьям, которые используют специфическую терминологию, соответствующую глубоким уровням тематической иерархии.

Когда применяется

Алгоритм применяется, когда системе необходимо классифицировать текст в детальную иерархическую структуру, например, при индексации новой веб-страницы или для генерации рекомендаций контента.

Условия и триггеры:

Триггер активации детальной классификации: Наличие совпадений между N-grams текста и supporters в System Category Graph.
Условие фильтрации (Precision Filter): Активируется, если предки детальной категории не совпадают с общими категориями текста.
Пороговые значения:
- Минимальное количество различных (distinct) N-grams для рассмотрения категории (Claim 6).
- Минимальный итоговый вес (second boosted weight) для выбора категории (Claim 7).
- Дополнительный порог: исключение категорий, чей вес не достигает определенной доли от веса самой релевантной категории (описано в Description).

Пошаговый алгоритм

Процесс А: Построение System Category Graph (Офлайн)

Сбор данных о поиске: Получение пользовательских запросов и отображение результатов поиска.
Идентификация кликов: Получение выбора пользователя, который обозначает Confirmed Valid Search Result.
Получение категорий результата: Определение иерархических категорий (например, ODP) кликнутого документа.
Ассоциация N-grams: Ассоциация N-grams из запроса с категориями документа. Эти N-grams становятся Supporters для категорий.
Обновление графа: Добавление категорий и Supporters в System Category Graph. Периодическое обновление графа.

Процесс Б: Классификация текста (Онлайн/Индексирование)

Общая классификация: Классификация текста в первые (высокоуровневые) категории с помощью стандартного классификатора.
Извлечение терминов: Извлечение N-grams из текста.
Идентификация кандидатов: Идентификация детальных категорий в System Category Graph, чьи Supporters совпадают хотя бы с одним извлеченным N-gram.
Фильтрация по предкам: Исключение идентифицированных категорий, чьи предки не входят в число первых категорий (Шаг 1).
Взвешивание и выбор (Итерация по оставшимся категориям):
- Расчет начального веса: Для каждой категории извлекаются N-grams из связанных запросов, которые присутствуют в тексте. Рассчитывается сумма TF-IDF значений этих N-grams.
- Применение эвристик и бустинга:
  1. Подсчет количества различных (distinct) N-grams. Если ниже первого порога, категория отбрасывается.
  2. Идентификация N-grams, соответствующих уточнениям в иерархии категории.
  3. Бустинг начального веса на основе глубины уточнения (Depth Boost).
  4. Дополнительный бустинг на основе общего количества Supporters (Supporter Count Boost).
- Финальный выбор: Выбор категорий, чей итоговый вес превышает второй порог. Может применяться дополнительное исключение категорий, чей вес значительно ниже веса лидера.
Ассоциация и применение: Ассоциация текста с выбранными категориями. Использование этой ассоциации для рекомендации контента.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных о запросах и поведении пользователей для классификации.

Контентные факторы: N-grams, извлеченные из тела текста, заголовка или метаданных. Используются для сопоставления с запросами.
Поведенческие факторы: Критически важные данные. Confirmed Valid Search Results (клики пользователей на результаты поиска) используются для установления связи между запросами (Queries) и категориями (Categories).
Структурные факторы (Внешние): Иерархическая структура категорий (например, из ODP). Глубина категории в иерархии используется для бустинга.
Временные факторы: Логи запросов и кликов собираются за определенный период времени для построения и периодического обновления System Category Graph.

Какие метрики используются и как они считаются

IDF (Inverse Document Frequency): Мера общей важности N-gram в корпусе документов. Рассчитывается как логарифм отношения общего числа документов к числу документов, содержащих N-gram.
$idf(x) = log\frac{|D|}{|\{d_{i}:x\in d_{j}\}|}$
TF (Term Frequency): Частота N-gram. Может рассчитываться двумя способами:
- Относительно классифицируемого текста.
- Относительно confirmed valid search results.
Initial Weight (Начальный вес категории): Сумма TF-IDF значений всех N-grams, которые связывают текст с категорией.
Number of Distinct N-Grams: Количество уникальных N-grams, связывающих текст с категорией. Используется как порог (First Threshold).
First Boost Value (Depth Boost): Величина повышения веса, соразмерная глубине (уровню уточнения) в иерархии, которой соответствует N-gram.
Second Boost Value (Supporter Count Boost): Величина повышения веса, соразмерная общему количеству Supporters категории.
Second Boosted Weight: Итоговый вес категории после всех бустингов. Используется для финального выбора (Second Threshold).

Гибридная классификация для точности: Google использует многоуровневый подход к классификации контента. Он сочетает традиционные NLP-методы (для определения общих тем) с данными, основанными на поведении пользователей (для определения узких специализаций). Фильтрация по предкам является ключевым механизмом обеспечения точности, гарантируя, что детальная категория соответствует общей тематике документа.
Клики как обучающие данные для классификации: Патент прямо указывает на использование Confirmed Valid Search Results (кликов) для построения ассоциаций между запросами и категориями контента. Поведение пользователей в SERP напрямую влияет на то, как система понимает и классифицирует контент.
Важность иерархии и специфичности (Depth Boost): Система явно предпочитает более глубокие и специфичные категории. Вес категории повышается (Depth Boost), если термины в тексте соответствуют глубоким уровням в тематической иерархии. Это подчеркивает важность использования узкоспециализированной терминологии в контенте.
Защита от случайных совпадений: Система использует порог на минимальное количество различных (distinct) совпадающих N-grams. Это означает, что совпадения по одному или двум общим терминам недостаточно для классификации контента в определенную категорию; требуется более широкий семантический охват.
Взвешивание на основе TF-IDF и Популярности: Релевантность категории определяется не только семантикой (TF-IDF), но и популярностью категории среди пользователей (Supporter Count Boost).

Best practices (это мы делаем)

Фокус на Topical Authority и глубине проработки: Создавайте контент, который глубоко раскрывает тему, используя специфическую терминологию, соответствующую нижним уровням тематической иерархии. Благодаря механизму Depth Boost, такой контент будет более точно классифицирован как экспертный в своей узкой нише.
Оптимизация под реальные запросы (N-grams): Анализируйте, какие N-grams и фразы используют пользователи для поиска информации в вашей нише. Интеграция этих терминов в контент увеличивает вероятность совпадения с Supporters в System Category Graph.
Повышение CTR и вовлеченности в SERP: Поскольку клики (Confirmed Valid Search Results) используются для обучения классификатора, необходимо работать над привлекательностью сниппетов. Высокий CTR по релевантным запросам укрепляет ассоциацию между этими запросами и категориями вашего контента, улучшая его классификацию в системе.
Логичная иерархическая структура контента: Убедитесь, что ваш контент имеет четкую структуру, которая помогает стандартным классификаторам правильно определить высокоуровневые категории. Это критично, так как ошибка на верхнем уровне (First Categories) приведет к исключению правильных детальных категорий на этапе фильтрации по предкам.
Семантическое разнообразие (Distinct N-grams): Используйте разнообразную лексику и синонимы при раскрытии темы. Порог на количество различных N-grams требует наличия нескольких семантических связей для подтверждения релевантности категории.

Worst practices (это делать не надо)

Поверхностный контент с общими фразами: Создание контента, который затрагивает тему только на высоком уровне, не используя специфическую терминологию. Такой контент не получит преимуществ от Depth Boost и может быть классифицирован слишком общо.
Манипуляции с CTR (Кликбейт): Привлечение нерелевантного трафика может негативно сказаться на классификации. Если пользователи кликают, но контент не соответствует их ожиданиям (что может привести к быстрым отказам, не описанным в этом патенте, но важным в целом), это может сформировать неверные или зашумленные связи в Category Graph.
Изолированная оптимизация под один ключ: Фокусировка только на одном высокочастотном ключевом слове без использования связанных терминов. Это может привести к тому, что контент не преодолеет порог по количеству Distinct N-grams для релевантных категорий.
Игнорирование общей тематики ради узкой оптимизации: Попытка оптимизировать страницу под узкий запрос, если он не соответствует общей тематике раздела или сайта. Механизм фильтрации по предкам исключит такую классификацию.

Стратегическое значение

Патент подтверждает, что понимание контента (Content Understanding) в Google — это сложный процесс, который не опирается только на анализ текста страницы. Он активно использует внешние данные, в частности, поведение пользователей в поиске, для валидации и уточнения тематики. Стратегически это означает, что SEO должно быть интегрировано с контент-стратегией и UX: необходимо не только создавать релевантный текст, но и обеспечивать положительный пользовательский опыт, который подтверждает эту релевантность через поведенческие сигналы (клики).

Практические примеры

Сценарий: Классификация статьи о редком заболевании

Контент: Создается подробная статья о "Синдроме Элерса-Данлоса, сосудистый тип (vEDS)".
Best Practice: В статье используются как общие термины ("генетическое заболевание", "соединительная ткань"), так и специфические N-grams ("мутация гена COL3A1", "разрыв артерий", "vEDS").
Работа алгоритма (Общая классификация): Стандартный классификатор определяет общие категории: /Health, /Health/Conditions_and_Diseases.
Работа алгоритма (Идентификация и Бустинг):
- Пользователи ищут "симптомы vEDS" и кликают на авторитетные медицинские ресурсы. N-gram "vEDS" становится Supporter для категории /Health/Conditions_and_Diseases/Connective_Tissue_Disorders/Ehlers-Danlos_Syndrome/Vascular.
- Новая статья содержит "vEDS". Эта детальная категория становится кандидатом.
- Фильтрация пройдена, так как предки совпадают с общими категориями.
- Категория получает высокий Depth Boost, так как "Vascular" находится глубоко в иерархии (уровень 6).
Результат: Статья точно классифицируется в узкой медицинской категории, что повышает её шансы на ранжирование по специфическим запросам и попадание в релевантные рекомендации.

Насколько важен CTR для классификации контента согласно этому патенту?

CTR критически важен. В патенте используется термин Confirmed Valid Search Result, который определяется как клик пользователя по результату поиска. Именно эти клики служат основой для связи поисковых запросов (N-grams) с категориями контента. Если пользователи часто кликают на ваш контент по определенным запросам, это обучает систему ассоциировать вашу страницу с соответствующими тематиками.

Что такое "Depth Boost" и как его использовать в SEO?

Depth Boost — это механизм повышения веса категории, если термины в тексте соответствуют глубоким уровням в тематической иерархии. Например, термин "Джаз" соответствует уровню 2 (/Arts/Music), а "Бибоп" — уровню 3 (/Arts/Music/Bebop). Для использования этого в SEO необходимо насыщать контент узкоспециализированной терминологией и экспертными понятиями, которые соответствуют детальным подкатегориям вашей ниши, а не только общими фразами.

Что означает фильтрация по предкам (Ancestor Filtering)?

Это механизм обеспечения точности. Сначала система определяет общую тематику документа (например, /Technology). Затем она ищет детальные категории, связанные с терминами в тексте. Если найденная детальная категория (/Arts/Music/Bands/The_Doors) не имеет среди своих предков общую категорию (/Technology), она исключается. Это предотвращает ошибочную классификацию из-за многозначности слов (например, "Doors" как двери или как группа).

Почему патент требует минимальное количество различных N-grams (Distinct N-grams)?

Это защита от случайных совпадений и спама. Чтобы система классифицировала текст в определенную категорию, недостаточно совпадения по одному или двум терминам. Требуется наличие нескольких различных N-grams, которые подтверждают релевантность этой категории. Для SEO это означает необходимость использования разнообразной лексики и широкого семантического охвата при создании контента.

Как система строит связь между запросами и категориями?

Система делает это офлайн, анализируя логи поиска. Когда пользователь вводит запрос и кликает на результат (Confirmed Valid Search Result), система смотрит на категорию этого результата (например, из ODP/DMOZ). N-grams из запроса становятся "поддерживающими терминами" (Supporters) для этой категории. Со временем эти связи накапливаются и формируют System Category Graph.

Использует ли Google по-прежнему ODP/DMOZ, упомянутый в патенте?

ODP (DMOZ) закрыт, но в патенте он используется как пример иерархической системы категорий. Сегодня Google использует собственные системы классификации и Knowledge Graph, которые значительно более сложны и динамичны. Однако базовый принцип — использование иерархической структуры для классификации контента и связи её с поисковыми запросами через пользовательские сигналы — остается актуальным.

Влияет ли этот патент на локальный поиск или E-commerce?

Да, механизм применим к любым иерархическим категориям. В E-commerce это могут быть категории товаров (/Electronics/Audio/Headphones/Noise-Cancelling), а в локальном поиске — категории бизнеса или географические иерархии (/US/California/Bay_Area). Использование точных названий моделей или локальных уточнений в контенте поможет системе точнее классифицировать страницу благодаря Depth Boost.

Какой тип классификатора используется на первом этапе?

Патент не специфицирует конкретный алгоритм, упоминая лишь стандартные методы, такие как naive Bayes classifier. Отмечается, что этот классификатор не обязан иметь одновременно высокую точность и полноту; часто используется классификатор с высокой полнотой (High Recall), даже если точность (Precision) низкая. Точность достигается на последующих этапах фильтрации.

Что такое "Supporter Count Boost"?

Это дополнительное повышение веса категории, которое соразмерно общему количеству Supporters (N-grams из запросов), связанных с этой категорией. Это означает, что система отдает предпочтение не только семантически релевантным, но и более популярным или часто искомым категориям, для которых накоплено больше данных о поведении пользователей.

Как этот патент связан с концепцией Topical Authority?

Патент предоставляет конкретные механизмы, которые способствуют формированию Topical Authority. Создание контента, который точно классифицируется в глубокие иерархические категории (благодаря Depth Boost и Distinct N-grams), и подтверждение этой классификации через пользовательские клики, напрямую способствует тому, что система распознает сайт как авторитетный источник в данной узкой тематике.

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

US8185544B2
2012-05-22

Персонализация
Поведенческие сигналы
SERP

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google автоматически выявляет новые термины и классифицирует их по темам для создания специализированных словарей

Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления в конкретной теме с частотой в общем корпусе (анализ дивергенции). Это позволяет автоматически создавать специализированные "доменные словари" для лучшего понимания контента.

US7983902B2
2011-07-19

Семантика и интент
Мультиязычность

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google позволяет пользователям "углубиться" в контент установленного мобильного приложения прямо из веб-выдачи

Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, "Больше результатов из приложения X"). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.

US10579687B2
2020-03-03

SERP
Семантика и интент
Ссылки

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов

Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.

US20170068720A1
2017-03-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO