Как Google использует вероятностные иерархические модели для определения скрытых концепций (тем) в запросах и документах

METHOD AND APPARATUS FOR CHARACTERIZING DOCUMENTS BASED ON CLUSTERS OF RELATED WORDS (Метод и аппарат для характеризации документов на основе кластеров связанных слов)

US7383258B2
Google LLC
2003-09-30
2008-06-03

Семантика и интент

Google использует генеративную вероятностную модель для понимания семантики текста. Система обучается на больших объемах данных (например, поисковых сессиях), выявляя скрытые "кластеры" (концепции или темы), которые объясняют совместное появление слов и фраз. Любой текст (запрос или документ) затем характеризуется вектором, показывающим степень активации этих концептуальных кластеров, что позволяет сравнивать документы по смыслу, а не только по ключевым словам.

Какую проблему решает

Патент решает фундаментальную проблему обработки текста – извлечение его глубинного семантического значения за пределами буквальных слов. Существовавшие на момент подачи заявки системы фокусировались на совпадении слов (например, в поиске), плохо справляясь со связями между терминами (например, синонимией, полисемией или связью "класс" и "классы"). Изобретение направлено на создание системы, которая эффективно фиксирует скрытый смысл текста путем моделирования концепций, лежащих в его основе.

Что запатентовано

Запатентована система, которая характеризует документ (включая веб-страницы или поисковые запросы) относительно clusters of conceptually related words (кластеров концептуально связанных слов). Система использует вероятностную модель, которая объясняет, как наборы слов генерируются из этих скрытых концептуальных кластеров. При получении документа система идентифицирует релевантные "кандидатские кластеры" и создает набор компонентов (вектор), где каждый компонент указывает степень, в которой соответствующий кластер связан с набором слов в документе.

Как это работает

Система основана на генеративной вероятностной модели, схожей с Байесовской сетью. Ключевые механизмы:

Модель Генерации Текста: Предполагается, что текст генерируется путем активации скрытых Clusters (концепций/тем). Активные кластеры затем с определенной вероятностью (весом связи) активируют Terminals (слова или устойчивые фразы) или другие подкластеры.
Noisy-OR: Если несколько активных кластеров указывают на один и тот же терминал, их влияние комбинируется нелинейно (вероятность того, что терминал НЕ активируется, является произведением вероятностей того, что каждый родительский кластер его НЕ активирует).
Activation Level: Для обработки текстов разной длины кластеры динамически выбирают Activation Level, который масштабирует вероятность активации дочерних терминалов.
Обучение: Модель (структура связей и веса) обучается на больших объемах текстовых данных (например, поисковых сессиях) с использованием итеративных методов аппроксимации, таких как Loopy Belief Propagation (аналог EM-алгоритма), для выявления скрытых кластеров, объясняющих совместную встречаемость слов.
Характеризация (Inference): При анализе нового текста система использует техники масштабирования (например, Parent Picking) для выбора наиболее вероятных Candidate Clusters и вычисляет вектор, представляющий активацию этих кластеров.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальные механизмы семантического понимания текста, которые лежат в основе перехода от "строк к вещам" (Things not Strings). Описанные методы моделирования концепций и характеризации текста через скрытые кластеры являются предшественниками современных векторных представлений (embeddings) и нейросетевых подходов к пониманию языка. Идеи, заложенные Ноамом Шазиром (одним из ключевых разработчиков Трансформеров и Attention механизма) в этом патенте, определили развитие семантического поиска.

Важность для SEO

Патент имеет критическое значение (10/10) для понимания основ современного SEO. Он описывает механизм, позволяющий Google понимать тематику и концептуальное содержание страницы или запроса за пределами буквальных ключевых слов. Это изобретение лежит в основе способности Google сопоставлять запросы и документы, которые используют разные слова для описания одной и той же темы (концептуальное соответствие). Стратегии, основанные на тематическом авторитете, широком семантическом охвате и понимании концептуальных связей, напрямую вытекают из принципов, описанных в этом патенте.

Термины и определения

Activation Level (Уровень активации): Динамический параметр, выбираемый кластером во время исполнения модели. Определяет, "насколько сильно" кластер будет активировать свои дочерние терминалы. Используется для обработки текстов различной длины.
Candidate Clusters (Кандидатские кластеры): Подмножество кластеров из общей модели, которые с высокой вероятностью активны при генерации конкретного набора слов (документа или запроса). Выбираются для ускорения вычислений.
Clusters / Concepts (Кластеры / Концепции): Узлы в вероятностной модели, представляющие скрытые переменные (идеи, темы или сущности). Они используются для объяснения совместной встречаемости концептуально связанных слов.
Evidence Tree (Дерево свидетельств): Структура, используемая в процессе Parent Picking для быстрого отбора кандидатских кластеров. Строится от наблюдаемых терминалов вверх к их родительским кластерам.
Global Nodes (Глобальные узлы): Узлы, представляющие параметры самой модели (например, вес связи между двумя кластерами). Они отражают общие знания о мире, извлеченные из всего обучающего набора данных.
Links (Связи): Направленные связи в вероятностной модели, соединяющие узлы. Имеют веса (Weights), определяющие вероятность активации дочернего узла при активации родительского.
Local Network / Local Nodes (Локальная сеть / Локальные узлы): Репликация модели для анализа конкретного экземпляра текста (например, одной поисковой сессии). Локальные узлы представляют неопределенность относительно того, какие концепции были активны при генерации этого конкретного текста.
Loopy Belief Propagation (Loopy): Итеративный алгоритм приближенного вывода (inference) в вероятностных графических моделях. Используется для оценки вероятностей скрытых переменных (кластеров) и для обучения параметров модели (глобальных узлов).
Noisy-OR: Функция комбинирования вероятностей. Если узел имеет несколько активных родителей, вероятность того, что он НЕ активируется, равна произведению вероятностей того, что ни одна из связей от активных родителей не сработает.
Parent Picking: Метод быстрого отбора Candidate Clusters для конкретного текста путем оценки их вероятности на основе априорных данных и связей с наблюдаемыми терминалами.
Terminals (Терминалы): Наблюдаемые переменные в модели. Соответствуют словам или устойчивым фразам (compounds) в тексте.
Universal Node (U) / CANADA: Корневой узел модели, который всегда активен и является источником активации всех остальных кластеров.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод характеризации документа.

Система получает документ, содержащий набор слов.
Система выбирает candidate clusters концептуально связанных слов, которые связаны с этим набором слов.
Выбор происходит с использованием модели, которая объясняет, как наборы слов генерируются из кластеров.
Система конструирует набор компонентов (вектор) для характеризации документа.
Этот набор включает компоненты для кандидатских кластеров, где каждый компонент указывает степень, в которой соответствующий кластер связан с набором слов.

Claim 2 (Зависимый от 1): Уточняет, что модель является вероятностной (probabilistic model) и содержит узлы, представляющие случайные переменные для слов и кластеров.

Claim 3 (Зависимый от 2): Уточняет, что каждый компонент вектора указывает степень, в которой соответствующий кластер активен (active) в генерации набора слов.

Claim 4 и 5 (Зависимые от 3): Описывают механизм активации через взвешенные связи (weighted links) и функцию комбинирования Noisy-OR. Если у узла несколько активных родителей, вероятность того, что он не сработает, является произведением вероятностей того, что связи от активных родителей не сработают.

Claim 7 (Зависимый от 4): Детализирует процесс выбора кандидатских кластеров (Parent Picking).

Конструируется evidence tree, начиная с терминальных узлов (слов документа) и следуя по связям в обратном направлении к родительским кластерам.
Дерево используется для оценки вероятности того, что каждый родительский кластер был активен.
Родительский кластер выбирается как кандидатский на основе этой оценки.

Claim 15 (Зависимый от 3): Описывает процесс аппроксимации вероятности активности кластера.

Вероятность того, что данный кандидатский кластер активен, аппроксимируется по состояниям вероятностной модели, которые могли сгенерировать набор слов.

Claim 17 (Зависимый от 16): Детализирует метод выбора вероятных состояний модели (альтернатива Loopy для локального вывода).

Случайным образом выбирается начальное состояние модели.
Выполняются операции "восхождения на холм" (hill-climbing), начиная с начального состояния, чтобы достичь состояния, которое с высокой вероятностью сгенерировало набор слов.

Где и как применяется

Это изобретение является ключевым компонентом для понимания семантики текста и применяется на нескольких этапах поиска.

QUNDERSTANDING – Понимание Запросов
Основное применение. Система используется для анализа поискового запроса пользователя в реальном времени.

Входные данные: Текст запроса (набор Terminals).
Процесс: Система применяет обученную вероятностную модель для характеризации запроса. Используются техники Parent Picking и Inference (Loopy или Hill-climbing) для идентификации активных Clusters.
Выходные данные: Вектор, представляющий семантическое значение запроса в пространстве концептуальных кластеров. Это позволяет понять интент и контекст за пределами буквальных слов.

INDEXING – Индексирование и извлечение признаков
Система также применяется для анализа контента веб-страниц во время индексирования.

Входные данные: Текст веб-страницы.
Процесс: Аналогично пониманию запросов, система характеризует страницу, идентифицируя активные кластеры.
Выходные данные: Вектор активных кластеров сохраняется в индексе как семантический признак документа.

RANKING – Ранжирование
Результаты этапов QUNDERSTANDING и INDEXING используются для ранжирования.

Входные данные: Вектор кластеров запроса и векторы кластеров документов-кандидатов.
Процесс: Система сравнивает вектор запроса и вектор документа (например, используя косинусное расстояние или другие метрики сходства). Это позволяет оценить концептуальную релевантность документа запросу, даже если они используют разные слова.
Выходные данные: Сигнал семантической релевантности, используемый в функциях ранжирования.

На что влияет

Все типы контента и запросов: Патент описывает универсальный механизм понимания любого текста, будь то короткие запросы или длинные документы.
Обработка синонимии и связанных терминов: Система влияет на то, как поиск обрабатывает связанные слова. Если разные слова (например, "pictures", "photos", "images") часто активируются одним и тем же кластером, система будет рассматривать их как семантически близкие.
Обработка полисемии (Ambiguity): Влияет на обработку многозначных запросов. Например, запрос "jaguar" может активировать как кластер, связанный с автомобилями, так и кластер, связанный с животными. Патент упоминает возможность использования этого для диверсификации выдачи.
Языковые ограничения: Механизм не зависит от языка и может быть обучен на любом корпусе текстов.

Когда применяется

Алгоритм применяется всякий раз, когда системе необходимо понять семантическое содержание текста.

Во время индексирования: При обработке каждого нового или обновленного документа для вычисления его концептуального вектора.
Во время выполнения запроса: В реальном времени для анализа запроса пользователя и вычисления его концептуального вектора.
Во время обучения модели: Периодически офлайн для обучения или обновления вероятностной модели на основе новых данных (например, свежих поисковых сессий).

Пошаговый алгоритм

Процесс А: Обучение модели (Офлайн)

Сбор данных: Сбор большого количества текстовых примеров (например, поисковых сессий за день).
Препроцессинг (Compounding): Определение лексикона слов и устойчивых фраз (Terminals). Текст преобразуется в наборы терминалов.
Инициализация модели: Начало с базовой модели (например, только Universal Node) или загрузка существующей модели.
Итеративное обучение (Loopy Belief Propagation / EM):
1. Локальный вывод (Inference): Для каждой сессии строится Local Network. Вычисляются вероятности активности локальных кластеров с учетом текущих параметров модели (Global Nodes).
2. Генерация сообщений: Из локальных сетей извлекаются сообщения (Link Messages и Node Messages), которые передаются вверх к глобальным узлам.
3. Оптимизация связей (Link Optimization): Глобальные узлы обновляют свои параметры (веса и вероятности существования связей) на основе полученных сообщений для максимизации правдоподобия данных.
4. Создание новых кластеров: На основе анализа сессий создаются новые кластеры для объяснения необъясненных совместных появлений слов.
Повторение: Шаг 4 повторяется до сходимости модели.

Процесс Б: Характеризация документа/запроса (Онлайн)

Получение текста: Система получает текст (запрос или документ).
Препроцессинг: Текст преобразуется в набор Terminals.
Выбор Кандидатов (Parent Picking):
1. Строится Evidence Tree, начиная с терминалов в тексте и двигаясь вверх к родительским кластерам.
2. Оценивается вероятность активности каждого родительского кластера.
3. Выбирается небольшое подмножество наиболее вероятных Candidate Clusters.
Построение Локальной Сети: Строится компактная локальная сеть, включающая только терминалы из текста и выбранные кандидатские кластеры (используя техники Sparseness).
Вывод (Inference): Вычисляются точные вероятности активности кандидатских кластеров в контексте данного текста. Могут использоваться методы Loopy Belief Propagation или Hill-climbing.
Построение Вектора: Конструируется вектор, где каждый компонент представляет степень активности (например, вероятность * уровень активации) соответствующего кластера.
Нормализация: Вектор может быть нормализован.

Какие данные и как использует

Данные на входе

Контентные факторы (Текст): Система использует непосредственно слова и фразы (Terminals) из анализируемого текста (запроса или документа). Порядок слов игнорируется; текст рассматривается как неупорядоченный набор терминалов.
Поведенческие факторы (Данные для обучения): Для обучения модели используются большие корпусы текстов. В патенте в качестве основного примера приводятся Query Sessions (набор запросов пользователя за день). Совместное появление слов в рамках одной сессии является ключевым сигналом для выявления концептуальных связей.

Какие метрики используются и как они считаются

Система оперирует вероятностями и весами в рамках вероятностной графической модели.

Link Weight (W): Вес связи между узлами. Определяет базовую вероятность активации дочернего узла родителем.
Activation Level (A): Динамический уровень активации кластера.
Firing Probability (Вероятность срабатывания): Вероятность того, что активный кластер активирует дочерний терминал. Рассчитывается по формуле: $1 - e^{-AW}$ . Для связей между кластерами используется просто W.
Noisy-OR Combination: Вероятность активации узла несколькими родителями $C_1...C_n$ рассчитывается как: $1 - \prod (1 - P(C_i \text{ fires child}))$ .
Order One Probability (O1): Априорная (безусловная) вероятность того, что узел активен. Аппроксимируется частотой активации узла во время обучения.
Vector Component (Компонент вектора характеризации): Метрика, указывающая степень активности кластера $C_i$ в данном тексте. Может рассчитываться как вероятность активности $P(C_i)$ или как произведение $Activation(C_i) * P(C_i)$ .

Переход от слов к концепциям: Патент описывает конкретный и масштабируемый механизм для перехода от анализа ключевых слов к анализу скрытых концепций (тем). Система моделирует мир как иерархию концепций, которые генерируют наблюдаемые слова.
Автоматическое выявление семантических связей: Система автоматически выявляет синонимы, связанные термины и иерархические отношения (специализация/обобщение) путем анализа совместной встречаемости слов в обучающих данных (например, поисковых сессиях). Слова, принадлежащие одному кластеру, считаются семантически близкими.
Контекстуальная интерпретация: Значение слова определяется тем, какие кластеры оно активирует и какие другие слова присутствуют в тексте. Это позволяет системе различать разные значения многозначных слов.
Генеративная модель для ранжирования: Характеризация запросов и документов в виде векторов в пространстве кластеров позволяет реализовать концептуальное ранжирование. Документы ранжируются на основе совпадения активных концепций, а не только по совпадению слов.
Важность поисковых сессий: Поисковые сессии являются критически важным источником данных для обучения модели, так как они содержат связанные по смыслу запросы, что помогает выявлять концептуальные связи.
Масштабируемость через аппроксимацию: Для работы в масштабе веба используются сложные техники аппроксимации и обеспечения разреженности (Sparseness, Parent Picking, Loopy Belief Propagation), которые делают вычисления возможными в реальном времени.

Best practices (это мы делаем)

Фокус на тематическом покрытии (Topical Coverage): Создавайте контент, который полностью охватывает тему, используя разнообразную лексику, синонимы и связанные термины. Это увеличивает вероятность того, что ваш контент будет сильно связан с релевантными концептуальными Clusters в модели Google.
Создание кластерного контента (Hub and Spoke): Организуйте контент в виде тематических кластеров. Это соответствует иерархической структуре модели, описанной в патенте, где общие концепции (Hub) связаны с более специфическими (Spoke).
Анализ семантически связанных запросов: Изучайте запросы, которые пользователи задают в рамках одной сессии (например, через анализ связанных запросов и "People Also Ask"). Это дает представление о том, какие слова Google группирует в одни и те же концептуальные кластеры. Используйте эти слова в своем контенте.
Оптимизация под концепции, а не только под ключевые слова: Вместо фокусировки на точном вхождении конкретного ключевого слова, убедитесь, что страница четко сигнализирует о своей основной теме (концепции). Если страница релевантна концепции, она может ранжироваться по широкому спектру запросов, связанных с этой концепцией.
Использование устойчивых фраз (Compounds): Используйте естественные и устойчивые фразы (например, "New York City", а не только "New York"). Модель обрабатывает такие фразы как отдельные Terminals, что может улучшить точность определения концепций.

Worst practices (это делать не надо)

Keyword Stuffing и неестественная плотность ключевых слов: Система анализирует текст как набор терминалов и оценивает вероятность их генерации из концепций. Искусственное завышение частоты слов не обязательно приведет к более сильной активации релевантного кластера и может выглядеть неестественно.
Создание разрозненного контента (Thin Content): Создание множества коротких статей под узкие запросы без связи с более широкой темой, неэффективно. Система ищет контент, который демонстрирует активацию сильных и связанных концептуальных кластеров.
Игнорирование синонимов и вариативности языка: Использование только одного варианта термина (например, только "фото" и никогда "изображение" или "картинка") ограничивает способность системы связать ваш контент с полным спектром релевантных кластеров.

Стратегическое значение

Этот патент является одним из фундаментальных документов, подтверждающих стратегию Google по переходу к семантическому поиску. Он демонстрирует, что уже на ранних этапах Google разрабатывал сложные системы для моделирования концепций, лежащих в основе языка. Для долгосрочной SEO-стратегии это означает, что успех зависит от способности создавать контент, который точно соответствует семантическим кластерам, изученным Google. Понимание тематики и интента пользователя становится важнее, чем техническая оптимизация под конкретные формулировки запросов.

Практические примеры

Сценарий: Оптимизация страницы о породе собак "Ягуар" (Jaguar)

Анализ (на основе патента): Система знает, что слово "Jaguar" многозначно. Оно связано как минимум с двумя основными Clusters: КЛАСТЕР_АВТОМОБИЛИ (связан с терминалами "car", "XK8", "luxury", "engine") и КЛАСТЕР_ЖИВОТНЫЕ (связан с "cat", "feline", "rainforest", "spots").
Действие SEO-специалиста: Чтобы гарантировать, что страница о животном активирует правильный кластер, необходимо включить в текст слова, которые сильно связаны с КЛАСТЕР_ЖИВОТНЫЕ и слабо связаны с КЛАСТЕР_АВТОМОБИЛИ.
Реализация: Включение терминов "большая кошка", "Амазонка", "пятнистый окрас", "хищник".
Ожидаемый результат: При анализе страницы система (используя Inference) определит высокую вероятность активации КЛАСТЕР_ЖИВОТНЫЕ и низкую вероятность активации КЛАСТЕР_АВТОМОБИЛИ. Страница будет лучше ранжироваться по запросам, связанным с животным, и не будет ошибочно показываться по запросам об автомобиле.

Сценарий: Расширение семантики для страницы об "Айфонах"

Анализ (на основе патента): Пользователи, ищущие информацию об Айфонах, часто используют разные слова в рамках одной сессии (например, "iPhone 15", "iOS features", "Apple store", "best smartphone"). Модель группирует эти термины в связанные кластеры.
Действие SEO-специалиста: Создать контент, который охватывает не только сам продукт, но и связанные с ним концепции, чтобы максимизировать активацию релевантных кластеров.
Реализация: Включить разделы о функциях операционной системы, сравнение с другими смартфонами, информацию о покупке и аксессуарах.
Ожидаемый результат: Страница будет идентифицирована как высоко релевантная широкой концепции "iPhone" и сможет ранжироваться по более широкому спектру запросов, так как ее концептуальный вектор будет хорошо совпадать с векторами этих запросов.

Что такое "Кластеры" (Clusters) или "Концепции" (Concepts) в контексте этого патента?

Это скрытые переменные в вероятностной модели Google, которые представляют собой темы, идеи или сущности реального мира. Они не задаются вручную, а выявляются автоматически в процессе обучения на больших объемах текста. Например, может существовать кластер, объединяющий слова "фото", "изображение", "картинка" и "снимок", представляя концепцию визуального контента.

Что такое "Терминалы" (Terminals) и почему это важно?

Терминалы — это наблюдаемые единицы текста: отдельные слова или устойчивые фразы (compounds), такие как "Нью-Йорк". Важно понимать, что система рассматривает текст как неупорядоченный набор терминалов. Это означает, что прямой порядок слов менее важен, чем сам факт присутствия семантически значимых слов и фраз.

Как система понимает, что два слова являются синонимами или связанными?

Система определяет это на основе того, активируются ли эти слова одним и тем же кластером. Если в процессе обучения система замечает, что слова часто встречаются вместе в поисковых сессиях (или других текстах), она может создать кластер, который связывает эти слова. Если два слова имеют сильные связи с одним и тем же кластером, они считаются семантически близкими.

Как система обрабатывает многозначные слова (полисемию)?

Многозначное слово (например, "ягуар") будет связано с несколькими разными кластерами (например, КЛАСТЕР_АВТО и КЛАСТЕР_ЖИВОТНОЕ). При анализе конкретного текста система оценивает контекст (другие присутствующие слова), чтобы определить, какой из этих кластеров наиболее активен. Это позволяет определить правильное значение слова в данном контексте.

Что такое "Noisy-OR" и как это влияет на SEO?

Noisy-OR — это механизм комбинирования влияний. Он предполагает, что разные факторы (родительские кластеры) независимо способствуют результату (активации слова). Для SEO это подчеркивает важность разнообразия сигналов. Наличие нескольких сильных семантических сигналов (слов), указывающих на одну и ту же концепцию, увеличивает вероятность ее активации нелинейно.

Что такое "Уровень Активации" (Activation Level) и зачем он нужен?

Уровень активации позволяет модели обрабатывать тексты разной длины (например, короткие запросы и длинные статьи). Он динамически масштабирует вероятность того, что кластер сгенерирует свои дочерние слова. В длинном тексте кластер может иметь высокий уровень активации и сгенерировать много связанных слов, а в коротком запросе — низкий уровень и сгенерировать только одно или два ключевых слова.

На каких данных обучается эта модель и почему это важно?

В патенте в качестве основного примера используются поисковые сессии (запросы одного пользователя за короткий период). Это критически важно, так как сессии часто содержат запросы на одну тему, но сформулированные по-разному. Анализ совместной встречаемости слов в сессиях позволяет системе эффективно выявлять семантические связи и строить кластеры.

Как результаты работы этого алгоритма используются в ранжировании?

И запрос, и документ характеризуются в виде векторов, показывающих степень активации различных кластеров. Ранжирование может основываться на сравнении этих векторов (например, насколько близки концепции запроса к концепциям документа). Это позволяет находить релевантные документы, даже если они не содержат точных ключевых слов из запроса.

Как этот патент связан с современными технологиями типа BERT или Векторных представлений (Embeddings)?

Этот патент является ранним и фундаментальным шагом в направлении семантического поиска и векторных представлений. Он описывает способ представления текста в виде вектора в пространстве концепций (кластеров). Современные системы, такие как BERT, также создают векторные представления (embeddings), но используют более сложные нейросетевые архитектуры (Трансформеры) и учитывают порядок слов, однако базовая идея — представить смысл текста в виде числового вектора — остается той же.

Какой главный вывод для SEO-стратегии следует из этого патента?

Главный вывод — необходимость смещения фокуса с оптимизации под отдельные ключевые слова на оптимизацию под темы и концепции (Topical Authority). Контент должен быть глубоким, всесторонне раскрывать тему и использовать разнообразную, семантически связанную лексику, чтобы четко сигнализировать Google об основных концепциях, которые он покрывает.

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

US7426507B1
2008-09-16

Индексация
SERP
Семантика и интент

Как Google использует кластеры совместной встречаемости терминов и статистику просмотров страниц для иерархической классификации сайтов

Google использует автоматизированную систему для классификации веб-сайтов в иерархическую таксономию (тематические вертикали). Система определяет кластеры совместно встречающихся терминов на сайте и агрегирует их значимость, взвешивая её по количеству просмотров страниц (Pageviews). Затем она выбирает наиболее специфичную категорию в иерархии, чья совокупная оценка (включая подкатегории) превышает порог достоверности. Эта классификация используется для определения релевантной рекламы.

US8229957B2
2012-07-24

Семантика и интент

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google кластеризует новостные результаты для генерации блоков "Связанные темы" и "Категории"

Google анализирует результаты поиска по новостям и группирует статьи, освещающие одно и то же событие, в кластеры. Затем система извлекает общие ключевые слова из этих кластеров для формирования блока "Связанные темы" (Related Topics), помогая уточнить запрос. Одновременно определяется широкая категория новостей (например, "Спорт"), из которой предлагается дополнительный контент для расширения контекста.

US11194868B1
2021-12-07

Семантика и интент
Свежесть контента
SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования

Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.

US7933890B2
2011-04-26

Структура сайта
Техническое SEO
Индексация

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента

Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.

US8799107B1
2014-08-05

EEAT и качество
SERP
Поведенческие сигналы

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент