Как Google моделирует неопределенность и широту темы, используя вероятностные распределения вместо векторных точек

INFORMATION RETRIEVAL USING MULTIVARIATE DISTRIBUTIONS (Информационный поиск с использованием многомерных распределений)

US20240354557A1
Google LLC
2024-04-19
2024-10-24

Семантика и интент

Google использует метод для улучшения dense retrieval, представляя запросы и документы не как отдельные точки (векторы) в семантическом пространстве, а как многомерные вероятностные распределения (области). Это позволяет системе учитывать неопределенность в понимании контента и широту охвата темы, повышая точность поиска за счет сравнения этих распределений.

Какую проблему решает

Патент решает фундаментальную проблему традиционных моделей плотного поиска (Dense Retrieval Models). Существующие модели представляют запросы и документы как отдельные точки (векторы) в латентном пространстве. Этот подход не позволяет модели выразить свою уверенность (confidence) или неопределенность (uncertainty) в сгенерированном представлении. Кроме того, точечное представление не отражает широту информации (breadth of information) — например, документ, охватывающий несколько тем и удовлетворяющий разнообразные информационные потребности, не отличается от узкоспециализированного документа на уровне представления.

Что запатентовано

Запатентована система информационного поиска, которая представляет запросы и контент как многомерные вероятностные распределения (multivariate probability distributions) в латентном пространстве, а не как отдельные точки. Нейросетевые энкодеры (Query Encoder и Content Item Encoder) генерируют не векторы напрямую, а параметры этих распределений (например, средние значения и дисперсии). Это позволяет явно моделировать неопределенность и широту информации.

Как это работает

Система использует нейросетевые энкодеры для обработки запросов и документов. Вместо генерации одного вектора энкодер выводит параметры многомерного распределения (например, многомерного нормального распределения) — среднее значение (mean, центр распределения) и дисперсию (variance, разброс вокруг центра) для каждого измерения.

Релевантность определяется путем сравнения распределения запроса и распределения документа, например, с помощью дивергенции Кульбака-Лейблера (KL divergence). Поскольку вычисление KL divergence в реальном времени затратно, патент предлагает метод эффективной трансформации параметров распределения в специальные Query Vector и Content Vector. Эта трансформация разработана так, чтобы стандартная мера сходства (например, скалярное произведение) между этими векторами аппроксимировала отрицательную KL divergence между исходными распределениями. Это позволяет использовать быстрые методы поиска (например, Approximate Nearest Neighbor) для эффективного ранжирования.

Актуальность для SEO

Высокая. Плотный поиск (Dense Retrieval) является основой современных поисковых систем. Описанный метод направлен на повышение точности и робастности этих моделей за счет интеграции вероятностного подхода. Моделирование неопределенности является актуальным направлением исследований в области Information Retrieval и Machine Learning.

Важность для SEO

Патент имеет значительное влияние (8/10) на понимание того, как Google может интерпретировать контент. Он вводит концепции "неопределенности" и "широты" на уровне векторных представлений. Для SEO это означает, что ясность и точность контента помогают снизить неопределенность модели (низкая дисперсия), в то время как всеобъемлющий контент (например, pillar pages) может использовать широту охвата (высокая дисперсия) для соответствия большему количеству разнообразных запросов в рамках темы.

Термины и определения

Approximate Nearest Neighbor (ANN) (Приближенный ближайший сосед): Алгоритм для быстрого поиска векторов в индексе, которые наиболее близки к заданному вектору запроса. Используется для эффективного поиска в больших базах данных.
Breadth of Information (Широта информации): Степень разнообразия тем или информационных потребностей, которые охватывает запрос или документ. В патенте моделируется через дисперсию (variance) распределения.
Content Item Encoder Neural Network (Энкодер единицы контента): Нейронная сеть, которая обрабатывает документ и генерирует параметры его вероятностного распределения. Может быть той же сетью, что и Query Encoder, или отдельной.
Dense Retrieval Models (Модели плотного поиска): Модели информационного поиска, которые используют плотные векторные представления (embeddings), сгенерированные нейронными сетями, для ранжирования контента.
Diagonal Covariance Matrix (Диагональная ковариационная матрица): Упрощение многомерного нормального распределения, предполагающее, что измерения независимы. Позволяет моделировать распределение с помощью вектора средних значений и вектора дисперсий.
KL Divergence (Kullback-Leibler Divergence) (Дивергенция Кульбака-Лейблера): Мера того, насколько одно вероятностное распределение отличается от другого. Используется для измерения сходства между распределением запроса и документа.
Latent Representation Space (Латентное пространство представлений): Многомерное пространство, в котором запросы и документы представляются в виде векторов или распределений.
Mean (Среднее значение $\mu$ ): Параметр распределения, определяющий его центр в латентном пространстве.
Multivariate Probability Distribution (Многомерное вероятностное распределение): Способ представления запроса или документа как области вероятностей в латентном пространстве, а не как одной точки.
Query Encoder Neural Network (Энкодер запроса): Нейронная сеть (например, трансформер типа BERT), которая обрабатывает запрос и генерирует параметры его вероятностного распределения.
Softplus Activation (Активация Softplus): Функция активации, используемая для генерации значений дисперсии. Гарантирует, что дисперсия всегда положительна и численно стабильна.
Uncertainty/Confidence (Неопределенность/Уверенность): Степень уверенности модели в сгенерированном представлении. Высокая неопределенность соответствует высокой дисперсии.
Variance (Дисперсия $\sigma^2$ ): Параметр распределения, определяющий его разброс или размер в латентном пространстве. Моделирует неопределенность и широту информации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод информационного поиска.

Система получает запрос.
Запрос обрабатывается с помощью Query Encoder Neural Network для генерации параметров вероятностного распределения в пространстве многомерных латентных представлений.
Используя эти параметры, система идентифицирует подмножество релевантных единиц контента.
Генерируется ответ на запрос, идентифицирующий хотя бы одну единицу контента из этого подмножества.

Claim 3 (Зависимый от 2): Уточняет тип распределения и его параметры.

Распределение является многомерным нормальным распределением (multi-variate normal distribution) с диагональной ковариационной матрицей. Параметры включают среднее значение (mean) и дисперсию (variance) для каждого из k измерений.

Claim 4 (Зависимый от 3): Детализирует механизм генерации параметров энкодером.

Последовательность, включающая первый токен, второй токен и токены запроса, обрабатывается энкодером для генерации эмбеддингов.
Эмбеддинг первого токена обрабатывается первой выходной головой (first output neural network head) для генерации средних значений.
Эмбеддинг второго токена обрабатывается второй выходной головой для генерации дисперсий.

Claim 5 (Зависимый от 1): Описывает механизм эффективного поиска.

Система поддерживает Content Vector для каждой единицы контента.
Из параметров распределения запроса генерируется Query Vector.
Подмножество контента идентифицируется с использованием Content Vectors и Query Vector.

Claim 6, 7, 8 (Зависимые от 5): Уточняют процесс поиска.

Поиск выполняется с использованием техники, которая находит контент с векторами, наиболее похожими на Query Vector согласно мере сходства (similarity measure). Мерой сходства может быть скалярное произведение (dot product). Техникой поиска может быть Approximate Nearest Neighbor (ANN).

Claim 9 (Зависимый от 6): Описывает генерацию Content Vectors.

Content Vectors генерируются путем обработки контента с помощью Content Item Encoder Neural Network для получения параметров распределения контента, а затем генерации вектора из этих параметров.

Claim 12 (Зависимый от 9): Ключевое утверждение об эффективности.

Мера сходства (например, скалярное произведение) между Query Vector и Content Vector аппроксимирует отрицательную KL-дивергенцию между соответствующими вероятностными распределениями запроса и контента. Это позволяет эффективно вычислять сходство между распределениями с помощью стандартных векторных операций.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования (в частности, на этапе отбора кандидатов L1) в системах, использующих Dense Retrieval.

INDEXING – Индексирование и извлечение признаков

На этом этапе система обрабатывает документы с помощью Content Item Encoder для генерации параметров распределения (средние значения и дисперсии). Затем эти параметры трансформируются в Content Vectors по специальным формулам. Эти векторы сохраняются в индексе, оптимизированном для быстрого поиска (например, ANN индекс).

RANKING – Ранжирование (L1 Retrieval)

Основное применение патента. Когда поступает запрос:

Query Encoder генерирует параметры распределения для запроса.
Эти параметры трансформируются в Query Vector.
Система выполняет быстрый поиск (ANN) в индексе Content Vectors, используя Query Vector. Мера сходства (например, скалярное произведение) используется для оценки релевантности.
Результатом является набор кандидатов (subset of content items), отсортированных по сходству, которое аппроксимирует KL divergence между распределениями.

Входные данные:

Исходный запрос (текст или мультимодальные данные).
Набор единиц контента (документы, изображения, веб-страницы и т.д.).

Выходные данные:

На этапе индексирования: Индекс Content Vectors.
На этапе ранжирования: Отсортированный список релевантных единиц контента.

На что влияет

Специфические запросы: Система более эффективно обрабатывает неоднозначные (ambiguous) запросы. Неоднозначный запрос может быть представлен распределением с высокой дисперсией, что отражает неуверенность модели в его точном намерении.
Типы контента: Влияет на все типы контента, которые могут быть обработаны моделями Dense Retrieval. Особенно полезно для документов с широким охватом тем (breadth of information), которые могут быть представлены распределениями с высокой дисперсией, и для очень узкоспециализированных документов (низкая дисперсия).

Когда применяется

Алгоритм применяется при каждом запросе к системе информационного поиска, которая реализует этот метод Dense Retrieval. Он заменяет стандартный подход, основанный на точечных векторных представлениях, на подход, основанный на вероятностных распределениях.

Пошаговый алгоритм

Процесс А: Индексирование (Офлайн)

Обработка контента: Каждая единица контента обрабатывается Content Item Encoder Neural Network.
Генерация параметров распределения: Энкодер выводит параметры многомерного нормального распределения: вектор средних значений ( $\mu_d$ ) и вектор дисперсий ( $\sigma^2_d$ ). Дисперсия может генерироваться с использованием активации Softplus для обеспечения положительных значений.
Трансформация в Content Vector: Параметры трансформируются в Content Vector ( $\vec{d}$ ) с использованием предопределенных формул (см. раздел 4.2).
Индексирование: Content Vectors сохраняются в базе данных (индексе), оптимизированной для ANN поиска.

Процесс Б: Обработка запроса и поиск (Онлайн)

Получение запроса: Система получает входящий запрос.
Обработка запроса: Запрос обрабатывается Query Encoder Neural Network.
Генерация параметров распределения: Энкодер выводит параметры распределения запроса: $\mu_q$ и $\sigma^2_q$ .
Трансформация в Query Vector: Параметры трансформируются в Query Vector ( $\vec{q}$ ) (см. раздел 4.2).
Поиск (ANN): Система выполняет поиск ближайших соседей в индексе Content Vectors, используя Query Vector.
Вычисление сходства: Сходство вычисляется как скалярное произведение между $\vec{q}$ и $\vec{d}$ . Эта оценка аппроксимирует отрицательную KL divergence между распределениями.
Ранжирование и ответ: Результаты ранжируются по оценке сходства, и формируется ответ пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст запросов и документов (или данные других модальностей, например, изображения) являются основным входом для нейросетевых энкодеров. Энкодеры анализируют токены, их последовательность и контекст для генерации параметров распределения.

Какие метрики используются и как они считаются

Ключевые метрики — это параметры многомерного нормального распределения и метрики сходства между ними.

Mean Vector ( $\mu$ ): Вектор средних значений для k измерений. Определяет семантическое положение (центр) контента/запроса.
Variance Vector ( $\sigma^2$ ): Вектор дисперсий для k измерений. Определяет неопределенность и широту охвата.
KL Divergence: Используется как теоретическая основа для измерения релевантности между распределениями.

Эффективная аппроксимация KL Divergence:

Патент предлагает конкретные формулы для трансформации параметров в векторы, чтобы скалярное произведение аппроксимировало KL divergence.

Query Vector ( $\vec{q}$ ):

$\vec{q} = [1, \Pi_q, \sigma^2_{q1}, \sigma^2_{q2}, ..., \sigma^2_{qk}, \mu_{q1}, \mu_{q2}, ..., \mu_{qk}]$

Где $\Pi_q = \prod_{i=1}^{k} \sigma^2_{qi}$ .

Content Vector ( $\vec{d}$ ):

$\vec{d} = [\gamma_d, \frac{-1}{\Pi_d}, \frac{-1}{\sigma^2_{d1}}, \frac{-1}{\sigma^2_{d2}}, ..., \frac{-1}{\sigma^2_{dk}}, \frac{2\mu_{d1}}{\sigma^2_{d1}}, \frac{2\mu_{d2}}{\sigma^2_{d2}}, ..., \frac{2\mu_{dk}}{\sigma^2_{dk}}]$

Где $\gamma_d$ — это не зависящая от запроса априорная оценка документа (document prior score), и $\Pi_d = \prod_{i=1}^{k} \sigma^2_{di}$ .

Благодаря этим трансформациям, оценка релевантности сводится к вычислению скалярного произведения $\vec{q} \cdot \vec{d}$ , что позволяет использовать эффективные методы поиска (ANN).

Переход от точек к распределениям: Патент описывает фундаментальный сдвиг в представлении контента и запросов. Вместо моделирования их как отдельных точек (векторов) система моделирует их как области (вероятностные распределения). Это более богатый и робастный способ представления информации.
Явное моделирование неопределенности: Система может количественно оценить свою уверенность в понимании запроса или документа через параметр дисперсии (Variance). Высокая дисперсия указывает на неопределенность (неоднозначность запроса) или широту охвата (многообразие тем в документе).
Учет широты информации (Breadth): Документы, охватывающие множество подтем (например, всеобъемлющие руководства), могут быть представлены распределениями с высокой дисперсией. Это позволяет им лучше соответствовать разнообразным информационным потребностям в рамках этой темы.
Ранжирование на основе KL Divergence: Релевантность теперь основана не на расстоянии между точками, а на степени перекрытия между распределениями (измеряемой через KL divergence).
Сохранение эффективности поиска: Ключевым достижением патента является метод трансформации параметров распределения в векторы таким образом, что стандартное скалярное произведение аппроксимирует KL divergence. Это позволяет использовать преимущества вероятностного моделирования без потери скорости, присущей стандартным методам Dense Retrieval (ANN).

Best practices (это мы делаем)

Максимизация ясности и точности контента (Оптимизация под низкую дисперсию): Необходимо создавать контент с четкой структурой, точным языком и сильным тематическим фокусом. Это помогает нейросетевому энкодеру точно определить семантический центр документа (mean) и быть уверенным в его представлении (низкая variance). Это критично для ранжирования по конкретным, четко определенным запросам.
Создание всеобъемлющего контента (Pillar Pages) (Оптимизация под широту): Патент подтверждает стратегическую ценность создания широких, авторитетных страниц, охватывающих тему целиком. Такие страницы могут быть представлены с более высокой дисперсией (breadth of information), что позволяет им эффективно ранжироваться по широкому спектру связанных запросов, попадающих в эту область распределения.
Использование четкой семантической структуры: Логичное использование заголовков, списков и связей между сущностями помогает энкодеру сформировать точное и уверенное представление о контенте, снижая uncertainty.
Развитие тематического авторитета (Topical Authority): Полноценное покрытие кластера тем (как вширь, так и вглубь) позволяет модели лучше понять, как контент сайта соотносится с семантическим пространством темы, улучшая точность генерации распределений для страниц сайта.

Worst practices (это делать не надо)

Создание неоднозначного или запутанного контента: Контент, который перескакивает с темы на тему без четкой структуры или использует термины неоднозначно, приведет к высокой неопределенности модели. Это может привести к генерации распределения с высокой дисперсией, но неточно расположенным центром (mean), что ухудшит ранжирование.
Поверхностный (Thin) контент: Контент, не имеющий ни глубины, ни широты охвата, будет плохо представлен в этой модели. Он не сможет конкурировать ни с узкоспециализированными точными ответами, ни с широкими авторитетными ресурсами.
Фокус на ключевых словах без контекста: Поскольку модели Dense Retrieval (и особенно этот вероятностный подход) фокусируются на семантическом значении, манипуляции с ключевыми словами без создания реальной ценности и ясности будут неэффективны.

Стратегическое значение

Этот патент демонстрирует эволюцию Dense Retrieval в сторону более сложного и нюансированного понимания контента. Стратегически важно понимать, что Google может оценивать не только "о чем" контент (положение в пространстве), но и "насколько точно" и "насколько широко" он раскрывает тему (форма и размер распределения). Это подчеркивает необходимость баланса между глубиной и широтой охвата при разработке контент-стратегии, а также абсолютную необходимость ясности и точности в изложении материала.

Практические примеры

Сценарий 1: Оптимизация статьи под конкретный интент (Низкая дисперсия)

Задача: Написать статью на тему "Как настроить файл robots.txt для WordPress".
Действия: Обеспечить максимальную ясность. Использовать точные термины (Disallow, User-agent), предоставить конкретные примеры кода, структурировать статью по шагам. Избегать отвлечений на смежные темы (например, SEO в целом).
Ожидаемый результат (в терминах патента): Энкодер с высокой уверенностью (confidence) определяет тему статьи. Документ представляется как распределение с очень низкой дисперсией (variance), точно центрированное (mean) в семантическом пространстве, соответствующем запросу. Это обеспечивает высокое сходство с конкретными запросами пользователей.

Сценарий 2: Создание Pillar Page (Высокая дисперсия/Широта)

Задача: Создать руководство "Все о контент-маркетинге".
Действия: Охватить множество подтем (стратегия, типы контента, дистрибуция, метрики). Структурировать материал логично, но признать, что страница удовлетворяет множество разнообразных потребностей.
Ожидаемый результат (в терминах патента): Энкодер распознает, что документ обладает большой широтой информации (breadth of information). Документ представляется как распределение с более высокой дисперсией, охватывающее широкую область в семантическом пространстве "контент-маркетинг". Это позволяет странице эффективно соответствовать различным запросам в рамках этой области (например, "стратегия контент-маркетинга" или "метрики контент-маркетинга").

Заменяет ли этот подход традиционные векторные эмбеддинги в поиске?

Не совсем заменяет, а скорее расширяет их. Традиционные модели Dense Retrieval используют точечные векторы. Этот патент предлагает использовать вероятностные распределения (области вокруг точек). Однако для сохранения эффективности поиска эти распределения преобразуются в специальные векторы (Query Vector и Content Vector), которые затем используются в стандартной инфраструктуре векторного поиска (ANN). Таким образом, инфраструктура остается прежней, но сами векторы содержат больше информации (включая дисперсию).

Как этот патент влияет на стратегию создания Pillar Pages (основных страниц кластера)?

Он значительно подтверждает важность этой стратегии. Pillar Pages по своей природе обладают большой широтой информации (breadth of information). В терминах патента, такие страницы могут быть представлены распределениями с высокой дисперсией (variance). Это означает, что они покрывают большую область в семантическом пространстве и могут эффективно соответствовать множеству различных запросов, попадающих в эту область.

Что важнее для SEO в контексте этого патента: ясность контента или его объем?

Важны оба аспекта, но они служат разным целям. Ясность и точность помогают модели снизить неопределенность (uncertainty), что приводит к низкой дисперсии и точному позиционированию (mean). Это идеально для конкретных интентов. Объем и широта охвата (при сохранении качества) увеличивают breadth of information, что может привести к более высокой дисперсии, позволяя охватить больше разнообразных запросов. Стратегия должна балансировать оба подхода в зависимости от цели страницы.

Как система обрабатывает неоднозначные запросы (ambiguous queries)?

Неоднозначные запросы являются примером высокой неопределенности. Если пользователь вводит запрос, который может иметь несколько значений (например, "Ява"), Query Encoder может сгенерировать распределение с высокой дисперсией в измерениях, связанных с этими значениями (остров, язык программирования). Это отражает неуверенность модели в точном интенте пользователя.

Что произойдет, если мой контент плохо структурирован и запутан?

Если энкодер не может четко определить тему и структуру документа, он сгенерирует представление с высокой неопределенностью (высокая дисперсия). Хотя высокая дисперсия может быть полезна для широкого контента, в данном случае она сигнализирует о низком качестве или путанице. Это может привести к неточному позиционированию центра распределения (mean) и ухудшению ранжирования по релевантным запросам.

Что такое KL Divergence и почему Google ее использует?

KL Divergence (Дивергенция Кульбака-Лейблера) — это статистическая мера, показывающая, насколько одно вероятностное распределение отличается от другого. В контексте поиска она используется для измерения сходства между распределением запроса и распределением документа. Чем меньше дивергенция, тем более релевантным считается документ. Это более точный метод сравнения, чем простое расстояние между двумя точками.

Почему патент предлагает аппроксимировать KL Divergence, а не вычислять ее напрямую?

Вычисление KL Divergence между распределением запроса и миллионами распределений документов в индексе в реальном времени является вычислительно очень затратной операцией. Патент предлагает способ трансформации параметров распределения в векторы так, чтобы их скалярное произведение аппроксимировало KL Divergence. Это позволяет использовать существующие высокоскоростные методы векторного поиска (ANN).

Как именно энкодер генерирует среднее значение и дисперсию?

Патент предлагает использовать архитектуру с выделенными головами. Например, в модели типа BERT могут использоваться специальные токены (условно [MEAN] и [VARIANCE]). Выходное представление токена [MEAN] используется для генерации вектора средних значений, а представление токена [VARIANCE] — для генерации вектора дисперсий. Для дисперсии используется активация Softplus, чтобы гарантировать положительные значения.

Влияет ли этот метод на E-E-A-T?

Прямого влияния нет, так как патент описывает механизм семантического представления контента (Dense Retrieval). Однако косвенно, авторитетный и экспертный контент обычно более ясен, точен и структурирован. Это помогает модели формировать уверенные представления (низкая uncertainty) о таком контенте, что положительно сказывается на его ранжировании в рамках этой системы.

Применяется ли этот метод только к тексту?

Хотя примеры в патенте часто фокусируются на тексте (запросы и документы), описанный метод применим к любому типу контента, который может быть обработан нейросетевыми энкодерами для генерации латентных представлений. Это включает изображения, видео и мультимодальный контент.

Как Google создает семантические векторы (эмбеддинги) для понимания смысла целых документов (Doc2Vec)

Патент описывает нейросетевой метод (известный как Doc2Vec) для преобразования документов любой длины в числовые векторы (эмбеддинги). Эти векторы фиксируют семантику и контекст всего документа, позволяя системе понимать смысл контента, классифицировать его и находить похожие документы, даже если в них используются разные слова.

US20150220833A1
2015-08-06

Семантика и интент

Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов и механизм импутации

Google патентует высокоэффективную систему нейронного поиска (Contextualized Token Retriever). Она обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных контекстуализированных токенов между запросом и документом. Ключевое нововведение — механизм импутации, который позволяет рассчитывать релевантность, используя только предварительно извлеченные векторы, что радикально снижает вычислительные затраты.

US20250217373A1
2025-07-03

Семантика и интент
Индексация
SERP

Как Google использует квантование векторов для ускорения и масштабирования поиска (особенно Neural Matching)

Google использует метод квантования векторов для ускорения поиска и снижения потребления памяти. Этот метод разбивает большие векторы (например, эмбеддинги страниц и запросов) на части (субпространства) и аппроксимирует их значения с помощью "кодовых книг". Это позволяет выполнять быстрый поиск максимального внутреннего произведения (MIPS), что критично для работы систем векторного поиска, таких как Neural Matching, в масштабах веба.

US10255323B1
2019-04-09

Индексация
Семантика и интент

Как Google объединяет поисковый запрос и профиль пользователя для персонализации выдачи с помощью векторных эмбеддингов (LCR)

Google использует метод Latent Collaborative Retrieval (LCR) для персонализации поиска. Система создает векторные представления (эмбеддинги) для текущего запроса пользователя и его долгосрочного профиля (история, предпочтения). Эти векторы приводятся к единой размерности в общем латентном пространстве, что позволяет напрямую сравнивать и комбинировать релевантность запросу и соответствие профилю пользователя для формирования финальной выдачи.

US20130325846A1
2013-12-05

Персонализация
Семантика и интент
SERP

Как Google переранжирует результаты поиска в реальном времени, скрывая контент, который пользователь уже видел на других сайтах

Google использует механизм оценки новизны информации для динамической корректировки поисковой выдачи во время сессии пользователя. Система вычисляет «Information Gain Score» для непросмотренных документов, определяя, сколько новой информации они содержат по сравнению с уже посещенными сайтами. Результаты с уникальной информацией повышаются, а повторяющийся контент понижается, чтобы уменьшить избыточность.

US11354342B2
2022-06-07

SERP
Семантика и интент
Персонализация

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)

Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.

US8510285B1
2013-08-13

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей

Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.

US10110701B2
2018-10-23

Knowledge Graph
Поведенческие сигналы
Персонализация

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP