Как Google использует квантование векторов для ускорения и масштабирования поиска (особенно Neural Matching)

QUANTIZATION-BASED FAST INNER PRODUCT SEARCH (Быстрый поиск по внутреннему произведению на основе квантования)

US10255323B1
Google LLC
2015-10-08
2019-04-09

Google использует метод квантования векторов для ускорения поиска и снижения потребления памяти. Этот метод разбивает большие векторы (например, эмбеддинги страниц и запросов) на части (субпространства) и аппроксимирует их значения с помощью "кодовых книг". Это позволяет выполнять быстрый поиск максимального внутреннего произведения (MIPS), что критично для работы систем векторного поиска, таких как Neural Matching, в масштабах веба.

Какую проблему решает

Патент решает фундаментальную проблему масштабируемости поиска: выполнение поиска максимального внутреннего произведения (Maximum Inner Product Search, MIPS) в больших базах данных с высокой размерностью векторов. Стандартный линейный поиск требует огромных вычислительных ресурсов и времени. Это изобретение позволяет значительно ускорить MIPS и снизить требования к памяти, делая возможным применение сложных моделей векторного поиска (например, Neural Matching) в масштабах веба и на мобильных устройствах. Патент не устраняет SEO-манипуляции, а оптимизирует базовую инфраструктуру поиска.

Что запатентовано

Запатентована система для эффективного выполнения MIPS с использованием адаптивного квантования. Суть изобретения заключается в разбиении векторов на субпространства (subspaces) и генерации оптимизированных кодовых книг (codebooks) для аппроксимации значений в этих субпространствах. Ключевая особенность — оптимизация кодовых книг с использованием реальных примеров запросов (example queries) в качестве ограничений, чтобы минимизировать ошибку квантования и сохранить точность ранжирования.

Как это работает

Система работает в два этапа: офлайн-подготовка и онлайн-поиск.

Офлайн (Индексирование): Векторы базы данных (например, эмбеддинги документов) разбиваются на части (chunks). Для каждой части генерируется кодовая книга, состоящая из центров кластеров. Этот процесс оптимизируется с учетом реальных запросов, чтобы аппроксимация минимально искажала результаты ранжирования. Исходные векторы заменяются на компактные квантованные представления (последовательность ссылок на записи в кодовых книгах).
Онлайн (Поиск): Вектор запроса также разбивается на части. Вместо вычисления точного внутреннего произведения между запросом и миллионами векторов базы данных, система быстро вычисляет аппроксимированное значение, используя квантованные представления и кодовые книги. Это позволяет мгновенно находить наиболее релевантных кандидатов.

Актуальность для SEO

Высокая. Векторный поиск, основанный на эмбеддингах (Neural Matching, BERT, MUM), является фундаментом современных поисковых систем. Эффективное выполнение MIPS критически важно для скорости и качества поиска. Описанные в патенте методы квантования являются стандартной практикой для масштабирования таких систем.

Важность для SEO

Влияние на SEO минимальное (2/10). Это инфраструктурный патент, описывающий внутренние оптимизации Google для повышения эффективности поиска. Он не вводит новые сигналы ранжирования, не описывает методы оценки качества контента или понимания запросов. Патент важен для понимания того, *как* технически реализуется векторный поиск (например, Neural Matching) в Google, но не предлагает прямых рычагов воздействия для SEO-специалистов.

Термины и определения

Codebook (Кодовая книга): Набор векторов (центров кластеров), используемый для представления всех возможных значений в определенном субпространстве. Каждому фрагменту исходного вектора ставится в соответствие одна запись из кодовой книги.
Cluster Center (Центр кластера): Вектор, который наилучшим образом представляет группу схожих векторов (кластер). Является записью в кодовой книге.
Example Queries (Примеры запросов): Набор реальных запросов, используемый для оптимизации процесса квантования. Они помогают настроить кодовые книги так, чтобы минимизировать влияние аппроксимации на точность ранжирования.
Inner Product / Dot Product (Внутреннее произведение / Скалярное произведение): Математическая операция над двумя векторами, результат которой часто используется как мера сходства между ними в задачах поиска и ранжирования.
MIPS (Maximum Inner Product Search / Поиск максимального внутреннего произведения): Задача нахождения в базе данных векторов, имеющих наибольшее внутреннее произведение с вектором запроса (т.е. наиболее похожих на запрос).
Mahalanobis distance (Расстояние Махаланобиса): Мера расстояния между точкой и распределением. Используется в одном из вариантов генерации кодовых книг для учета ковариации данных запросов.
Quantization (Квантование): Процесс сжатия данных путем замены исходных значений (векторов) ссылками на ограниченный набор предопределенных значений (записей в кодовой книге). Позволяет снизить объем памяти и ускорить вычисления.
Query Covariance Matrix (Ковариационная матрица запросов): Матрица, описывающая распределение данных в примерах запросов. Используется при кластеризации на основе расстояния Махаланобиса.
Subspace / Chunk (Субпространство / Фрагмент): Часть вектора, полученная путем его разделения на несколько блоков. Квантование выполняется независимо в каждом субпространстве.
Vector (Вектор): Математическое представление элемента данных (документа, запроса), часто в виде массива чисел (например, эмбеддинг).
Violated Constraints (Нарушенные ограничения): Ситуации при оптимизации, когда квантование искажает порядок ранжирования. Например, когда аппроксимированное внутреннее произведение для менее релевантного элемента оказывается выше, чем для более релевантного.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает офлайн-процесс подготовки базы данных.

Система переупорядочивает элементы векторов, используя случайное вращение (random rotation).
Каждый переупорядоченный вектор проецируется (разделяется) на K субпространств.
Для каждого субпространства генерируется кодовая книга (codebook). Генерация происходит с учетом ограничений (constraints), основанных на примерах запросов (example queries).
Каждому субпространству каждого элемента присваивается запись в соответствующей кодовой книге. Эти присвоения формируют квантованный элемент (quantized search item).
Кодовые книги и квантованные элементы сохраняются.

Claim 3 (Зависимый от 1): Описывает процесс онлайн-поиска.

Элементы вектора запроса переупорядочиваются с использованием того же случайного вращения.
Переупорядоченный вектор запроса проецируется на те же K субпространств.
Для каждого квантованного элемента вычисляется внутреннее произведение между субпространством запроса и соответствующей записью кодовой книги.
Вычисляется оценка сходства (similarity score) путем суммирования внутренних произведений по всем субпространствам.
Предоставляются элементы с наивысшими оценками.

Claim 5 (Зависимый от 1): Детализирует генерацию кодовой книги через кластеризацию.

Генерация включает кластеризацию субпространств элементов, нахождение центра кластера (cluster center) для каждого кластера и сохранение этого центра как записи в кодовой книге.

Claim 7 (Зависимый от 5): Уточняет метод кластеризации.

Кластеризация выполняется с использованием целевой функции, зависящей от задачи (task-dependent objective function), обученной предсказывать кластеры с использованием примеров запросов.

Claim 18 (Независимый пункт): Описывает альтернативный метод, фокусируясь на оптимизации.

Генерация субпространств из элементов базы данных.
Обучение кодовой книги для каждого субпространства путем оптимизации task-dependent objective function, которая минимизирует ошибку квантования в рамках мягких ограничений (soft constraints), установленных примерами запросов.
Обучение включает итеративное выявление нарушенных ограничений (violated constraints) и корректировку кодовых книг.
Проецирование вектора запроса.
Использование квантованных элементов и кодовых книг для выполнения поиска по внутреннему произведению.
Предоставление результатов с наивысшими оценками.

Где и как применяется

Изобретение является частью инфраструктуры, обеспечивающей эффективное выполнение векторного поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-обработка данных. Система использует исходные векторы документов (например, эмбеддинги, сгенерированные другими системами) и Example Queries для обучения кодовых книг и выполнения квантования. Результат (Quantized Search Items и Codebooks) сохраняется в индексе, заменяя или дополняя исходные векторы.

RANKING – Ранжирование (L1/L2 Retrieval)
Это основная область применения патента. На этапе отбора кандидатов (L1) или легковесного ранжирования (L2) система должна быстро найти документы, чьи векторы наиболее близки к вектору запроса (задача MIPS). Система использует описанный механизм быстрого аппроксимированного вычисления внутреннего произведения для мгновенного сокращения пространства поиска. Это критически важно для работы Neural Matching.

Входные данные:

Исходные векторы базы данных (Search Items).
Примеры запросов (Example Queries) (для оптимизации).
Вектор входящего запроса (во время поиска).

Выходные данные:

Кодовые книги (Codebooks).
Квантованные векторы (Quantized Search Items).
Список релевантных кандидатов с аппроксимированными оценками сходства (similarity scores) (во время поиска).

На что влияет

Типы контента и запросы: Влияет на все типы контента и запросы, где применяются методы векторного поиска (например, Neural Matching) для отбора кандидатов. Это охватывает практически весь современный поиск.
Инфраструктура: Основное влияние — снижение потребления памяти и ускорение вычислений на серверах Google.
Мобильный поиск: Патент особо отмечает значимость снижения объема памяти для мобильных платформ, где ресурсы ограничены.

Когда применяется

Алгоритм применяется постоянно в процессе ранжирования:

Офлайн: Периодически, при обновлении индекса и пересчете векторов, для генерации и оптимизации кодовых книг и квантования данных.
Онлайн: При обработке каждого поискового запроса на этапе отбора кандидатов (L1/L2), когда требуется быстрое сравнение вектора запроса с векторами в индексе.

Пошаговый алгоритм

Процесс А: Офлайн-квантование и генерация кодовых книг

(Опционально) Предварительная обработка: Выполнение случайного вращения или случайной перестановки элементов векторов базы данных для равномерного распределения информации.
Проекция в субпространства: Разделение каждого вектора на K равных или неравных частей (субпространств).
Инициализация кодовых книг: Присвоение записям кодовых книг случайных векторов из соответствующих субпространств.
Итеративная оптимизация (Обучение): Повторение следующих шагов до сходимости или достижения лимита итераций:
1. Поиск нарушенных ограничений: Использование примеров запросов для выявления ситуаций, когда квантование искажает порядок ранжирования (аппроксимация для неверного результата выше, чем для верного).
2. Корректировка присвоений: Переназначение субпространств векторов на записи кодовой книги (центры кластеров) с учетом нарушенных ограничений и минимизации ошибки.
3. Корректировка кодовых книг: Обновление значений центров кластеров (записей кодовой книги) с использованием градиентного спуска для минимизации целевой функции.
Сохранение: Запись финальных кодовых книг и квантованных представлений векторов в индекс.

Процесс Б: Онлайн-поиск (MIPS)

Получение запроса: Система получает вектор запроса.
(Опционально) Предварительная обработка: Применение того же случайного вращения или перестановки, что и к векторам базы данных.
Проекция в субпространства: Разделение вектора запроса на K частей.
(Опционально) Генерация таблицы кодовой книги: Предварительный расчет внутренних произведений между каждым субпространством запроса и всеми возможными записями в соответствующей кодовой книге.
Расчет сходства: Для каждого квантованного вектора в базе данных:
1. Поиск значения: Определение записи кодовой книги, присвоенной каждому субпространству вектора.
2. Получение внутреннего произведения: Быстрое получение значения внутреннего произведения для этого субпространства (используя таблицу из шага 4 или вычисляя на лету).
3. Суммирование: Суммирование внутренних произведений по всем K субпространствам для получения аппроксимированной оценки сходства.
Возврат результатов: Выбор Топ-N элементов с наивысшими оценками сходства.
(Опционально) Переранжирование: Вычисление точного внутреннего произведения для Топ-N кандидатов и их пересортировка.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре и использует следующие типы данных:

Системные/Внутренние данные:
- Векторы базы данных (Search Items): Высокоразмерные векторы (например, эмбеддинги документов или пользователей), которые необходимо квантовать для эффективного поиска.
Поведенческие факторы:
- Примеры запросов (Example Queries): Реальные запросы, используемые в процессе обучения. Они критически важны для оптимизации кодовых книг. Система анализирует их распределение (Query Covariance Matrix) и использует их для выявления и исправления ошибок ранжирования (Violated Constraints), вызванных квантованием.

Патент не упоминает контентные, ссылочные, технические или другие традиционные SEO-факторы, так как оперирует уже на уровне готовых векторных представлений.

Какие метрики используются и как они считаются

Внутреннее произведение (Inner Product): Основная метрика сходства между векторами, которую система пытается аппроксимировать.
Ошибка квантования (Quantization Error): Разница между точным и аппроксимированным внутренним произведением. Цель системы — минимизировать эту ошибку.
Нарушенные ограничения (Violated Constraints): Метрика качества ранжирования при квантовании. Система стремится минимизировать количество случаев, когда порядок ранжирования искажается из-за аппроксимации.
Расстояние Махаланобиса (Mahalanobis distance): Используется в одном из вариантов кластеризации для генерации кодовых книг. Оно учитывает ковариационную матрицу запросов (Query Covariance Matrix), чтобы адаптировать кластеры под реальное распределение запросов.
Целевая функция, зависящая от задачи (Task-dependent objective function): Сложная функция, которая оптимизируется для генерации кодовых книг. Она балансирует между минимизацией ошибки квантования и соблюдением ограничений ранжирования, налагаемых примерами запросов.

Фокус на инфраструктуре и масштабируемости: Патент описывает инженерные решения для ускорения и снижения ресурсоемкости векторного поиска (MIPS). Это позволяет Google применять сложные нейросетевые модели (такие как Neural Matching) в глобальном масштабе.
Адаптивное квантование на основе реальных данных: Ключевой аспект изобретения — использование реальных примеров запросов (Example Queries) для оптимизации процесса квантования. Это не просто сжатие данных, а адаптация инфраструктуры под реальное использование.
Минимизация ошибок ранжирования: Оптимизация направлена не только на точность аппроксимации значений, но и на сохранение правильного порядка ранжирования. Система активно ищет и исправляет "нарушенные ограничения" (violated constraints), когда квантование приводит к неверному ранжированию.
Необходимость для векторного поиска: Методы, подобные описанным в патенте, являются необходимым условием для работы современных систем поиска, основанных на сравнении эмбеддингов (векторов).
Отсутствие прямых SEO-выводов: Патент не содержит информации о факторах ранжирования или методах оценки качества контента. Он оперирует на уровне уже готовых векторов и их эффективной обработки.

Best practices (это мы делаем)

Этот патент носит преимущественно инфраструктурный характер и не дает прямых практических рекомендаций для SEO-специалистов по оптимизации сайтов (контент, ссылки, технические аспекты).

Единственный стратегический вывод:

Подтверждение важности семантического соответствия: Патент описывает инфраструктуру, необходимую для работы Neural Matching и других систем векторного поиска. Это косвенно подтверждает необходимость фокусироваться на глубинном семантическом соответствии контента интенту пользователя, а не на поверхностной оптимизации под ключевые слова, так как именно семантика кодируется в векторах, которые обрабатывает данная система.

Worst practices (это делать не надо)

Патент не направлен против каких-либо конкретных SEO-тактик или манипуляций.

Стратегическое значение

Патент имеет высокое стратегическое значение для понимания того, как Google решает инженерные задачи масштабирования поиска. Он подтверждает, что векторные модели являются основой современного поиска (Retrieval) и что Google вкладывает значительные ресурсы в оптимизацию их работы. Также важно отметить, что Google использует данные реальных запросов не только для обучения моделей ранжирования, но и для тонкой настройки самой инфраструктуры (в данном случае, процесса квантования), чтобы гарантировать качество поиска при использовании аппроксимаций.

Практические примеры

Практических примеров применения данного патента в SEO-работе нет, так как он описывает внутренние механизмы оптимизации вычислений Google.

Что такое MIPS и почему он важен для поиска?

MIPS (Maximum Inner Product Search) — это поиск максимального внутреннего произведения. В контексте поиска это задача нахождения документов, чьи векторы (эмбеддинги) наиболее похожи на вектор запроса. Это фундаментальная операция для систем векторного поиска, таких как Neural Matching, которая позволяет быстро находить семантически релевантные документы.

Что такое квантование векторов в этом патенте?

Квантование — это процесс сжатия данных для ускорения поиска и экономии памяти. Большой вектор разбивается на части (субпространства), и каждая часть заменяется ссылкой на ближайший предопределенный вектор из "кодовой книги" (codebook). Это позволяет аппроксимировать исходный вектор компактным кодом.

Как этот патент связан с Neural Matching?

Neural Matching использует сравнение векторов (эмбеддингов) запросов и документов для оценки релевантности. Это требует выполнения операций MIPS в огромном масштабе. Патент описывает инфраструктуру и методы оптимизации (квантование), которые делают выполнение Neural Matching быстрым и эффективным в реальной поисковой системе.

Вводит ли этот патент новые факторы ранжирования?

Нет. Патент не вводит новые факторы ранжирования и не описывает, как оценивается качество контента. Он описывает исключительно методы оптимизации вычислений (ускорение и сжатие) для уже существующих моделей ранжирования, основанных на векторах.

Зачем Google использует "Примеры запросов" (Example Queries) при квантовании?

Использование реальных запросов позволяет оптимизировать процесс квантования так, чтобы он минимально влиял на качество поиска. Система настраивает кодовые книги, чтобы минимизировать ошибки ранжирования (violated constraints) для реальных запросов, гарантируя, что аппроксимация не приведет к потере релевантности.

Что такое "Нарушенные ограничения" (Violated Constraints)?

Это ситуации, когда из-за аппроксимации (квантования) порядок ранжирования искажается. Например, если документ А более релевантен, чем Б, но после квантования аппроксимированная оценка для Б становится выше, чем для А. Система оптимизации в патенте направлена на выявление и устранение таких ситуаций.

Описывает ли патент понимание контента или его поиск?

Патент описывает исключительно эффективность поиска (Retrieval). Он не касается того, как Google понимает контент (NLP, NLU) или генерирует исходные векторы (эмбеддинги). Он решает задачу быстрого сравнения уже готовых векторов.

Влияет ли этот механизм на мобильный поиск?

Да, патент прямо указывает, что снижение потребления памяти за счет квантования делает этот метод привлекательным для использования на мобильных платформах, где ресурсы ограничены. Это позволяет реализовать сложный векторный поиск прямо на устройстве или снизить нагрузку на серверы.

Могут ли SEO-специалисты как-то повлиять на процесс квантования своих страниц?

Нет. Это полностью внутренний инфраструктурный процесс Google. SEO-специалисты могут влиять только на исходные векторы (эмбеддинги) своих страниц путем создания качественного и семантически релевантного контента, но не на то, как эти векторы будут сжаты и обработаны системой.

Каков главный вывод из этого патента для SEO-специалиста?

Главный вывод — понимание того, насколько глубоко векторный поиск интегрирован в инфраструктуру Google и какие сложные инженерные методы используются для его работы. Это подтверждает долгосрочный тренд на семантическое соответствие как основу релевантности, но не дает новых инструментов для оптимизации.

Как Google оптимизирует скорость и точность векторного поиска (MIPS) с помощью локального ортогонального разложения (LOD)

Патент Google, описывающий инфраструктурный метод повышения точности семантического поиска (Maximum Inner Product Search). Система использует технику Local Orthogonal Decomposition (LOD) для более эффективного сжатия (квантования) векторных эмбеддингов. Это позволяет быстрее и точнее находить документы, семантически схожие с запросом пользователя, улучшая работу систем типа Neural Matching.

US11354287B2
2022-06-07

Семантика и интент
Индексация

Как Google моделирует неопределенность и широту темы, используя вероятностные распределения вместо векторных точек

Google использует метод для улучшения dense retrieval, представляя запросы и документы не как отдельные точки (векторы) в семантическом пространстве, а как многомерные вероятностные распределения (области). Это позволяет системе учитывать неопределенность в понимании контента и широту охвата темы, повышая точность поиска за счет сравнения этих распределений.

US20240354557A1
2024-10-24

Семантика и интент

Как Google разделяет визуальные паттерны (Shape) и их интенсивность (Gain) для точного и быстрого поиска похожих изображений

Google использует метод квантования "Shape-Gain" для повышения точности и скорости поиска похожих изображений. Система разделяет векторы признаков на направление (Shape/Форма, определяющее визуальный паттерн) и магнитуду (Gain/Усиление, определяющее интенсивность). Раздельное кодирование этих компонентов позволяет создавать более точные компактные коды (хэши) для эффективного сравнения миллиардов изображений.

US20150169644A1
2015-06-18

Мультимедиа
Индексация

Как Google использует векторный поиск (ANN) и многоэтапное ранжирование (L1/L2/L3) для нахождения похожих объектов

Этот патент описывает архитектуру поисковой системы (на примере 3D-моделей), которая критически важна для понимания современного веб-поиска. Google применяет векторный поиск (ANN) для быстрого отбора кандидатов (L1) и многоэтапное ранжирование (L2/L3), используя разные наборы признаков и составные функции оценки на каждом этапе для повышения эффективности и точности.

US8606774B1
2013-12-10

Индексация

Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов и механизм импутации

Google патентует высокоэффективную систему нейронного поиска (Contextualized Token Retriever). Она обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных контекстуализированных токенов между запросом и документом. Ключевое нововведение — механизм импутации, который позволяет рассчитывать релевантность, используя только предварительно извлеченные векторы, что радикально снижает вычислительные затраты.

US20250217373A1
2025-07-03

Семантика и интент
Индексация
SERP

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента

Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.

US9213745B1
2015-12-15

Семантика и интент
EEAT и качество
SERP

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP