Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов и механизм импутации

CONTEXTUALIZED TOKEN RETRIEVER (Контекстуализированный поисковик токенов)

US20250217373A1
Google LLC
2024-12-30
2025-07-03

Google патентует высокоэффективную систему нейронного поиска (Contextualized Token Retriever). Она обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных контекстуализированных токенов между запросом и документом. Ключевое нововведение — механизм импутации, который позволяет рассчитывать релевантность, используя только предварительно извлеченные векторы, что радикально снижает вычислительные затраты.

Какую проблему решает

Патент решает проблему баланса между точностью и эффективностью в нейронном поиске (Neural Information Retrieval). Модели, использующие взаимодействие на уровне токенов (token-level interactions, также известные как модели позднего взаимодействия, Late Interaction models), обеспечивают высокую точность, так как детально сравнивают каждый токен запроса с каждым токеном документа. Однако они требуют значительных вычислительных ресурсов и памяти. Цель изобретения — сохранить высокую точность этих моделей при радикальном повышении их эффективности (в патенте упоминается сокращение FLOPS более чем в 4000 раз).

Что запатентовано

Запатентована система информационного поиска (Contextualized Token Retriever, XTR), которая рассчитывает оценки релевантности (Relevance Scores), используя только предварительно извлеченные векторы токенов документов-кандидатов, а не все их векторы. Это достигается за счет механизма импутации (Imputed Value): если токены документа не входят в число наиболее похожих на токен запроса, система подставляет базовое значение вместо вычисления фактической схожести, экономя ресурсы.

Как это работает

Система работает следующим образом:

Индексирование (Офлайн): Document Encoder Neural Network (например, BERT, T5, Gemini) обрабатывает документы и генерирует контекстуализированные векторы для каждого токена.
Обработка запроса (Онлайн): Query Encoder Neural Network генерирует векторы для токенов входящего запроса.
Извлечение токенов: Для каждого вектора запроса система быстро находит Топ-K наиболее похожих векторов документов из индекса.
Отбор кандидатов: Документы, которым принадлежат эти Топ-K векторы, становятся кандидатами.
Эффективная оценка: Для расчета релевантности кандидата система проверяет, присутствуют ли его векторы в уже извлеченном Топ-K наборе. Если да, используется максимальное значение схожести (MaxSim). Если нет, используется Imputed Value (например, значение схожести K-го элемента в списке).
Агрегация: Оценки по всем токенам запроса агрегируются (например, усредняются) в финальный Relevance Score.

Актуальность для SEO

Высокая. Нейронный поиск и векторные представления являются основой современного поиска Google. Повышение эффективности сложных моделей для их использования на ранних этапах ранжирования (L1 Retrieval) — критически важная задача. Этот патент описывает конкретное инженерное решение (XTR) для масштабирования высокоточных моделей с токен-уровневыми взаимодействиями.

Важность для SEO

Патент имеет высокое значение (85/100) для понимания механизмов нейронного поиска. Он подтверждает, что Google оценивает релевантность на гранулярном уровне — через взаимодействие отдельных контекстуализированных токенов. Это подчеркивает важность семантической точности и полноты контента: документ должен качественно отвечать на все аспекты запроса, чтобы максимизировать сходство токенов и избежать получения низких Imputed Values.

Термины и определения

Contextualized Token Retriever (XTR): Название системы, описанной в патенте. Эффективная система поиска, использующая контекстуализированные векторы токенов и механизм позднего взаимодействия.
Document/Query Encoder Neural Network: Нейронные сети (например, BERT, T5, Gemini), которые обрабатывают документ или запрос и генерируют последовательность контекстуализированных векторов токенов (Token Vectors). Они могут быть одной и той же сетью или разными, обученными совместно.
Token Vectors (Векторы токенов): Числовые представления (embeddings) отдельных токенов (слов, частей слов и т.д.). Они контекстуализированы, то есть отражают значение токена в его окружении.
Similarity Measure (Мера сходства): Метрика для оценки близости между векторами (например, косинусное сходство, евклидово расстояние, скалярное произведение).
Candidate Document (Документ-кандидат): Документ, у которого хотя бы один вектор токена попал в набор наиболее похожих векторов (Топ-K) для хотя бы одного токена запроса.
Query Score (Оценка по токену запроса): Промежуточная оценка схожести между одним токеном запроса и документом-кандидатом. Рассчитывается как максимальное сходство (MaxSim) или как Imputed Value.
Relevance Score (Оценка релевантности): Итоговая оценка документа, полученная путем агрегации (например, усреднения) всех Query Scores.
Imputed Value (Импутированное значение): Значение, которое присваивается Query Score во время инференса, если ни один из токенов документа не попал в Топ-K для данного токена запроса. Используется для повышения эффективности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод эффективного поиска (Inference).

Поддержание базы Document Token Vectors.
Получение запроса и генерация Query Token Vectors с помощью Query Encoder.
Для каждого вектора запроса: идентификация набора (Топ-K) наиболее похожих векторов документов.
Идентификация Candidate Documents (объединение документов, чьи токены были извлечены).
Генерация Relevance Score для каждого кандидата путем расчета Query Score для каждого токена запроса:
- Если токены кандидата присутствуют в извлеченном наборе (Топ-K) для данного токена запроса:
- Установка Query Score равной наибольшему значению меры схожести (MaxSim) между токеном запроса и этими токенами документа.
Комбинирование Query Scores для получения финального Relevance Score.

Ядро изобретения — расчет релевантности строго на основе уже извлеченных векторов, без доступа ко всем векторам документа.

Claim 4 (Зависимый от 1): Добавляет механизм импутации.

Если токены документа-кандидата отсутствуют в извлеченном наборе (Топ-K) для данного токена запроса, Query Score устанавливается равной Imputed Value.

Claim 5 (Зависимый от 4): Определяет расчет Imputed Value.

Imputed Value устанавливается равной наименьшему значению меры схожести в извлеченном наборе (Топ-K) для данного токена запроса (т.е. значению схожести K-го элемента).

Claim 9 (Независимый пункт): Описывает процесс обучения (Training) кодировщиков.

Процесс аналогичен инференсу, но цель — оптимизация целевой функции (objective function) и обновление параметров Query Encoder и Document Encoder.

Claim 11 (Зависимый от 9): Ключевое отличие процесса обучения.

Во время обучения, если токены документа-кандидата отсутствуют в извлеченном наборе, Query Score устанавливается равным нулю (а не Imputed Value).

Это критично для обучения, так как система должна быть строго наказана (высокая потеря), если она не смогла извлечь токены релевантного документа, что заставляет модель учиться генерировать лучшие представления.

Где и как применяется

Изобретение применяется на ключевых этапах поисковой архитектуры для обеспечения эффективного нейронного поиска.

INDEXING – Индексирование и извлечение признаков
Document Encoder Neural Network используется для генерации Document Token Vectors из контента. Эти векторы сохраняются в индексе, оптимизированном для быстрого векторного поиска (ANN Index).

QUNDERSTANDING – Понимание Запросов
Query Encoder Neural Network используется в реальном времени для преобразования запроса пользователя в Query Token Vectors.

RANKING – Ранжирование (L1 Retrieval и L2 Scoring)
Основное применение патента. Механизм обеспечивает эффективный отбор кандидатов и их первичную оценку.

L1 (Retrieval): Система выполняет векторный поиск для нахождения Топ-K похожих Document Token Vectors для каждого Query Token Vector и генерирует набор Candidate Documents.
L2 (Scoring): Система быстро вычисляет Relevance Scores для кандидатов, используя описанный эффективный метод позднего взаимодействия с применением Imputed Values.

Входные данные:

Запрос пользователя.
Индекс Document Token Vectors.
Параметры кодировщиков.

Выходные данные:

Набор Candidate Documents с рассчитанными Relevance Scores.

На что влияет

Типы контента и форматы: Метод универсален и может применяться к тексту, изображениям, аудио, видео и мультимодальным данным, если для них существуют соответствующие кодировщики (в патенте упоминаются BERT, T5, Gemini).
Специфические запросы: Особенно эффективен для сложных информационных запросов, состоящих из нескольких концепций, так как система оценивает соответствие по каждому токену запроса индивидуально (Late Interaction).

Когда применяется

Условия работы: Алгоритм применяется при обработке поискового запроса на этапе первичного отбора и оценки кандидатов (L1/L2).
Временные рамки: Генерация векторов документов происходит во время индексирования (офлайн). Обработка запроса, поиск и оценка происходят в реальном времени (онлайн).

Пошаговый алгоритм

Фаза 1: Индексирование (Офлайн)

Кодирование документов: Обработка каждого документа с помощью Document Encoder для генерации набора Document Token Vectors.
Индексация: Сохранение и индексация векторов для эффективного поиска ближайших соседей (ANN search).

Фаза 2: Ранжирование / Инференс (Онлайн)

Кодирование запроса: Обработка запроса с помощью Query Encoder для генерации набора Query Token Vectors (Q).
Поиск Топ-K векторов: Для каждого вектора запроса $q_i \in Q$ выполняется поиск в индексе для нахождения Топ-K наиболее похожих Document Token Vectors ( $D_i$ ).
Определение Импутированных Значений: Для каждого $q_i$ определяется Imputed Value $m_i$ (например, значение схожести K-го вектора в списке $D_i$ ).
Генерация Кандидатов: Идентификация уникальных документов (C), которым принадлежат извлеченные векторы ( $C = \cup_i D_i$ ).
Расчет Оценок Релевантности (Scoring): Для каждого документа-кандидата $c \in C$ :
1. Инициализация списка Query Scores.
2. Для каждого Query Token Vector ( $q_i$ ):
  - Проверка: Присутствуют ли векторы документа $c$ в Топ-K списке $D_i$ ?
  - Если ДА: Расчет максимальной схожести (MaxSim) между $q_i$ и векторами $c$ в этом списке. Добавление MaxSim в Query Scores.
  - Если НЕТ: Добавление Imputed Value $m_i$ в Query Scores.
3. Агрегация: Комбинирование (например, усреднение) всех Query Scores для получения финального Relevance Score документа $c$ .
Выбор результатов: Сортировка Candidate Documents по Relevance Score.

Какие данные и как использует

Данные на входе

Патент фокусируется на механизме обработки векторных представлений.

Контентные/Семантические факторы: Основные данные — это Document Token Vectors и Query Token Vectors. Это контекстуализированные эмбеддинги, сгенерированные из исходного контента (текст, мультимедиа) с помощью больших языковых моделей (LLMs). Они инкапсулируют семантическое значение контента на уровне токенов.
Мультимедиа факторы: Система может обрабатывать различные модальности, если используемые кодировщики (например, Gemini) поддерживают их и могут генерировать соответствующие токены и векторы.

Какие метрики используются и как они считаются

Similarity Measure (Мера схожести): Используется для сравнения векторов. Примеры: косинусное сходство (cosine similarity), скалярное произведение (dot product), евклидово расстояние.
MaxSim (Максимальная схожесть): Наибольшее значение Similarity Measure между конкретным токеном запроса и любым из токенов документа, попавшим в Топ-K.
Imputed Value (Импутированное значение): Базовое значение схожести. Рассчитывается как наименьшее значение сходства в Топ-K списке для данного токена запроса (Claim 5) или как предопределенная константа.
Relevance Score (Оценка релевантности): Агрегированная метрика. Рассчитывается как среднее (или сумма) всех Query Scores (MaxSim и Imputed Values) для документа. Формула усреднения: $RelevanceScore(Q, D) = \frac{1}{|Q|} \sum_{Q_i \in Q} QueryScore(Q_i, D)$ .

Токен-уровневые взаимодействия (Late Interaction) как стандарт Retrieval: Патент подтверждает, что Google использует модели позднего взаимодействия для отбора кандидатов. Система оценивает релевантность через сумму локальных взаимодействий между отдельными контекстуализированными токенами, что обеспечивает высокую точность.
Механизм импутации (Imputation) — ключ к масштабированию: Использование Imputed Values вместо фактического расчета схожести для не извлеченных токенов является ядром изобретения. Это позволяет применять сложные модели позднего взаимодействия на ранних этапах поиска (L1/L2), радикально снижая вычислительную нагрузку.
Важность соответствия всем аспектам запроса: Поскольку финальная оценка агрегирует оценки по *каждому* токену запроса, документ должен хорошо соответствовать всем частям запроса. Если документ нерелевантен части запроса, он получит низкое Imputed Value по соответствующим токенам, что снизит общий Relevance Score.
Специфичный процесс обучения для извлекаемости (Retrieval-Aware Training): Описанный процесс обучения (без импутации, с нулевой оценкой за не извлеченные токены) штрафует модели, если релевантные токены не попадают в Топ-K. Это заставляет кодировщики генерировать представления, оптимизированные именно для задачи поиска.
Семантическое соответствие критично: Для SEO это означает, что релевантность определяется тем, насколько семантически близки токены документа к токенам запроса с точки зрения нейросетевых энкодеров (BERT/Gemini). Контекст определяет векторное представление токена.

Best practices (это мы делаем)

Обеспечение полноты и комплексности контента (Topical Coverage): Создавайте контент, который полностью покрывает интент запроса и все его составные части. Пропуск одного из аспектов запроса приведет к получению низкого Imputed Value по соответствующим токенам и снижению общей релевантности.
Фокус на семантической точности и ясности изложения: Важно, чтобы ключевые концепции были четко выражены. Это увеличивает вероятность того, что Document Encoder создаст сильные векторные представления, которые достигнут высокого значения MaxSim при сравнении с токенами запроса.
Использование релевантной терминологии и сущностей: Используйте разнообразную, но точную лексику, соответствующую тематике. Это помогает гарантировать, что ваши токены будут иметь высокую схожесть с различными формулировками запроса и попадут в Топ-K при поиске.
Оптимизация под пассажи (Passage Relevance): Структурируйте контент так, чтобы ключевая информация была сконцентрирована в семантически завершенных пассажах. Модели позднего взаимодействия могут идентифицировать сильные локальные сигналы сходства в отдельных частях документа.

Worst practices (это делать не надо)

Поверхностный контент и "водянистость": Создание контента, который лишь частично затрагивает тему. Такой контент может быть отобран как кандидат, но получит много низких Imputed Values при расчете финальной оценки.
Keyword Stuffing и неестественный язык: Перенасыщение текста ключевыми словами неэффективно. Кодировщики генерируют контекстуализированные векторы; неестественное использование слов может привести к созданию нерелевантных векторных представлений.
Игнорирование второстепенных интентов в сложных запросах: Фокусировка только на основном интенте и игнорирование уточнений приведет к потере релевантности по этим аспектам из-за механизма агрегации оценок.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на использование сложных моделей машинного обучения на всех этапах поиска и демонстрирует, как решаются проблемы их масштабирования. Для SEO это означает, что семантическое соответствие становится еще более гранулярным. Стратегия должна смещаться от оптимизации под ключевые слова к оптимизации под семантические векторы и обеспечению максимального соответствия на уровне отдельных концепций (токенов) внутри контента.

Практические примеры

Сценарий: Оценка статьи по сложному запросу

Запрос: "Преимущества интервального голодания для начинающих спортсменов"

Токены запроса (упрощенно): ["Преимущества", "интервальное голодание", "начинающие", "спортсмены"]

Статья А (Комплексная): Подробно описывает плюсы голодания, дает советы новичкам, учитывает спортивную нагрузку.
- Токен "Преимущества": Высокий MaxSim.
- Токен "интервальное голодание": Высокий MaxSim.
- Токен "начинающие": Высокий MaxSim.
- Токен "спортсмены": Высокий MaxSim.
- Итог: Высокий средний Relevance Score.
Статья Б (Поверхностная): Общая статья про интервальное голодание без фокуса на спорте.
- Токен "Преимущества": Высокий MaxSim.
- Токен "интервальное голодание": Высокий MaxSim.
- Токен "начинающие": Средний MaxSim.
- Токен "спортсмены": Токены статьи Б не попали в Топ-K. Система присваивает низкий Imputed Value.
- Итог: Средний Relevance Score, ниже чем у Статьи А из-за импутации по одному из ключевых аспектов запроса.

Что такое модели позднего взаимодействия (Late Interaction Models) и почему этот патент важен для них?

Модели позднего взаимодействия рассчитывают релевантность путем анализа сходства между каждым отдельным токеном запроса и каждым токеном документа, а затем агрегируют эти взаимодействия. Это очень точно, но вычислительно дорого. Этот патент предлагает способ сделать это радикально быстрее за счет механизма импутации (Imputed Value), избегая необходимости обрабатывать все токены документа при ранжировании.

Что такое Imputed Value и как оно влияет на ранжирование?

Imputed Value — это подстановка базового (обычно низкого) значения схожести. Если при поиске Топ-K похожих векторов для токена запроса, токены вашего документа туда не попали, система не будет вычислять их фактическую схожесть. Вместо этого она использует Imputed Value. Если ваш документ часто получает Imputed Value для многих токенов запроса, его итоговый Relevance Score будет низким.

Как этот механизм связан с алгоритмами типа BERT или MUM?

BERT, MUM или Gemini (упомянутые в патенте) — это архитектуры нейронных сетей, которые используются в качестве Query Encoder и Document Encoder. Они отвечают за генерацию высококачественных контекстуализированных векторов токенов. Патент же описывает механизм (XTR), который использует эти векторы для эффективного извлечения и ранжирования документов.

Как мне оптимизировать контент, чтобы мои токены имели высокое сходство с запросом?

Фокусируйтесь на семантической насыщенности, полноте и четкости контекста. Используйте естественный язык, включайте релевантные сущности, синонимы и связанные термины, которые всесторонне описывают тему. Убедитесь, что контекст вокруг важных терминов однозначен и релевантен. Это поможет энкодеру сформировать сильные векторные представления.

На каком этапе поиска работает эта система?

Она работает на этапе INDEXING (создание векторов) и, что более важно, на этапе RANKING L1 (Retrieval) — первичном отборе кандидатов из всего индекса. Ее эффективность позволяет использовать сложные модели на этом раннем этапе для повышения качества отбора.

Что такое контекстуализированный вектор токена?

Это числовое представление слова (токена), которое учитывает его окружение в предложении и документе. Одно и то же слово может иметь разные векторы в зависимости от контекста (например, «ключ» как инструмент и «ключ» как источник воды). Это позволяет поисковой системе понимать точное значение слова в вашем контенте.

Почему система использует разную логику оценки во время обучения и во время применения (инференса)?

Во время применения система использует Imputed Value для скорости. Во время обучения система использует ноль вместо Imputed Value, если релевантные токены не были извлечены. Это создает сильный сигнал ошибки (высокую потерю), заставляя энкодеры учиться генерировать лучшие векторные представления, которые гарантируют извлечение релевантного контента в будущем.

Может ли этот механизм работать с нетекстовым контентом (например, изображениями)?

Да. Механизм универсален. Если Document Encoder способен обработать изображение (например, используя мультимодальные модели типа Gemini) и сгенерировать векторы для его частей (токенов/патчей), то описанный механизм извлечения и оценки может быть применен для поиска релевантных изображений.

Что важнее: чтобы один токен имел очень высокое сходство или чтобы много токенов имели среднее сходство?

Важнее иметь стабильно хорошее покрытие всех аспектов запроса. Поскольку итоговый Relevance Score является агрегацией (например, средним) оценок по всем токенам запроса, документ, который семантически соответствует всем частям запроса, получит более высокую оценку, чем документ, который идеально соответствует только одному слову, а по остальным получает низкий Imputed Value.

Как этот механизм влияет на ранжирование длинных документов (лонгридов)?

Он хорошо работает с длинными документами благодаря механизму позднего взаимодействия (Late Interaction). Система может идентифицировать конкретные пассажи или разделы, токены которых имеют высокую схожесть (MaxSim) с токенами запроса, и присвоить документу высокий рейтинг, даже если не весь документ одинаково релевантен.

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

US8407239B2
2013-03-26

Семантика и интент

Как Google моделирует неопределенность и широту темы, используя вероятностные распределения вместо векторных точек

Google использует метод для улучшения dense retrieval, представляя запросы и документы не как отдельные точки (векторы) в семантическом пространстве, а как многомерные вероятностные распределения (области). Это позволяет системе учитывать неопределенность в понимании контента и широту охвата темы, повышая точность поиска за счет сравнения этих распределений.

US20240354557A1
2024-10-24

Семантика и интент

Как Google планирует использовать аудио-отпечатки для поиска по голосовым запросам без распознавания речи (ASR)

Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.

US20250069593A1
2025-02-27

Семантика и интент
Мультимедиа

Как Google создает семантические векторы (эмбеддинги) для понимания смысла целых документов (Doc2Vec)

Патент описывает нейросетевой метод (известный как Doc2Vec) для преобразования документов любой длины в числовые векторы (эмбеддинги). Эти векторы фиксируют семантику и контекст всего документа, позволяя системе понимать смысл контента, классифицировать его и находить похожие документы, даже если в них используются разные слова.

US20150220833A1
2015-08-06

Семантика и интент

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту

Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.

US9244985B1
2016-01-26

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

US8572096B1
2013-10-29

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR

Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.

US9569432B1
2017-02-14

SERP
Поведенческие сигналы
Персонализация

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP