Как Google использует архитектуру нейронных сетей «Two-Tower» для семантического поиска и оценки контента

COOPERATIVELY TRAINING AND/OR USING SEPARATE INPUT AND SUBSEQUENT CONTENT NEURAL NETWORKS FOR INFORMATION RETRIEVAL (Совместное обучение и/или использование отдельных нейронных сетей для входных данных и последующего контента в целях информационного поиска)

US11188824B2
Google LLC
2017-03-31
2021-11-30

Google использует модель с двумя отдельными нейронными сетями (Two-Tower Model) для понимания семантической релевантности между запросами и контентом. Одна сеть обрабатывает запрос, другая — контент, преобразуя их в векторы (embeddings). Релевантность определяется близостью этих векторов, а не совпадением ключевых слов. Эта архитектура позволяет Google предварительно вычислять векторы для всего контента во время индексации, обеспечивая быстрый семантический поиск в реальном времени.

Какую проблему решает

Патент решает две ключевые задачи в информационном поиске. Во-первых, он улучшает определение релевантности за пределами простого совпадения ключевых слов, позволяя системе идентифицировать семантически связанный контент, даже если в нем отсутствуют термины запроса. Во-вторых, он решает проблему вычислительной эффективности сложных нейронных моделей. Традиционные модели, анализирующие запрос и документ вместе (cross-encoders), слишком медленны для поиска в реальном времени. Предложенная архитектура позволяет выполнять глубокий семантический анализ масштабируемо и быстро.

Что запатентовано

Запатентована система информационного поиска, основанная на Relevance Model, состоящей из двух отдельных, но совместно обучаемых нейронных сетей: Input Neural Network (для запросов) и Subsequent Content Neural Network (для контента). Эта архитектура, известная как «Two-Tower Model» или сиамская сеть, позволяет преобразовывать текст в семантические векторы (embeddings). Релевантность определяется путем сравнения этих векторов (например, через скалярное произведение).

Как это работает

Система работает в три этапа:

Обучение: Обе нейронные сети обучаются совместно. На вход подаются пары «начальный контент» (например, предложение или запрос) и «последующий контент» (например, следующее предложение или ответ). Сети учатся генерировать близкие векторы для релевантных пар и далекие — для нерелевантных. Ошибка рассчитывается на основе сравнения векторов и используется для обновления обеих сетей.
Индексирование (Офлайн): Subsequent Content Neural Network используется для обработки всего корпуса документов. Для каждого сегмента текста генерируется вектор (embedding), который сохраняется в индексе.
Поиск (Онлайн): Когда поступает запрос, Input Neural Network быстро генерирует вектор запроса. Система сравнивает этот вектор с предварительно рассчитанными векторами контента в индексе (используя dot product), чтобы мгновенно найти наиболее семантически близкие результаты.

Актуальность для SEO

Критически высокая. Описанная архитектура «Two-Tower» является фундаментом современных систем нейронного поиска (Neural Retrieval) и dense passage retrieval. Она обеспечивает баланс между качеством семантического понимания (используя глубокие нейронные сети) и скоростью ответа, необходимой для работы поисковых систем в реальном времени. Участие таких изобретателей, как Raymond Kurzweil, подчеркивает стратегическую важность этого направления для Google.

Важность для SEO

Патент имеет фундаментальное значение для современного SEO (оценка 9.5/10). Он описывает механизм, который смещает фокус с лексического анализа (ключевых слов) на глубокое семантическое соответствие. Для ранжирования критически важно, чтобы семантический вектор контента был близок к вектору запроса, независимо от используемых слов. Это требует стратегии, направленной на создание контента, который всесторонне раскрывает тему, соответствует интенту пользователя и обладает высоким качеством, поскольку эти векторы также используются для оценки качества (Quality Model) и уникальности (Semantic Density Model).

Термины и определения

Relevance Model (Модель релевантности): Система, включающая две отдельные нейронные сети (Input и Subsequent Content), предназначенная для определения релевантности между входными данными и контентом.
Input Neural Network (Входная нейронная сеть): Одна из двух сетей в Relevance Model. Обрабатывает входные данные (например, запрос) и генерирует Input Vector.
Subsequent Content Neural Network (Нейронная сеть последующего контента): Вторая сеть в Relevance Model. Обрабатывает контент (например, текстовый сегмент документа) и генерирует Subsequent Content Vector. Используется офлайн для предварительного расчета векторов контента.
Initial Content / Input (Начальный контент / Входные данные): Данные, подаваемые на Input Neural Network. При обучении это может быть первое предложение или сообщение. При поиске — запрос пользователя.
Subsequent Content (Последующий контент): Данные, подаваемые на Subsequent Content Neural Network. При обучении это контент, который следует за Initial Content (например, следующее предложение или ответ на сообщение). При поиске — индексируемый контент.
Input Vector / Subsequent Content Vector (Векторы): Числовые представления (embeddings), генерируемые соответствующими нейронными сетями. Они отражают имплицитную семантическую репрезентацию текста.
Relevance Measure Module (Модуль измерения релевантности): Компонент, который сравнивает Input Vector и Subsequent Content Vector для определения степени релевантности. Обычно использует скалярное произведение (dot product).
Dot Product (Скалярное произведение): Математическая операция над двумя векторами, результат которой является скалярной величиной, используемой как мера релевантности (например, от 0 до 1).
Cooperative Training (Совместное обучение): Процесс, при котором две отдельные нейронные сети обучаются одновременно. Ошибка, рассчитанная на основе сравнения их выходных векторов, используется для обновления весов обеих сетей (backpropagation).
Quality Model (Модель качества): Дополнительная модель, которая использует вектор контента (сгенерированный Subsequent Content Neural Network) для предсказания Quality Value (оценки качества) этого контента.
Semantic Density Model (Модель семантической плотности): Модель (например, Gaussian Mixture Model), которая использует вектор контента для определения того, насколько этот контент является распространенным или уникальным (Semantic Density Value).
Text Segment (Текстовый сегмент): Единица индексируемого контента (предложение, абзац, заголовок).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс информационного поиска с использованием предобученной модели.

Система получает текстовый запрос.
Представление запроса подается на обученную Input Neural Network Model.
Генерируется вектор запроса (Query Vector).
Ключевой аспект обучения: Указывается, что эта Input Neural Network была обучена с использованием backpropagation на основе ошибок. Эти ошибки вычислялись как функция сравнения тренировочных векторов запросов (от этой сети) и векторов последующего контента (от отдельной Subsequent Content Neural Network Model).
Определяются релевантные текстовые сегменты путем сравнения Query Vector с предварительно сохраненными векторами (pre-stored vectors).
Ключевой аспект индексирования: Указывается, что эти pre-stored vectors были сгенерированы путем применения представлений текстовых сегментов к Subsequent Content Neural Network Model.
Система предоставляет результаты, основанные на этих сегментах.

Это классическое описание процесса Dense Retrieval с использованием архитектуры Two-Tower. Подтверждается, что сети обучаются совместно (на основе общих ошибок), но используются раздельно: одна для генерации вектора запроса в реальном времени, другая — для предварительной генерации векторов контента.

Claim 2 и 9 (Зависимые): Уточняют метод сравнения векторов.

Сравнение вектора запроса и предварительно сохраненного вектора основано на результате их скалярного произведения (dot product).

Dot product используется как эффективная метрика близости в векторном пространстве для определения релевантности.

Claim 3 и 10 (Зависимые): Уточняют процесс скоринга.

Ранжирование (scoring) текстового сегмента основано на результате dot product. Результат предоставляется на основе этого скоринга.

Claim 4, 6, 11, 13 (Зависимые): Описывают использование дополнительных сигналов при скоринге.

Скоринг также основывается на предварительно сохраненном значении качества (Quality Value) (Claim 4, 11).
Скоринг также основывается на предварительно сохраненном значении семантической плотности (Semantic Density Value) (Claim 6, 13).

Финальный скоринг не полагается только на семантическую близость (dot product). Он также учитывает качество и уникальность/распространенность контента.

Claim 5 и 12 (Зависимые): Уточняют, как определяется Quality Value.

Quality Value определяется путем применения предварительно сохраненного вектора контента к обученной модели качества (trained Quality Neural Network Model).

Вектор, сгенерированный Subsequent Content Neural Network, используется не только для поиска, но и как входной признак для отдельной модели, предсказывающей качество контента.

Где и как применяется

Изобретение охватывает ключевые этапы архитектуры поиска: обучение моделей, индексирование и ранжирование (поиск).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения Subsequent Content Neural Network.

Извлечение признаков: Система анализирует ресурсы и разбивает их на текстовые сегменты (Text Segment Engine).
Генерация векторов контента: Indexing Relevance Engine применяет представление каждого сегмента к Subsequent Content Neural Network для генерации семантического вектора.
Расчет дополнительных метрик: Сгенерированный вектор подается на вход Quality Model для расчета Quality Value и на вход Semantic Density Model для расчета Semantic Density Value.
Сохранение в индексе: Все эти данные (вектор, оценка качества, оценка плотности) сохраняются в индексе в ассоциации с текстовым сегментом.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Это этап применения Input Neural Network и использования предварительно рассчитанных данных.

Генерация вектора запроса: При получении запроса Retrieval Relevance Engine применяет его представление к Input Neural Network для генерации Query Vector в реальном времени.
Отбор кандидатов (Retrieval): Relevance Measure Module сравнивает Query Vector с предварительно сохраненными векторами контента в индексе. Это сравнение (dot product) позволяет быстро найти семантически близкие текстовые сегменты.
Скоринг: Scoring Engine рассчитывает итоговую оценку для кандидатов, используя меру релевантности (dot product) и, опционально, сохраненные Quality Value и Semantic Density Value.

Входные данные:

На этапе индексирования: Текстовые сегменты ресурсов и их контекст.
На этапе ранжирования: Запрос пользователя; Индекс, содержащий пре-рассчитанные векторы, Quality Values, Semantic Density Values.

Выходные данные:

На этапе индексирования: Аннотированный индекс с векторами и метриками.
На этапе ранжирования: Набор релевантных текстовых сегментов, отсортированных по итоговому скору.

На что влияет

Все типы контента и запросов: Патент описывает фундаментальный механизм определения релевантности, который может применяться ко всем типам текстового контента (веб-страницы, PDF, отзывы, комментарии) и ко всем типам запросов.
Семантическое понимание: Основное влияние — способность системы находить ответы, которые не содержат точных ключевых слов из запроса, но семантически соответствуют ему (например, ответ про «блики на экране» на запрос «Is there glare?»).
Оценка качества и уникальности: Влияет на ранжирование через интеграцию сигналов качества и семантической плотности, рассчитанных на основе тех же семантических векторов.

Когда применяется

Индексирование: Применяется постоянно при сканировании и обработке новых или обновленных ресурсов для генерации или обновления векторов и метрик.
Ранжирование: Применяется при каждом поисковом запросе для быстрого отбора кандидатов (Retrieval) на основе семантической близости векторов.

Пошаговый алгоритм

Процесс А: Совместное обучение моделей (Training)

Сбор данных: Идентифицируется пакет тренировочных примеров. Каждый пример содержит пару <Input, Subsequent Content> и метку (Positive/Negative).
Генерация векторов: Для каждого примера в пакете:
- Представление Input подается на Input Neural Network для генерации Input Vector.
- Представление Subsequent Content подается на Subsequent Content Neural Network для генерации Subsequent Content Vector.
Расчет релевантности: Вычисляется мера релевантности путем скалярного произведения (dot product) между Input Vector и Subsequent Content Vector.
Расчет ошибки: Определяется ошибка путем сравнения вычисленной релевантности с целевой меткой (Positive/Negative).
Генерация дополнительных негативных примеров (Опционально): Система может использовать векторы из разных пар внутри одного пакета для создания дополнительных негативных примеров (In-batch negatives), рассчитывая их релевантность и ошибки.
Обновление моделей: Определяется общая ошибка для пакета. Выполняется обратное распространение ошибки (backpropagation) для обновления весов как Input Neural Network, так и Subsequent Content Neural Network.

Процесс Б: Индексирование (Indexing / Offline Processing)

Идентификация ресурса и сегментация: Ресурс идентифицируется и разбивается на текстовые сегменты.
Генерация вектора контента: Представление текстового сегмента (и опционально его контекста) подается на обученную Subsequent Content Neural Network для генерации вектора контента.
Расчет дополнительных метрик:
- Вектор контента подается на Quality Model для генерации Quality Value.
- Вектор контента подается на Semantic Density Model для генерации Semantic Density Value.
Сохранение: Вектор контента, Quality Value и Semantic Density Value сохраняются в индексе в ассоциации с сегментом.

Процесс В: Поиск (Retrieval / Online Processing)

Получение запроса: Система получает запрос пользователя.
Генерация вектора запроса: Представление запроса подается на обученную Input Neural Network для генерации Query Vector.
Поиск кандидатов: Query Vector сравнивается с предварительно сохраненными векторами контента в индексе (например, с использованием Approximate Nearest Neighbor поиска для эффективности).
Скоринг: Идентифицированные кандидаты оцениваются. Скор рассчитывается на основе сравнения векторов (dot product) и, опционально, с учетом Quality Value и Semantic Density Value.
Предоставление результатов: Результаты, основанные на отсортированных текстовых сегментах, предоставляются пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке текстовых данных и использовании производных метрик.

Контентные факторы (Текст): Основные данные — это текст запросов (Input) и текст индексируемых ресурсов (Subsequent Content). Они преобразуются в числовые представления (например, bag-of-words embeddings n-грамм, или выходные состояния LSTM) для подачи на нейронные сети. Также используется контекст контента (например, окружающий текст, заголовки).
Поведенческие факторы (для обучения Quality Model): В патенте упоминается, что Training Quality Value для обучения Quality Model может основываться на индикаторах качества, таких как количество upvotes/downvotes (голосов за/против) контента (например, комментариев).

Какие метрики используются и как они считаются

Input Vector / Subsequent Content Vector (Embeddings): Генерируются соответствующими нейронными сетями. Это плотные векторы, фиксированной размерности, представляющие семантику текста.
Relevance Value (Мера релевантности): Рассчитывается как скалярное произведение (dot product) между Input Vector и Subsequent Content Vector. Результат — скалярная величина (например, от 0 до 1), указывающая на семантическую близость.
Quality Value (Оценка качества): Рассчитывается путем подачи Subsequent Content Vector на вход Quality Model (отдельная нейронная сеть). Результат — скалярная величина, предсказывающая качество контента.
Semantic Density Value (Оценка семантической плотности): Рассчитывается путем подачи Subsequent Content Vector на вход Semantic Density Model (например, Gaussian Mixture Model, обученной на большом количестве векторов). Результат указывает, насколько распространенным или уникальным является данный семантический вектор по сравнению с другими векторами в индексе.
Error (Ошибка при обучении): Разница между предсказанной релевантностью (dot product) и фактической релевантностью (метка Positive/Negative). Используется для обновления весов сетей через backpropagation.

Фундамент семантического поиска: Патент описывает архитектуру «Two-Tower», которая является основой для реализации нейронного поиска (Dense Retrieval) в Google. Это подтверждает, что релевантность определяется через семантическую близость векторов (embeddings), а не через лексическое совпадение (ключевые слова).
Эффективность и масштабируемость: Ключевое преимущество системы — возможность предварительного расчета векторов для всего контента офлайн с помощью Subsequent Content Neural Network. Это позволяет выполнять быстрый семантический поиск в реальном времени, используя только Input Neural Network для обработки запроса.
Обучение на основе контекста и ответов: Модели обучаются предсказывать «последующий контент» (следующее предложение, ответ на сообщение). Это означает, что система учится понимать естественное течение разговора, контекст и интент, лежащий за текстом.
Интеграция сигналов качества и уникальности: Векторы контента используются не только для поиска, но и как входные данные для Quality Model и Semantic Density Model. Финальный скоринг учитывает не только релевантность (dot product), но и качество, и уникальность контента.
Важность качества контента (E-E-A-T): Наличие Quality Model, обучаемой на основе пользовательских сигналов (например, upvotes) и текстовых паттернов (через векторы), подчеркивает, что контент должен соответствовать критериям качества, чтобы ранжироваться высоко, даже если он семантически релевантен.
Важность уникальности (Semantic Density): Использование Semantic Density Model предполагает, что контент, который является слишком распространенным или повторяющимся (имеет вектор, близкий ко многим другим векторам), может оцениваться иначе, чем уникальный и информативный контент.

Best practices (это мы делаем)

Фокус на семантическом соответствии и раскрытии темы (Topical Authority): Создавайте контент, который всесторонне покрывает тему и отвечает на интент пользователя, а не оптимизирован под отдельные ключевые слова. Необходимо обеспечить, чтобы семантический вектор вашего контента был максимально близок к векторам запросов, связанных с вашей темой.
Обеспечение логической структуры и контекста: Поскольку модели обучаются на парах «начальный» и «последующий» контент, важно, чтобы текст был когерентным, логически структурированным и содержал достаточный контекст. Каждый сегмент текста (предложение, абзац) должен естественно вытекать из предыдущего.
Повышение качества контента (E-E-A-T): Инвестируйте в создание экспертного и авторитетного контента. Quality Model использует те же семантические векторы для оценки качества. Контент должен демонстрировать паттерны, которые система ассоциирует с высоким качеством (например, глубина анализа, ясность изложения, достоверность).
Создание уникальной ценности (Semantic Density): Стремитесь создавать контент, который предлагает уникальную информацию или новый взгляд на тему. Избегайте поверхностного рерайтинга существующего контента, так как он будет иметь высокую семантическую плотность (будет слишком похож на множество других документов) и может быть пессимизирован.
Оптимизация под Passage Retrieval: Убедитесь, что ключевая информация содержится в четких, самодостаточных абзацах. Система индексирует векторы для отдельных текстовых сегментов, и эти сегменты могут ранжироваться независимо.

Worst practices (это делать не надо)

Keyword Stuffing и фокус на лексическом совпадении: Попытки манипулировать ранжированием путем повторения ключевых слов или создания текста только для совпадения с терминами запроса неэффективны. Система определяет релевантность на основе векторов, а не наличия слов.
Создание поверхностного или шаблонного контента: Контент, который не несет уникальной ценности и повторяет общеизвестную информацию, будет иметь неоптимальный Semantic Density Value и, вероятно, низкий Quality Value.
Игнорирование структуры и контекста: Бессвязный текст, отсутствие четкой структуры или недостаток контекста приведут к генерации некачественных семантических векторов, что ухудшит как определение релевантности, так и оценку качества.

Стратегическое значение

Этот патент описывает инфраструктуру, которая делает возможным переход Google к полностью семантическому поиску. Он подтверждает, что будущее SEO лежит в области понимания того, как нейронные сети интерпретируют контент. Стратегический приоритет смещается от традиционной оптимизации под ключевые слова к оптимизации под семантические векторы. Это требует глубокого понимания темы, интента пользователя и создания контента, который по своей сути является качественным, уникальным и контекстуально богатым.

Практические примеры

Сценарий: Оптимизация статьи о питании для собак

Плохая практика (фокус на ключевых словах): Статья с заголовком «Лучший корм для собак: кормление собак и еда для собак». Текст повторяет фразы «лучший корм» и «еда для собак», но не дает конкретных рекомендаций по выбору или анализу ингредиентов.

Хорошая практика (фокус на семантике и качестве):

Анализ интента: Пользователь хочет понять, как выбрать корм и какие ингредиенты важны.
Создание контента: Статья с заголовком «Как выбрать корм для собаки: руководство по ингредиентам и питанию».
Структура и контекст: Отдельные абзацы посвящены белкам, углеводам, витаминам, и потребностям разных пород. Текст логичен и последователен.
Ожидаемый результат (по патенту):
- Subsequent Content NN генерирует качественные векторы для каждого абзаца.
- Quality Model присваивает высокий Quality Value.
- Semantic Density Model определяет контент как информативный (оптимальная плотность).
- При запросе «что должно быть в хорошем собачьем корме» (даже если этих слов нет в тексте), Input NN генерирует вектор запроса, который будет близок (высокий dot product) к векторам абзацев про ингредиенты, что приведет к высокому ранжированию.

Что такое архитектура «Two-Tower», описанная в патенте, и почему она важна?

Это архитектура модели релевантности, состоящая из двух отдельных нейронных сетей: одна для обработки запроса (Input NN), другая для обработки контента (Subsequent Content NN). Ее важность заключается в эффективности: она позволяет предварительно рассчитать семантические векторы (embeddings) для всех документов офлайн. Во время поиска нужно только рассчитать вектор запроса и сравнить его с готовыми векторами, что делает глубокий семантический поиск быстрым и масштабируемым.

Как система определяет релевантность, если в запросе и контенте нет общих слов?

Система определяет релевантность на основе семантической близости векторов, а не совпадения слов. Обе нейронные сети обучаются понимать смысл текста и генерировать близкие векторы для семантически связанных понятий. Релевантность измеряется с помощью скалярного произведения (dot product) между вектором запроса и вектором контента; чем выше результат, тем выше релевантность.

Что такое «Subsequent Content» и как это влияет на создание контента?

«Subsequent Content» (Последующий контент) — это данные, используемые для обучения модели. Это может быть следующее предложение в тексте или ответ на сообщение. Это означает, что Google обучает свои модели понимать логическую последовательность и контекст. Для SEO это подчеркивает важность создания когерентного, хорошо структурированного контента, где каждая часть логически связана с предыдущей.

Что такое Quality Model и как она связана с E-E-A-T?

Quality Model — это отдельная модель, которая использует семантический вектор контента (тот же, что и для поиска) для предсказания качества этого контента. Она обучается на примерах высококачественного и низкокачественного контента. Это механизм, с помощью которого Google может алгоритмически оценивать признаки E-E-A-T, анализируя текстовые паттерны и глубину экспертизы, отраженные в семантическом векторе.

Что такое Semantic Density Model и почему уникальность контента важна?

Semantic Density Model оценивает, насколько распространенным или уникальным является семантический вектор контента по сравнению с другими векторами в индексе. Если контент слишком похож на множество других документов (высокая плотность/распространенность), это может повлиять на его скоринг. Это подчеркивает важность создания уникальной ценности, а не простого рерайтинга существующих материалов.

Влияет ли этот патент на оптимизацию под ключевые слова?

Да, он значительно снижает важность точного вхождения ключевых слов. Хотя лексическое совпадение все еще может играть роль в других частях алгоритма, этот патент описывает механизм поиска, который полагается на семантику. Стратегии, основанные на плотности ключевых слов или неестественном их использовании, становятся неэффективными против этой системы.

Как этот патент связан с Passage Ranking (Passage Retrieval)?

Патент напрямую поддерживает Passage Retrieval. В нем описано, что система индексирует векторы для отдельных «текстовых сегментов» (Text Segments), а не только для всего документа. Это позволяет Google находить и ранжировать конкретные абзацы или предложения, которые семантически релевантны запросу, даже если весь документ в целом менее релевантен.

Что такое «Cooperative Training» и почему сети обучаются вместе?

Совместное обучение означает, что хотя сети раздельные, они обучаются одновременно с использованием общей функции потерь (ошибки). Ошибка рассчитывается на основе сравнения выходных данных обеих сетей. Это необходимо для того, чтобы обе сети научились проецировать запросы и релевантный контент в одно и то же семантическое векторное пространство.

Используются ли Quality Value и Semantic Density Value при финальном ранжировании?

Да. Согласно патенту (Claims 4, 6, 11, 13), финальный скоринг основывается не только на мере релевантности (dot product), но также учитывает предварительно рассчитанные Quality Value и Semantic Density Value. Это означает, что релевантный контент может быть понижен, если он низкого качества или неуникален.

Как SEO-специалисту оптимизировать контент под эту модель?

Необходимо сосредоточиться на трех аспектах: семантическом соответствии интенту, качестве и уникальности. Создавайте экспертный контент, который глубоко раскрывает тему, имеет четкую логическую структуру и предлагает уникальную ценность. Убедитесь, что каждый абзац несет смысловую нагрузку и может выступать как самостоятельный ответ на потенциальный запрос.

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google создает семантические векторы (эмбеддинги) для понимания смысла целых документов (Doc2Vec)

Патент описывает нейросетевой метод (известный как Doc2Vec) для преобразования документов любой длины в числовые векторы (эмбеддинги). Эти векторы фиксируют семантику и контекст всего документа, позволяя системе понимать смысл контента, классифицировать его и находить похожие документы, даже если в них используются разные слова.

US20150220833A1
2015-08-06

Семантика и интент

Как Google использует нейронные сети (Pairwise Learning-to-Rank) для предсказания, какой документ пользователь откроет следующим в Google Drive или Workspace

Google использует специализированную нейронную сеть для предсказания, какие документы пользователь захочет открыть следующими в сервисах типа Google Drive. Система анализирует историю взаимодействий (редактирование, просмотры, комментарии) и временные паттерны. Результаты ранжируются с помощью модели парного обучения (Pairwise Learning-to-Rank), и для каждого документа предлагается «мотив» (причина рекомендации).

US10832130B2
2020-11-10

Персонализация
Поведенческие сигналы

Как Google использует нейронные сети для создания «прощающих» хешей и эффективного поиска похожего мультимедийного контента

Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.

US7831531B1
2010-11-09

Индексация
Мультимедиа

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)

Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.

US12314275B2
2025-05-27

Семантика и интент

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация