Как Google создает семантические векторы (эмбеддинги) для понимания смысла целых документов (Doc2Vec)

GENERATING VECTOR REPRESENTATIONS OF DOCUMENTS (Генерация векторных представлений документов)

US20150220833A1
Google LLC
2015-01-30
2015-08-06

Семантика и интент

Патент описывает нейросетевой метод (известный как Doc2Vec) для преобразования документов любой длины в числовые векторы (эмбеддинги). Эти векторы фиксируют семантику и контекст всего документа, позволяя системе понимать смысл контента, классифицировать его и находить похожие документы, даже если в них используются разные слова.

Какую проблему решает

Патент решает фундаментальную проблему в области Information Retrieval и NLP: как эффективно представить семантическое значение целого документа (будь то предложение, параграф или полный текст) в виде числового вектора фиксированной длины (Vector Representation или эмбеддинг). Традиционные методы (например, Bag-of-Words) теряют информацию о порядке слов и игнорируют глубокую семантику. Изобретение позволяет создавать плотные векторы, которые инкапсулируют смысл контента, что критически важно для задач классификации текста, кластеризации и семантического поиска.

Что запатентовано

Запатентована система и метод генерации векторных представлений документов с использованием нейронной сети (Neural Network System). Суть изобретения заключается в обучении модели предсказывать следующее слово в текстовой последовательности, используя в качестве контекста не только предыдущие слова, но и уникальный вектор самого документа (Document Representation). Этот метод известен в академической среде как Paragraph Vectors или Doc2Vec.

Как это работает

Система работает в два основных этапа:

Обучение (Training): Нейронная сеть обучается на большом корпусе текстов. При обработке каждого фрагмента текста система комбинирует векторы слов (Word Representations) с вектором текущего документа (Document Representation). Задача сети — предсказать следующее слово. В процессе обучения (используя Gradient Descent и Backpropagation) система одновременно оптимизирует векторы слов, векторы обучающих документов и параметры классификатора.
Вывод (Inference): Для генерации вектора нового документа система использует уже обученную модель с фиксированными (замороженными) параметрами. Вектор нового документа итеративно подбирается с помощью Gradient Descent, чтобы он наилучшим образом предсказывал слова внутри этого нового документа.

Актуальность для SEO

Критически высокая. Этот патент описывает технологию Doc2Vec, которая стала одним из фундаментальных методов в современном NLP. Хотя сейчас Google использует более сложные архитектуры (например, Трансформеры, такие как BERT и MUM), базовый принцип использования плотных векторных представлений (эмбеддингов) для понимания семантики текста лежит в основе всех современных поисковых систем.

Важность для SEO

Патент имеет фундаментальное значение (10/10) для понимания принципов работы современного поиска, хотя и описывает инфраструктурную технологию. Он объясняет механизм, позволяющий поисковой системе переходить от анализа ключевых слов к пониманию смысла, тематики и контекста всей страницы. Это основа семантического поиска и нейронного сопоставления (Neural Matching). Понимание этого патента подчеркивает необходимость фокусировки SEO-стратегии на тематической глубине, семантической связности и качестве контента, а не на манипуляциях с ключевыми словами.

Термины и определения

Vector Representation (Векторное представление / Эмбеддинг): Плотный числовой вектор, который представляет семантическое значение единицы текста. В патенте упоминаются Word Representations (для слов) и Document Representation (для документов).
Neural Network System (Нейросетевая система): Модель машинного обучения, используемая для обучения и генерации векторных представлений.
Embedding Layer (Слой эмбеддингов): Слой нейронной сети, который преобразует входные данные (идентификаторы слов и документов) в их соответствующие векторные представления.
Combining Layer (Комбинирующий слой): Слой, который объединяет Document Representation и Word Representations в единое представление (Combined Representation). Методы объединения включают конкатенацию (concatenation) или усреднение (averaging).
Classifier Layer (Слой классификатора): Выходной слой сети, который принимает Combined Representation и генерирует Word Scores.
Word Scores (Оценки слов): Выходные данные сети, представляющие предсказанную вероятность (predicted likelihood) того, что конкретное слово является следующим в данной последовательности.
Gradient Descent (Градиентный спуск): Алгоритм оптимизации, используемый для итеративной корректировки параметров сети (векторов и весов) с целью минимизации ошибки предсказания.
Backpropagation (Обратное распространение ошибки): Метод, используемый во время градиентного спуска для вычисления градиента, необходимого для обновления параметров.
Document ID (Идентификатор документа): Уникальный идентификатор, используемый для доступа к вектору конкретного документа в Embedding Layer.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых пункта, описывающих два разных процесса: вывод вектора для нового документа (Inference) и обучение самой системы (Training).

Claim 1 (Независимый пункт) - Процесс вывода (Inference): Описывает метод получения векторного представления для нового документа с использованием уже обученной нейросетевой системы.

Система получает новый документ, состоящий из последовательностей слов.
Используется обученная (trained) нейросетевая система. Эта система была обучена принимать на вход документ и последовательность слов из него и предсказывать вероятность следующего слова (Word Score).
Определение векторного представления для нового документа происходит путем итеративной подачи последовательностей слов из нового документа в обученную систему для определения вектора документа с использованием Gradient Descent.

Ключевой аспект здесь — использование обученной системы для нахождения вектора нового документа. Как указано в зависимом Claim 4, значения параметров обученной сети (векторы слов и веса классификатора) остаются фиксированными. Gradient Descent применяется итеративно только для корректировки вектора нового документа.

Claim 10 (Независимый пункт) - Процесс обучения (Training): Описывает метод обучения самой нейросетевой системы.

Система получает множество обучающих документов.
Нейросетевая система обучается на этих документах с использованием Gradient Descent и Backpropagation.
Система сконфигурирована так, чтобы принимать данные, идентифицирующие входной документ, и последовательность слов для генерации оценок следующего слова (Word Scores).
Обучение включает выполнение итераций Gradient Descent для каждой последовательности слов в каждом обучающем документе.

Этот процесс описывает первоначальное обучение модели, в ходе которого одновременно изучаются (корректируются) все параметры системы: векторы слов, векторы обучающих документов и параметры классификатора (как указано в Claims 13 и 14).

Где и как применяется

Изобретение является фундаментальной технологией обработки естественного языка и применяется на ключевых этапах работы поисковой системы.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения технологии. При обработке контента поисковая система использует модели, основанные на этом принципе (Doc2Vec или более современные аналоги), для генерации семантических эмбеддингов (Document Representation) страниц, параграфов или фрагментов текста. Этот процесс соответствует фазе Inference (Claim 1). Эти эмбеддинги сохраняются в индексе как ключевые признаки, отражающие смысл контента.

RANKING – Ранжирование (Особенно L1 Retrieval)
Документные эмбеддинги критически важны для семантического поиска (Neural Matching). На этапе отбора кандидатов (L1) система может быстро находить документы, чьи эмбеддинги семантически близки к эмбеддингу запроса, даже если ключевые слова не совпадают.

QUNDERSTANDING – Понимание Запросов
Хотя патент фокусируется на документах, описанный метод также применим для генерации векторных представлений коротких текстов, таких как поисковые запросы, что улучшает понимание интента пользователя.

Входные данные:

Необработанный текст документа (Input Document).
Последовательности слов (Word Sequence) из этого документа.
Идентификатор документа (Document ID).

Выходные данные:

Плотный числовой вектор фиксированной длины (Document Representation), представляющий семантику документа.

На что влияет

Типы контента: Влияет на все типы текстового контента. Технология позволяет понимать контекст и смысл как длинных статей (лонгридов), так и коротких фрагментов (абзацев, предложений).
Специфические запросы: Оказывает наибольшее влияние на информационные, неоднозначные и сложные запросы, где намерение пользователя не выражено явными ключевыми словами. Это основа семантического поиска.
Ниши и тематики: Влияет на все ниши, позволяя системе глубже понимать предметную область и отличать экспертный контент от поверхностного.

Когда применяется

Обучение модели (Training): Происходит офлайн, периодически, на огромных массивах данных для создания базовой модели понимания языка (Claim 10).
Генерация векторов (Inference): Происходит каждый раз, когда новый документ сканируется и индексируется, или когда существующий документ обновляется. Система генерирует его семантический вектор для сохранения в индексе (Claim 1).

Пошаговый алгоритм

Алгоритм состоит из двух отдельных процессов: Обучение модели и Вывод (Inference) вектора для нового документа.

Процесс А: Обучение модели (Training)

Цель: Изучить параметры сети, векторы слов и векторы тренировочных документов.

Инициализация: Присвоение случайных начальных значений параметрам нейронной сети (векторам слов, векторам обучающих документов, весам классификатора).
Итеративное обучение: Циклическая обработка обучающих документов и извлечение из них последовательностей слов фиксированной длины.
Получение эмбеддингов: Для текущей последовательности слов и документа их идентификаторы преобразуются в текущие векторные представления с помощью Embedding Layer.
Комбинирование: Combining Layer объединяет полученные векторы слов и вектор документа (например, путем конкатенации или усреднения) в Combined Representation.
Предсказание: Classifier Layer обрабатывает комбинированное представление для генерации Word Scores (вероятностей следующего слова).
Расчет ошибки и градиента: Вычисляется ошибка между предсказанными оценками и фактическим следующим словом в документе, затем вычисляется градиент ошибки.
Оптимизация: Используются Gradient Descent и Backpropagation для обновления всех параметров системы (векторов слов, векторов документов и весов классификатора) с целью минимизации ошибки.

Процесс Б: Генерация вектора для нового документа (Inference)

Цель: Найти оптимальный вектор для нового документа, используя обученную модель.

Инициализация и Фиксация: Инициализируется случайный вектор для нового документа. Параметры обученной модели (векторы слов и веса классификатора) фиксируются (замораживаются).
Итеративный вывод: Циклическая обработка последовательностей слов из нового документа.
Получение эмбеддингов: Слова преобразуются в их (обученные, фиксированные) векторы. Документ преобразуется в его текущий (итеративно обновляемый) вектор.
Комбинирование и Предсказание: Векторы комбинируются, и система предсказывает следующее слово.
Расчет ошибки и градиента: Вычисляется ошибка предсказания и градиент.
Оптимизация (Только вектор документа): Используются Gradient Descent и Backpropagation для обновления только вектора нового документа. Остальные параметры модели остаются неизменными.
Финализация: После завершения итераций итоговый оптимизированный вектор используется как Document Representation нового документа.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на обработке текста и не упоминает традиционные SEO-факторы (ссылки, поведение пользователей и т.д.).

Контентные факторы: Основные входные данные — это необработанные последовательности слов в документе. Порядок слов и их близость друг к другу являются критически важными, так как модель обучается предсказывать следующее слово на основе контекста.
Технические факторы: Используется Document ID для идентификации документа.

Патент подчеркивает, что обучение может проводиться на неразмеченных данных (unlabeled training documents).

Какие метрики используются и как они считаются

Патент описывает архитектуру нейронной сети и методы ее оптимизации:

Архитектура модели: Используется многослойная нейронная сеть, включающая Embedding Layer, Combining Layer и Classifier Layer.
Методы анализа текста (NLP): Используется принцип дистрибутивной семантики — генерация плотных векторных представлений (эмбеддингов).
Алгоритмы машинного обучения: Обучение и вывод основаны на методах оптимизации Gradient Descent и Backpropagation.
Целевая функция: Цель оптимизации — максимизировать предсказанную вероятность (Word Score) фактически следующего слова в последовательности.
Методы комбинирования: Упоминаются конкатенация (concatenation) и усреднение (averaging) векторов на Combining Layer.

Фундамент семантического понимания (Doc2Vec): Патент описывает технологию (Doc2Vec), которая позволяет перейти от поверхностного сопоставления ключевых слов к глубокому пониманию смысла контента. Документы преобразуются в семантические векторы.
Контекст всего документа: Ключевая инновация заключается в том, что вектор документа используется как глобальный контекст или "память" при интерпретации слов внутри него. Это позволяет уловить общую тематику и нюансы смысла.
Семантическая близость: Сгенерированные векторные представления обладают свойством семантической близости: документы с похожим смыслом или тематикой будут иметь близкие векторы в векторном пространстве. Это основа для работы алгоритмов Neural Matching.
Масштабируемость и Неконтролируемое обучение: Метод является неконтролируемым (unsupervised learning), то есть не требует предварительно размеченных данных для обучения. Это позволяет обучать модель на огромных объемах неструктурированного текста.
Двухэтапный процесс: Четко разделены процесс обучения базовой модели (Training) и процесс генерации вектора для нового документа (Inference), что позволяет системе эффективно обрабатывать новый контент без необходимости полного переобучения модели.

Best practices (это мы делаем)

Фокус на семантической связности и логике изложения: Порядок слов и структура предложений имеют значение. Контент должен быть логичным, связным и хорошо структурированным. Это помогает системе сформировать четкий семантический вектор документа.
Тематическая глубина и полнота (Topical Depth): Создавайте контент, который всесторонне раскрывает тему. Чем полнее и глубже проработан материал, тем более качественным и семантически богатым будет его Vector Representation.
Оптимизация под темы, а не ключевые слова: Сосредоточьтесь на создании лучшего контента по теме, используя естественный язык, синонимы и релевантные термины (сущности). Система понимает смысл через эмбеддинги, а не через плотность ключевых слов.
Четкая тематическая направленность страницы (Coherence): Убедитесь, что страница посвящена одной основной теме. Смешивание несвязанных тем на одной странице может привести к формированию "размытого" семантического вектора, усложняя классификацию и ранжирование.

Worst practices (это делать не надо)

Keyword Stuffing (Переспам): Насыщение текста ключевыми словами нарушает естественную структуру языка и ухудшает качество контекста, что негативно влияет на формирование эмбеддинга.
Бессвязный или автоматически сгенерированный контент: Тексты, лишенные логики и семантической связи между предложениями, будут плохо интерпретированы моделью, так как задача предсказания следующего слова на таком контенте дает слабые результаты.
Игнорирование порядка слов и структуры: Отношение к тексту как к простому "мешку слов" (Bag-of-Words) противоречит принципам работы этой технологии, которая явно учитывает последовательность слов.
Фокус только на Exact Match Keywords: Попытки оптимизации исключительно под точное вхождение ключевых фраз неэффективны, так как система ищет семантическое соответствие через векторы.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на понимание естественного языка и семантический поиск. Для SEO это означает, что долгосрочная стратегия должна быть направлена на построение тематического авторитета (Topical Authority) и создание контента, который демонстрирует глубокое понимание предметной области. Технологии, основанные на векторных представлениях, позволяют Google оценивать релевантность и качество контента на уровне смысла, делая многие традиционные SEO-тактики устаревшими.

Практические примеры

Сценарий: Оптимизация статьи для семантического соответствия

Задача: Улучшить Document Vector Representation статьи о пользе авокадо.

Плохая практика (Фокус на ключевых словах):
Текст: "Польза авокадо велика. Авокадо полезно для здоровья. Если вы ищете пользу авокадо, ешьте авокадо каждый день. Авокадо содержит жиры."
Проблема: Текст неестественный, повторяющийся. Модели будет сложно предсказывать слова из-за искусственной структуры. Вектор будет сильно смещен в сторону точного термина "авокадо", но слабо отражать связанные концепции.

Хорошая практика (Фокус на семантике и согласованности):
Текст: "Авокадо является источником полезных мононенасыщенных жиров, которые поддерживают здоровье сердца. Этот фрукт также богат калием и клетчаткой, способствуя нормализации пищеварения. Включение его в рацион может помочь контролировать уровень холестерина."
Преимущество: Текст тематически согласован и семантически богат. Модель видит термины ("мононенасыщенные жиры", "калий", "клетчатка", "холестерин") в естественном контексте. Document Vector будет точно отражать тему "здоровье, питание, авокадо", что улучшит его релевантность по широкому спектру запросов.

Что такое векторное представление документа (эмбеддинг) простыми словами?

Это числовой код (вектор), который представляет собой семантическое "ДНК" документа. Он содержит информацию о смысле, тематике и контексте всего текста. Если два документа имеют похожий смысл, их векторы будут расположены близко друг к другу в математическом пространстве, даже если они используют разные слова.

Этот патент описывает Word2Vec?

Не совсем. Word2Vec генерирует векторы для отдельных слов. Этот патент, часто называемый Doc2Vec (или Paragraph Vectors), разработан тем же автором (Quoc V. Le) и расширяет идею Word2Vec для генерации векторов целых документов (предложений, параграфов, статей). Он использует похожий механизм обучения, но добавляет вектор документа в качестве глобального контекста.

Как эта технология влияет на стратегию работы с ключевыми словами?

Ключевые слова по-прежнему важны как способ понять, о чем текст, но они больше не являются конечной целью. Эта технология позволяет Google понять смысл контента за пределами конкретных слов. Стратегия должна сместиться от плотности ключевых слов к тематическому охвату, использованию синонимов, LSI-терминов и созданию семантически богатого контента.

Значит ли это, что Google точно понимает тему моей страницы?

Да, цель этой технологии — именно в этом. Генерируя Document Representation, Google получает сжатое представление о том, какова основная тема и смысл вашей страницы. Чем более четко, тематически согласованно и качественно написан контент, тем точнее будет это векторное представление.

Как я могу оптимизировать свой контент под эту технологию?

Лучшая оптимизация — это создание качественного, глубокого и хорошо структурированного контента. Убедитесь, что текст логически связан, последователен и полностью раскрывает заявленную тему. Избегайте смешивания несвязанных тем на одной странице и стремитесь к максимальной семантической ясности.

Учитывает ли эта технология порядок слов?

Да. В описанном методе порядок слов в локальном контекстном окне явно учитывается при обучении, так как система учится предсказывать следующее слово на основе последовательности предыдущих (при использовании конкатенации в Combining Layer). Это отличает данный подход от методов, рассматривающих текст как "мешок слов".

Используется ли эта технология до сих пор, или ее заменили BERT и MUM?

BERT и MUM — это более современные и мощные модели, основанные на архитектуре Трансформер. Однако они построены на тех же фундаментальных принципах использования эмбеддингов, которые описаны в этом патенте. Doc2Vec по-прежнему эффективен, но для задач, требующих более глубокого понимания контекста и связей, Google использует Трансформеры.

Как эта технология помогает Google находить похожий контент или бороться с дубликатами?

Поскольку каждый документ представлен вектором, система может легко вычислить математическое расстояние (например, косинусное сходство) между векторами двух любых документов. Если расстояние очень маленькое, документы считаются семантически похожими или даже почти полными дубликатами.

Какую роль играет "Комбинирующий слой" (Combining Layer)?

Combining Layer отвечает за интеграцию локального контекста (векторов слов в текущем фрагменте) и глобального контекста (вектора всего документа). Он объединяет эту информацию (например, через конкатенацию или усреднение) перед тем, как передать ее классификатору для предсказания следующего слова. Это ключевой механизм, позволяющий модели учитывать общую тему документа.

Зачем нужен отдельный этап вывода (Inference) для новых документов?

Обучение всей модели на миллиардах документов — очень дорогостоящий процесс. Этап Inference позволяет быстро сгенерировать вектор для нового документа, используя уже существующую, обученную модель, без необходимости ее полного переобучения. Система "подгоняет" новый вектор под фиксированные параметры модели.

Как Google использует тематические векторы, косинусное сходство и анализ когезии кластеров для автоматической классификации контента

Патент Google, описывающий технологию автоматической организации документов. Система создает тематическую сигнатуру документа (вектор тем и их весов) и сравнивает её с существующими наборами документов, используя Cosine Similarity. Затем вычисляется Оценка Уверенности на основе среднего сходства и однородности набора. Патент раскрывает фундаментальные механизмы Information Retrieval, которые Google использует для понимания семантики и оценки тематической когезии контента.

US8458194B1
2013-06-04

Семантика и интент

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google использует архитектуру нейронных сетей «Two-Tower» для семантического поиска и оценки контента

Google использует модель с двумя отдельными нейронными сетями (Two-Tower Model) для понимания семантической релевантности между запросами и контентом. Одна сеть обрабатывает запрос, другая — контент, преобразуя их в векторы (embeddings). Релевантность определяется близостью этих векторов, а не совпадением ключевых слов. Эта архитектура позволяет Google предварительно вычислять векторы для всего контента во время индексации, обеспечивая быстрый семантический поиск в реальном времени.

US11188824B2
2021-11-30

Семантика и интент
Индексация

Как Google использует нейронные сети (Pairwise Learning-to-Rank) для предсказания, какой документ пользователь откроет следующим в Google Drive или Workspace

Google использует специализированную нейронную сеть для предсказания, какие документы пользователь захочет открыть следующими в сервисах типа Google Drive. Система анализирует историю взаимодействий (редактирование, просмотры, комментарии) и временные паттерны. Результаты ранжируются с помощью модели парного обучения (Pairwise Learning-to-Rank), и для каждого документа предлагается «мотив» (причина рекомендации).

US10832130B2
2020-11-10

Персонализация
Поведенческие сигналы

Как Google моделирует неопределенность и широту темы, используя вероятностные распределения вместо векторных точек

Google использует метод для улучшения dense retrieval, представляя запросы и документы не как отдельные точки (векторы) в семантическом пространстве, а как многомерные вероятностные распределения (области). Это позволяет системе учитывать неопределенность в понимании контента и широту охвата темы, повышая точность поиска за счет сравнения этих распределений.

US20240354557A1
2024-10-24

Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы