Как Google оптимизирует индекс, сохраняя только те части документов, которые отвечают на запросы пользователей

SELECTIVE INDEXING OF CONTENT PORTIONS (Выборочное индексирование частей контента)

US8655886B1
Google LLC
2011-03-25
2014-02-18

Google может оптимизировать размер и скорость своего индекса, анализируя, какие части документа использовались для ответа на запросы пользователей. Части, которые редко используются, удаляются из индекса, а сохраняются только наиболее востребованные фрагменты.

Какую проблему решает

Патент решает проблему неэффективного использования вычислительных ресурсов (памяти и процессорной мощности), вызванную индексированием документов целиком. Зачастую только определенные части документа необходимы для удовлетворения запросов пользователей. Индексирование и хранение неиспользуемого контента замедляет работу поиска и увеличивает затраты на инфраструктуру.

Что запатентовано

Запатентована система для выборочного сохранения в поисковом индексе только наиболее полезных частей (portions) контентных файлов. Система отслеживает, какие именно части документа удовлетворяют запросы пользователей, присваивает им оценки (values) на основе частоты использования и периодически очищает индекс от частей с низкой оценкой.

Как это работает

Система работает в несколько этапов:

Разделение: Документы разделяются на части (portions), например, по параграфам или на основе сниппетов.
Мониторинг: Система отслеживает поисковые запросы и определяет, какие части документа содержат соответствующие ключевые слова (inclusive portions).
Оценка: Для каждой части ведется учет того, как часто она используется для формирования выдачи.
Отбор: Периодически части, чьи оценки превышают определенный порог, помечаются как сохраняемые части (retained portions).
Обновление индекса: Индекс обновляется: полные документы заменяются только сохраняемыми частями, остальное отбрасывается.

Актуальность для SEO

Высокая. Оптимизация индекса критически важна для Google, особенно с учетом экспоненциального роста веба и необходимости быстрого поиска (L1 Ranking). Технологии частичного индексирования (Partial Indexing) и понимания отдельных пассажей (Passage Understanding) крайне актуальны в 2025 году. Этот патент описывает фундаментальный механизм для такой оптимизации.

Важность для SEO

Патент имеет значительное влияние на стратегию индексирования. Он описывает механизм, из-за которого контент, не удовлетворяющий запросы пользователей достаточно часто, может быть исключен из первичного (быстрого) индекса. SEO-специалисты должны гарантировать, что ключевой контент четко соответствует реальному поисковому поведению и интенту пользователей, чтобы обеспечить его сохранение в индексе.

Термины и определения

Content File (Контентный файл): Документ, веб-страница или любой другой медиа-объект, подлежащий индексированию.
Index (Индекс): База данных, используемая поисковой системой для хранения и поиска информации о контентных файлах.
Inclusive Portion (Включающая часть): Часть контентного файла, которая содержит ключевое слово (или связанный термин) из запроса пользователя и которая послужила основанием для включения файла в результаты поиска.
Index Builder (Построитель индекса): Компонент, отвечающий за первоначальный анализ и индексирование контента. Может выполнять предварительную фильтрацию.
Index Updater (Обновитель индекса): Компонент, который обновляет индекс, заменяя исходные индексированные файлы их сохраняемыми частями.
Keyword (Ключевое слово): Термин или фраза в запросе пользователя.
Portion (Часть): Определенный сегмент контентного файла (например, параграф, предложение, сниппет).
Portion Evaluator (Оценщик частей): Компонент, который определяет Inclusive Portions и присваивает им оценки (values).
Portion Selector (Селектор частей): Компонент, который на основе оценок выбирает Retained Portions, используя пороговое значение.
Retained Portion (Сохраняемая часть): Часть контентного файла, которая имеет достаточно высокую оценку (value) и остается в индексе после оптимизации.
Snippet (Сниппет): Фрагмент контента, отображаемый в результатах поиска. Может использоваться для определения Portions.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс оптимизации индекса.

Система хранит индекс документов, разделенных на части (portions).
Мониторятся запросы пользователей.
Определяются Inclusive Portions — части документов, которые отвечают на запрос.
Обновляются оценки (values) для этих частей. Уточняется, что обновленная оценка для конкретной части представляет собой количество раз, когда эта часть была признана отвечающей на запросы пользователей.
На основе обновленных оценок выбираются Retained Portions.
Индекс обновляется: части исходных документов заменяются только выбранными Retained Portions.

Claim 7 (Зависимый): Уточняет, как могут определяться Inclusive Portions. Поисковая система предоставляет результаты поиска, включающие сниппеты (snippets). Эти сниппеты могут использоваться для определения Inclusive Portions.

Claim 8 (Зависимый): Уточняет механизм обновления оценок. Оценка обновляется путем увеличения соответствующего значения для каждой Inclusive Portion при каждом случае предоставления документа в ответ на запрос.

Claim 12 (Зависимый): Уточняет механизм выбора. Retained Portions выбираются путем сравнения их оценок с пороговым значением (threshold value).

Claim 15 (Зависимый): Описывает возможность использования двухъярусной системы индексирования. Оптимизированный индекс (где документы заменены на Retained Portions) является первым индексом. Система также включает второй индекс, который сохраняет полные версии документов даже после обновления первого индекса.

Где и как применяется

Изобретение в первую очередь относится к этапу INDEXING (Индексирование и извлечение признаков), конкретно к оптимизации хранения данных в индексе.

INDEXING – Индексирование и извлечение признаков

Предварительная обработка: Index Builder может выполнять начальную фильтрацию или усечение документов перед индексацией (например, на основе TF-IDF или шаблонов).
Сегментация: Portion Evaluator определяет границы частей (Portions) внутри документов.
Оптимизация хранения: Index Updater периодически перестраивает индекс, удаляя неиспользуемые части для экономии места и ускорения доступа.

RANKING – Ранжирование
Система использует данные, генерируемые на этапе ранжирования, для оптимизации индекса. Request Monitor отслеживает, какие документы и, что более важно, какие части этих документов (Inclusive Portions) используются для удовлетворения запросов на этапе Retrieval (L1).

Взаимодействие компонентов:
Index Manager (управляющий индексом) тесно взаимодействует с Search Manager (управляющим поиском). Request Monitor наблюдает за активностью Search Manager (какие запросы поступают и какие результаты возвращаются). Portion Evaluator использует эти данные для обновления Portion Value Repository. Portion Selector и Index Updater используют эти оценки для модификации Index.

Входные данные:

Индексированные документы (Content Files).
Поток пользовательских запросов (User Requests) и ключевых слов (Keywords).
Результаты поиска, включая информацию о том, какие документы были возвращены и какие сниппеты были сгенерированы.

Выходные данные:

Оптимизированный индекс, содержащий только Retained Portions для обработанных документов.

На что влияет

Типы контента: Влияет на все типы индексируемого контента.
Форматы контента: Наиболее критично для длинных документов, где значительные части могут быть нерелевантны частым запросам (например, длинные условия использования, обширные нижние колонтитулы, неструктурированные форумы, документы с большим количеством комментариев).

Когда применяется

Мониторинг и оценка: Происходят непрерывно по мере поступления запросов пользователей.
Отбор и обновление индекса: Происходят периодически. Триггером для активации процесса оптимизации является прохождение достаточного количества времени или обработка достаточного количества запросов, чтобы накопить статистически значимые данные об использовании частей контента.

Пошаговый алгоритм

Процесс можно разделить на две фазы: непрерывный мониторинг и периодическая оптимизация.

Фаза А: Предварительная подготовка (Однократно или редко)

Индексирование и фильтрация: Index Builder получает документы. Может применяться предварительная фильтрация (усечение длинных документов, удаление boilerplate по шаблонам, фильтрация по TF-IDF). Оставшийся контент индексируется.
Идентификация частей: Portion Evaluator определяет границы частей (Portions) в индексированных документах (например, по параграфам, предложениям или фиксированному числу слов).

Фаза Б: Непрерывный мониторинг (Постоянно)

Получение запроса и результатов: Search Manager получает запрос и предоставляет результаты. Request Monitor отслеживает этот процесс.
Идентификация включающих частей: Portion Evaluator определяет, какие части возвращенных документов содержат ключевые слова запроса (Inclusive Portions). Это может быть сделано на основе того, откуда был взят сниппет.
Присвоение/Обновление оценки: Portion Evaluator увеличивает счетчик (value) для каждой идентифицированной Inclusive Portion в Portion Value Repository.

Фаза В: Периодическая оптимизация (По расписанию)

Проверка триггера: Система проверяет, прошло ли достаточно времени или обработано ли достаточно запросов с момента последней оптимизации.
Установка порога: Portion Selector устанавливает пороговое значение (threshold) для оценок. Порог может быть динамическим и корректироваться для контроля размера индекса.
Сравнение и отбор: Оценки всех частей сравниваются с порогом. Части, превышающие порог, выбираются как Retained Portions.
Обновление индекса: Index Updater обновляет индекс, заменяя исходные индексированные документы только их Retained Portions. Несохраняемые части удаляются из этого индекса.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа и его структура (параграфы, предложения) используются для определения границ Portions.
Поведенческие факторы: Ключевые данные для этого патента. Система использует:
- Журналы запросов (User Requests) и ключевые слова (Keywords).
- Данные о том, какие документы были показаны в ответ на запросы.
- Сгенерированные сниппеты (Snippets) – используются как способ определения Inclusive Portions (Claim 7).
- В одном из вариантов реализации (Claim 11) упоминается возможность использования данных о выборе документа пользователем (клики) для обновления оценок.

Какие метрики используются и как они считаются

Portion Value (Оценка части): Основная метрика. В патенте указано, что эта оценка представляет собой количество раз, когда данная часть была признана отвечающей на запросы пользователей (Claim 1). Основной способ расчета – инкрементальный счетчик (Claim 8).
Threshold Value (Пороговое значение): Метрика, используемая Portion Selector для определения того, какие части следует сохранить. Если Portion Value > Threshold Value, часть сохраняется (Claim 12).
TF-IDF (Term Frequency-Inverse Document Frequency): Упоминается в патенте (Description, Col 13), но только как возможный фактор для предварительной фильтрации документов на этапе начального индексирования, а не для основного процесса выборочного сохранения.

Эффективность индекса важнее его полноты: Патент демонстрирует готовность Google пожертвовать полнотой индексирования документа ради повышения скорости и уменьшения размера индекса.
Сохранение в индексе основано на использовании: Сохранение контента в индексе напрямую зависит от того, насколько часто этот конкретный фрагмент удовлетворяет реальные запросы пользователей. Контент, который не используется, будет удален.
Риск деиндексации релевантного контента: Существует риск того, что релевантный контент может быть исключен из индекса, если он редко ищется пользователями или если запросы сформулированы так, что система не сопоставляет их с этим конкретным фрагментом.
Важность структуры и сниппетов: Структура документа (параграфы) и сниппеты, которые Google генерирует для страницы, могут определять границы частей (Portions), которые оцениваются системой.
Потенциал двухъярусного индексирования: Патент явно описывает возможность применения этого механизма к первичному (быстрому и дорогому) индексу, в то время как полные документы могут храниться во вторичном (более медленном и дешевом) индексе (Claim 15).

Best practices (это мы делаем)

Фокус на соответствии интенту и реальным запросам: Создавайте контент, который напрямую отвечает на известные запросы пользователей. Необходимо гарантировать, что ключевые части вашего контента востребованы, чтобы они стали Retained Portions.
Четкая структура контента: Используйте четкую семантическую структуру (заголовки, абзацы, списки). Это помогает системе корректно определить границы частей (Portions) и точно оценить их полезность.
Оптимизация под сниппеты: Убедитесь, что ключевые темы вашей страницы генерируют релевантные сниппеты в SERP. Патент указывает, что сниппеты могут использоваться для определения Inclusive Portions (Claim 7). Если важная часть контента никогда не попадает в сниппет, её ценность может быть недооценена.
Размещение важной информации в начале (Front-loading): Хотя система оценивает все части, размещение ключевой информации в начале повышает вероятность её использования в сниппетах и, следовательно, корректной оценки её полезности.

Worst practices (это делать не надо)

Скрытие ключевой информации в длинном, нефокусированном тексте: Если важная информация "погребена" в тексте, который редко соответствует запросам, она рискует быть удаленной из индекса.
Чрезмерное использование Boilerplate и шаблонного контента: Создание страниц, где основной контент значительно уступает по объему навигации, рекламе или шаблонным блокам. Эти блоки могут быть либо отфильтрованы на начальном этапе, либо получат низкую оценку полезности и будут удалены.
Игнорирование реального поискового поведения: Оптимизация исключительно под ключевые слова, которые пользователи на самом деле не используют для поиска данного контента. Система оценивает полезность на основе реальных запросов, а не потенциальной релевантности.

Стратегическое значение

Этот патент подтверждает движение Google в сторону понимания контента на уровне пассажей (Passage Understanding) и критическую важность соответствия реальному поисковому поведению. Он подчеркивает, что индексирование всей страницы не гарантировано. Стратегия должна фокусироваться на создании контента, где каждая часть имеет четкую цель и соответствует определенному набору интентов. Это инфраструктурный патент, но он напрямую влияет на то, какой контент будет доступен для ранжирования.

Практические примеры

Сценарий: Оптимизация индекса для длинного руководства

Ситуация: Сайт опубликовал длинное руководство (5000 слов) "Полное руководство по уходу за кофемашиной". Оно разделено на 10 разделов.
Поведение пользователей: Анализ показывает, что 80% трафика приходит по запросам, связанным с Разделом 3 ("Как очистить кофемашину от накипи"), и 15% по Разделом 7 ("Устранение протечек"). Остальные разделы почти не получают трафика.
Работа алгоритма:
- Система Google определяет Разделы 3 и 7 как Inclusive Portions для большинства запросов и постоянно увеличивает их оценки (values).
- Остальные 8 разделов редко становятся Inclusive Portions, их оценки остаются низкими.
Оптимизация индекса: При следующей итерации оптимизации Google устанавливает порог. Разделы 3 и 7 его превышают и становятся Retained Portions.
Результат: В первичном индексе Google эта страница теперь представлена только контентом из Разделов 3 и 7. Если пользователь введет запрос, релевантный Разделу 5 (например, "настройка помола в кофемашине"), эта страница больше не будет найдена в первичном индексе, так как Раздел 5 был удален.

Означает ли этот патент, что Google не индексирует страницы целиком?

Патент описывает механизм оптимизации, при котором Google может удалить из индекса части ранее проиндексированного документа, если они редко используются для ответов на запросы. Также упоминается возможность предварительной фильтрации еще до индексации. Кроме того, в патенте описана возможность двухъярусного индекса (Claim 15): быстрый индекс содержит только полезные части (Retained Portions), а медленный индекс может содержать полные документы.

Как система определяет, на какие части (Portions) разделить документ?

Патент предлагает несколько методов. Это могут быть структурные элементы документа (предложения, параграфы), блоки фиксированного размера (например, каждые N слов). Также важным методом является определение частей на основе сниппетов (Snippets), которые генерируются в результатах поиска (Claim 7).

Как рассчитывается ценность (Value) части документа?

Основной метод, описанный в патенте, — это счетчик. Каждый раз, когда часть документа используется для ответа на запрос пользователя (становится Inclusive Portion), её счетчик увеличивается (Claim 8). Оценка представляет собой общее количество таких случаев (Claim 1).

Влияет ли этот патент на ранжирование?

Прямо на ранжирование он не влияет, так как не описывает расчет Ranking Score. Однако он имеет критическое косвенное влияние: если часть документа удалена из индекса в процессе оптимизации, она не сможет ранжироваться вообще. Этот патент о том, что доступно для ранжирования, а не о том, как оно ранжируется.

Что произойдет, если контент полезен, но его ищут очень редко (низкочастотные запросы)?

Это главный риск, вытекающий из патента. Если контент не достигает порогового значения (threshold value) по частоте использования, он может быть удален из индекса, даже если он качественный и релевантный для узкого круга запросов. Для SEO это означает необходимость связывать такой контент с более частыми запросами или обеспечивать его высокую авторитетность иными способами.

Как часто происходит обновление индекса и удаление неиспользуемых частей?

Патент не указывает конкретных временных рамок. Указано, что процесс запускается после того, как прошло "достаточно времени" или было обработано достаточное количество запросов для накопления надежной статистики. Это периодический процесс оптимизации.

Использует ли система клики (CTR) для определения ценности части?

В одном из вариантов реализации (Claim 11) упоминается, что обновление оценок может основываться на выборе индексированного документа пользователем (клике) в ответ на предоставление результатов. Это указывает на то, что поведенческие факторы могут учитываться при оценке полезности части контента.

Что такое предварительная фильтрация (Initial Filtering), упомянутая в патенте?

Это процесс, который может происходить еще до начала мониторинга использования. Index Builder может изначально решить не индексировать определенные части документа. Примеры включают усечение слишком длинных документов, игнорирование комментариев с помощью шаблонов или фильтрацию частей с низким соотношением TF-IDF.

Как этот патент связан с Passage Ranking (или Passage Indexing)?

Они тесно связаны концептуально. Passage Ranking фокусируется на ранжировании отдельных пассажей. Этот патент предоставляет инфраструктурную основу для того, чтобы это стало возможным и эффективным. Он описывает, как Google может хранить и управлять индексом, состоящим из пассажей (Retained Portions), вместо целых документов.

Как защитить свой контент от удаления из индекса по этому алгоритму?

Необходимо обеспечить, чтобы контент был востребован. Это достигается путем тщательного исследования ключевых слов, понимания реального интента пользователей и создания четко структурированного контента, который напрямую отвечает на запросы и часто используется Google для формирования сниппетов.

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности

Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.

US7702618B1
2010-04-20

Индексация
Техническое SEO
Свежесть контента

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

US8090717B1
2012-01-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google оптимизирует сканирование социальных сетей, разделяя посты и комментарии

Патент описывает инфраструктурную систему для эффективного сканирования социальных сетей. Контент разделяется на «Посты» (основной контент) и «Вовлеченность» (комментарии, ответы). Система адаптивно планирует сканирование: проверяет комментарии реже, если API социальной сети уведомляет об обновлениях, и чаще (по расписанию), если уведомлений нет. Это позволяет оптимизировать ресурсы и соблюдать лимиты API.

US10216694B2
2019-02-26

Краулинг

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений

Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.

US9645980B1
2017-05-09

Индексация
Ссылки
Техническое SEO

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи

Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.

US8874570B1
2014-10-28

Поведенческие сигналы
Персонализация
SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента

Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.

US9268880B2
2016-02-23

Персонализация
Семантика и интент
Мультимедиа