Как Google использует личную историю и NLP для персонализации поиска и ответов на «запросы-воспоминания»

Google использует обработку естественного языка (NLP), чтобы понять запросы о ранее просмотренном контенте (например, «найди рецепт, который я читал на телефоне»). Система ищет ответ в персональных данных пользователя (история браузера, email). Кроме того, патент описывает механизм персонализации, где прошлые взаимодействия пользователя с результатами поиска влияют на его будущую выдачу по схожим темам.

Описание

Какую задачу решает

Патент решает проблему сложности повторного нахождения информации (re-finding), с которой пользователь уже взаимодействовал. Он позволяет использовать запросы на естественном языке (Natural Language Query), включая голосовые, для поиска в персональном корпусе данных, устраняя необходимость ручного просмотра истории или использования точных ключевых слов. Пример: «Я ищу ту статью о шахматах, которую читал на прошлой неделе».

Что запатентовано

Запатентована система, которая интерпретирует запросы для целенаправленного поиска в личной истории пользователя (история браузера, email). Система классифицирует намерение как поиск в истории (History-Seeking Query) и использует NLP для извлечения контекстуальных фильтров (время, тема, устройство, местоположение). Важно отметить, что патент описывает два механизма: явный поиск по истории (в Description) и неявную персонализацию на основе прошлых взаимодействий (в Claims).

Как это работает

Система работает в двух основных режимах:

Явный поиск по истории (Explicit History Search — по Description):
- Query Processing Engine получает естественный запрос и классифицирует его как поиск по истории (например, по фразам «я читал»).
- Извлекаются фильтры (например, тема: «рецепт индейки», устройство: «телефон»).
- Поиск выполняется только в персонализированном индексе пользователя. При этом используются «агрессивные синонимы» (aggressive synonyms) и «нечеткие временные диапазоны» (fuzzy time ranges) для компенсации неточности памяти.
Неявная персонализация (Implicit Personalization — по Claims):
- Система фиксирует взаимодействие пользователя с результатом поиска по исходному запросу (initial query).
- При последующем запросе (subsequent query) на связанную тему система включает ранее просмотренный ресурс в новый набор результатов.

Актуальность для SEO

Высокая. Обработка естественного языка (NLP) и гиперперсонализация являются центральными направлениями развития поиска. Механизмы, облегчающие повторный поиск, особенно актуальны для голосовых помощников и кросс-устройственного взаимодействия. Подача заявки на продолжение (Continuation Application) в 2024 году (с приоритетом от 2013) указывает на стратегическую важность этой технологии для Google.

Важность для SEO

Влияние на традиционное SEO низкое (3.5/10). Патент не описывает алгоритмы глобального ранжирования. Он фокусируется на поиске в приватных данных пользователя и персонализации. Однако он имеет стратегическое значение для удержания пользователей (Retention). Механизм неявной персонализации (Claims) подчеркивает критическую важность первого клика (CTR) и вовлечения (Engagement), так как успешное взаимодействие повышает вероятность повторного показа вашего сайта этому конкретному пользователю в будущем.

Детальный разбор

Термины и определения

Aggressive Synonyms (Агрессивные синонимы): Расширенное использование синонимов при поиске. Применяется в персональном поиске для повышения полноты выдачи (Recall), так как корпус ограничен тем, что пользователь уже видел.
Filters (Фильтры): Критерии поиска, извлеченные из естественного запроса. Примеры: тема (topic), дата/время (date/time), источник (source), устройство (device), отправитель (sender), местоположение (location).
Fuzzy Time Ranges (Нечеткие временные диапазоны): Интерпретация временных фильтров (например, «на прошлой неделе») с расширением диапазона для компенсации неточности человеческой памяти.
History-Seeking Query (Запрос, направленный на поиск в истории): Запрос, классифицированный как попытка найти информацию, просмотренную ранее. Идентифицируется по фразам вроде «я читал», «я видел».
History Query Classification Module (Модуль классификации исторических запросов): Компонент, определяющий намерение пользователя искать в прошлом опыте.
Initial Query/Response (Исходный запрос/ответ): Первая поисковая сессия, во время которой фиксируется взаимодействие пользователя с ресурсом (используется в Claims).
Natural Language Query (NLQ) (Запрос на естественном языке): Запрос в разговорной форме (текст или голос).
Personalized Index (Персонализированный индекс): Коллекция документов, к которым пользователь имел доступ. Включает историю браузера (Browser History) и электронную почту (Email Account).
Query Processing Engine (Механизм обработки запросов): Система, включающая NLP-движок, которая переводит NLQ в форматированный запрос (например, SQL или GQL).
Subsequent Query/Response (Последующий запрос/ответ): Вторая поисковая сессия, результаты которой персонализируются на основе взаимодействий во время Initial Query (используется в Claims).

Ключевые утверждения (Анализ Claims)

Важное примечание: В этом патенте существует значительное различие между тем, что подробно описано в Description (обработка NLP для явного поиска по истории), и тем, что защищено в Claims 1-20 (неявная персонализация последовательных запросов).

Claim 1 (Независимый пункт): Описывает метод неявной персонализации на основе истории взаимодействий.

В начальный момент времени (Initial Time):

Система получает исходный запрос (initial query).
Генерируется исходный ответ (initial response) с набором ресурсов.
Ответ предоставляется пользователю.

В последующий момент времени (Subsequent Time):

Система получает последующий запрос (subsequent query) на связанную тему.
Генерируется последующий ответ (subsequent response).
Ключевой элемент: В этот ответ включается ресурс из исходного набора на основании того, что пользователь взаимодействовал (interacting) с этим ресурсом после получения исходного ответа.

Этот Claim защищает механизм, при котором взаимодействие пользователя с результатом поиска в первой сессии используется как сильный сигнал для включения (и вероятного повышения) этого же результата во второй, тематически связанной сессии.

Claim 3 и 10 (Зависимые): Уточняют, что исходный набор результатов может быть смешанным, включая как результаты из общего веб-поиска (по Claim 2/9), так и результаты из коллекции документов, связанных с аккаунтом пользователя (например, почта).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, интегрируя персональные данные и поведение пользователя.

INDEXING – Индексирование (Персональное)
Система индексирует персональные данные пользователя (история браузера, email) для создания Personalized Index. Также логируются взаимодействия пользователя с результатами поиска (клики, engagement) для последующего использования в персонализации (по Claims).

QUNDERSTANDING – Понимание Запросов
Ключевой этап для явного поиска по истории (по Description). Query Processing Engine использует NLP для классификации запроса как History-Seeking Query и извлечения контекстуальных фильтров (время, устройство, местоположение, тема).

RANKING – Ранжирование (Персональное)
При явном поиске по истории система обращается к Personalized Index. Ранжирование здесь специфично: применяются aggressive synonyms и fuzzy time ranges для повышения полноты (Recall).

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Финальный этап. Результаты явного поиска по истории могут быть показаны в отдельном блоке («Your history related to…»). Механизм неявной персонализации (по Claims) работает на этапе RERANKING, инжектируя или повышая ранее посещенные ресурсы в стандартной выдаче.

На что влияет

Типы контента: Любой контент, доступный пользователю: веб-страницы, электронные письма, документы, видео.
Специфические запросы: Запросы повторного поиска (re-finding). Последовательные запросы в рамках одной тематической сессии (например, исследование продукта, планирование путешествия). Разговорные запросы, часто вводимые голосом.

Когда применяется

Алгоритм применяется в двух основных сценариях (требуется авторизация пользователя и включенный сбор истории):

Явный триггер (Explicit Trigger — по Description): Когда пользователь формулирует запрос, содержащий фразы, указывающие на прошлый опыт («я видел», «я читал», «найди то, что я открывал вчера»).
Неявный триггер (Implicit Trigger — по Claims): Когда пользователь выполняет последующий поиск (subsequent query) по теме, с которой он ранее взаимодействовал в предыдущей поисковой сессии (initial query).

Пошаговый алгоритм

Процесс А: Явный поиск по истории на основе NLP (на базе Description)

Получение запроса: Система получает Natural Language Query (текст или аудио).
Классификация интента: History Query Classification Module анализирует запрос на наличие триггерных фраз. Если они найдены (с учетом порогов схожести similarity threshold), запрос классифицируется как History-Seeking Query.
Токенизация и Идентификация фильтров: Tokenizer Module и Filter Identification Module извлекают ограничения (тема, время, устройство, местоположение и т.д.).
Генерация запроса: Query Generation Module формирует структурированный запрос к Personalized Index.
Поиск и извлечение: Search Engine выполняет запрос в истории браузера и почте. Применяются методы расширения: aggressive synonyms и fuzzy time ranges.
Ранжирование и представление: Scoring Engine ранжирует документы. Результаты предоставляются пользователю, часто в отдельном блоке на SERP. Может быть предоставлена ссылка на кэшированную версию документа (Cached Result) на момент его просмотра пользователем.

Процесс Б: Неявная персонализация (на базе Claims)

Исходная сессия (Initial Time): Система получает initial query, предоставляет ответ и фиксирует взаимодействие (interacting) пользователя с конкретным ресурсом из выдачи.
Последующая сессия (Subsequent Time): Система получает subsequent query по связанной теме.
Персонализация выдачи: Система генерирует ответ на последующий запрос, включая в него ресурс, с которым пользователь взаимодействовал в исходной сессии, основываясь именно на факте этого взаимодействия.
Представление: Персонализированный набор результатов предоставляется пользователю.

Какие данные и как использует

Данные на входе

Система полагается в первую очередь на персональные данные пользователя (с его разрешения).

Поведенческие факторы: Критически важны. История браузера (URL, время посещения), содержимое электронной почты. История взаимодействий с результатами поиска (клики, вовлеченность) используется для неявной персонализации (Claims).
Пользовательские факторы: Идентификатор устройства (Device ID). Эти данные используются для применения соответствующих фильтров (например, «на моем телефоне»).
Географические факторы: Местоположение пользователя в момент доступа к информации (например, для фильтров «на работе»).
Контентные факторы: Содержимое ранее просмотренных документов индексируется в Personalized Index и используется для сопоставления с тематическими фильтрами в запросе.

Какие метрики используются и как они считаются

Similarity Thresholds (Пороги схожести): Используются для определения, соответствует ли фраза в запросе триггерной фразе поиска по истории. Могут использоваться метрики расстояния (edit distance) или семантической близости (semantic similarity).
Fuzzy Time Ranges (Нечеткие временные диапазоны): Механизм расширения временных фильтров. Конкретные значения не указаны, но «на прошлой неделе» может быть расширено (например, до двух недель) для компенсации неточности памяти.
Aggressive Synonyms/Entities (Агрессивные синонимы/сущности): Использование расширенных наборов синонимов и связанных сущностей при поиске в Personalized Index.
Взаимодействие с результатами: Фиксация факта взаимодействия (interacting) пользователя с ресурсом (используется в механизме Claims).

Выводы

Два distinct механизма персонализации: Патент четко разделяет (1) Явный поиск по истории с использованием NLP для интерпретации «запросов-воспоминаний» (Description) и (2) Неявную персонализацию будущей выдачи на основе прошлых взаимодействий с результатами (Claims).
Специализированный поиск в Personalized Index: Поиск по истории отличается от веб-поиска. Поскольку корпус ограничен личными данными, система использует более мягкие методы сопоставления (aggressive synonyms, fuzzy time ranges) для повышения полноты выдачи (Recall).
Глубокое понимание контекста через NLP: Система способна извлекать из разговорного запроса точные контекстуальные ограничения: когда, где и на каком устройстве пользователь видел информацию.
Взаимодействие как ключевой сигнал персонализации (Claims): Факт взаимодействия (interacting) пользователя с ресурсом является триггером для его повторного показа в последующих связанных сессиях. Это подчеркивает важность User Engagement.
Отсутствие прямого влияния на глобальное SEO: Патент описывает улучшение пользовательского опыта (Re-finding) и персонализацию, а не изменение глобальных алгоритмов ранжирования.

Практика

Best practices (это мы делаем)

Хотя патент описывает инфраструктуру персонализации, он дает важное понимание для стратегий удержания пользователей.

Максимизация вовлеченности (Engagement): Claims явно указывают, что взаимодействие (interacting) с ресурсом приводит к его включению в последующие результаты поиска для этого пользователя. Создавайте контент, который вовлекает пользователя (глубина прочтения, время на сайте), чтобы усилить сигнал для неявной персонализации.
Оптимизация CTR и создание запоминающихся сниппетов: Критически важно добиться первого клика для запуска механизма персонализации (Claims). Также ясные и точные заголовки (Titles) помогают пользователю узнать ваш контент при явном поиске по истории (Description).
Создание полезного контента (Helpful Content): Чем полезнее материал, тем выше вероятность, что пользователь захочет вернуться к нему и будет использовать механизмы поиска по истории для его нахождения.
Четкая тематическая направленность: Контент должен быть легко классифицируем по теме. Это поможет системе сопоставить его с тематическими фильтрами, которые извлекаются из естественного запроса пользователя (например, «та статья о шахматах»).

Worst practices (это делать не надо)

Использование кликбейта и контента с низким вовлечением: Если пользователь быстро покидает страницу (высокий Bounce Rate), сигнал взаимодействия для неявной персонализации будет слабым. Пользователь также вряд ли захочет сознательно искать такой контент снова.
Вводящие в заблуждение заголовки: Усложняют процесс повторного поиска. Если заголовок не отражает содержание, пользователь может не узнать результат в своей истории.
Частое изменение URL без редиректов: Может нарушить связь между записью в истории пользователя и текущим расположением контента, делая невозможным его повторное нахождение через эти механизмы.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на создание гиперперсонализированной выдачи. Для SEO это означает, что универсальное ранжирование становится менее значимым по сравнению с индивидуальным опытом пользователя. Стратегия должна учитывать весь путь пользователя (User Journey), фокусируясь не только на привлечении трафика (Acquisition), но и на поведении после клика (Engagement) и удержании (Retention). Успешное первое взаимодействие сегодня — это фактор ранжирования для этого пользователя завтра.

Практические примеры

Сценарий 1: Неявная персонализация (по Claims)

Действие пользователя (Initial Time): Пользователь ищет «лучшие фреймворки Python 2025», переходит на обзор Django на сайте SiteA.com и активно его изучает (5 минут на странице).
Системное действие: Google фиксирует это положительное взаимодействие с SiteA.com по теме Python/Django.
Действие пользователя (Subsequent Time): Через неделю пользователь ищет «учебник по Django».
Результат: Система (используя механизм из Claims) повышает в ранжировании или гарантированно включает в выдачу релевантные страницы с SiteA.com, так как ранее было зафиксировано успешное взаимодействие с этим доменом по связанной теме.

Сценарий 2: Явный поиск по истории (по Description)

Действие пользователя: Пользователь говорит голосовому помощнику: «Найди ту статью о шахматной истории, которую я читал на прошлой неделе на работе».
Системное действие: Query Processing Engine классифицирует запрос как History-Seeking Query. Извлекаются фильтры: Тема («шахматная история»), Время («прошлая неделя»), Местоположение («на работе»).
Поиск: Система ищет в Personalized Index (история браузера), применяя эти фильтры и используя fuzzy time ranges.
Результат: Пользователю показывается блок «Ваша история…», содержащий ссылки на статьи, которые он читал в указанном контексте.

Вопросы и ответы

В чем основное различие между тем, что описано в Description и в Claims этого патента?

Description подробно описывает систему явного поиска по истории, когда пользователь использует естественный язык и контекстные подсказки, чтобы найти что-то из прошлого (например, «найди статью, которую я читал вчера»). Claims же защищают механизм неявной персонализации: если пользователь взаимодействовал с результатом поиска в одной сессии, этот результат будет автоматически включен или повышен в выдаче в следующей сессии по связанной теме.

Влияет ли этот патент на глобальное ранжирование сайта в общем поиске?

Нет, напрямую не влияет. Патент описывает механизмы персонализации выдачи для конкретного пользователя на основе его личной истории (истории браузера, почты, прошлых кликов). Это влияет на то, как ваш сайт ранжируется для возвращающихся пользователей, а не для новых пользователей в целом.

Как SEO-специалист может использовать этот патент в работе?

Ключевая стратегия — это работа над вовлеченностью (Engagement) и запоминаемостью. Вовлеченность критична для неявной персонализации (Claims): положительное взаимодействие повышает шанс повторного показа. Запоминаемость (четкие, релевантные заголовки и брендинг) важна для явного повторного поиска (Description), чтобы пользователь мог легко найти и узнать ваш контент.

Насколько важен первый клик согласно этому патенту?

Первый клик критически важен для запуска механизма персонализации, описанного в Claims. Именно взаимодействие пользователя с ресурсом в «начальный момент времени» является основанием для включения этого ресурса в выдачу в «последующий момент времени». Это подчеркивает важность оптимизации сниппетов (CTR).

Какие данные использует Google для поиска по истории пользователя?

Система использует Personalized Index, который может включать историю браузера пользователя, содержимое его электронной почты (например, Gmail), а также историю его взаимодействий с результатами поиска (клики). Сбор этих данных происходит только с разрешения пользователя (opt-in/out).

Что означают «агрессивные синонимы» (aggressive synonyms) и «нечеткие временные диапазоны» (fuzzy time ranges)?

Это методы смягчения поиска для компенсации неточностей человеческой памяти. Fuzzy time ranges означают, что запрос «вчера» может искать за последние 2-3 дня. Aggressive synonyms означают использование более широких синонимических рядов, чем в обычном поиске. Это допустимо, так как поиск ограничен документами, которые пользователь уже видел.

Как система понимает, что запрос направлен на поиск в прошлом?

Для этого используется History Query Classification Module. Он ищет в запросе триггерные фразы на естественном языке, такие как «я читал», «я видел», «я помню». Система сравнивает части запроса с этим списком фраз, используя точное совпадение или пороги семантической схожести.

Что подразумевается под «взаимодействием» (interacting) в Claims?

Патент не дает точного определения, но в контексте поиска это обычно означает клик по результату и последующее вовлечение с контентом (например, длительное время пребывания на странице, отсутствие быстрого возврата в выдачу). Положительное взаимодействие служит сигналом для повторного показа ресурса.

Может ли система показать старую версию страницы, которую видел пользователь?

Да, патент упоминает такую возможность. В результатах может быть предоставлена ссылка (например, «View Cached Result») на версию документа, закэшированную примерно в то время, когда пользователь ее просматривал. Это полезно, если контент на странице с тех пор изменился.

Какова актуальность этого патента, учитывая, что приоритет датируется 2013 годом?

Актуальность очень высока. Тот факт, что Google подал эту заявку на продолжение (continuation application) в 2024 году, означает, что они активно поддерживают и считают эту технологию стратегически важной. Это позволяет им защищать современные реализации NLP и персонализации, сохраняя при этом приоритет от 2013 года.