Google использует механизм оценки «Information Gain» для борьбы с избыточностью информации в поиске. Система анализирует контент, который пользователь уже просмотрел в рамках сессии, и рассчитывает, сколько новой информации содержат оставшиеся результаты. На основе этого показателя Google динамически переранжирует выдачу, продвигая страницы с уникальной ценностью и понижая те, которые повторяют уже известное.
Описание
Какую задачу решает
Патент решает проблему избыточности и дублирования информации (redundancy) при изучении пользователем определенной темы. Когда пользователь последовательно просматривает несколько документов, они часто содержат схожие сведения. Это снижает эффективность поиска и ухудшает пользовательский опыт. Проблема особенно критична для диалоговых систем (Automated Assistants) и голосового вывода (TTS), где потребление информации линеаризовано и занимает много времени. Изобретение направлено на оптимизацию выдачи путем приоритизации контента, который предлагает максимальную новизну.
Что запатентовано
Запатентована система для контекстуального расчета показателя прироста информации (Information Gain Score). Этот показатель оценивает объем дополнительной информации в новом документе по сравнению с контентом, который пользователь уже потребил по данной теме. Система использует модель машинного обучения (Machine Learning Model) для сравнения семантических представлений (Embeddings) просмотренного и нового контента и прогнозирования прироста информации.
Как это работает
Система работает динамически в рамках поисковой или диалоговой сессии:
- Отслеживание контекста: Система идентифицирует контент, который пользователь уже просмотрел по теме (First Set of Documents).
- Идентификация кандидатов: Определяются новые релевантные документы по той же теме (Second Set of Documents).
- Расчет Information Gain: Для каждого кандидата с помощью ML-модели рассчитывается Information Gain Score. Модель принимает на вход семантические представления (Embeddings) просмотренного и нового контента.
- Переранжирование/Выбор: Система переранжирует список кандидатов или выбирает следующий документ для показа, отдавая предпочтение контенту с высоким Information Gain Score.
- Итерация: По мере потребления контента контекст обновляется, и оценки пересчитываются.
Актуальность для SEO
Высокая. Патент напрямую связан с современными трендами в поиске: развитием диалоговых систем (Conversational AI, SGE), концепцией «Search Journeys» и необходимостью повышения разнообразия выдачи (Diversity). Борьба с избыточностью контента является ключевой задачей для улучшения пользовательского опыта. Тот факт, что патент является продолжением заявки 2018 года и активно поддерживается (заявка подана в 2024), подчеркивает его стратегическую важность.
Важность для SEO
Влияние на SEO высокое (85/100). Этот патент описывает механизм динамического переранжирования, который может изменять видимость контента в реальном времени на основе действий пользователя в сессии. Он подчеркивает переход от статической релевантности к динамической информационной ценности. Для SEO это означает, что уникальность и глубина контента становятся критически важными; сайты с поверхностным или дублирующим контентом могут быть понижены по мере того, как пользователь изучает тему.
Детальный разбор
Термины и определения
- Information Gain Score (Показатель прироста информации)
- Метрика, указывающая на объем дополнительной (новой) информации в документе по сравнению с информацией, содержащейся в документах, ранее просмотренных пользователем по той же теме.
- First Set of Documents (Первый набор документов)
- Документы, которые разделяют общую тему и уже были представлены пользователю (просмотрены, прослушаны). Также упоминается как First Content.
- Second Set of Documents (Второй набор документов)
- Документы по той же теме, которые еще не были представлены пользователю. Также упоминается как Second/Third Content.
- Automated Assistant (Автоматизированный ассистент)
- Программный процесс для ведения диалога с пользователем (чат-боты, виртуальные/голосовые помощники).
- Semantic Representation / Embedding / Semantic Feature Vector (Семантическое представление / Эмбеддинг / Вектор семантических признаков)
- Численное векторное представление документа, отражающее его семантическое содержание. Используется как входные данные для ML-модели.
- Information Gain Scoring Engine (Механизм оценки прироста информации)
- Компонент системы, использующий ML-модель для расчета Information Gain Score.
- TTS (Text-to-Speech)
- Технология преобразования текста в речь. Важна в контексте патента, так как аудио-интерфейсы требуют высокой информационной плотности.
Ключевые утверждения (Анализ Claims)
Патент US12326889B2 является продолжением (Continuation) более ранних заявок. Анализ основан на Claims 1-20.
Claim 1 (Независимый пункт): Описывает основной метод реагирования на последовательные запросы пользователя по одной теме.
- Система получает первый запрос (first query) по теме от пользователя.
- Получает и представляет пользователю первый контент (first content).
- Система получает второй запрос (second query) на дополнительную информацию по той же теме.
- Получает второй (second content) и третий контент (third content), релевантные второму запросу.
- Система обрабатывает данные, представляющие первый (уже показанный), второй и третий (новые) контенты, используя модель машинного обучения (Machine Learning model).
- ML-модель генерирует Information Gain Scores для второго и третьего контентов относительно первого.
- На основе этих оценок система выборочно представляет пользователю часть второго или третьего контента.
Система динамически выбирает следующий результат, основываясь на том, сколько новой информации он содержит по сравнению с тем, что пользователь только что увидел.
Claim 5 (Зависимый от 1): Уточняет, что входные данные для ML-модели являются семантическими векторами признаков (semantic feature vectors) или эмбеддингами (embeddings).
Это подтверждает использование продвинутых NLP-технологий для глубокого семантического анализа контента.
Claim 6 (Зависимый от 1): Уточняет, что ML-модель обучается с использованием пар эмбеддингов, размеченных оценками прироста информации (information scores). Это указывает на использование обучения с учителем (Supervised Learning).
Claim 7 (Зависимый от 1): Уточняет метод подачи данных в модель: первый контент предоставляется с индикацией «ранее представлен» (having been presented previously), а новые – с индикацией «ранее не были представлены» (having not been presented previously). Это позволяет модели корректно рассчитать прирост информации.
Где и как применяется
Изобретение применяется на финальных этапах обработки запроса для динамической адаптации выдачи к контексту сессии.
INDEXING – Индексирование и извлечение признаков
На этом этапе генерируются и сохраняются семантические представления (Embeddings) документов, которые необходимы для расчета Information Gain.
QUNDERSTANDING – Понимание Запросов
Система должна распознать, что текущий запрос является продолжением изучения предыдущей темы (часть «Search Journey» или Dialog Session).
RERANKING – Переранжирование
Основной этап применения. Система анализирует, какой контент (First Content) уже был показан пользователю. Затем Information Gain Scoring Engine рассчитывает Information Gain Scores для кандидатов (полученных на этапе RANKING). Результаты переранжируются для повышения новизны информации.
METASEARCH (в контексте Automated Assistants)
В диалоговых системах этот механизм используется для выбора одного наилучшего ответа для представления пользователю (особенно в аудиоформате), минимизируя избыточность.
Входные данные:
- Текущий запрос пользователя.
- Семантические представления (Embeddings) ранее потребленного контента (First Set).
- Набор новых документов-кандидатов (Second Set) и их Embeddings.
Выходные данные:
- Information Gain Scores для каждого кандидата.
- Переранжированный список кандидатов ИЛИ выбранный результат для представления.
На что влияет
- Специфические запросы: Наибольшее влияние на информационные и исследовательские запросы (Exploratory Search), где пользователь изучает тему и просматривает несколько источников. Меньше влияет на навигационные или простые транзакционные запросы.
- Форматы контента: Критически важно для аудио-контента (ответы ассистентов/TTS), так как прослушивание избыточной информации неэффективно и занимает много времени. Также влияет на стандартный веб-поиск.
- Конкретные ниши: Любые ниши, где много контента пересекается по содержанию (новости, технологии, здоровье, DIY).
Когда применяется
- Триггеры активации: Когда система идентифицирует, что пользователь находится в процессе изучения темы и уже потребил некоторый контент (First Set не пуст). Активация происходит при запросе дополнительной информации — явном (например, «What else?») или неявном (возврат на SERP после просмотра результата).
- Условия работы: Требуется наличие нескольких релевантных непросмотренных документов и возможность отслеживания потребленного контента в рамках сессии.
Пошаговый алгоритм
Процесс А: Обработка запроса и динамическое переранжирование
- Инициализация и первый ответ: Пользователь вводит запрос. Система предоставляет первый результат.
- Обновление контекста: Система регистрирует потребленный контент (First Set).
- Запрос дополнительной информации: Пользователь запрашивает больше информации.
- Идентификация кандидатов: Система определяет непросмотренные релевантные документы (Second Set).
- Генерация представлений: Система извлекает Embeddings для документов из First Set и Second Set.
- Расчет Information Gain (Цикл): Для каждого документа в Second Set:
- На вход ML-модели подаются эмбеддинги First Set (пометка «просмотрено») и эмбеддинг кандидата (пометка «не просмотрено»).
- Модель генерирует Information Gain Score для кандидата.
- Переранжирование/Выбор: Документы в Second Set переранжируются на основе Information Gain Score (возможно, в комбинации с релевантностью).
- Представление: Пользователю представляется документ с наивысшим рейтингом.
- Итерация: Представленный документ перемещается в First Set.
Процесс Б: Обучение модели (Офлайн)
- Сбор данных: Собираются пары документов (<d1, d2>).
- Аннотирование: Оценка новизны d2 относительно d1. Это делается либо асессорами вручную, либо через сбор обратной связи от пользователей (например, вопрос «Был ли этот документ избыточным?»).
- Генерация эмбеддингов: Для d1 и d2 генерируются эмбеддинги.
- Обучение модели: ML-модель обучается предсказывать оценку новизны (Information Gain Score) на основе входных пар эмбеддингов.
Какие данные и как использует
Данные на входе
- Контентные факторы: Содержание документов является основой анализа. Оно используется не напрямую, а через семантические представления (Semantic Representations, Embeddings, Feature Vectors).
- Поведенческие факторы: История взаимодействия пользователя с контентом в рамках текущей сессии (какие документы были просмотрены или прослушаны). Также данные обратной связи пользователей могут использоваться для обучения ML-модели.
- Пользовательские факторы: Идентификатор сессии необходим для отслеживания потребленного контента (User Document Database).
Какие метрики используются и как они считаются
- Information Gain Score: Основная метрика. Рассчитывается обученной моделью машинного обучения (упоминаются нейронные сети, SVM, байесовские классификаторы). Входные данные — эмбеддинги просмотренных и новых документов. Метрика обычно нормализована (например, от 0 до 1).
- Semantic Representation (Embeddings): Промежуточные данные, генерируемые из текста документов (например, с помощью моделей типа word2vec или автоэнкодеров). Они служат численным представлением семантики контента.
- Методы анализа текста (NLP): Используются для генерации эмбеддингов и понимания запросов.
Выводы
- Динамическое ранжирование на основе сессии: Ранжирование не статично. Оно адаптируется в реальном времени в зависимости от того, какой контент пользователь уже изучил в рамках текущей сессии. То, что было лучшим результатом в начале поиска, может быть понижено позже.
- Приоритет новизны (Information Gain) над избыточностью: Google активно предпочитает контент, который расширяет знания пользователя. Документы, повторяющие уже известные факты, получат низкий Information Gain Score и будут понижены, даже если они высоко релевантны исходному запросу.
- Зависимость от семантического анализа (Embeddings): Оценка новизны происходит на глубоком семантическом уровне с использованием Embeddings, а не путем сравнения ключевых слов. Система распознает смысловое дублирование.
- Критичность для диалоговых систем: Механизм особенно важен для Automated Assistants и голосового поиска, где избыточность информации тратит время пользователя и ресурсы системы (например, TTS).
- Уникальная ценность контента как измеримый фактор: Для SEO это означает, что уникальность содержания становится измеримым фактором ранжирования через Information Gain Score.
Практика
Best practices (это мы делаем)
- Создание контента с уникальной ценностью (Unique Value): Сосредоточьтесь на предоставлении информации, которая отсутствует у конкурентов в ТОПе (уникальные данные, исследования, экспертные мнения, новые сущности или углы зрения). Если ваш контент предоставляет больший Information Gain, он имеет шанс ранжироваться выше для пользователей, уже изучающих тему.
- Глубина и комплексность контента (Topical Depth): Стремитесь к глубокому раскрытию темы. Чем больше уникальных информационных элементов (сущностей, фактов, деталей) содержит ваш документ, тем выше вероятность, что его Information Gain Score будет высоким, даже если пользователь уже читал другие материалы.
- Анализ информационных пробелов (Content Gap Analysis): Изучайте контент конкурентов, чтобы определить, какие аспекты темы раскрыты слабо или отсутствуют. Заполнение этих пробелов повысит Information Gain вашего контента.
- Четкое структурирование для семантического анализа: Помогайте поисковым системам эффективно генерировать Embeddings из вашего контента. Используйте четкую логическую структуру, естественный язык и раскрывайте взаимосвязи между сущностями.
Worst practices (это делать не надо)
- Поверхностный рерайтинг и Спиннинг (Spinning/Shallow Rewriting): Создание контента путем легкого переписывания статей конкурентов крайне неэффективно. Модели, использующие Embeddings, распознают семантическую близость, и такой контент получит низкий Information Gain Score.
- Фокус только на базовой информации: Создание контента, который покрывает только общеизвестные факты, присутствующие на всех ресурсах. Такой контент будет понижен в выдаче для пользователей, которые уже начали изучение темы.
- Избыточная агрегация без анализа (например, Skyscraper без добавленной стоимости): Простое объединение фактов из ТОП-10 без добавления значительного нового анализа или уникальных данных может привести к низкому Information Gain.
Стратегическое значение
Патент подтверждает стратегический сдвиг Google к более глубокому семантическому пониманию и контекстуальному ранжированию в рамках «Search Journeys». Стратегическое преимущество получают сайты, способные предоставлять уникальную ценность и расширять знания пользователя. Конкуренция переходит на уровень смыслов и идей. Долгосрочная стратегия должна быть направлена на создание экспертных материалов, которые выделяются содержанием, а не только оптимизацией.
Практические примеры
Сценарий: Динамическое переранжирование при исследовании темы
- Исходный запрос: Пользователь ищет «как выбрать треккинговые ботинки».
- Начальная выдача (SERP 1): В Топе общие статьи о типах ботинок (материалы, высота, примерка).
- Действие пользователя: Пользователь кликает на Результат №1 (общая статья от Магазина А), читает ее и возвращается в выдачу.
- Анализ Information Gain: Система анализирует потребленный контент (базовая информация). Она рассчитывает Information Gain Score для оставшихся результатов.
- Результат №2 (Магазин Б): Почти идентичен №1. Score = Низкий.
- Результат №7 (Блог эксперта): Содержит детальный анализ материалов мембран и сравнение типов подошв Vibram. Score = Высокий.
- Обновленная выдача (SERP 2): Система динамически переранжирует выдачу. Результат №7 поднимается в Топ-3, а Результат №2 смещается ниже.
- Результат для SEO: Блог эксперта получил позицию благодаря уникальному и глубокому контенту (высокий Information Gain), несмотря на изначально более низкую позицию.
Вопросы и ответы
Что такое «Information Gain Score» в контексте этого патента?
Это метрика, рассчитываемая с помощью ML-модели, которая количественно определяет, сколько новой информации получит пользователь от просмотра документа, учитывая контент, который он уже потребил в текущей сессии. Она позволяет Google измерять новизну и избегать показа повторяющейся информации.
Как Google определяет, что пользователь уже «потребил» контент?
Система отслеживает это в рамках текущей поисковой или диалоговой сессии. Это может включать просмотр документа (например, клик по ссылке в SERP и возврат) или прослушивание контента через автоматизированного ассистента (TTS). В патенте это называется First set of documents.
На основе чего рассчитывается Information Gain?
Расчет основан на сравнении семантических представлений (Embeddings или Semantic Feature Vectors) потребленного контента и новых документов-кандидатов. Это сравнение выполняется моделью машинного обучения, которая обучена предсказывать прирост информации.
Как ML-модель обучается определять Information Gain?
Патент предлагает два основных метода обучения. Первый – использование оценок кураторов (асессоров), которые вручную оценивают новизну документа D2 после прочтения D1. Второй – сбор обратной связи от пользователей в ходе поиска, например, через ответы на вопрос «Был ли этот документ полезен в свете того, что вы уже прочитали?».
Означает ли это, что релевантность больше не важна?
Релевантность остается критически важной для попадания в набор кандидатов. Однако при финальном ранжировании в рамках сессии Information Gain Score используется как важный фактор для корректировки порядка. Google может предпочесть новизну над незначительным увеличением релевантности.
Как этот патент влияет на стратегию создания контента?
Он делает стратегию поверхностного рерайтинга контента конкурентов неэффективной. Для достижения успеха необходимо фокусироваться на создании уникальной ценности: новых данных, уникальной аналитики, неосвещенных углов темы или более глубокой проработки деталей, которые дополняют существующую информацию в интернете.
Влияет ли этот механизм на все типы запросов?
Наибольшее влияние он оказывает на информационные запросы, где пользователь изучает тему и просматривает несколько источников (Exploration Journeys). Он менее актуален для навигационных или простых транзакционных запросов, где пользователь ищет конкретный ответ или сайт.
Как это связано с разнообразием выдачи (SERP Diversity)?
Information Gain является конкретным механизмом для обеспечения разнообразия. Вместо того чтобы показывать 10 очень похожих результатов, система стремится показать результаты, которые максимально дополняют друг друга, тем самым увеличивая общее покрытие темы в ТОПе.
Как можно оптимизировать контент под Information Gain?
Необходимо проводить тщательный анализ пробелов в контенте (Content Gap Analysis), чтобы понять, какая информация отсутствует в ТОПе выдачи. Также важно четко структурировать контент, чтобы помочь поисковым системам эффективно извлекать его семантическое представление (Embeddings) и корректно оценивать новизну.
Какова связь этого патента с голосовым поиском и ассистентами?
Связь прямая и очень сильная. Патент подчеркивает, что в аудио-интерфейсах (Automated Assistants, TTS) избегание избыточной информации критически важно, так как прослушивание занимает много времени. Этот механизм значительно улучшает эффективность голосового взаимодействия.