SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google переранжирует результаты поиска в реальном времени, скрывая контент, который пользователь уже видел на других сайтах

CONTEXTUAL ESTIMATION OF LINK INFORMATION GAIN (Контекстная оценка прироста информации по ссылке)
  • US11354342B2
  • Google LLC
  • 2018-10-18
  • 2022-06-07
  • SERP
  • Семантика и интент
  • Персонализация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм оценки новизны информации для динамической корректировки поисковой выдачи во время сессии пользователя. Система вычисляет «Information Gain Score» для непросмотренных документов, определяя, сколько новой информации они содержат по сравнению с уже посещенными сайтами. Результаты с уникальной информацией повышаются, а повторяющийся контент понижается, чтобы уменьшить избыточность.

Описание

Какую проблему решает

Патент решает проблему избыточности информации (redundancy) в результатах поиска. Когда пользователь исследует определенную тему, многие релевантные документы часто содержат схожую или идентичную информацию. Это снижает эффективность поиска, так как пользователю приходится тратить время на просмотр повторяющегося контента. Проблема особенно критична для голосового поиска и автоматизированных ассистентов (Automated Assistant), где вывод информации линеен и занимает много времени.

Что запатентовано

Запатентована система для динамической оценки и использования «Прироста Информации» (Information Gain) во время поисковой сессии. Система отслеживает, какую информацию пользователь уже потребил из просмотренных документов по теме, и вычисляет Information Gain Score для оставшихся (непросмотренных) документов. Этот показатель определяет количество новой (novel) информации в документе относительно уже увиденного. Система использует этот показатель для переранжирования результатов и приоритизации контента с максимальной новизной.

Как это работает

Механизм работает в контексте текущей поисковой сессии или диалога:

  • Отслеживание потребления: Система идентифицирует первый набор документов (first set), которые пользователь уже просмотрел по определенной теме.
  • Идентификация кандидатов: Определяется второй набор (second set) релевантных, но еще не просмотренных документов.
  • Расчет Information Gain Score: Для каждого кандидата вычисляется, сколько новой информации он содержит по сравнению с первым набором. Это делается с помощью модели машинного обучения (machine learning model), которая принимает на вход семантические представления (например, embeddings или semantic feature vectors) как просмотренных, так и новых документов.
  • Переранжирование и представление: Результаты пересортировываются на основе Information Gain Score. В интерфейсе поиска (SERP) ссылки могут быть переупорядочены после возврата пользователя. В голосовом поиске система может извлечь и озвучить только ту часть документа, которая содержит новую информацию, пропуская уже известное.

Актуальность для SEO

Высокая. Улучшение эффективности поиска, уменьшение избыточности и понимание поискового пути пользователя являются ключевыми направлениями развития Google. Этот патент описывает конкретный механизм персонализации на уровне сессии, направленный на повышение «плотности информации». Технологии семантического анализа (embeddings) и динамического переранжирования активно используются в современных поисковых системах.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно в области контент-стратегии. Он показывает, что Google может динамически изменять ранжирование в зависимости от того, какие сайты пользователь уже посетил в рамках текущей сессии. Это подчеркивает критическую важность уникального ценного предложения и глубины контента. Сайты, которые просто повторяют информацию, доступную у конкурентов, рискуют быть пониженными в выдаче для пользователя, который уже видел эту информацию в другом месте.

Детальный разбор

Термины и определения

Automated Assistant (Автоматизированный ассистент)
Программное обеспечение (чат-боты, голосовые помощники, виртуальные ассистенты), которое взаимодействует с пользователем посредством диалога на естественном языке для предоставления информации.
First Set of Documents (Первый набор документов)
Документы по определенной теме, информация из которых уже была представлена пользователю (просмотрена, прослушана) в текущей сессии.
Information Gain (Прирост информации)
Дополнительная (новая, novel) информация, содержащаяся в документе, помимо информации, уже известной пользователю из ранее просмотренных документов.
Information Gain Score (Оценка прироста информации)
Метрика, указывающая на количество новой информации в непросмотренном документе относительно уже потребленного контента. Используется для выбора и ранжирования следующих документов.
Information Gain Scoring Engine (Система оценки прироста информации)
Компонент системы, отвечающий за расчет Information Gain Score, часто с использованием моделей машинного обучения.
Second Set of Documents / New Documents (Второй набор документов)
Документы по той же теме, информация из которых еще не была представлена пользователю.
Semantic Feature Vector / Semantic Representation / Embedding (Вектор семантических признаков / Семантическое представление)
Числовое векторное представление документа (или его части), отражающее его семантическое содержание. Используется в качестве входных данных для модели машинного обучения при расчете Information Gain Score.
TTS (Text-to-Speech)
Технология преобразования текста в речь. В контексте патента используется для озвучивания информации пользователю, при этом система может выборочно озвучивать только новую информацию.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод применения Information Gain в контексте автоматизированного ассистента.

  1. Система идентифицирует первый набор документов (first set) по теме, информация из которых уже была представлена пользователю ассистентом в ответ на ввод на естественном языке (free form natural language input).
  2. Идентифицируется второй набор (second set) документов по той же теме, которые еще не были представлены.
  3. Для каждого документа из второго набора определяется Information Gain Score. Оценка основана на количестве новой информации в документе, которая отличается от информации, извлеченной из первого набора.
  4. На основе этих оценок выбирается новый документ из второго набора.
  5. Информация, извлеченная из выбранного документа, представляется пользователю.

Claim 3 (Зависимый от 1): Детализирует метод расчета Information Gain Score.

Расчет включает применение первых данных (представляющих первый набор) и вторых данных (представляющих новый документ) к модели машинного обучения (machine learning model) для генерации выходных данных, на основе которых определяется оценка.

Claim 4 (Зависимый от 3): Уточняет тип входных данных.

Первые и вторые данные представляют собой векторы семантических признаков (semantic feature vectors), сгенерированные из информации, извлеченной из соответствующих документов.

Claim 5 (Независимый пункт): Описывает метод в более общем контексте поиска (не только ассистенты).

  1. Идентификация первого набора документов, к которым пользователь получал доступ.
  2. Идентификация второго набора (новых) документов по той же теме.
  3. Определение Information Gain Score для новых документов (на основе количества отличающейся информации).
  4. Представление новой информации из одного или нескольких документов второго набора пользователю, причем способ представления выбирается на основе Information Gain Scores (например, ранжирование).

Claim 7 (Зависимый от 5): Описывает сценарий использования в интерфейсе результатов поиска (SERP).

  1. Отображение ссылок на первый набор документов в SERP в ответ на запрос.
  2. Получение ввода пользователя, указывающего на выбор ссылки (клик). Документ предоставляется пользователю.
  3. Получение ввода, указывающего на команду возврата в SERP (например, кнопка «Назад»).
  4. В ответ на возврат, отображение в SERP ссылок на документы из второго набора (т.е. обновленная выдача с учетом просмотренного контента).

Где и как применяется

Изобретение применяется во время активной сессии пользователя и затрагивает финальные этапы обработки поисковой выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна предварительно обработать контент для генерации семантических представлений (semantic representations или embeddings) документов. Эти данные необходимы для быстрого сравнения содержания документов в реальном времени.

RANKING – Ранжирование
На этом этапе генерируется первоначальный набор результатов для запроса пользователя.

RERANKING – Переранжирование
Основное применение патента. Система работает как динамический твидлер (Twiddler), который корректирует выдачу в реальном времени на основе действий пользователя в текущей сессии.

  1. Мониторинг сессии: Система отслеживает, какие документы пользователь просматривает.
  2. Расчет Information Gain: Когда пользователь запрашивает дополнительную информацию (в диалоге) или возвращается к SERP (в веб-поиске), Information Gain Scoring Engine активируется.
  3. Сравнение контента: Используя предварительно рассчитанные embeddings, система сравнивает содержание просмотренных документов (first set) с кандидатами (second set).
  4. Переранжирование: Порядок оставшихся результатов корректируется для приоритизации документов с наивысшим Information Gain Score.

Входные данные:

  • Тема или запрос пользователя.
  • Идентификаторы и семантические представления (embeddings) просмотренных документов (first set).
  • Идентификаторы и семантические представления непросмотренных релевантных документов (second set).

Выходные данные:

  • Information Gain Score для каждого документа второго набора.
  • Переранжированный список результатов поиска (SERP) или выбранный следующий документ для представления (в ассистенте).

На что влияет

  • Специфические запросы: Наибольшее влияние на информационные запросы, требующие исследования и сравнения (research intent), где пользователь, вероятно, просмотрит несколько источников для получения полного ответа.
  • Конкретные ниши или тематики: Влияет на тематики, где контент часто пересекается (например, новости, обзоры продуктов, инструкции, медицинские симптомы).
  • Форматы контента: Критически влияет на голосовой поиск и взаимодействие с ассистентами, где избыточность сильно ухудшает пользовательский опыт.

Когда применяется

Алгоритм применяется в рамках активной сессии пользователя при выполнении следующих условий:

  • Условие применения: Пользователь уже просмотрел хотя бы один документ по текущей теме.
  • Триггеры активации:
    • В веб-поиске: Возврат пользователя к странице результатов поиска (SERP) после просмотра одного из результатов (сценарий, описанный в Claim 7).
    • В диалоговых системах: Запрос пользователя на дополнительную информацию по теме (например, «Что еще ты нашел?», «Расскажи подробнее»).

Пошаговый алгоритм

Процесс А: Обработка во время сессии (на примере веб-поиска)

  1. Получение запроса и первичное ранжирование: Пользователь вводит запрос. Система генерирует и отображает SERP.
  2. Отслеживание взаимодействия: Пользователь выбирает результат (Документ 1). Система фиксирует это взаимодействие и идентифицирует содержание Документа 1. Документ 1 становится частью first set.
  3. Триггер переоценки: Пользователь возвращается к SERP.
  4. Идентификация кандидатов: Система определяет оставшиеся релевантные результаты как second set (Документы 2, 3, 4...).
  5. Расчет Information Gain Score:
    • Извлекаются семантические векторы (embeddings) для first set (Документ 1) и для каждого документа в second set.
    • Для пары (Документ 1, Документ 2) векторы подаются на вход обученной ML-модели.
    • Модель генерирует Information Gain Score для Документа 2, оценивая количество новой информации.
    • Процесс повторяется для Документов 3, 4 и т.д.
  6. Переранжирование: Система корректирует порядок документов в second set, основываясь на их Information Gain Scores (возможно, в комбинации с исходными оценками релевантности).
  7. Отображение обновленного SERP: Пользователь видит переупорядоченный список, где результаты с более уникальной информацией находятся выше.

Процесс Б: Обработка в диалоговой системе (Ассистент/TTS)

  1. Запрос и первый ответ: Пользователь задает вопрос. Ассистент извлекает информацию из Документа 1 и озвучивает её (TTS). Документ 1 попадает в first set.
  2. Последующий запрос: Пользователь просит дополнительную информацию.
  3. Выбор следующего документа: Система рассчитывает Information Gain Score для кандидатов (Документы 2, 3...) и выбирает документ с наивысшей оценкой (например, Документ 2).
  4. Выборочное представление (TTS optimization): Система анализирует Документ 2. Если он содержит Элемент А (уже озвученный из Документа 1) и Элемент Б (новый), система генерирует TTS вывод, который передает Элемент Б, но исключает Элемент А, чтобы избежать повторения.

Какие данные и как использует

Данные на входе

Патент фокусируется на сравнении содержания документов и действиях пользователя в рамках сессии.

  • Контентные факторы (Скрытые): Текст документов используется для генерации semantic feature vectors или embeddings. Это основной материал для сравнения.
  • Поведенческие факторы (Сессионные): Данные о том, какие документы пользователь уже просмотрел (accessed) или прослушал (presented) в рамках текущего исследования темы. Отслеживание кликов и возвратов к SERP.
  • Пользовательские факторы: Естественный язык ввода (natural language input) пользователя, используемый для определения темы и инициации поиска или диалога.

Какие метрики используются и как они считаются

  • Information Gain Score: Ключевая метрика. Рассчитывается с помощью модели машинного обучения. Оценка количественно определяет новизну информации в документе-кандидате.
  • Методы вычислений:
    • Модель Машинного Обучения: Используется для оценки прироста информации. В патенте упоминаются различные типы, включая нейронные сети. Модель обучается на тренировочных данных, размеченных людьми (кураторами) или на основе обратной связи от пользователей (например, ответы на вопрос «Был ли этот документ избыточным?»).
    • Семантические представления (Embeddings): Используются для преобразования текста в числовой формат (векторы), пригодный для ввода в ML-модель. Упоминается возможность использования моделей типа word2vec (автоэнкодеры) для генерации этих векторов.

Выводы

  1. Динамическое переранжирование на основе новизны: Google может корректировать SERP в реальном времени во время поисковой сессии. Если пользователь возвращается к выдаче, система стремится показать ему то, чего он еще не видел, основываясь на содержании уже посещенных страниц.
  2. Information Gain как фактор ранжирования: Вводится понятие Information Gain Score — метрики, оценивающей количество новой информации. В рамках сессии эта метрика может стать доминирующей для обеспечения эффективности поиска.
  3. Семантическое сравнение контента: Механизм полагается на семантические представления (embeddings, semantic vectors) для сравнения содержания документов на смысловом уровне, а не просто по ключевым словам.
  4. Критичность для голосового поиска и ассистентов: Патент уделяет особое внимание диалоговым системам. В них система может не просто выбирать следующий документ, но и активно фильтровать его содержание, пропуская уже озвученную информацию (TTS optimization).
  5. Обучение на основе оценок качества: ML-модель, предсказывающая Information Gain, обучается на данных, размеченных людьми или собранных через обратную связь. Это подчеркивает важность пользовательского восприятия новизны и полезности контента.

Практика

Best practices (это мы делаем)

  • Обеспечение уникального ценного предложения (UVP): Контент должен содержать уникальную информацию, анализ, данные или точку зрения, которых нет у конкурентов в ТОПе. Если ваш контент в значительной степени повторяет другие источники, его Information Gain Score будет низким для пользователя, который уже посетил эти источники.
  • Глубокое раскрытие темы и добавленная ценность: Стремитесь к максимальной полноте ответа. Если конкуренты покрывают аспекты А и Б, убедитесь, что вы покрываете А, Б, а также В и Г. Это увеличит вероятность того, что ваш контент будет prioritized для пользователей, ищущих дополнительную информацию.
  • Анализ пересечения контента с конкурентами: Необходимо понимать, какую информацию предоставляют конкуренты, и стратегически планировать контент так, чтобы минимизировать прямое дублирование и максимизировать Information Gain.
  • Структурирование контента для извлечения: Четкая структура помогает поисковым системам лучше генерировать embeddings и идентифицировать отдельные информационные элементы. Это особенно важно для голосового поиска, где система может извлекать и озвучивать только новые фрагменты.
  • Оптимизация под поисковые пути (Search Journeys): Понимайте, как пользователи исследуют тему. Создавайте контент, который отвечает на естественные следующие вопросы пользователя, предоставляя новую информацию на каждом этапе пути.

Worst practices (это делать не надо)

  • Поверхностный рерайтинг контента конкурентов: Создание контента, который семантически идентичен тому, что уже есть в ТОПе. Такие страницы будут иметь низкий Information Gain Score и рискуют быть отфильтрованными во время сессии пользователя.
  • Игнорирование интента исследования (Research Intent): Фокусировка только на коротких ответах в тематиках, где пользователи склонны сравнивать несколько источников. Система будет искать разнообразие информации.
  • Раздувание контента без добавления новизны: Добавление «воды» не увеличит Information Gain Score, так как система оценивает семантическое содержание через embeddings.

Стратегическое значение

Этот патент подтверждает движение Google к более динамичному и контекстуальному поиску, который адаптируется к действиям пользователя в реальном времени. Стратегически это означает, что оценка качества и релевантности контента становится всё более сложной и выходит за рамки статического анализа страницы. Для SEO-специалистов это подчеркивает переход от оптимизации отдельных страниц к оптимизации всего процесса поиска информации пользователем (User Journey Optimization). Уникальность и добавленная ценность контента становятся технической необходимостью для поддержания видимости.

Практические примеры

Сценарий: Поиск инструкции по устранению неполадок

  1. Запрос пользователя: «Почему не работает Wi-Fi на ноутбуке».
  2. Исходная выдача (SERP 1):
    Сайт 1: Перезагрузите роутер, проверьте драйверы.
    Сайт 2: Проверьте драйверы, сбросьте сетевые настройки.
    Сайт 3: Проблемы с оборудованием, диагностика в сервисе.
  3. Действие пользователя: Пользователь кликает на Сайт 1, читает про роутер и драйверы, затем возвращается в SERP.
  4. Переоценка (Information Gain): Система анализирует, что пользователь уже видел информацию о перезагрузке и драйверах.
    Information Gain Score для Сайта 2 снижается (так как информация о драйверах повторяется), но остается выше нуля за счет упоминания сброса настроек.
    Information Gain Score для Сайта 3 значительно повышается, так как он предлагает совершенно новый угол зрения (оборудование).
  5. Обновленная выдача (SERP 2):
    Сайт 3 (Повышен)
    Сайт 2 (Скорректирован)
    ... другие сайты с уникальными советами.
  6. Результат для SEO: Сайт 3, несмотря на то, что изначально мог быть менее релевантным общему запросу, получил преимущество за счет уникальности информации в контексте сессии пользователя.

Вопросы и ответы

Что такое «Information Gain Score» в контексте этого патента?

Это динамическая метрика, которая рассчитывается в реальном времени во время поисковой сессии. Она количественно определяет, сколько новой (novel) информации содержит непросмотренный документ по сравнению с контентом, который пользователь уже потребил по этой теме. Чем выше показатель, тем больше уникальных данных пользователь получит, перейдя по ссылке.

Как Google определяет, что информация является «новой», а что «уже просмотренной»?

Система отслеживает, какие документы пользователь посетил в рамках текущей сессии. Для понимания содержания этих документов используются семантические представления (embeddings или semantic feature vectors). Сравнивая векторы просмотренных и непросмотренных документов с помощью модели машинного обучения, система оценивает степень семантического пересечения и идентифицирует уникальную информацию.

Означает ли это, что Google отслеживает пользователей и персонализирует выдачу?

Да, но это специфический тип персонализации на уровне сессии (session-based personalization). Патент фокусируется на немедленном контексте текущего исследования темы, а не на долгосрочной истории поиска. Цель состоит в том, чтобы уменьшить избыточность информации в рамках конкретной задачи, которую пользователь решает прямо сейчас.

Как этот механизм влияет на стандартный веб-поиск (SERP)?

В патенте описан конкретный сценарий (Claim 7): когда пользователь кликает на результат, а затем возвращается к SERP (pogo-sticking). В этот момент система может переранжировать оставшиеся результаты, повышая те, которые содержат больше новой информации (высокий Information Gain Score), и понижая те, которые повторяют уже увиденное.

Какое значение это имеет для контент-стратегии?

Это критически важно. Стратегия создания контента, который просто переписывает информацию конкурентов из ТОПа (даже качественно), становится проигрышной. Необходимо фокусироваться на добавлении уникальной ценности, новых данных, экспертного анализа или покрытии аспектов темы, которые упускают конкуренты, чтобы максимизировать Information Gain.

Особенно ли это важно для голосового поиска?

Да, патент подчеркивает, что для автоматизированных ассистентов и голосового вывода (TTS) это крайне важно, так как прослушивание избыточной информации занимает много времени. В патенте даже описан механизм, когда ассистент может выборочно озвучить только новые фрагменты из следующего документа, пропуская то, что уже было сказано ранее.

Как обучается модель, предсказывающая Information Gain?

Патент предлагает два основных метода. Первый — использование ручной разметки данных людьми-кураторами, которые оценивают степень новизны одного документа относительно другого. Второй — сбор обратной связи от пользователей во время их обычного поиска, например, через вопросы типа «Был ли этот документ полезен в свете того, что вы уже прочитали?».

Может ли этот алгоритм полностью убрать мой сайт из выдачи?

Если ваш сайт не предлагает никакой новой информации по сравнению с сайтом, который пользователь только что посетил, его позиции в обновленном SERP могут значительно снизиться. Это делает его фактически невидимым для пользователя в рамках данной сессии, хотя он может оставаться в индексе.

Как можно оптимизировать контент под высокий Information Gain Score?

Необходимо проводить глубокий анализ конкурентов, чтобы понять, какая информация уже доступна. Затем нужно сосредоточиться на заполнении пробелов (Content Gaps), добавлении уникальных данных, инсайтов или представлении информации под новым углом. Чем меньше семантическое пересечение с конкурентами при сохранении релевантности теме, тем выше будет потенциальный Information Gain.

Влияет ли этот механизм на все типы запросов?

Наибольшее влияние он оказывает на информационные запросы с интентом исследования (research intent), где пользователи склонны изучать несколько источников для формирования полного понимания темы. Для навигационных или простых транзакционных запросов этот механизм менее релевантен.

Похожие патенты

Как Google адаптирует ранжирование контента под частоту посещений пользователя, балансируя между важностью и новизной
Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.
  • US9477376B1
  • 2016-10-25
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
  • US20140188919A1
  • 2014-07-03
  • Индексация

  • SERP

  • Краулинг

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства
Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.
  • US8886648B1
  • 2014-11-11
  • Семантика и интент

  • Индексация

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Популярные патенты

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования
Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.
  • US7925498B1
  • 2011-04-12
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов
Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.
  • US9268820B2
  • 2016-02-23
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей
Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.
  • US20210232659A1
  • 2021-07-29
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

seohardcore