SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google объединяет основной индекс и свежие изменения пользователя для персонализированного поиска

SEARCHING INDEXED AND NON-INDEXED RESOURCES FOR CONTENT (Поиск контента в индексированных и неиндексированных ресурсах)
  • US7818324B1
  • Google LLC
  • 2007-11-14
  • 2010-10-19
  • Персонализация
  • Свежесть контента
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для уменьшения задержки между изменением контента пользователем и его появлением в поиске. Система отслеживает изменения (добавления, удаления, модификации), сделанные пользователем, и объединяет их с результатами основного индекса. Это гарантирует, что пользователь может немедленно найти контент, который он только что изменил, даже если основной индекс еще не обновился.

Описание

Какую проблему решает

Патент решает проблему задержки (latency) между моментом, когда пользователь изменяет контент (добавляет, удаляет или модифицирует ресурс), и моментом, когда это изменение отражается в поисковом индексе. Цель — улучшить пользовательский опыт, позволяя пользователю немедленно найти контент, который он сам только что изменил, даже если основной индекс еще не успел обновиться. Это инфраструктурное улучшение для персонализированного поиска или поиска в закрытых системах.

Что запатентовано

Запатентована система для поиска, которая поддерживает основной индекс, обновляемый периодически, и параллельно ведет запись изменений (Change Data), сделанных пользователями. При выполнении поиска система объединяет результаты из основного индекса с релевантными изменениями, которые были сделаны этим же пользователем и еще не попали в индекс. Это обеспечивает актуальность выдачи, отражающую самые последние действия пользователя.

Как это работает

Система работает следующим образом:

  • Фоновая индексация: Основной индекс (most-recently updated index) обновляется периодически.
  • Отслеживание изменений: Параллельно Change Tracking Engine постоянно записывает действия пользователей (добавление, удаление, модификация) как Change Data.
  • Обработка запроса: Когда пользователь отправляет запрос, система получает стандартный результат из основного индекса (Index Search Result).
  • Проверка изменений пользователя: Система ищет в Change Data изменения, которые (а) сделаны этим же пользователем и (б) релевантны запросу.
  • Объединение: Если такие изменения найдены, генерируется пересмотренный результат (Revised Search Result), объединяющий данные из индекса и свежие изменения.

Актуальность для SEO

Высокая (для инфраструктуры персонализированного поиска). Технология критически важна для систем, требующих мгновенного поиска по свежим данным, таких как Gmail, Google Docs или локальный поиск (Desktop Search). Однако для стандартного веб-поиска (SEO) актуальность низкая, поскольку механизм сфокусирован строго на изменениях, внесенных самим пользователем, а не на общем обновлении веб-контента.

Важность для SEO

(1/10). Патент имеет минимальное значение для стандартных SEO-стратегий. Он описывает внутренний механизм Google для обработки свежести данных в контексте персонализированного или локального поиска. Он не раскрывает факторов ранжирования, методов оценки качества сайтов или принципов обработки веб-контента для широкой публичной выдачи.

Детальный разбор

Термины и определения

Change Data (Данные об изменениях)
Записи о действиях пользователей (добавление, удаление, модификация ресурса), произошедших после последнего обновления основного индекса. Включают информацию о пользователе, совершившем изменение.
Change Tracking Engine (Механизм отслеживания изменений)
Компонент системы, который отслеживает и записывает Change Data в реальном времени.
Corpus (Корпус ресурсов)
Коллекция ресурсов (например, веб-страницы, документы, файлы, электронные письма), доступных поисковой системе.
Index Search Result (Результат поиска по индексу)
Стандартный набор результатов, полученный из основного индекса.
Most-recently updated index (Самый последний обновленный индекс)
Текущая версия основного поискового индекса, которая обновляется периодически.
Revised Search Result (Пересмотренный результат поиска)
Финальный набор результатов, полученный путем объединения Index Search Result и релевантных Change Data.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод объединения индексированных данных и данных об изменениях пользователя.

  1. Система периодически обновляет компьютерный индекс корпуса ресурсов.
  2. Система записывает в память Change Data, специфицирующие изменения, сделанные пользователями. Для каждого изменения (добавление, удаление, модификация) записывается пользователь, сделавший его. Эти изменения произошли слишком поздно, чтобы быть отраженными в текущем индексе.
  3. Система получает первый запрос от первого пользователя и соответствующий Index Search Result из текущего индекса.
  4. Система ищет в записанных Change Data любые изменения в корпусе, сделанные этим же первым пользователем, которые релевантны запросу.
  5. Если такие изменения найдены: генерируется Revised Search Result из изменений и Index Search Result, который предоставляется пользователю.
  6. Если нет: пользователю предоставляется стандартный Index Search Result.

Критически важным элементом является строгая персонализация механизма: он компенсирует задержку индексации только для автора изменений.

Claims 2-5 (Зависимые пункты): Детализируют обработку разных типов изменений при генерации Revised Search Result.

  • Claim 2 (Модификация → Исключение): Если модификация приводит к тому, что ресурс больше не удовлетворяет запросу, он удаляется из результатов.
  • Claim 3 (Модификация → Включение): Если модификация приводит к тому, что ресурс теперь удовлетворяет запросу, он добавляется в результаты.
  • Claim 4 (Удаление): Если ресурс был удален пользователем, он удаляется из результатов поиска (даже если он все еще есть в индексе).
  • Claim 5 (Добавление): Если ресурс был добавлен пользователем и удовлетворяет запросу, он включается в результаты поиска (даже если его еще нет в индексе).

Где и как применяется

Этот патент описывает инфраструктурный механизм для сред, где пользователи часто ищут контент, который они сами только что создали или изменили (персонализированный поиск, закрытые системы, локальный поиск). В патенте упоминается "desktop file system".

CRAWLING & INDEXING – Сканирование и Индексирование
На этих этапах система периодически обновляет основной индекс. Независимо от этого, Change Tracking Engine постоянно отслеживает действия пользователей (например, получая уведомления от хостов контента) и записывает Change Data в отдельное хранилище (Change Data Recording Memory).

RANKING – Ранжирование
На этом этапе генерируется стандартный Index Search Result на основе данных из основного индекса.

RERANKING / METASEARCH (Blending) – Переранжирование и Смешивание
Это ключевой этап применения патента. Система выполняет дополнительный поиск по хранилищу Change Data, фильтруя результаты по ID текущего пользователя и релевантности запросу. Затем происходит объединение (blending) результатов из основного индекса и Change Data для создания финального Revised Search Result.

Входные данные:

  • Запрос пользователя.
  • Идентификатор (ID) пользователя.
  • Index Search Result (результаты из основного индекса).
  • Change Data (записи об изменениях с привязкой к пользователям).

Выходные данные:

  • Revised Search Result (объединенный результат) или стандартный Index Search Result.

На что влияет

  • Конкретные типы контента: Влияет на любые индексируемые ресурсы в рамках системы (документы, файлы, электронные письма).
  • Специфические запросы: Наибольшее влияние на запросы, когда пользователь ищет конкретный ресурс, который он недавно создал или редактировал.
  • Область влияния: Влияет исключительно на результаты поиска пользователя по контенту, который этот же пользователь недавно изменил. Не влияет на публичный веб-поиск.

Когда применяется

  • Триггер активации: Механизм активируется при каждом поисковом запросе пользователя в системе, где он реализован.
  • Условие срабатывания: Корректировка результатов происходит только тогда, когда в Change Data существуют записи, которые (1) сделаны этим пользователем, (2) релевантны запросу и (3) еще не отражены в основном индексе.

Пошаговый алгоритм

  1. Обновление индекса (Фоновый процесс): Периодическое создание обновленной версии основного индекса корпуса ресурсов.
  2. Запись изменений (Постоянный процесс): Change Tracking Engine отслеживает и записывает Change Data (добавления, удаления, модификации) с обязательной привязкой к пользователю, совершившему изменение.
  3. Получение запроса: Система получает поисковый запрос от пользователя.
  4. Поиск по индексу: Генерация стандартного Index Search Result на основе текущего основного индекса.
  5. Поиск в данных об изменениях: Система ищет в Change Data записи, которые сделаны этим же пользователем и релевантны поисковому запросу.
  6. Оценка влияния: Система определяет, как найденные изменения должны повлиять на Index Search Result:
    • Определяется, должен ли новый/измененный ресурс быть добавлен в результаты.
    • Определяется, должен ли удаленный/измененный ресурс быть исключен из результатов.
  7. Генерация пересмотренного результата: Если влияние есть, система генерирует Revised Search Result. Происходит объединение, добавление и удаление ресурсов.
  8. Предоставление результата: Пользователю предоставляется финальный набор результатов (Revised Search Result или стандартный, если изменений не было).

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре объединения данных, а не на факторах ранжирования.

  • Пользовательские факторы: Критически важный элемент. Используется идентификатор пользователя, выполняющего поиск, для сопоставления его с пользователем, который внес изменения, записанные в Change Data.
  • Временные факторы: Используется время внесения изменения относительно времени последнего обновления основного индекса. Обрабатываются только те изменения, которые произошли после последнего обновления.
  • Контентные факторы: Содержимое добавленных или модифицированных ресурсов в Change Data анализируется для определения их релевантности текущему запросу.

Какие метрики используются и как они считаются

  • Патент не описывает конкретных метрик ранжирования или формул расчета оценок.
  • Основной механизм — это проверка релевантности (удовлетворяет ли ресурс запросу) как для контента в основном индексе, так и для контента в Change Data.
  • При объединении результатов для формирования Revised Search Result, патент упоминает, что измененные ресурсы могут быть вставлены в список на позицию, основанную на их релевантности (rank), или просто помещены в начало списка.

Выводы

  1. Фокус на персонализации и снижении задержки: Основная цель патента — инфраструктурная. Он направлен на устранение разрыва между реальным состоянием контента пользователя и состоянием поискового индекса, улучшая пользовательский опыт за счет мгновенного доступа к свежим данным.
  2. Гибридная архитектура поиска: Система использует гибридный подход, комбинируя два источника данных: основной (периодически обновляемый) индекс и постоянно обновляемую запись изменений (Change Data).
  3. Строгая привязка к пользователю: Ключевое ограничение механизма — корректировка результатов поиска основывается только на тех изменениях, которые были сделаны тем же самым пользователем, который выполняет поиск.
  4. Отсутствие влияния на SEO: Патент не содержит информации о факторах ранжирования в веб-поиске, оценке качества сайтов (E-E-A-T) или обработке публичного веб-контента. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в стандартной выдаче Google.

Практика

ВАЖНО: Патент является инфраструктурным и описывает механизмы персонализированного или локального поиска. Он не дает практических выводов для стандартного SEO.

Best practices (это мы делаем)

Патент не содержит информации, на основе которой можно сформулировать Best Practices для SEO.

Worst practices (это делать не надо)

Патент не содержит информации, на основе которой можно сформулировать Worst Practices для SEO.

Стратегическое значение

Патент не имеет стратегического значения для SEO. Он представляет интерес с точки зрения архитектуры поисковых систем и методов решения проблемы свежести данных в реальном времени (особенно в закрытых или персонализированных средах), но не применим к оптимизации публичных веб-сайтов для органического поиска.

Практические примеры

Практических примеров для SEO нет.

Пример работы механизма (не SEO):

Сценарий: Поиск в Google Docs.

  1. Действие пользователя: Пользователь создает новый документ с названием "Отчет по SEO за 3 квартал".
  2. Запись изменения: Change Tracking Engine немедленно записывает это действие в Change Data, связывая новый документ с этим пользователем.
  3. Состояние индекса: Основной индекс Google Docs еще не обновился и не знает о существовании этого документа.
  4. Поиск: Через секунду пользователь вводит запрос "Отчет по SEO" в строку поиска Google Docs.
  5. Обработка: Система получает стандартные результаты из индекса. Затем она проверяет Change Data на наличие изменений от этого пользователя по этому запросу.
  6. Результат: Система находит запись о новом документе, объединяет ее с результатами индекса и показывает "Отчет по SEO за 3 квартал" в выдаче, несмотря на его отсутствие в основном индексе.

Вопросы и ответы

Описывает ли этот патент, как Google определяет свежесть контента для веб-поиска?

Нет. Патент описывает конкретный метод обеспечения свежести для персонализированного поиска. Он гарантирует, что пользователь увидит контент, который он сам только что изменил, даже если основной индекс не обновился. Это не связано с общими алгоритмами оценки свежести (например, QDF) в публичном веб-поиске.

Влияет ли описанный механизм на то, как быстро мой сайт попадет в индекс Google?

Нет, этот патент не описывает скорость индексации веб-сайтов. Он описывает, как система обрабатывает уже известные ей изменения (Change Data) до того, как они попадут в основной индекс, и только для того пользователя, который эти изменения внес.

Применяется ли этот патент к публичному веб-поиску Google?

Маловероятно. Механизм строго ограничен изменениями, сделанными тем же пользователем, который выполняет поиск. Это имеет смысл для закрытых систем (Gmail, Google Docs, внутренний поиск CMS, локальный поиск), но не для публичного веб-поиска, где пользователи ищут контент, созданный другими людьми.

Что такое "Change Data" в контексте этого патента?

Это постоянно обновляемая запись изменений (добавлений, удалений, модификаций ресурсов), сделанных пользователями после последнего обновления основного индекса. Change Data используется для корректировки результатов поиска конкретного пользователя в реальном времени, чтобы устранить задержку индексации.

Если я часто обновляю контент на своем сайте, поможет ли мне этот механизм ранжироваться выше?

Нет. Этот механизм может помочь только вам лично быстрее найти ваши собственные обновления, если вы используете поисковую систему, реализующую этот патент (например, поиск внутри вашей CMS). Он не влияет на ранжирование вашего сайта для других пользователей в Google Поиске.

Где конкретно может использоваться эта технология?

В самом патенте в качестве примера упоминается "desktop file system" (файловая система рабочего стола). Технология идеально подходит для поиска в облачных хранилищах (Google Drive), почтовых сервисах (Gmail) и системах управления документами, где критически важна мгновенная доступность недавно измененного контента для его автора.

Как система узнает об изменениях, чтобы записать их в "Change Data"?

Патент предлагает несколько вариантов. Поисковая система может заметить изменения во время сканирования. Более эффективный способ, описанный в патенте: хосты контента (content hosts) могут быть настроены так, чтобы отправлять уведомления об изменениях (change notifications) в механизм отслеживания (Change Tracking Engine) сразу после действия пользователя.

Учитывает ли система изменения, сделанные другими пользователями, при корректировке моей выдачи?

Нет. Согласно патенту (Claim 1), при обработке запроса от конкретного пользователя система ищет в Change Data только те изменения, которые были сделаны этим же пользователем. Изменения, сделанные другими, будут учтены только после обновления основного индекса.

Как именно объединяются результаты из основного индекса и "Change Data"?

Система генерирует пересмотренный результат (Revised Search Result). Ресурсы, которые были удалены пользователем, исключаются из выдачи. Новые или модифицированные ресурсы добавляются, если они релевантны запросу. Они могут быть добавлены на позицию в соответствии с их предполагаемым рангом (релевантностью) или просто помещены в начало списка.

Какова основная ценность этого патента для специалиста по поисковым технологиям?

Патент предлагает элегантное архитектурное решение для проблемы задержки индексации в системах реального времени. Он демонстрирует метод гибридного поиска, использующий основной (более медленный) индекс и дополнительный (быстрый) индекс изменений для обеспечения максимальной актуальности результатов без необходимости переиндексации всего корпуса в реальном времени.

Похожие патенты

Как Google стабилизирует обновляемые результаты поиска для минимизации изменений в интерфейсе
Google использует метод для обновления результатов поиска в динамических интерфейсах (таких как тулбары или виджеты), который минимизирует визуальные изменения для пользователя. Система сравнивает старый и новый наборы результатов и старается сохранить позиции совпадающих элементов, чтобы интерфейс не "прыгал" при обновлении.
  • US7281008B1
  • 2007-10-09
  • SERP

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности
Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.
  • US7702618B1
  • 2010-04-20
  • Индексация

  • Техническое SEO

  • Свежесть контента

Как Google автоматически обновляет результаты поиска в реальном времени без перезагрузки страницы
Google использует клиентский скрипт (например, JavaScript), встроенный в страницу результатов поиска, для автоматического обновления блоков с контентом в реальном времени. Этот скрипт периодически повторно отправляет исходный запрос на сервер, получает самые свежие результаты, появившиеся с момента последней проверки, и динамически встраивает их в страницу выдачи без её полной перезагрузки.
  • US8843856B2
  • 2014-09-23
  • Свежесть контента

  • SERP

Как Google объединяет персональную историю поиска и популярные запросы для формирования подсказок (Autocomplete)
Google формирует поисковые подсказки (Autocomplete), комбинируя два источника данных: запросы, которые пользователь вводил ранее (персональная история), и запросы, популярные среди сообщества пользователей. Система ранжирует эти подсказки, учитывая частоту и новизну персональных запросов, и визуально выделяет персональные подсказки от общих.
  • US8639679B1
  • 2014-01-28
  • Персонализация

  • Поведенческие сигналы

Как Google объединяет и синхронизирует локальные данные пользователя с глобальными каталогами (на примере Desktop Search)
Патент Google, описывающий технологию для клиентских приложений (таких как Google Desktop Search). Система объединяет результаты поиска контактной информации из локального индекса пользователя (файлы, контакты) и глобальных каталогов (например, LDAP или адресные книги). Она также позволяет синхронизировать, обновлять и создавать новые записи контактов на основе найденной информации.
  • US7761439B1
  • 2010-07-20
  • Local SEO

  • Индексация

Популярные патенты

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона
Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.
  • US8463772B1
  • 2013-06-11
  • Local SEO

  • Поведенческие сигналы

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты
Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.
  • US20150169576A1
  • 2015-06-18
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

seohardcore