Как Google индексирует действия пользователя на локальном устройстве для контекстного поиска (Архитектура Google Desktop)

METHODS AND SYSTEMS FOR INFORMATION CAPTURE AND RETRIEVAL (Методы и системы для сбора и поиска информации)

US7725508B2
Google LLC
2004-06-30
2010-05-25

Патент описывает архитектуру клиентского поискового движка (например, Google Desktop), который в реальном времени фиксирует взаимодействия пользователя с контентом (веб-страницы, документы, email). Система индексирует этот контент локально и может генерировать автоматические (имплицитные) запросы на основе текущего контекста пользователя, объединяя локальные и веб-результаты.

Какую проблему решает

Патент решает проблемы, присущие традиционным приложениям для поиска на клиентских устройствах (десктопного поиска). К этим проблемам относятся: замедление работы устройства из-за ресурсоемкого пакетного индексирования (batch processing), неактуальность индекса (так как пакетная обработка происходит периодически) и высокое потребление системных ресурсов. Цель изобретения — обеспечить индексирование активности пользователя в реальном времени (включая просмотр веб-страниц, работу с документами и почтой) без снижения производительности устройства.

Что запатентовано

Запатентована система для сбора и индексирования информации на клиентском устройстве. Ключевым элементом является механизм захвата событий (Events) — взаимодействий пользователя с контентом — в реальном времени. Система использует приоритетную очередь (Priority Queue) для немедленной обработки взаимодействий в реальном времени, а исторических данных (например, старых файлов) — когда позволяют ресурсы. Также система позволяет генерировать имплицитные запросы (Implicit Queries) на основе текущего контекста пользователя (Current User State).

Как это работает

Система работает следующим образом:

Захват событий: Процессор захвата (Capture Processor) постоянно отслеживает активность в различных клиентских приложениях (браузер, почта, офис).
Классификация: События классифицируются как происходящие в реальном времени (Real-time Events) или исторические (Historical Events), а также как индексируемые или неиндексируемые.
Приоритетная очередь: События помещаются в очередь. События реального времени получают более высокий приоритет, чем исторические.
Индексирование: Локальный Индексатор (Indexer) обрабатывает очередь, фокусируясь на высокоприоритетных задачах, и сохраняет данные в локальное хранилище.
Обработка запросов: Система запросов (Query System) принимает явные запросы от пользователя или генерирует имплицитные запросы, анализируя текущее состояние пользователя на основе потока событий в реальном времени.

Актуальность для SEO

Низкая/Средняя. Продукт, который наиболее полно реализовывал эту архитектуру (Google Desktop), больше не поддерживается. Однако описанные принципы — захват событий в реальном времени, понимание контекста пользователя (Current User State) и локальное индексирование — крайне актуальны для современных операционных систем (Android, ChromeOS) и браузеров (Chrome). Вероятно, эволюция этой архитектуры используется для сбора сигналов о поведении пользователей и обеспечения персонализированного опыта в этих продуктах.

Важность для SEO

Влияние на SEO минимальное (2/10). Патент описывает архитектуру для клиентского индексирования (Google Desktop), а не алгоритмы ранжирования веб-поиска. Он не дает прямых рекомендаций по оптимизации сайтов. Однако он предоставляет критически важные инсайты о технических механизмах, которые Google разработал для захвата гранулярных данных о поведении пользователей (просмотр веб-страниц, затраченное время, взаимодействия) в реальном времени. Понимание этих возможностей важно, так как подобные данные (если они собираются через Chrome/Android) потенциально могут использоваться для оценки качества поиска и персонализации в более широком контексте.

Термины и определения

Article (Статья/Контент): Любой элемент контента, с которым взаимодействует пользователь на клиентском устройстве. Включает веб-страницы (HTML, PDF), электронные письма, документы (Word, Spreadsheet, Presentation), сообщения мессенджеров, медиафайлы, записи календаря и т.д.
Capture Processor (Процессор захвата): Компонент системы, отвечающий за мониторинг активности на клиентском устройстве, идентификацию событий и сбор связанных с ними данных.
Current User State (Текущее состояние пользователя): Контекст текущей деятельности пользователя, определяемый на основе потока событий в реальном времени. Используется для генерации имплицитных запросов.
Event (Событие): Любое действие, связанное с контентом или приложением. Например: просмотр веб-страницы, отправка email, сохранение документа, ввод текста, движение мыши, открытие приложения.
Event Schema (Схема события): Механизм определения и регистрации событий, описывающий формат данных для события (например, поля для времени, заголовка, URL, содержания контента).
Historical Events (Исторические события): События, которые произошли до установки системы или не были захвачены в реальном времени (например, существующие файлы на диске). Захватываются путем сканирования локального хранилища.
Implicit Query (Имплицитный запрос): Автоматически сгенерированный запрос, основанный на Current User State, без явного ввода пользователем.
Indexable Events (Индексируемые события): События, признанные достаточно важными для индексирования и хранения (например, просмотр веб-страницы, получение email).
Network Search Engine (Сетевой поисковый движок): Внешняя поисковая система (например, Google.com), с которой может взаимодействовать локальный движок для получения веб-результатов.
Non-indexable Events (Неиндексируемые события): События, признанные недостаточно важными для индексации (например, движение мыши, выделение текста). Могут использоваться для обновления Current User State.
Queue (Очередь): Буфер, хранящий захваченные события до их обработки поисковым движком. Может быть реализована как Multiple Priority Queue, где события реального времени имеют приоритет над историческими. Также разделяется на Index Queue и User State Queue.
Real-time Events (События реального времени): События, захватываемые немедленно по мере их возникновения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод сбора и поиска информации с использованием сложной системы очередей.

Система захватывает событие (взаимодействие пользователя с контентом на клиентском устройстве).
Определяется, является ли событие индексируемым.
Если ДА (Индексируемое):
1. Определяется, является ли оно событием реального времени или историческим.
2. Событие помещается в Multiple Priority Index Queue. Событиям реального времени присваивается высокий приоритет, историческим — низкий.
3. Система извлекает и индексирует высокоприоритетные события раньше низкоприоритетных.
4. Если событие реального времени, оно также помещается в User State Queue.
Если НЕТ (Неиндексируемое):
1. Событие помещается в User State Queue (отдельную от Index Queue).
2. Система извлекает событие из User State Queue и определяет Current User State на его основе.

Ядром изобретения является механизм приоритизации обработки событий и их двойное использование: для индексирования контента и для понимания контекста пользователя. Система гарантирует свежесть индекса (приоритет реального времени) при минимизации влияния на производительность (низкий приоритет исторических данных). Четко разделяются пути обновления контекста пользователя (User State Queue) и основного индексирования (Index Queue).

Claim 11 (Зависимый от 1): Дополняет процесс поиском.

Система получает поисковый запрос.
Определяет, связано ли событие с запросом путем поиска в индексе.
Если связано, генерирует результат поиска на основе соответствующего контента (Article).

Claim 13 (Зависимый от 11): Уточняет, что система также может находить релевантные сетевые статьи (Network Articles) и (Claim 14) включать их в результаты поиска вместе с локальным контентом.

Где и как применяется

Важно понимать, что этот патент описывает архитектуру клиентского (локального) поиска, а не основного веб-поиска Google. Он применяется на устройстве пользователя.

CRAWLING – Сканирование и Сбор данных (Локальный)
Capture Processor действует как краулер. Он непрерывно сканирует активность пользователя в реальном времени (Real-time Events) и периодически сканирует локальную файловую систему для обнаружения исторических данных (Historical Events).

INDEXING – Индексирование (Локальное)
Локальный Indexer обрабатывает события из Queue. Происходит извлечение контента, метаданных (время, URL, отправитель) и сохранение в локальном Data Store. Применяется система приоритизации для управления нагрузкой.

QUNDERSTANDING – Понимание Запросов (Локальное)
Query System анализирует поток событий реального времени (включая Non-indexable events) для определения Current User State. На основе этого состояния система может генерировать Implicit Queries без участия пользователя.

RANKING / METASEARCH (Локальное)
Система ищет релевантные результаты в локальном индексе. Она также может отправить запрос к Network Search Engine и объединить (Blending) локальные и сетевые результаты в единую выдачу.

Входные данные:

Взаимодействия пользователя: клики, нажатия клавиш, просмотр контента, движения мыши.
Данные приложений: содержимое email, документов, веб-страниц, история чатов.
Системные данные: файловая система, сетевая активность.
Данные о производительности (Performance Data): загрузка процессора, время простоя, доступная память.

Выходные данные:

Проиндексированное локальное хранилище данных.
Обновленное состояние пользователя (Current User State).
Результаты поиска (объединенные локальные и сетевые).

На что влияет

Типы контента: Влияет на поиск любого контента, к которому пользователь получал доступ на устройстве: документы, электронная почта, просмотренные веб-страницы, медиафайлы, история мессенджеров.
Специфические запросы: Наибольшее влияние оказывает на информационные запросы, где контекст пользователя (то, что он делает прямо сейчас) может быть использован для проактивного предоставления информации через Implicit Queries.

Когда применяется

Условия работы: Система разработана для непрерывной работы в фоновом режиме на клиентском устройстве.
Триггеры активации: Захват событий происходит немедленно при возникновении активности пользователя (Real-time Events). Сканирование исторических данных происходит периодически.
Управление нагрузкой: Система использует данные о производительности устройства (Performance Data) для регулирования своей активности. Например, индексирование исторических событий может замедляться или приостанавливаться при высокой загрузке процессора пользователем. Capture Processor также может уменьшать частоту или детализацию захвата событий, если система занята.

Пошаговый алгоритм

Процесс захвата и индексирования:

Мониторинг: Capture Processor отслеживает активность клиентских приложений (браузер, почта и т.д.) и общую активность устройства.
Захват события: Происходит взаимодействие (например, пользователь открывает веб-страницу). Capture Processor фиксирует это как Event.
Сбор данных: Данные, связанные с событием (URL, время просмотра, полный контент страницы, скриншот), компилируются в соответствии с Event Schema.
Классификация: Система определяет тип события: Индексируемое или Неиндексируемое; Реального времени или Историческое.
Постановка в очередь (Индексирование): Если событие индексируемое, оно отправляется в Index Queue. Ему присваивается приоритет (Высокий для реального времени, Низкий для исторического).
Постановка в очередь (Контекст): Если событие происходит в реальном времени (независимо от индексируемости), оно отправляется в User State Queue.
Обработка индекса (Асинхронно): Indexer извлекает события из Index Queue, основываясь на приоритете и текущей загрузке системы. Контент обрабатывается, и локальный индекс обновляется.
Обновление состояния (Асинхронно): Query System извлекает события из User State Queue для обновления Current User State.
Генерация запроса: Пользователь вводит явный запрос ИЛИ Query System генерирует Implicit Query на основе Current User State.
Поиск и отображение: Система ищет в локальном индексе и, опционально, в Network Search Engine. Результаты форматируются и отображаются пользователю.

Какие данные и как использует

Данные на входе

Система собирает исчерпывающий набор данных о локальной активности пользователя:

Контентные факторы: Полное текстовое содержимое всех обрабатываемых Articles (веб-страницы, электронные письма, документы, сообщения мессенджеров, презентации).
Технические факторы: URL веб-страниц, пути к локальным файлам, форматы документов, размеры файлов, данные о сетевой активности.
Поведенческие факторы (Локальные): Ввод с клавиатуры (Keystrokes), движения мыши, использование буфера обмена (copying text to the clipboard), время, потраченное на просмотр контента, наведение курсора на гиперссылку (hovering the mouse over a hyperlink), шаблоны использования приложений.
Временные факторы: Время и дата доступа к контенту, время отправки/получения сообщений, время создания/модификации файлов.
Мультимедиа факторы: Изображения, связанные с контентом. Упоминается возможность создания скриншотов (Screenshot) и миниатюр (Thumbnail) просмотренных веб-страниц.
Системные факторы: Данные о производительности (Performance Data): загрузка процессора, время простоя, доступ к диску, использование памяти.

Какие метрики используются и как они считаются

Приоритет события (Event Priority): Ключевая метрика для управления очередью. Real-time Events получают высокий приоритет, Historical Events — низкий.
Порог индексируемости (Indexability Threshold): Система определяет, является ли событие достаточно важным для индексации. Патент не детализирует расчет, но упоминает, что для исторических событий может вычисляться Capture Score, который сравнивается с пороговым значением, чтобы решить, нужно ли его индексировать. Capture Score может основываться на местоположении, типе файла и данных доступа.
Метрики производительности (Performance Metrics): Используются для дросселирования (Throttling) активности системы. Capture Processor и Search Engine могут изменять частоту и детализацию захвата событий или скорость индексирования в зависимости от загруженности системы.
Current User State: Агрегированная модель, представляющая текущий контекст пользователя, вычисляемая на основе потока событий реального времени.

Фокус на клиентской стороне: Патент описывает архитектуру локального поиска (Google Desktop), а не алгоритмы ранжирования веб-поиска Google. Прямых выводов для SEO сайтов из него сделать нельзя.
Возможности захвата поведения: Патент демонстрирует разработанные Google сложные технологии для гранулярного захвата взаимодействий пользователя с веб-контентом и приложениями в реальном времени. Система способна фиксировать практически все — от просмотра страницы и времени взаимодействия до движений мыши и ввода текста.
Индексирование в реальном времени и управление ресурсами: Ключевым нововведением является использование приоритетной очереди для баланса между свежестью индекса (приоритет реального времени) и производительностью системы (низкий приоритет исторических данных и учет загрузки CPU).
Контекст и Имплицитные запросы: Вводится концепция Current User State, обновляемая в реальном времени даже неиндексируемыми событиями, и использование этого состояния для генерации Implicit Queries. Это показывает ранний фокус Google на поиске, управляемом контекстом, а не только ключевыми словами.
Стратегический инсайт для SEO: Хотя патент не о ранжировании, он подтверждает техническую возможность Google собирать чрезвычайно подробные поведенческие данные, если пользователь использует их клиентское ПО (например, Chrome, Android), оснащенное подобными механизмами захвата.

Best practices (это мы делаем)

Патент носит инфраструктурный характер и сфокусирован на клиентском поиске, поэтому он дает ограниченное количество прямых рекомендаций для веб-SEO. Однако он дает важные стратегические инсайты.

Фокус на качестве взаимодействия (User Experience): Патент подтверждает техническую способность Google детально фиксировать сигналы взаимодействия (что пользователи просматривают, как долго, какие действия совершают). Хотя это описано для локального поиска, это укрепляет предположение, что Google ценит и может измерять (через другие инструменты, такие как Chrome или Android) вовлеченность пользователей на веб-страницах. Необходимо создавать контент, который удерживает внимание и обеспечивает положительный опыт.
Обеспечение технической чистоты контента: Поскольку система захватывает и индексирует контент, с которым взаимодействует пользователь (включая веб-страницы), важно, чтобы контент был легко извлекаем и корректно интерпретируем системами индексирования (чистый HTML, доступность ресурсов).

Worst practices (это делать не надо)

Игнорирование поведенческих факторов: Недооценивать способность Google измерять поведение пользователей. Стратегии, основанные на предположении, что Google видит только контент и ссылки, игнорируют технологические возможности, заложенные в этом патенте и развитые в последующих продуктах.

Стратегическое значение

Патент подтверждает долгосрочные инвестиции Google в понимание контекста и поведения пользователя на гранулярном уровне. Он подчеркивает переход от простого сопоставления ключевых слов к пониманию намерений пользователя и его окружения (Current User State). Для Senior SEO-специалистов это сигнал о том, что поведенческие сигналы и контекст пользователя являются фундаментальными элементами поисковых систем Google, даже если механизмы их учета в веб-ранжировании описаны другими патентами. Это основа для персонализации и проактивного поиска.

Практические примеры

Практических примеров для SEO-продвижения веб-сайтов нет, так как патент относится к локальному поиску.

Пример работы системы по патенту (Не SEO):

Сценарий: Генерация имплицитного запроса на основе контекста

Действие пользователя: Пользователь пишет электронное письмо коллеге и вводит текст: "Нам нужно подготовить отчет по Проекту Феникс к следующей пятнице".
Захват события: Capture Processor фиксирует событие ввода текста в реальном времени. Это может быть классифицировано как Non-indexable Event (так как письмо еще не сохранено).
Обновление контекста: Событие отправляется в User State Queue. Query System обрабатывает его и обновляет Current User State, выделяя сущность "Проект Феникс" и намерение "подготовить отчет".
Генерация Implicit Query: На основе обновленного состояния Query System автоматически генерирует Implicit Query (например, "Проект Феникс недавние документы").
Результат: Система проактивно отображает (например, в боковой панели) список недавних локальных документов, электронных писем и релевантных веб-результатов, связанных с "Проектом Феникс", без необходимости ручного поиска.

Описывает ли этот патент, как Google ранжирует сайты в интернете?

Нет. Этот патент описывает архитектуру Google Desktop — системы для поиска информации на локальном компьютере пользователя. Он не раскрывает алгоритмы ранжирования основного веб-поиска Google.

Какова главная ценность этого патента для SEO-специалиста?

Главная ценность заключается в понимании технических возможностей Google по сбору данных. Патент детально описывает, как Google может в реальном времени фиксировать гранулярные взаимодействия пользователя с веб-контентом (просмотры, время, действия). Это подтверждает, что у Google есть инфраструктура для учета поведенческих факторов, если они собираются через их ПО (например, Chrome, Android).

Что такое "Implicit Query" (Имплицитный запрос)?

Это запрос, который система генерирует автоматически на основе текущего контекста пользователя (Current User State), без явного ввода ключевых слов пользователем. Например, если пользователь пишет документ о конкретной теме, система может автоматически искать связанную информацию.

Что в патенте понимается под "Событием" (Event)?

Событие — это любое взаимодействие пользователя с контентом или приложением. Оно включает как важные действия (сохранение файла, просмотр веб-страницы — Indexable Events), так и менее значимые (движение мыши, выделение текста — Non-indexable Events).

Зачем система разделяет события на "Real-time" и "Historical"?

Это делается для оптимизации производительности. События реального времени (то, что происходит сейчас) получают высокий приоритет для немедленного индексирования, обеспечивая свежесть индекса. Исторические события (старые файлы на диске) получают низкий приоритет и индексируются, когда система простаивает, чтобы не замедлять работу пользователя.

Используется ли эта технология сейчас?

Google Desktop, основной продукт на базе этого патента, больше не поддерживается. Однако базовые концепции захвата событий в реальном времени и понимания контекста пользователя, вероятно, интегрированы и развиты в современных продуктах Google, таких как браузер Chrome и операционная система Android.

Что такое "Current User State"?

Это динамическая модель того, что пользователь делает в данный момент. Она обновляется в реальном времени на основе потока всех событий (даже неиндексируемых) и используется системой для понимания контекста и генерации Implicit Queries.

Может ли система захватывать контент просмотренных веб-страниц?

Да. Патент явно описывает захват контента веб-страниц, URL, времени просмотра и даже создание скриншотов (Screenshots) страниц в момент, когда пользователь их просматривал, для последующего локального индексирования.

Как система определяет, какие события индексировать, а какие нет?

Система классифицирует события на основе их предполагаемой важности. Просмотр документа или получение письма считаются важными (Indexable). Движения мыши или выделение текста считаются менее важными (Non-indexable), но все равно используются для понимания контекста (Current User State).

Может ли эта локальная система влиять на результаты веб-поиска?

Да, патент описывает возможность объединения (Blending) локальных результатов с результатами от Network Search Engine (Google.com). Кроме того, Implicit Queries, сгенерированные локально на основе контекста, могут использоваться для поиска в интернете, что является формой глубокой персонализации.

Как Google выборочно индексирует действия пользователя на локальном устройстве, основываясь на поведении и частоте событий

Анализ патента Google, описывающего инфраструктуру для клиентского поиска (например, Google Desktop). Система фиксирует действия пользователя (события) с контентом (статьями) и решает, индексировать ли их, используя критерии, основанные на частоте событий, доступных ресурсах и предполагаемых интересах пользователя (имплицитно выведенных из его поведения).

US8346777B1
2013-01-01

Индексация
Local SEO
Поведенческие сигналы

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам

Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.

US7788274B1
2010-08-31

Персонализация
Поведенческие сигналы
Local SEO

Как Google объединял локальные результаты (файлы, email) с веб-результатами на стороне клиента (Google Desktop)

Патент описывает архитектуру клиентского приложения (например, Google Desktop), которое индексирует локальные данные пользователя. Система перехватывает веб-запрос, параллельно выполняет поиск по локальному индексу и объединяет локальные результаты с результатами из глобального веб-индекса в едином интерфейсе, разделяя их по типам контента.

US7437353B2
2008-10-14

Local SEO
Индексация
Персонализация

Как Google интегрирует результаты поиска и контекстные подсказки непосредственно в интерфейс браузера и приложений (Основы Omnibox и Google Desktop)

Патент Google, описывающий механизмы динамического изменения пользовательского интерфейса путем вставки контекстуальных результатов поиска или запросов к пользователю. Система анализирует элементы просматриваемого контента ("аспекты") и внедряет связанную информацию ("вставки") из локального индекса (история, файлы) или глобального поиска. Это закладывает основу для функций автодополнения в адресной строке (Autocomplete/Omnibox) и контекстного поиска.

US20090276408A1
2009-11-05

Индексация
Персонализация
Семантика и интент

Как Google анализирует видимый контент на экране пользователя для предоставления контекстной информации без ввода запроса (Contextual Search)

Google использует механизм для анализа контента, активно отображаемого на экране устройства (веб-страницы, приложения, чаты). По общему триггеру (например, долгое нажатие или жест) система идентифицирует ключевые сущности только в видимой области. Она определяет их важность на основе визуального представления (размер, цвет, позиция) и типа контента, причем логика определения важности адаптируется (например, в чате приоритет у недавних сообщений внизу экрана).

US11003667B1
2021-05-11

Семантика и интент
Knowledge Graph

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу

Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.

US20150310100A1
2015-10-29

Персонализация
Индексация
Поведенческие сигналы

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент