Как Google генерирует, ранжирует и отображает результаты поиска в реальном времени (Real-Time Search)

GENERATING REAL-TIME SEARCH RESULTS (Генерация результатов поиска в реальном времени)

US9043319B1
Google LLC
2010-12-03
2015-05-26

Патент Google описывает комплексную систему для поиска в реальном времени. Он включает механизмы прогнозирования актуальных запросов, предварительного кэширования свежего контента (например, статусов из соцсетей), оценки качества этого контента и авторов. Также описана технология непрерывного обновления выдачи у пользователя с помощью "Time Token" и процесс обработки сокращенных URL.

Какую проблему решает

Патент решает задачу предоставления пользователям максимально актуальной (up-to-date) информации по запросам, чувствительным к свежести (например, breaking news, текущие события). Он улучшает работу поиска за счет интеграции быстро обновляемого контента, такого как обновления статусов (Status Updates), блоги и новости, а также обеспечивает механизмы для фильтрации низкокачественного real-time спама и повышения качества отображаемой информации.

Что запатентовано

Запатентована комплексная система для интеграции, ранжирования и отображения real-time контента. Она включает три основных компонента: 1) Механизм отображения, использующий клиентское ПО и Time Token для постоянного обновления SERP без перезагрузки страницы. 2) Систему предиктивного кэширования (Predictive Cache), которая прогнозирует актуальные запросы и заранее собирает для них свежие результаты. 3) Механизмы оценки качества (Quality Score), специфичные для real-time контента и его авторов.

Как это работает

Система определяет, требует ли запрос результатов в реальном времени. Если да, пользователю отправляется страница, содержащая клиентское программное обеспечение. Это ПО непрерывно запрашивает у сервера обновления, используя Time Token — метку времени последнего полученного результата. Сервер отвечает только теми результатами, которые появились или обновились после этой метки времени. Параллельно работает система прогнозирования (Query Predictor), которая заранее кэширует свежий контент и оценивает его качество, включая анализ авторов статусов и разрешение сокращенных URL (Reference Resolution).

Актуальность для SEO

Высокая. Хотя конкретная реализация Google Real-Time Search менялась с годами (например, в зависимости от доступа к данным Twitter), базовые принципы интеграции свежего контента, концепция QDF (Query Deserves Freshness) и оценка качества быстро появляющегося контента критически важны для современного поиска. Описанные механизмы актуальны для работы блоков Топ Новости, каруселей Twitter и отображения результатов при освещении текущих событий.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10), особенно в нишах, связанных с новостями, трендами и событиями. Он раскрывает конкретные сигналы качества, используемые для ранжирования быстрого контента и оценки его авторов. Патент подчеркивает важность скорости публикации, авторитетности источника и качества самого контента как ключевых факторов для попадания в real-time выдачу.

Термины и определения

Real-Time Search Results (Результаты поиска в реальном времени): Результаты поиска, которые отвечают запросу и являются относительно недавними (например, были обновлены или загружены в пределах определенного порогового времени).
Time Token (Временной токен): Метка данных, идентифицирующая время обновления самого последнего real-time результата, отображаемого на клиенте. Используется клиентом для запроса только более свежего контента.
Predictive Cache (Предиктивный кэш): Хранилище, содержащее предварительно идентифицированные результаты поиска для запросов, которые система прогнозирует как вероятные в будущем.
Query Predictor (Предиктор запросов): Компонент системы, который идентифицирует потенциальные запросы, которые могут быть заданы пользователями и для которых вероятно наличие real-time результатов.
Status Update (Обновление статуса): Контент из социальных сетей, например, твиты (tweets) или посты (updates).
Reference Resolution (Разрешение ссылок): Процесс идентификации конечной веб-страницы, на которую ссылается референс (например, сокращенный URL), и извлечения информации о ней (например, заголовка).
Quality Score (Оценка качества): Метрика, оценивающая качество ресурса. Может базироваться на сигналах, специфичных для типа контента (новости, блоги, статусы) и качества автора.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной механизм отображения и обновления real-time результатов на стороне клиента.

Система получает поисковый запрос от клиента.
Система определяет, следует ли включать real-time результаты в ответ на запрос.
Если ДА: Генерируется документ, включающий клиентское ПО, которое при выполнении на клиенте заставляет его:

Получить real-time результаты и Time Token (идентифицирующий время обновления самого свежего из них).
Отобразить результаты.
Повторно отправить запрос с этим Time Token.
Получить дополнительные real-time результаты, которые свежее, чем время, указанное в Time Token.
Отобразить дополнительные результаты.

Если НЕТ: Генерируется документ без этого клиентского ПО.
Система отправляет документ клиенту.

Ядро изобретения здесь — это механизм "живого обновления" SERP. Ответственность за непрерывный опрос (polling) перекладывается на клиент, а Time Token используется для эффективной передачи только новых данных.

Claim 11 (Независимый пункт): Описывает процесс на стороне сервера при получении повторного запроса (polling).

Система получает повторный запрос и первый Time Token от клиента (время самого свежего результата, имеющегося у клиента).
Система идентифицирует real-time результаты, которые отвечают запросу И которые более свежие, чем время, указанное в первом Time Token.
Система отправляет идентифицированные результаты и второй Time Token (время самого свежего из этих новых результатов) клиенту.

Этот пункт определяет, как сервер эффективно отвечает на запросы клиента путем сравнения временных меток.

Claim 15 (Независимый пункт): Описывает процесс предиктивного кэширования с акцентом на оценку качества обновлений статуса (Status Updates).

Идентификация потенциальных поисковых запросов (вероятных и имеющих real-time результаты).
Ассоциирование real-time результатов с этими запросами в Predictive Cache. Этот процесс включает для обновления статуса (Status Update):

Получение данных: качество пользователя (автора), представившего статус; качество самого статуса; релевантность статуса запросу.
Генерация query-specific score для статуса и запроса.
Определение, отвечает ли статус запросу (на основе score).
Добавление результата в Predictive Cache.

Получение реального запроса от клиента.
Определение, что запрос ассоциирован с результатами в Predictive Cache.
Предоставление результатов из кэша клиенту.

Это критически важный пункт для SEO. Он устанавливает, что real-time поиск полагается на предиктивное кэширование и явно упоминает сигналы качества как для контента (статуса), так и для автора (пользователя) в качестве входных данных для ранжирования.

Где и как применяется

Изобретение описывает специализированную инфраструктуру для Real-Time Search, которая тесно интегрирована с основными этапами поиска.

CRAWLING – Сканирование и Сбор данных
Система активно собирает данные не только путем традиционного краулинга, но и через Provider Feeds (RSS, новостные ленты, фиды от сайтов типа Twitter.com). Упоминается использование протоколов типа PubSubHubbub для мгновенного получения уведомлений об обновлениях.

INDEXING – Индексирование и извлечение признаков
Происходит быстрое индексирование свежего контента. На этом этапе выполняется Reference Resolution (обработка сокращенных URL в статусах). Также вычисляются специфические сигналы качества (Quality Signals) для контента и его авторов.

QUNDERSTANDING – Понимание Запросов
Query Predictor постоянно анализирует логи запросов, тренды, новости и входящий поток ресурсов для прогнозирования актуальных запросов и управления Predictive Cache. При получении запроса от пользователя система определяет, следует ли активировать real-time поиск (на основе сигналов свежести и интента).

RANKING – Ранжирование
Real-Time Engine использует предварительно заполненный Predictive Cache для быстрого поиска. Ранжирование основано на Quality Score и релевантности, рассчитанных специально для real-time контента (как описано в Claim 15).

METASEARCH – Метапоиск и Смешивание
Real-time результаты могут быть представлены как отдельно, так и смешиваться с обычными (non-real-time) результатами в универсальной выдаче.

RERANKING – Переранжирование
Применяется фильтрация дубликатов из real-time потока. Также происходит фильтрация нежелательного контента (спам, порнография, malware, вирусы).

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, который быстро обновляется: Status Updates (социальные сети, Twitter), посты в блогах, новостные статьи, RSS-фиды.
Специфические запросы: Запросы, чувствительные к свежести (QDF) — текущие события, breaking news, живые мероприятия, тренды. Также запросы, которые явно указывают на желание получить real-time контент, например, содержащие термины "latest", "breaking" или символы типа "#" и "@username".
Конкретные ниши или тематики: Новости, спорт, финансы, развлечения, политика — любые ниши, где информация быстро устаревает и требует мгновенного освещения.

Когда применяется

Алгоритм активируется при выполнении определенных условий:

Триггеры активации:

Пользователь явно запрашивает real-time результаты (например, через специализированный интерфейс).
Система автоматически определяет необходимость real-time результатов на основе анализа сигналов (Claims 2-9):

Высокая скорость (rate) появления новых документов, релевантных запросу.
Наличие большого количества общих терминов между новыми ресурсами (указывает на общее событие).
Наличие в запросе терминов, указывающих на свежесть ("latest", "#").
Всплеск популярности запроса (данные трендов).
Большое количество доступных real-time результатов для запроса.

Пошаговый алгоритм

Система работает в двух параллельных процессах.

Процесс А: Предиктивное кэширование (Офлайн / Near Real-Time)

Прогнозирование запросов: Query Predictor анализирует логи, тренды и входящий поток ресурсов для идентификации потенциальных актуальных запросов.
Получение ресурсов: Resource Manager получает свежий контент из фидов и краулинга.
Обработка ресурсов: Выполняется Reference Resolution для сокращенных URL в статусах. Извлекается заголовок и домен целевой страницы.
Оценка качества: Система вычисляет Quality Score для ресурса и автора. Для Status Updates проверяется, не является ли автор спамером (по поведению и контенту).
Индексирование и Скоринг: Ресурс индексируется, и вычисляется query-specific score для релевантных потенциальных запросов.
Кэширование: Если score превышает динамический порог (управляемый Threshold Manager), результат добавляется в Predictive Cache с меткой времени обновления.

Процесс Б: Обработка запроса (Real-Time)

Получение запроса.
Определение необходимости Real-Time: Система проверяет триггеры (QDF, тренды, ключевые слова).
Генерация UI: Если Real-Time нужен, клиенту отправляется интерфейс с клиентским ПО для автообновления.
Первичный поиск: Real-Time Engine извлекает самые свежие и качественные результаты из Predictive Cache.
Отправка результатов: Результаты и Time Token (время самого свежего результата) отправляются клиенту.
Повторный запрос (Polling): Клиентское ПО периодически повторно отправляет запрос и текущий Time Token.
Поиск обновлений: Сервер ищет в Predictive Cache результаты, которые свежее, чем полученный Time Token.
Фильтрация: Удаление дубликатов и спама из нового набора.
Отправка обновлений: Новые результаты и новый Time Token отправляются клиенту. (Шаги 6-9 повторяются).

Какие данные и как использует

Данные на входе

Патент детально описывает множество сигналов, используемых для оценки качества real-time контента разных типов (Новости, Блоги, Статусы).

Контентные факторы: Текст статусов, новостей, блогов. Заголовки целевых страниц (извлекаются при Reference Resolution). Качество текста: использование грамматики, отсутствие "странных символов" (strange characters), отсутствие пустых хэштегов. Оригинальность контента (особенно для новостей). Длина постов в блоге.
Ссылочные факторы: URL в статусах (включая сокращенные). Количество других статусов, ссылающихся на тот же URL. Качество веб-страницы, на которую ведет ссылка. Наличие блога в Blogrolls и авторитетность этих Blogrolls. Ссылки на блог из email или чатов.
Поведенческие факторы: Логи запросов и данные о трендах (частота и скорость роста популярности запросов). Частота выбора блога в результатах поиска. Количество подписчиков блога (blog's subscription). Сторонние рейтинги источников.
Временные факторы: Время обновления/публикации ресурса (критично). Скорость появления новых документов по теме. Паттерны публикаций автора (регулярные интервалы или всплески могут указывать на спам).
Географические факторы: Географическая близость новостного источника к месту события (повышает авторитетность для локальных новостей).
Пользовательские (Авторские) факторы: Качество автора (Quality of a user). Является ли автор спамером. Авторитетность новостного источника (например, CNN против локальной газеты). Экспертиза источника в теме запроса. Размер штата и количество бюро новостного источника.

Какие метрики используются и как они считаются

Time Token: Метка времени, используемая для синхронизации обновлений между клиентом и сервером.
Query-Specific Score: Оценка релевантности и качества ресурса для конкретного запроса.
Quality Score (для ресурсов и авторов): Агрегированная метрика качества, вычисляемая на основе специфических сигналов для разных типов контента.

Сигналы качества для Status Updates (Claim 15-18):

Качество автора: Оценка вероятности, что автор спамер, на основе частоты постинга, паттернов постинга (всплески активности), использования коммерческих или спам-терминов.
Качество контента: Количество других статусов, включающих ту же ссылку (URL). Качество веб-страницы, на которую ведет ссылка. Соблюдение правил качества текста (грамматика, отсутствие странных символов, не пустые хэштеги).

Сигналы качества для Новостей:

Важность источника (Tier 1/2/3).
Качество источника (награды, сторонние рейтинги, объем публикаций, средняя длина статей, трафик, статистика циркуляции, размер штата).
Оригинальность статьи (приоритет первоисточнику).
Экспертиза источника в теме.

Сигналы качества для Блогов:

Популярность блога (частота выбора в поиске).
Ссылочные сигналы (наличие в авторитетных Blogrolls, ссылки из email/чатов).
Контентные сигналы (длина поста, наличие тегов пользователей).
Вовлеченность (количество подписчиков, сторонние рейтинги).
Спам-сигналы (частота и паттерны новых постов, дублирование контента, коммерческие термины, распределение ссылок, наличие рекламы).

Real-Time Search основан на прогнозировании и кэшировании: Система не ищет весь интернет в реальном времени. Вместо этого она прогнозирует, какие запросы будут актуальны (Query Predictor), и заранее собирает, оценивает и кэширует свежий контент (Predictive Cache) для этих запросов.
Специализированные сигналы качества для Real-Time контента: Патент детально описывает, что для разных типов свежего контента (Новости, Блоги, Статусы) используются разные наборы сигналов качества, отличные от стандартного веб-поиска.
Качество автора (Author Quality) как явный фактор: Для Status Updates (соцсети) качество автора (Quality of a user) прямо используется при расчете Quality Score. Система активно идентифицирует спамеров на основе их поведения (частота и паттерны постинга) и контента.
Критичность обработки ссылок (Reference Resolution): Google не доверяет тексту статусов слепо. Механизм Reference Resolution анализирует сокращенные URL, чтобы понять, куда ведет ссылка, извлечь заголовок целевой страницы и оценить ее качество. Это используется для ранжирования и фильтрации спама/malware.
Скорость и Авторитетность — ключ к Real-Time: Для попадания в real-time выдачу необходимо сочетание скорости доставки контента в индекс и высокой авторитетности источника (Source Authority), которая оценивается по метрикам оригинальности, экспертизы и вовлеченности аудитории.

Best practices (это мы делаем)

Максимизация скорости публикации и индексации: Для новостных сайтов, блогов и ресурсов, освещающих текущие события, критически важно публиковать контент как можно быстрее. Необходимо использовать технические средства для быстрого оповещения поисковых систем (XML Sitemaps с актуальным <lastmod>, PubSubHubbub, Indexing API).
Повышение авторитетности источника (Source Authority): Необходимо работать над сигналами, которые Google использует для определения авторитетных источников (Tier 1). Это включает публикацию оригинального контента (приоритет первоисточникам), демонстрацию экспертизы в нише, наращивание аудитории и получение внешних сигналов авторитетности (ссылки, упоминания в Blogrolls, подписки).
Развитие качественных аккаунтов в соцсетях: Для продвижения в real-time блоках (например, Twitter-карусели) важно использовать авторитетные аккаунты. Необходимо избегать поведения, которое система классифицирует как спам: всплески публикаций, массфолловинг, частое использование коммерческих или спам-терминов.
Контроль качества целевых страниц при постинге ссылок: При публикации ссылок в соцсетях (даже сокращенных) важно убедиться, что целевая страница качественная и релевантная. Механизм Reference Resolution оценивает качество целевой страницы, что влияет на ранжирование самого статуса.
Соблюдение технического качества контента: Даже в коротких форматах (статусы, короткие новости) следует следить за качеством текста (грамматика, отсутствие "странных символов"), так как это явно упоминается как сигнал качества.

Worst practices (это делать не надо)

Имитация активности и спам трендов: Создание большого количества низкокачественных статусов или блог-постов для манипуляции трендами неэффективно. Система фильтрует такой контент на основе паттернов поведения авторов и низкого Quality Score контента.
Использование соцсетей для распространения некачественных ссылок: Попытки продвинуть низкокачественные, спамные или вредоносные страницы через сокращенные URL в соцсетях будут пресекаться. Reference Resolution позволяет системе идентифицировать и заблокировать такие попытки.
Копирование новостного контента: Для новостных источников перепечатка чужих статей без добавленной ценности снижает оценку оригинальности и общую авторитетность источника, уменьшая шансы на попадание в real-time выдачу.

Стратегическое значение

Патент демонстрирует, что для Google свежесть (Freshness/QDF) — это не просто учет даты публикации, а сложная инфраструктурная система прогнозирования спроса, быстрого сбора данных и специализированной оценки качества. Для доминирования в QDF-запросах сайт должен быть не только быстрым, но и высокоавторитетным источником уникального контента. Патент также подтверждает стратегическую важность авторства (Authorship) и репутации аккаунтов в социальных сетях как значимых факторов ранжирования в real-time поиске.

Практические примеры

Сценарий: Оптимизация новостного сайта под Breaking News

Ситуация: Происходит важное событие в нише сайта.
Действие 1 (Скорость): Редакция максимально быстро публикует новость. Технически сайт настроен на использование Indexing API для мгновенного уведомления Google о новой статье.
Действие 2 (Качество и Оригинальность): Новость является оригинальным репортажем с уникальными деталями, а не перепечаткой пресс-релиза.
Процесс Google: Система быстро получает контент (CRAWLING/Data Acquisition). Predictive Cache уже отслеживает эту тему. Система оценивает источник как авторитетный и контент как оригинальный (INDEXING/RANKING).
Ожидаемый результат: Статья быстро попадает в real-time выдачу (например, блок Топ Новости или Twitter-карусель) по актуальным запросам, опережая более медленных или менее авторитетных конкурентов.

Как Google определяет, какие запросы нуждаются в результатах реального времени?

Система анализирует несколько сигналов. Ключевыми являются: всплеск частоты запроса в логах (тренды), высокая скорость появления новых документов по этой теме в интернете, а также наличие в запросе слов-индикаторов свежести (например, "новости", "#хэштег", "@username"). Если эти сигналы превышают определенные пороги, активируется real-time поиск.

Что такое "Предиктивный Кэш" (Predictive Cache) и как он влияет на SEO?

Predictive Cache — это специальное хранилище, где Google заранее собирает и ранжирует результаты для запросов, которые он прогнозирует как актуальные в ближайшем будущем. Это позволяет мгновенно отдавать выдачу. Для SEO это означает, что важно не только быстро публиковать контент, но и быстро доставлять его в индекс Google, чтобы он успел попасть в этот кэш до того, как тема станет массовым трендом.

Патент много говорит о качестве авторов (Quality of a user) для обновлений статусов. Как это применяется на практике?

Google оценивает авторитетность аккаунтов в социальных сетях (например, Twitter). Система анализирует поведение автора: частоту публикаций, паттерны активности (всплески считаются подозрительными), использование коммерческих или спам-терминов. Авторитетные аккаунты, которые ведут себя естественно и публикуют качественный контент, имеют преимущество при ранжировании в real-time блоках.

Как Google обрабатывает сокращенные URL (например, bit.ly) в реальном времени?

Используется механизм Reference Resolution. Система переходит по сокращенной ссылке, определяет конечную целевую страницу, извлекает её заголовок и домен. В выдаче Google может заменить сокращенный URL на заголовок страницы для лучшего понимания пользователем. Также оценивается качество целевой страницы для ранжирования статуса.

Влияет ли качество сайта, на который я ссылаюсь в Twitter, на видимость моего твита в Google?

Да, напрямую. Патент указывает, что при обработке статуса система получает данные о качестве веб-страницы, на которую ведет ссылка. Если ссылка ведет на низкокачественный или спамный ресурс, это понизит Quality Score самого статуса и уменьшит вероятность его появления в поиске Google.

Какие специфические сигналы качества используются для новостных сайтов в real-time поиске?

Ключевые сигналы включают: важность источника (разделение на Tiers), оригинальность статьи (приоритет первоисточнику), экспертизу источника в данной теме, а также общие метрики качества источника (награды, размер штата, объем трафика, статистика циркуляции). Для локальных новостей важным фактором является географическая близость источника к месту события.

Что такое "Time Token" и как он работает?

Time Token — это метка времени самого свежего результата, который видит пользователь. Когда браузер пользователя запрашивает обновления, он отправляет этот токен серверу. Сервер использует его как фильтр и возвращает только те результаты, которые появились в индексе после этого времени. Это обеспечивает непрерывное обновление выдачи без дублирования контента.

Учитывает ли Google грамматику и орфографию в твитах и статусах?

Да. В патенте явно упоминаются правила для определения высококачественного статуса, такие как "хорошая грамматика" (good grammar) и отсутствие "странных символов" (strange characters) или пустых хэштегов. Это указывает на то, что базовое качество текста учитывается даже для коротких форматов.

Какие технические рекомендации можно дать для улучшения индексации свежего контента?

Для максимально быстрой доставки контента в Predictive Cache рекомендуется использовать современные методы оповещения поисковых систем. К ним относятся: использование протокола PubSubHubbub, отправка обновленных XML Sitemaps с корректным <lastmod>, и использование Google Indexing API.

Если мой блог часто копирует контент новостных агентств, как это повлияет на его ранжирование в real-time?

Это негативно повлияет на ранжирование. Система отслеживает оригинальность контента и отдает приоритет первому опубликованному источнику. Регулярное копирование снижает общую оценку качества и авторитетности блога, что затрудняет попадание в real-time выдачу.

Как Google автоматически обновляет результаты поиска в реальном времени без перезагрузки страницы

Google использует клиентский скрипт (например, JavaScript), встроенный в страницу результатов поиска, для автоматического обновления блоков с контентом в реальном времени. Этот скрипт периодически повторно отправляет исходный запрос на сервер, получает самые свежие результаты, появившиеся с момента последней проверки, и динамически встраивает их в страницу выдачи без её полной перезагрузки.

US8843856B2
2014-09-23

Свежесть контента
SERP

Как Google позволяет пользователям настраивать ранжирование и отбор источников в агрегаторе новостей (Google News)

Патент Google, описывающий механизм персонализации новостного агрегатора (Google News). Система позволяет пользователям создавать постоянные новостные разделы на основе запросов и настраивать правила ранжирования внутри них: выбирать предпочтительные источники, блокировать нежелательные, повышать статьи по ключевым словам или авторам, а также управлять сортировкой по свежести или важности.

US8676837B2
2014-03-18

Персонализация
Свежесть контента

Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов

Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.

US10489459B1
2019-11-26

Семантика и интент

Как Google предотвращает дублирование контента в потоковых результатах поиска (Streaming Search)

Патент Google описывает технический механизм доставки обновляемых (потоковых) результатов поиска в реальном времени. Система кодирует идентификаторы уже отправленных результатов в специальную строку состояния (State String) и передает ее клиенту через Polling URL. При запросе обновлений клиент возвращает эту строку, позволяя серверу отфильтровать дубликаты (как по URL, так и по контенту) перед отправкой новых данных.

US9058392B1
2015-06-16

SERP
Свежесть контента

Как Google агрегирует поисковые подсказки из нескольких специализированных поисковых сервисов одновременно

Патент Google описывает инфраструктуру для улучшения поисковых подсказок (Autocomplete). Когда пользователь вводит текст, система одновременно опрашивает несколько специализированных поисковых сервисов (например, веб-поиск, вертикальный поиск или сервис прямых URL). Полученные результаты агрегируются и отображаются в отдельных секциях интерфейса, а выбор пользователя направляется строго в соответствующий сервис.

US8533173B2
2013-09-10

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи

Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.

US8874570B1
2014-10-28

Поведенческие сигналы
Персонализация
SERP

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа