Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

SYSTEMS AND METHODS FOR GENERATING MULTIPLE IMPLICIT SEARCH QUERIES (Системы и методы генерации множественных неявных поисковых запросов)

US7664734B2
Google LLC
2004-03-31
2010-02-16

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

Какую проблему решает

Патент решает проблему доступа к релевантной информации без необходимости для пользователя отвлекаться от текущей задачи для формулирования явного запроса. Система призвана проактивно предоставлять связанную информацию (локальную или глобальную), о которой пользователь может не знать или не помнить в данный момент, тем самым улучшая его продуктивность и информированность.

Что запатентовано

Запатентована система генерации множественных неявных поисковых запросов (implicit search queries) на основе атрибутов контекста пользователя (user context attributes). Система мониторит действия пользователя в реальном времени, автоматически формирует несколько различных запросов, основанных на этом контексте, выполняет их и объединяет полученные результаты для проактивного отображения.

Как это работает

Система функционирует путем непрерывного мониторинга и анализа контекста пользователя:

Мониторинг Контекста: Отслеживаются "события" (events) — действия пользователя, такие как набор текста, просмотр документа или получение письма.
Извлечение Атрибутов: Из событий извлекаются user context attributes. Это могут быть последние набранные слова, текст вокруг курсора, ключевые термины всего документа (например, с помощью $TF/IDF$ ) или распознанные сущности.
Генерация Множественных Запросов: На основе разных атрибутов или "потоков данных" генерируется несколько неявных запросов (например, один по последнему предложению, второй — по всему документу).
Выполнение и Объединение: Запросы выполняются в локальном и/или глобальном индексе, а результаты объединяются (Combine Result Sets) и ранжируются.
Отображение и Обучение: Результаты отображаются проактивно. Система использует поведенческие данные (click-through data) для корректировки будущей релевантности источников и запросов.

Актуальность для SEO

Высокая. Хотя патент подан в 2004 году, он описывает фундаментальные концепции проактивного, персонализированного и контекстного поиска. Эти идеи лежат в основе современных рекомендательных систем, таких как Google Discover и умные ассистенты. Методы анализа контекста в реальном времени и использования поведенческих сигналов для машинного обучения остаются крайне актуальными.

Важность для SEO

Значительное влияние (75/100). Этот патент не описывает алгоритмы ранжирования традиционной веб-выдачи. Однако он критически важен для понимания того, как Google интерпретирует контекст, персонализирует контент и оценивает вовлеченность в системах проактивного поиска (например, Google Discover). Понимание этих механизмов — извлечения контекста, анализа контента (включая отделение boilerplate) и обучения на кликах — дает ключевые инсайты для оптимизации под персонализированные рекомендации и попадания в ленты.

Термины и определения

Article Identifier (Идентификатор статьи): Идентификатор ресурса в наборе результатов (например, URL, путь к файлу, ссылка).
Boilerplate (Шаблонный текст): Повторяющийся текст в документе (например, навигация, дисклеймеры, копирайты), который система стремится исключить при генерации неявного запроса.
Click-through data (Данные о кликах): Поведенческие данные, фиксирующие, на какие результаты пользователь нажимает. Используются для обучения системы и корректировки Relevance Score.
Content Display Window (Окно отображения контента): Интерфейс, в котором пользователю проактивно отображаются результаты неявных запросов.
Contextual Events (Контекстные события): События, чувствительные ко времени, отражающие текущие действия пользователя (например, последние 10 набранных слов).
Events (События): Действия пользователя или системные ocorrências, фиксируемые системой (включают Historical, Contextual и Real-time events).
Global Index (Глобальный индекс): Индекс информации, релевантной многим пользователям (например, индекс веб-страниц Google).
Implicit Search Query (Неявный поисковый запрос): Запрос, сгенерированный системой автоматически на основе контекста пользователя, без явного ввода запроса пользователем.
Local Index (Локальный индекс): Индекс информации, ассоциированной с конкретным пользователем или устройством (например, локальные файлы, письма).
Query Implicit Builder (QUIB) (Построитель неявных запросов): Компонент системы (упомянутый в описании), отвечающий за генерацию неявных запросов на основе контекста.
Real-time Events (События реального времени): События, менее чувствительные ко времени, но имеющие высокую значимость (например, открытие или печать файла).
Refresh Threshold (Порог обновления): Метрика, определяющая, насколько новый набор результатов должен отличаться от текущего или быть более релевантным, чтобы обновить отображаемые данные.
User Context Attribute (Атрибут контекста пользователя): Аспект текущего взаимодействия пользователя с системой (например, набираемый текст, текст у курсора, содержимое буфера обмена, частота терминов ( $TF/IDF$ ), распознанные сущности).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод генерации множественных неявных запросов.

Идентификация множества событий в ответ на мониторинг взаимодействий пользователя с клиентским устройством в реальном времени.
Идентификация множества атрибутов контекста пользователя (user-context attributes) на основе этих событий.
Генерация множества неявных поисковых запросов (implicit search queries), содержащих термины, основанные на этих атрибутах.
Получение множества результатов поиска, сгенерированных в ответ на эти неявные запросы.
Обновление отображаемых результатов поиска.

Claim 6 (Зависимый): Уточняет метод извлечения термина.

Извлечение термина включает идентификацию контента, уникального для события (т.е. отделение от boilerplate), и извлечение термина на основе этого уникального контента.

Claim 7 (Зависимый): Уточняет метод извлечения термина.

Извлечение термина может включать идентификацию частей речи (part of speech) на основе анализа слов.

Claim 8 и 9 (Зависимые): Уточняют использование статистических мер.

Идентификация атрибутов включает генерацию меры термина (term measure), основанной на частоте термина (например, $TF/IDF$ ). Генерация неявных запросов включает выбор терминов на основе этой меры.

Claim 10 (Зависимый): Уточняет использование персонализации.

Генерация неявных запросов включает идентификацию профиля пользователя (user profile), идентификацию поискового термина на основе атрибутов этого профиля и генерацию неявного запроса с этим термином.

Claim 16 (Зависимый): Описывает механизм обучения на поведении.

Обновление отображения включает ранжирование результатов поиска, основанное, по крайней мере частично, на истории взаимодействий пользователя с ранее отображенными результатами поиска (т.е. click-through data).

Где и как применяется

Патент описывает систему, которая анализирует контекст пользователя и взаимодействует с инфраструктурой поиска для выполнения запросов.

CRAWLING & INDEXING
Система использует результаты этих этапов. Упоминается, что запросы могут направляться как в local index (контент на устройстве пользователя), так и в global index (веб-контент).

QUNDERSTANDING (Неявное)
Это основная область применения патента. Система выполняет "понимание контекста" в реальном времени. Она отслеживает user interactions, извлекает user context attributes и ключевые слова (Extract Keyword(s)), и на этой основе генерирует множественные implicit search queries. Этот процесс происходит проактивно, до явного запроса.

RANKING
Сгенерированные неявные запросы передаются поисковой системе (Search Engine), которая использует свои алгоритмы ранжирования для получения исходных наборов результатов для каждого запроса.

METASEARCH / RERANKING
На этом этапе происходит агрегация и постобработка. Результаты из множественных неявных запросов объединяются (Combine Result Sets). Происходит переранжирование объединенного списка. Ранжирование учитывает источник запроса, релевантность контексту и историю взаимодействия пользователя (history of user interactions, click-through data) для корректировки весов.

Входные данные:

События (Events) реального времени: набор текста, движения курсора, выделение текста, действия с буфером обмена.
Контекстные данные: содержимое открытых документов, писем, веб-страниц.
Профиль пользователя (User Profile): история запросов, частые контакты, предпочтения.
История взаимодействий с результатами (Click-through data).

Выходные данные:

Множественные неявные поисковые запросы, направляемые в поисковую систему.
Объединенный и переранжированный набор результатов (Article Identifiers), отображаемый пользователю.

На что влияет

Типы контента и запросов: Влияет на любой тип контента (статьи, товары, локальные данные, письма), который может быть релевантен текущему контексту пользователя. Система ориентирована на текущую задачу пользователя.
Персонализация и Рекомендации: Оказывает сильное влияние на персонализированную выдачу и рекомендательные системы (например, Google Discover), так как напрямую использует профиль пользователя и его поведение для формирования и ранжирования результатов.

Когда применяется

Алгоритм применяется постоянно в фоновом режиме, но с определенными условиями для генерации запросов и обновления выдачи.

Триггеры генерации запросов: Изменение контекста пользователя. Это может быть пауза после ввода слова, ввод знака препинания, открытие нового документа, получение письма, выделение текста. Разные типы запросов могут иметь разные триггеры.
Условия обновления выдачи (Refresh): Выдача обновляется только при выполнении условий: 1) Новый набор результатов существенно отличается от текущего (Difference > Threshold). 2) Новый набор результатов достаточно релевантен контексту (Relevance > Threshold).
Исключения: Система может приостанавливать обновление выдачи, если пользователь активно взаимодействует с окном результатов (User Active in Window?) или если пользователь долгое время неактивен.

Пошаговый алгоритм

Процесс А: Мониторинг и Генерация Запросов

Мониторинг взаимодействий: Система непрерывно отслеживает действия пользователя в реальном времени.
Идентификация событий: Фиксируются события (например, ввод текста, смена фокуса).
Извлечение контекстных атрибутов: Из событий извлекаются атрибуты (ключевые слова, сущности). Применяются методы анализа текста: идентификация частей речи, расчет $TF/IDF$ , удаление boilerplate.
Применение профиля пользователя: Атрибуты обогащаются данными из User Profile.
Генерация неявных запросов: Формируется несколько implicit search queries на основе разных наборов атрибутов (потоков данных).
Выполнение запросов: Запросы передаются поисковой системе.

Процесс Б: Обработка и Отображение Результатов

Получение результатов: Система получает несколько наборов результатов (по одному на каждый запрос).
Объединение и Ранжирование: Наборы результатов объединяются. Происходит ранжирование с учетом весов источников запросов и истории кликов (click-through data). Дубликаты могут удаляться или повышаться в ранге.
Проверка активности пользователя: Система проверяет, взаимодействует ли пользователь с текущими результатами. Если да, обновление приостанавливается.
Сравнение с текущей выдачей (Difference Threshold): Оценивается степень отличия нового объединенного набора от того, что уже показано пользователю. Если отличия минимальны, процесс останавливается.
Оценка релевантности (Relevance Threshold): Оценивается общая релевантность нового набора контексту. Если релевантность низкая, процесс останавливается.
Обновление отображения: Если пороги пройдены, новый набор результатов отображается пользователю.

Какие данные и как использует

Данные на входе

Патент описывает использование широкого спектра данных для понимания контекста пользователя.

Контентные факторы (из текущего контекста):
- Текст, недавно набранный пользователем (например, последние N слов).
- Текст вокруг курсора.
- Текущее предложение или абзац.
- Выделенный текст (current selection).
- Содержимое всего активного документа (entire buffer).
- Содержимое буфера обмена (clipboard content).
Поведенческие факторы:
- История кликов (Click-through data) на ранее показанные результаты.
- Предыдущие явные запросы пользователя (previous explicit queries).
- Частота доступа к документу.
Пользовательские факторы (User Profile):
- Список контактов (имена людей, email адреса, instant messenger buddy names).
- Список важных для пользователя терминов или фраз.
Технические/Метаданные:
- Тип контента (например, email, документ, веб-страница).
- Источник контента (локальный, веб-сайт).

Какие метрики используются и как они считаются

$Term Frequency (TF)$ / $Inverse Document Frequency (IDF)$ : Используются для определения важности слов в текущем документе или контексте. Слова с высоким $TF$ и $IDF$ предпочтительны для включения в неявный запрос.
Relevance Score (Оценка релевантности): Метрика, определяющая соответствие результата запросу и контексту. Она модифицируется на основе поведения пользователя. Если пользователь кликает на результат, Relevance Score источника этого результата, типа контента и использованных ключевых слов увеличивается.
Refresh Thresholds (Пороги обновления):
- Difference Threshold: Мера отличия нового набора результатов от текущего. Может рассчитываться как количество новых идентификаторов или разница в ранжировании.
- Relevance Threshold: Минимальный уровень релевантности нового набора результатов, необходимый для его отображения.
Parts of Speech (Части речи): Используется анализ текста для идентификации частей речи (например, существительных, глаголов) для генерации более точных запросов.

Фундамент проактивного поиска: Патент закладывает основу для систем, которые предсказывают информационные потребности пользователя на основе его текущего контекста, не дожидаясь явного запроса (например, Google Discover).
Контекст шире ключевых слов: Система использует множество сигналов для определения контекста: от анализа всего документа ( $TF/IDF$ ) и удаления boilerplate до микро-взаимодействий (текст у курсора, буфер обмена) и социального графа (контакты в профиле).
Множественные интерпретации контекста: Ключевой особенностью является генерация множественных неявных запросов одновременно, основанных на разных интерпретациях или источниках контекста, с последующим объединением результатов.
Критическая роль поведенческих сигналов (Click-through): Вовлеченность пользователя является основным механизмом обратной связи. Клики используются для валидации релевантности и корректировки весов (Relevance Score) как для конкретных ключевых слов, так и для источников данных и типов контента.
Персонализация как неотъемлемая часть: Система изначально спроектирована с учетом User Profile (история, предпочтения, контакты), что делает результаты глубоко персонализированными.
Баланс между полезностью и навязчивостью: В систему встроены механизмы (Refresh Thresholds), которые предотвращают слишком частые или нерелевантные обновления выдачи, чтобы не отвлекать пользователя.

Практическое применение в SEO

Рекомендации направлены на оптимизацию для систем контекстного и проактивного поиска (например, Google Discover), которые используют схожие принципы анализа контента и интересов пользователя.

Best practices (это мы делаем)

Фокус на чистоте контента и структуры: Поскольку система стремится идентифицировать основной контент и игнорировать boilerplate, необходимо обеспечить четкую структуру документа. Используйте семантическую верстку, чтобы помочь системам отделить основное содержание от навигации, рекламы и шаблонных элементов.
Насыщение контента сущностями (Entities): Система распознает именованные сущности (имена людей, организации). Четкое и недвусмысленное упоминание ключевых сущностей в тексте повышает вероятность того, что контент будет сочтен релевантным контексту пользователя, который взаимодействует с этими сущностями.
Оптимизация под вовлеченность (Engagement): Так как click-through data используется для обучения и повышения Relevance Score в проактивных системах, критически важно создавать привлекательные заголовки и сниппеты (или изображения в случае Discover), которые точно отражают содержание и мотивируют пользователя кликнуть.
Развитие Topical Authority и пересечение интересов: Создавайте кластеры контента, покрывающие смежные темы. Это увеличивает вероятность того, что ваш контент будет проактивно предложен пользователю, чей текущий контекст связан с одной из тем в кластере, особенно если его User Profile указывает на интерес к смежным областям.

Worst practices (это делать не надо)

Кликбейт и обман ожиданий: Использование кликбейта может дать краткосрочный эффект, но если контент не соответствует ожиданиям, это приведет к низкому качеству вовлеченности. Хотя патент фокусируется на кликах как положительном сигнале, современные системы (наследники этой технологии) также учитывают удовлетворенность после клика.
Перегрузка страницы шаблонными элементами: Большое количество boilerplate, агрессивной рекламы или всплывающих окон, которые затрудняют отделение основного контента, может снизить эффективность извлечения ключевых атрибутов системой.
Игнорирование персонализации: Создание "универсального" контента без учета различных сегментов аудитории и их потенциальных контекстов снижает эффективность в проактивных системах, которые полагаются на User Profile.

Стратегическое значение

Этот патент подтверждает долгосрочную стратегию Google на переход от реактивного поиска (ответ на запрос) к проактивному (предложение информации до запроса). Для SEO это означает необходимость смещения фокуса с оптимизации под конкретные ключевые фразы на оптимизацию под контекст, интент и интересы пользователя. Стратегически важно строить авторитет не только в теме, но и в глазах конкретных сегментов пользователей, так как User Profile и поведенческие данные играют решающую роль в определении того, какой контент будет предложен проактивно.

Практические примеры

Сценарий: Оптимизация статьи для попадания в проактивную выдачу (например, Discover)

Задача: Продвинуть статью о "Влиянии сна на продуктивность" пользователям, которые интересуются биохакингом.
Анализ контекста (на основе патента): Система может триггериться, если пользователь читает письмо от коуча по продуктивности (Event), или если в его User Profile есть интерес к биохакингу.
Действия SEO/Контент-стратега:
- Чистота контента: Убедиться, что основная мысль статьи легко извлекается, минимизировать boilerplate.
- Сущности: Упомянуть в статье известные исследования, имена экспертов (например, Мэттью Уолкер), связанные концепции (например, циркадные ритмы). Это увеличит вероятность совпадения с контекстом пользователя.
- Оптимизация под клик: Создать привлекательный, но честный заголовок ("5 научно доказанных способов улучшить сон и повысить продуктивность") и выбрать релевантное изображение.
Ожидаемый результат: Система идентифицирует статью как высокорелевантную для пользователей с определенным контекстом и профилем, и проактивно показывает ее, получая клики, которые усиливают ее позиции в дальнейшем.

Что такое "неявный поисковый запрос" (Implicit Search Query) в контексте этого патента?

Это запрос, который система генерирует автоматически, основываясь на текущих действиях пользователя (контексте), без необходимости ручного ввода ключевых слов. Например, если вы пишете документ о маркетинге, система может автоматически выполнить запрос по последнему набранному вами предложению и показать связанные статьи или ваши старые письма на эту тему.

Какие именно действия пользователя могут спровоцировать генерацию неявного запроса?

Патент упоминает множество триггеров: пауза после набора текста, ввод знака препинания в конце предложения, выделение текста, копирование в буфер обмена, открытие документа, получение электронного письма или мгновенного сообщения. По сути, любое изменение контекста пользователя может стать триггером для генерации новых запросов.

Патент говорит о генерации "множественных" запросов. Зачем нужно несколько запросов одновременно?

Система использует разные источники данных (потоки) для понимания контекста. Например, она может сгенерировать один запрос на основе последних 10 набранных слов, второй — на основе ключевых терминов всего документа (используя $TF/IDF$ ), а третий — на основе имени человека, с которым вы переписываетесь. Это позволяет охватить разные аспекты контекста и повысить вероятность нахождения релевантной информации.

Как система объединяет результаты от этих множественных запросов?

Результаты объединяются в единый список и ранжируются. Патент описывает, что система может присваивать разные веса результатам в зависимости от того, из какого источника (запроса) они пришли. Также результаты, которые появились в ответ на несколько разных запросов, могут получать повышенный рейтинг.

Какую роль играют клики пользователя (Click-through data) в этой системе?

Клики играют критически важную роль как механизм обратной связи. Если пользователь кликает на результат, система увеличивает вес (Relevance Score) для источника данных, ключевых слов и типа контента, которые привели к показу этого результата. Это обучение позволяет системе в будущем предоставлять более релевантные рекомендации для данного пользователя.

Как система определяет, что является важным контентом, а что — шаблонным текстом (Boilerplate)?

Патент упоминает необходимость идентификации уникального контента и отделения его от boilerplate (навигация, копирайты и т.д.) перед генерацией запроса. Хотя конкретные методы не детализированы, это подразумевает использование алгоритмов анализа структуры документа для извлечения основного содержания.

Влияет ли этот патент на традиционное SEO и ранжирование в Google Поиске?

Напрямую на ранжирование по явным запросам — нет. Однако он описывает фундаментальные механизмы понимания контекста, персонализации и оценки вовлеченности, которые используются в продуктах Google, особенно в проактивных системах, таких как Google Discover. Оптимизация под эти механизмы важна для получения трафика из рекомендательных лент.

Как система использует профиль пользователя (User Profile)?

Система использует атрибуты из профиля пользователя — такие как история поиска, частые контакты (имена, email адреса), интересы и важные термины — для модификации неявных запросов и для переранжирования результатов. Это делает проактивную выдачу глубоко персонализированной.

Что делать SEO-специалисту, чтобы контент лучше работал в таких системах?

Необходимо фокусироваться на создании четко структурированного контента с минимальным количеством boilerplate, насыщать текст релевантными сущностями и, самое главное, оптимизировать заголовки и сниппеты для высокой вовлеченности (CTR). Поскольку система обучается на кликах, привлечение внимания пользователя является ключевым фактором успеха.

Система работает только с веб-контентом или с локальными файлами тоже?

Патент четко указывает, что система может выполнять поиск как в глобальном индексе (веб), так и в локальном индексе (файлы пользователя, электронная почта, история браузера). Это универсальная система для поиска релевантной информации в любом доступном источнике.

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)

Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.

US8478519B2
2013-07-02

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google ранжирует результаты для контекстного (неявного) поиска на основе форматирования контента и поведения пользователя

Патент описывает технологию "неявного поиска" (Implicit Search), которая анализирует текущий контекст пользователя (например, редактируемый документ или просматриваемую страницу) для автоматической генерации запросов. Ранжирование этих контекстных результатов учитывает характеристики исходного контента (форматирование, капитализация, TF-IDF) и предпочтения пользователя (клики, типы файлов).

US7693825B2
2010-04-06

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам

Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.

US7788274B1
2010-08-31

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google использует историю поиска и контекст (время, местоположение) для проактивного предложения релевантных прошлых результатов на разных устройствах

Google патентует систему, которая анализирует историю поиска пользователя и использует контекстуальные сигналы (время, местоположение и прошлое поведение, такое как клики и время на сайте), чтобы определить актуальность прошлых результатов. Система проактивно предлагает эти результаты в виде информационных элементов на разных устройствах, устраняя необходимость повторного поиска, например, показывая ресторан, который пользователь искал ранее и рядом с которым находится сейчас.

US8805828B1
2014-08-12

Персонализация
Поведенческие сигналы

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей

Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.

US9552430B1
2017-01-24

Local SEO
Поведенческие сигналы

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента

Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.

US8799107B1
2014-08-05

EEAT и качество
SERP
Поведенческие сигналы

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент