
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
Патент решает проблему, когда глобальные сигналы ранжирования не отражают релевантность для конкретных групп пользователей (популяций). Например, предпочтения пользователей из Японии могут отличаться от предпочтений пользователей из США по одному и тому же запросу. Если система опирается только на глобальные данные, она может возвращать нерелевантные результаты для специфических групп. Также патент предлагает решение проблемы нехватки данных (data sparsity) при попытке оценить релевантность для небольших популяций.
Запатентована система и метод корректировки поискового ранжирования на основе поведенческих данных (Clickthrough Data), сегментированных по популяциям пользователей. Ядром изобретения является расчет Population Signal (Сигнала Популяции). Этот расчет включает механизм статистического сглаживания, который балансирует между данными о кликах конкретной популяции и глобальными данными о кликах.
Система работает следующим образом:
Automatic-identification data и Self-identification data.Population DB) и базе данных кликов (Click Through DB), чтобы получить исторические данные о поведении этой группы.Population Signal), отражающая вероятность клика на этот документ пользователем из данной популяции.Smoothing Factor (µ), чтобы больше полагаться на глобальные данные о кликах. Если данных много, система больше доверяет данным конкретной популяции.Ranking Processor для корректировки итогового Ranking Score документа.Высокая. Несмотря на дату подачи (2003 год), описанные принципы являются фундаментальными для современных поисковых систем. Персонализация, локализация и использование сегментированных поведенческих данных для улучшения ранжирования критически важны. Описанные методы статистического сглаживания (например, Байесовское сглаживание) для обработки разреженных данных по-прежнему актуальны в Information Retrieval и машинном обучении.
Патент имеет высокое значение для SEO (8/10), особенно для международного и локального продвижения. Он объясняет механизм, лежащий в основе различий поисковой выдачи в разных регионах, языковых версиях или для разных демографических групп. Это подчеркивает, что релевантность зависит от контекста пользователя (его популяции), и для успешного ранжирования необходимо удовлетворять интент целевой аудитории и генерировать положительные поведенческие сигналы именно внутри этого сегмента.
Population Signal в условиях нехватки данных (data sparsity). Определяет степень доверия к данным о кликах конкретной популяции. Если кликов мало, система больше полагается на глобальные данные.Population Signal.Claim 1 (Независимый пункт): Описывает основной метод улучшения ранжирования.
first population group), связанная с этим пользователем.first article), релевантный запросу.Population Signal для этого документа на основе данных, связанных с идентифицированной группой популяции.Ranking Score) для документа на основе этого Population Signal.Claims 2-11 (Зависимые): Детализируют способы определения популяции пользователя.
Определение популяции может основываться на демографических данных, вероятном географическом местоположении (определенном через IP-адрес, введенный пользователем адрес), а также на Self-identification data или Automatic-identification data.
Claim 12, 13 (Зависимые): Определяют природу Population Signal.
Population Signal представляет собой оценку выбора (selection score) документа в контексте данной популяции. Эта оценка выбора, в частности, может быть количеством кликов (number of clicks) на документ, совершенных членами данной популяции по данному запросу.
Claim 14 (Зависимый от 13): Вводит понятие сглаживания.
Population Signal включает коэффициент сглаживания (Smoothing Factor), связанный с кликами. Это подтверждает использование статистических методов для повышения надежности оценки при малом количестве данных.
Claim 20 (Зависимый): Указывает на возможность использования нескольких популяций.
Система может определить вторую группу популяции (second population group) и использовать ее данные для расчета Population Signal. Это позволяет учитывать иерархии (Страна > Регион) или пересечения (например, язык и местоположение).
Изобретение применяется на финальных этапах обработки запроса для персонализации выдачи на основе группового поведения.
INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит предварительная обработка данных. Clickthrough data и данные о популяциях собираются, анализируются и индексируются в Population DB и Click Through DB. Рассчитываются агрегированные статистики кликов (глобальные и по популяциям).
QUNDERSTANDING – Понимание Запросов (Идентификация пользователя)
В момент получения запроса система должна определить популяцию текущего пользователя. Это происходит путем анализа Automatic-identification data (IP, домен) и Self-identification data (язык браузера, настройки аккаунта).
RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента. После того как базовый набор документов получен (Document Locator) и определена популяция пользователя:
Population Processor рассчитывает Population Signal для документов, используя данные из баз и применяя Smoothing Factor (µ).Ranking Processor использует этот сигнал как один из факторов (наряду с другими сигналами) для определения финального Ranking Score.Входные данные:
Выходные данные:
Population Signal (S(q,dj)) для каждого документа, который затем используется в ранжировании.Smoothing Factor).Процесс расчета Population Signal (на примере Формулы 1 из патента):
Population Signal по формуле (см. раздел Метрики), объединяющей эти данные с применением µ.Population Signal в Ranking Processor для корректировки ранга документа dj.Система использует несколько типов данных для определения популяции и расчета сигнала:
Clickthrough data (данные о кликах) являются основным источником информации. Система отслеживает, какие документы выбираются пользователями по конкретным запросам, сегментируя данные по популяциям.Automatic-identification data), регистрационные данные (возраст, пол, если доступны), cookies, история интересов (Self-identification data).Ключевым элементом патента является формула для расчета Population Signal. В патенте приводится несколько примеров, основной из которых (Формула 1, согласно тексту патента в Col 12):
S(q,dj)=∑i#(q,di,P)+μ#(q,dj,P)+μ⋅∑i#(q,di)+μ#(q,dj)
Где:
Population Signal.Интерпретация формулы (Байесовское сглаживание):
Эта формула реализует механизм, схожий с Байесовским сглаживанием. Она рассчитывает вероятность того, что пользователь из популяции P кликнет на документ dj, используя глобальную вероятность клика как априорную (prior) вероятность.
Коэффициент μ определяет баланс:
Иерархия популяций: Патент также упоминает, что если данных для субпопуляции недостаточно, система может использовать данные более высокого уровня иерархии (например, использовать данные по Европе, если данных по Франции мало).
Clickthrough data используется не глобально, а в разрезе конкретных популяций. Высокое взаимодействие внутри группы повышает ранжирование для членов этой группы. Это механизм групповой персонализации.Smoothing Factor (μ) является ключевым механизмом. Он позволяет системе динамически балансировать между специфичными (но разреженными) данными популяции и общими (надежными) глобальными данными, используя методы статистического (Байесовского) сглаживания.CTR не глобально, а в разрезе ключевых целевых рынков (популяций). Анализируйте выдачу в целевых регионах (используя VPN), чтобы понять предпочтения местной аудитории.Population Signal.Population Signal для целевой аудитории, так как система анализирует поведение сегментированно.Этот патент является одним из фундаментальных документов, описывающих механизмы персонализации и локализации поиска на основе группового поведения. Он подтверждает стратегическую важность понимания и удовлетворения потребностей конкретных сегментов аудитории. Для SEO это означает, что невозможно разработать единую стратегию для всех рынков; успех определяется не абстрактной релевантностью, а реальным взаимодействием целевых пользователей с контентом в их локальном или демографическом контексте.
Сценарий 1: Адаптация выдачи по запросу с различным культурным значением
Clickthrough Data показывают, что пользователи в США чаще кликают на результаты про насекомое или мобильного оператора Cricket Wireless.Сценарий 2: Обработка нехватки данных (Data Sparsity)
Smoothing Factor. Она будет больше полагаться на глобальные данные о кликах или данные более широкой популяции (например, «Европа»).Что такое "Популяция" в контексте этого патента?
Популяция — это любая идентифицируемая группа пользователей, объединенная общими признаками. Чаще всего это географическое положение (страна, город) или язык. Однако патент также упоминает демографические данные (возраст, пол), общие интересы и даже технические параметры, такие как интернет-провайдер. Система стремится определить группу, к которой принадлежит пользователь, чтобы адаптировать выдачу.
Как Google определяет, к какой популяции я принадлежу?
Используется комбинация методов. Основные — это автоматически собираемые данные (Automatic-identification data), такие как ваш IP-адрес (для определения местоположения), язык и версия браузера, а также доменная зона (например, google.fr). Также используются данные, которые вы предоставляете сами (Self-identification data), например, настройки языка в аккаунте Google или указанное местоположение.
Что такое Коэффициент Сглаживания (μ) и зачем он нужен?
Коэффициент Сглаживания (μ) — это механизм защиты от ненадежных данных при их нехватке (Data Sparsity). Если по запросу было всего несколько кликов от пользователей из маленькой популяции, система не может уверенно судить о предпочтениях всей группы. μ определяет, насколько система должна "сгладить" эти данные, опираясь на более надежную глобальную статистику.
Означает ли этот патент, что CTR является фактором ранжирования?
Да, в контексте этого патента Clickthrough Data (данные о выборе, включая клики) напрямую используется для расчета Population Signal, который влияет на Ranking Score. Это подтверждает использование поведенческих данных для оценки качества и релевантности, но важно понимать, что учитывается не глобальный CTR, а CTR конкретной популяции, к которой принадлежит пользователь.
Как это влияет на международное SEO?
Это имеет критическое значение. Нельзя предполагать, что глобально успешный контент будет успешен везде. Для успеха на конкретном рынке (в конкретной популяции) необходимо, чтобы контент нравился именно местной аудитории и стимулировал взаимодействие. Это требует глубокой локализации контента и понимания местного интента, а не только перевода.
Может ли сайт с меньшим количеством ссылок обогнать авторитетный сайт благодаря этому механизму?
Да, это возможно в рамках конкретной популяции. Если менее авторитетный сайт лучше отвечает на интент определенной группы пользователей (например, локальный бизнес в конкретном городе) и собирает значительно больше кликов от этой группы, его Population Signal может быть достаточно высоким, чтобы компенсировать отставание по другим факторам ранжирования для этой конкретной аудитории.
Что делать, если данных по моей узкой нише или региону мало?
В этом случае активируется механизм сглаживания (μ). Система будет больше полагаться на данные более широких популяций (например, данные по стране вместо города) или на глобальные данные о кликах. Также будут иметь больший вес другие факторы ранжирования, не связанные с поведением популяции.
Влияет ли этот механизм только на локальный поиск?
Нет, он влияет шире. Популяции могут определяться не только по географии, но и по языку, демографическим признакам (возраст, пол) или общим интересам. Например, предпочтения пользователей определенного возраста могут отличаться от предпочтений других возрастных групп по информационным или коммерческим запросам, и система это учтет.
Как система обрабатывает пользователей, принадлежащих к нескольким популяциям?
Патент упоминает (Claim 20), что система может идентифицировать несколько групп популяции, связанных с пользователем, и использовать их данные при расчете Population Signal. Например, пользователь может быть идентифицирован как "франкоговорящий" (Популяция 1) и "находящийся в Канаде" (Популяция 2). Система может взвешивать данные обеих популяций.
Насколько актуальны формулы расчета сигнала, приведенные в патенте?
Патент подан в 2003 году. Конкретные математические формулы, вероятно, устарели и были заменены более сложными моделями машинного обучения. Однако сами принципы — использование сегментированных поведенческих данных и механизм статистического сглаживания при нехватке данных — остаются фундаментальными для работы современных поисковых систем.

Local SEO
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультиязычность
Персонализация

Персонализация
Мультимедиа
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Свежесть контента

Персонализация
Поведенческие сигналы
SERP

Техническое SEO
Ссылки

Семантика и интент
Поведенческие сигналы

Мультимедиа
EEAT и качество
Семантика и интент

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Ссылки
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Ссылки
Антиспам
SERP

Ссылки
Антиспам
EEAT и качество

Персонализация
Поведенческие сигналы
