Google использует механизм для корректировки поисковой выдачи на основе поведения групп пользователей (популяций), к которым принадлежит автор запроса. Система анализирует данные о кликах (clickthrough data) конкретной популяции (например, пользователи из определенной страны, демографической группы или с общими интересами) и повышает в ранжировании те документы, которые эта группа выбирает чаще. Это позволяет персонализировать результаты, делая их более релевантными для контекста пользователя.
Описание
Какую задачу решает
Патент решает проблему предоставления универсальных результатов поиска, которые могут быть нерелевантны для конкретного пользователя из-за его уникального контекста (например, местоположения, языка или интересов). Традиционные алгоритмы ранжирования могут не учитывать предпочтения специфических групп пользователей (популяций). Изобретение направлено на улучшение релевантности выдачи путем интеграции сигналов, основанных на коллективном поведении той популяции, к которой принадлежит пользователь.
Что запатентовано
Запатентована система и метод улучшения поискового ранжирования путем использования информации о популяции (Population Information). Суть изобретения заключается в определении популяции, связанной с поисковым запросом (часто на основе характеристик пользователя, отправившего запрос), и последующем расчете оценки ранжирования (Ranking Score) для документа. Эта оценка базируется, по крайней мере частично, на данных, связанных с поведением этой популяции в отношении данного запроса и документа (например, на данных о кликах).
Как это работает
Система работает следующим образом:
- Определение популяции: При получении запроса система идентифицирует популяцию пользователя, используя автоматические данные (IP-адрес, язык браузера, cookies) или данные самоидентификации (настройки аккаунта).
- Сбор данных о поведении: Система агрегирует данные о выборе (Clickthrough data) для различных запросов и документов, сегментируя их по популяциям.
- Расчет популяционного сигнала: Для документов-кандидатов рассчитывается Population Signal. Этот сигнал отражает предпочтения конкретной популяции в отношении документа.
- Сглаживание данных: Используется Smoothing Factor для корректировки сигнала, особенно если данных о кликах от конкретной популяции недостаточно. В таких случаях система может опираться на данные более широкой популяции или генеральной совокупности пользователей.
- Ранжирование: Итоговый Ranking Score документа учитывает этот Population Signal, что позволяет повышать в выдаче документы, популярные среди конкретной группы пользователей.
Актуальность для SEO
Высокая. Персонализация, локализация и понимание контекста пользователя являются ключевыми направлениями развития поиска Google. Использование поведенческих данных, сегментированных по группам пользователей, для корректировки ранжирования остается критически важным механизмом для обеспечения релевантности в глобальном масштабе.
Важность для SEO
Влияние на SEO значительное (8/10). Патент описывает механизм, который делает релевантность контекстуальной. Это означает, что позиции сайта могут сильно различаться в зависимости от того, кто ищет (местоположение, демография, интересы). SEO-стратегии должны учитывать не только общую релевантность и авторитетность, но и поведенческие факторы (в частности, CTR) целевой аудитории (популяции). Оптимизация под интент и предпочтения конкретных сегментов аудитории становится приоритетной задачей.
Детальный разбор
Термины и определения
- Article / Document (Статья / Документ)
- Единица контента, которая может быть проиндексирована и возвращена в результатах поиска (веб-страницы, PDF-файлы, изображения и т.д.).
- Clickthrough Data (Данные о кликах)
- Данные, связанные с выбором пользователем результатов поиска. Индикатор качества и релевантности. Включает информацию о том, как часто на документ кликают пользователи при показе по определенному запросу.
- Population (Популяция)
- Группа пользователей, объединенных общими характеристиками. Примеры включают местоположение (страна, регион, город), демографические данные (возраст, пол), язык, общие интересы или технические параметры (ISP, тип устройства).
- Population Database (База данных популяций)
- Хранилище, содержащее информацию о популяциях и связанные с ними данные о поведении (например, агрегированные данные о кликах, сегментированные по популяциям).
- Population Processor (Процессор популяций)
- Компонент поисковой системы, отвечающий за определение популяции пользователя и расчет Population Signal.
- Population Signal (Популяционный сигнал)
- Оценка или рейтинг документа, отражающий относительный интерес конкретной популяции к этому документу в контексте определенного запроса.
- Ranking Processor (Процессор ранжирования)
- Компонент поисковой системы, который рассчитывает итоговые оценки (Ranking Scores) документов, используя различные сигналы, включая Population Signal.
- Ranking Score (Оценка ранжирования)
- Числовое значение, определяющее позицию документа в результатах поиска.
- Smoothing Factor (Коэффициент сглаживания, µ)
- Переменная в алгоритме расчета Population Signal, которая отражает степень доверия к данным о кликах. Используется для стабилизации оценок при недостаточном объеме данных (sparse data) от конкретной популяции.
- Automatic-identification data (Автоматически определяемые данные)
- Данные для определения популяции пользователя, получаемые без его прямого участия (IP-адрес, домен, cookies, данные браузера).
- Self-identification data (Данные самоидентификации)
- Данные для определения популяции, предоставленные пользователем (регистрационные данные, языковые предпочтения).
Ключевые утверждения (Анализ Claims)
Патент US8510294B2 является продолжением (Continuation) более ранних патентов (например, US7454417). Claims фокусируются на основном методе использования информации о популяции для ранжирования.
Claim 1 (Независимый пункт): Описывает базовый метод определения оценки ранжирования.
- Система получает поисковый запрос.
- Определяется первая популяция (first population), связанная с запросом, на основе характеристик отправителя запроса.
- Определяется первая статья (first article), соответствующая запросу.
- Определяется первая оценка ранжирования (first ranking score) для статьи, основанная, по крайней мере частично, на данных, связанных с этой первой популяцией.
Ядро изобретения — это связь между характеристиками пользователя, отправившего запрос, и корректировкой ранжирования на основе данных, специфичных для группы (популяции) этого пользователя.
Claim 2, 3, 4 (Зависимые): Уточняют, как определяется популяция отправителя.
Популяция определяется на основе демографических данных отправителя (Claim 2), в частности, его вероятного географического местоположения (Claim 3). Местоположение может определяться через IP-адрес, адрес, введенный пользователем для доступа к поисковой системе, или демографические данные, введенные пользователем (Claim 4).
Claim 5, 6 (Зависимые): Предлагают альтернативный способ определения популяции.
Популяция может определяться на основе демографических данных, связанных с самим запросом (Claim 5), например, языка запроса или данных о предыдущих отправителях этого запроса (Claim 6).
Claim 7, 8 (Зависимые): Уточняют использование данных самоидентификации.
Определение популяции может основываться на self-identification data (Claim 7), таких как регистрационные данные, предпочтения пользователя (Claim 8).
Claim 9, 10 (Зависимые): Уточняют использование автоматически определяемых данных.
Определение популяции может основываться на automatic-identification data (Claim 9), таких как IP-адрес, домен или данные приложения пользователя (Claim 10).
Claim 11, 12, 13, 14 (Зависимые): Детализируют, какие данные популяции используются для ранжирования.
Данные, связанные с популяцией, включают оценку выбора (selection score) для статьи в контексте этой популяции (Claim 11). Эта оценка выбора может быть количеством кликов (number of clicks) на статью членами этой популяции (Claim 12). Также данные могут включать общее количество членов популяции (Claim 13), в частности, количество членов, которые выбрали результат, возвращенный по запросу (Claim 14).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, интегрируя данные, собранные на этапе индексирования и взаимодействия с пользователем, для влияния на ранжирование.
INDEXING / CRAWLING (Косвенно)
На этих этапах собираются данные о документах. Хотя патент не фокусируется на этом, система должна иметь возможность связывать документы с популяциями (например, через анализ языка или геолокации контента).
QUNDERSTANDING – Понимание Запросов
Система анализирует запрос для определения связанных с ним популяций (например, язык запроса) (Claims 5, 6).
RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента. Population Processor взаимодействует с Ranking Processor.
- Идентификация пользователя: При получении запроса система определяет популяцию пользователя (Claims 1-4, 7-10).
- Получение кандидатов: Document Locator предоставляет начальный набор документов.
- Расчет популяционного сигнала: Population Processor рассчитывает Population Signal для документов-кандидатов, используя данные из Population DB и Click Through DB. Это включает применение алгоритмов с Smoothing Factor.
- Корректировка ранжирования: Ranking Processor использует Population Signal (и другие сигналы) для расчета финального Ranking Score и формирования SERP.
Входные данные:
- Поисковый запрос (Q).
- Данные о пользователе (IP, cookies, настройки аккаунта).
- Начальный набор документов-кандидатов.
- Агрегированные данные о кликах (Clickthrough data), сегментированные по популяциям (P) и общее количество кликов.
Выходные данные:
- Population Signal для каждого документа (например, S(q, dj)).
- Скорректированный Ranking Score для документов.
- Финальная поисковая выдача (SERP).
На что влияет
- Локальные запросы и Гео-зависимые ниши: Наибольшее влияние оказывается на запросы, где местоположение пользователя критично (Локальный поиск, новости, услуги). Если пользователи в Японии предпочитают сайты на .co.jp для запроса «boating», эти сайты будут повышены для пользователя из Японии.
- Языковые предпочтения: Влияет на ранжирование контента на разных языках в мультиязычных регионах, основываясь на предпочтениях пользователей с определенными языковыми настройками.
- Специфические запросы с разной интерпретацией: Запросы, которые имеют разное значение или интент в разных культурах или демографических группах (например, запрос «cricket» в Индии и во Франции).
- E-commerce и коммерческие запросы: Предпочтения брендов, магазинов и продуктов могут сильно различаться по популяциям. Система повысит те результаты, которые чаще выбирает целевая демографическая группа.
Когда применяется
Алгоритм применяется при обработке поискового запроса в реальном времени, но опирается на предварительно собранные данные.
- Условия активации: Активируется, когда система может надежно идентифицировать популяцию пользователя И когда в базе данных есть достаточный объем поведенческих данных (Clickthrough data) для этой популяции по данному запросу.
- Обработка недостатка данных: Если данных о кликах для конкретной популяции (например, Люксембург) недостаточно, система использует Smoothing Factor. Это позволяет «откатиться» к данным более широкой популяции (например, Европа) или к данным генеральной совокупности пользователей.
Пошаговый алгоритм
Описание процесса на основе алгоритма, представленного в патенте (в частности, вариант реализации (1)).
Этап 1: Подготовка и Инициализация
- Предоставление данных: Обеспечивается доступ к Population Database и Click Through Database.
- Получение запроса: Система получает поисковый запрос «Q» от пользователя.
- Определение популяции пользователя: Система анализирует данные пользователя (IP, настройки и т.д.) и определяет его принадлежность к популяции «P» (например, Франция).
- Получение кандидатов: Определяется начальный набор документов (N), релевантных запросу «Q».
- Определение параметров: Устанавливается количество документов для анализа (M, часто M=N) и определяется Smoothing Factor (µ).
Этап 2: Сбор статистики по кликам (Предварительный расчет или запрос к БД)
Система собирает необходимую статистику для всех документов (i=1..N) по запросу «Q»:
- Определяется количество кликов на документ «i» пользователями из популяции «P» (#(q, di, P)).
- Определяется общее количество кликов на документ «i» всеми пользователями (#(q, di)).
- Рассчитывается сумма кликов по всем документам пользователями из популяции «P».
- Рассчитывается сумма кликов по всем документам всеми пользователями.
Этап 3: Расчет Популяционного Сигнала (Population Signal)
Для каждого документа (j=1..M) выполняется расчет оценки S(q, dj):
- Получение данных для документа «j»: Извлекается количество кликов на документ «j» популяцией «P» и общее количество кликов на документ «j».
- Расчет числителя (Взвешенное предпочтение популяции):
Рассчитывается скорректированное количество кликов популяции «P» на документ «j». К нему прибавляется произведение Smoothing Factor (µ) и отношения общего количества кликов на документ «j» к общей сумме кликов по всем документам. - Расчет знаменателя (Нормализация):
Рассчитывается общая сумма кликов популяции «P» по всем документам и к ней прибавляется Smoothing Factor (µ). - Определение сигнала: Числитель делится на знаменатель для получения финального Population Signal S(q, dj) для документа «j».
Этап 4: Применение и Вывод
- Передача сигнала: Рассчитанные Population Signals передаются в Ranking Processor.
- Ранжирование: Ranking Processor использует эти сигналы (вместе с другими факторами) для определения финального Ranking Score.
- Вывод результатов: Пользователю предоставляется скорректированная поисковая выдача.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих и пользовательских данных для корректировки ранжирования.
- Поведенческие факторы (Clickthrough Data): Ключевые данные. Система использует историю кликов на документы в контексте конкретных запросов. Эти данные сегментируются по популяциям.
- Пользовательские факторы (Идентификация популяции):
- Automatic-identification data: IP-адрес (для геолокации), доменное имя, данные браузера (языковые настройки), cookies, данные об Интернет-провайдере (ISP).
- Self-identification data: Регистрационные данные пользователя, явно указанные предпочтения (язык, регион).
- Географические факторы: Местоположение пользователя (континент, страна, регион, город), используемое для определения популяции.
Контентные, ссылочные и технические факторы в патенте явно не упоминаются, но они используются на этапе первичного отбора документов (Document Locator).
Какие метрики используются и как они считаются
Система вычисляет Population Signal. В патенте приводится несколько примеров формул расчета. Рассмотрим пример (1):
S(q, dj) = [ #(q, dj, P) + µ * ( #(q, dj) / Σ #(q, di) ) ] / [ Σ #(q, di, P) + µ ]
Ключевые метрики:
- #(q, dj, P): Количество кликов на документ «j» по запросу «q» пользователями из популяции «P». (Локальное поведение).
- #(q, dj): Общее количество кликов на документ «j» по запросу «q» всеми пользователями. (Глобальное поведение).
- Σ #(q, di): Сумма кликов по всем документам (i) по запросу «q» всеми пользователями.
- Σ #(q, di, P): Сумма кликов по всем документам (i) по запросу «q» пользователями из популяции «P».
- µ (Smoothing Factor): Коэффициент сглаживания. Определяет степень доверия к данным популяции.
Логика расчета и сглаживания:
Формула балансирует между поведением конкретной популяции и поведением генеральной совокупности.
- Если данных о кликах популяции «P» много (Σ #(q, di, P) велико), а µ относительно мало, то Population Signal будет в основном определяться поведением этой популяции (#(q, dj, P)).
- Если данных о кликах популяции «P» мало (sparse data), влияние µ возрастает. В этом случае формула приближается к глобальной статистике кликов (отношению #(q, dj) к Σ #(q, di)). Это предотвращает некорректное ранжирование из-за недостатка данных.
Также упоминается возможность использования данных о показах (SH(q, di) – количество показов документа «i» по запросу «q») в альтернативных реализациях (Пример 2), что позволяет рассчитывать CTR (Click-Through Rate) вместо абсолютного числа кликов.
Выводы
- Релевантность зависит от контекста пользователя (Популяции): Патент подтверждает, что Google не стремится к единой «идеальной» выдаче. Ранжирование адаптируется под предпочтения группы (популяции), к которой принадлежит пользователь. То, что релевантно для одной группы, может быть менее релевантным для другой.
- Поведенческие факторы (Clickthrough Data) как сигнал ранжирования: Данные о кликах используются как прямой сигнал для корректировки Ranking Score. Высокий CTR внутри определенной популяции может повысить позиции документа для пользователей этой популяции.
- Сегментация аудитории критически важна: Система активно сегментирует пользователей по различным признакам (география, язык, демография, интересы) для формирования релевантной выдачи.
- Механизм обработки недостаточных данных (Smoothing): Google использует сложные статистические методы (Smoothing Factor) для балансировки данных. Если данных по узкой популяции мало, система опирается на более широкие данные, обеспечивая стабильность выдачи и предотвращая манипуляции с малыми выборками.
- Иерархия популяций: Система может использовать иерархическую структуру популяций (например, Париж -> Франция -> Европа). Если данных на нижнем уровне не хватает, используются данные верхнего уровня.
Практика
Best practices (это мы делаем)
- Оптимизация под целевую аудиторию (Population-Specific SEO): Необходимо четко понимать, кто является целевой аудиторией сайта и как она себя ведет. Стратегия должна быть направлена на удовлетворение интента конкретной популяции, а не абстрактного пользователя.
- Повышение CTR внутри целевого сегмента: Работа над сниппетами (Title, Description) должна вестись с учетом предпочтений и языка целевой популяции. Привлекательность сниппета для конкретной группы напрямую влияет на Population Signal.
- Локализация и интернационализация: Для международных проектов критически важно не просто переводить контент, но адаптировать его под культурные особенности и поведенческие паттерны локальных популяций. Использование правильных сигналов (hreflang, локальные домены) помогает Google ассоциировать контент с нужной популяцией.
- Анализ производительности по сегментам: Необходимо анализировать данные о трафике и поведении (например, в Google Analytics), сегментируя пользователей по географии, демографии и интересам, чтобы понять, насколько хорошо контент работает для разных популяций.
- Создание контента, резонирующего с определенными группами: Если сайт нацелен на определенную демографическую группу или группу по интересам, контент должен максимально соответствовать их ожиданиям, что приведет к лучшим поведенческим сигналам от этой популяции.
Worst practices (это делать не надо)
- Игнорирование контекста пользователя: Создание «универсального» контента без учета специфики аудитории снижает вероятность получения высокого Population Signal от целевых групп.
- Накрутка поведенческих факторов (Click Fraud): Попытки манипулировать Clickthrough data могут быть неэффективны. Механизм Smoothing Factor нивелирует аномалии на малых выборках. Кроме того, если накрутка ведется из нецелевой популяции, это не улучшит ранжирование для целевой аудитории.
- Ориентация на глобальный CTR без учета сегментов: Высокий общий CTR может быть бесполезен, если он достигается за счет нецелевых пользователей, которые быстро покидают сайт. Важно качество трафика внутри популяции.
Стратегическое значение
Патент подчеркивает важность персонализации и контекстуального ранжирования в стратегии Google. Для SEO это означает переход от оптимизации под ключевые слова к оптимизации под аудиторию и ее поведение. Долгосрочная стратегия должна включать глубокое понимание целевых популяций и создание контента, который демонстрирует высокие показатели вовлеченности и удовлетворенности именно у этих групп. Это также объясняет, почему мониторинг позиций становится все менее точным, так как выдача динамически меняется в зависимости от того, кто и где ищет.
Практические примеры
Сценарий 1: Локализация коммерческого запроса
- Запрос: «Лучшая пицца»
- Пользователь А (Популяция: Нью-Йорк): Система определяет геолокацию. Population Signal рассчитывается на основе кликов пользователей из Нью-Йорка. В выдаче повышаются сайты локальных нью-йоркских пиццерий с высоким CTR в этом регионе.
- Пользователь Б (Популяция: Чикаго): Система использует данные кликов из Чикаго. В выдаче повышаются чикагские пиццерии, даже если у них меньше общих сигналов авторитетности, чем у крупных сетей из Нью-Йорка.
- Действие SEO: Оптимизировать страницы под локальный интент, гарантировать корректность гео-сигналов и работать над привлекательностью сниппетов для локальных пользователей.
Сценарий 2: Различия в интенте для одного запроса
- Запрос: «Football»
- Пользователь А (Популяция: США): Данные о кликах показывают, что пользователи в США по этому запросу ищут американский футбол (NFL). Результаты об NFL получают высокий Population Signal.
- Пользователь Б (Популяция: Великобритания): Данные о кликах показывают предпочтение европейского футбола (Soccer). Результаты о Премьер-лиге получают высокий Population Signal.
- Действие SEO: При таргетинге на определенную страну четко оптимизировать контент под доминирующий интент в этом регионе.
Вопросы и ответы
Что такое «Популяция» в контексте этого патента?
Популяция — это любая группа пользователей, объединенная общими характеристиками. Это может быть географическое положение (страна, город), демографические данные (возраст, пол), язык, общие интересы или даже технические параметры, такие как использование одного и того же интернет-провайдера. Google определяет эти группы для анализа их коллективного поведения.
Как Google определяет, к какой популяции я принадлежу?
Google использует два типа данных. Первый — автоматически определяемые данные (Automatic-identification data), такие как ваш IP-адрес, язык браузера, история поиска и cookies. Второй — данные самоидентификации (Self-identification data), которые вы предоставляете сами, например, в настройках аккаунта Google (возраст, пол, язык).
Означает ли этот патент, что CTR является фактором ранжирования?
Да, в контексте этого патента Clickthrough data (данные о кликах, которые можно использовать для расчета CTR) напрямую используются для расчета Population Signal, который влияет на итоговый Ranking Score. Если пользователи из определенной популяции стабильно предпочитают ваш сайт в выдаче, он будет ранжироваться выше для других пользователей из этой же популяции.
Что такое «Коэффициент сглаживания» (Smoothing Factor) и зачем он нужен?
Smoothing Factor (µ) — это статистический механизм для обработки недостаточных данных. Если по какому-то запросу от конкретной популяции мало кликов, система не может полагаться только на них. Коэффициент сглаживания позволяет системе в таких случаях больше опираться на данные о кликах от всех пользователей (генеральной совокупности), обеспечивая стабильность и надежность выдачи.
Как этот патент влияет на международное SEO?
Он имеет критическое значение. Патент показывает, что для успеха в разных странах недостаточно просто перевести контент. Необходимо адаптировать его под поведение и предпочтения локальных пользователей. Поведенческие сигналы в одном регионе будут напрямую влиять на ранжирование в этом же регионе, но слабо повлияют на другие.
Может ли мой сайт ранжироваться на первой позиции в одной стране и быть вне ТОП-10 в другой по одному и тому же запросу?
Да, абсолютно. Если поведенческие сигналы (Clickthrough data) для вашего сайта сильны в Популяции А (например, Франция) и слабы в Популяции Б (например, Япония), то Population Signal будет высоким во Франции и низким в Японии, что приведет к разным позициям в выдаче.
Как можно оптимизировать сайт с учетом этого патента?
Ключевая стратегия — оптимизация под целевую аудиторию (популяцию). Это включает глубокое понимание их интента, создание контента, который отвечает на их потребности лучше конкурентов, и оптимизацию сниппетов (Title/Description) для максимизации CTR именно внутри этого целевого сегмента.
Что делать, если моя целевая аудитория очень узкая (маленькая популяция)?
В этом случае система может испытывать недостаток данных. Из-за механизма сглаживания (Smoothing Factor) ранжирование будет больше опираться на глобальные сигналы. Однако, если вы сможете доминировать в этой нише и генерировать стабильные поведенческие сигналы, система постепенно начнет учитывать предпочтения этой узкой группы.
Эффективна ли накрутка кликов в свете этого патента?
Накрутка становится сложнее и менее эффективной. Во-первых, Smoothing Factor нивелирует аномалии на малых выборках. Во-вторых, чтобы повлиять на ранжирование в конкретном регионе или демографической группе, необходимо эмулировать поведение именно этой популяции, что технически сложно и дорого. Google также имеет отдельные системы для борьбы с мошенническими кликами.
Влияет ли этот механизм только на локальный поиск?
Нет, он влияет на все типы запросов. Хотя география является самым очевидным примером популяции, система может сегментировать пользователей по демографии, интересам или языку. Например, он может влиять на информационные или коммерческие запросы, если предпочтения разных демографических групп различаются.