Как Google использует социальные связи, демографию и неявные сигналы для ранжирования персонализированных результатов

Google патентует систему для обработки «социальных опросных запросов» (например, «что мои друзья думают о фильме X»). Система определяет релевантность контента, учитывая социальный граф пользователя, авторитетность участников сети, их демографические атрибуты и неявные сигналы (например, текущее местоположение), чтобы предоставить персонализированные и социально релевантные результаты.

Описание

Какую задачу решает

Патент решает проблему неэффективного учета персональной social relevance (социальной релевантности) в поиске. Традиционные поисковые системы, даже интегрирующие социальный контент, часто фокусируются на публичных, популярных или новостных потоках данных. Они испытывают трудности с эффективной фильтрацией и ранжированием контента на основе конкретных социальных связей пользователя (его social graph), атрибутов участников сети и персонализированных потребностей, основанных на мнениях.

Что запатентовано

Запатентована система и метод обработки специфического типа запросов — social survey-type queries (социальных опросных запросов). Это позволяет пользователям искать мнения, рейтинги и отзывы в пределах определенных, заданных пользователем сегментов их социальных сетей (domain-specific content). Ключевым элементом является ранжирование этих результатов на основе social relevance для конкретного пользователя, учитывая как явные, так и неявные сигналы.

Как это работает

Система функционирует следующим образом:

Сбор данных: Социальный контент и атрибуты пользователей собираются в реальном времени через потоковые каналы (streaming feeds) и API социальных сетей и сохраняются в social index.
Обработка запроса: Поступивший social survey query (например, «Какой смартфон хвалят мои друзья?») парсится для извлечения сущностей («смартфон») и целевого домена («мои друзья»).
Выполнение: Система направляет запрос на соответствующий домен в социальном индексе.
Ранжирование: Результаты ранжируются с использованием social relevance. Эта оценка агрегирует явные (указанные в запросе) и неявные (например, текущее местоположение пользователя) факторы, а также учитывает социальную авторитетность (user social authority) и демографию участников сети.

Актуальность для SEO

Средняя. Идея использования социального графа для глубокой персонализации критически важна. Однако реализация, описанная в патенте, сильно зависит от прямого доступа к данным внешних социальных сетей (Facebook, Twitter, LinkedIn) через API и потоковые каналы (Firehose). С момента подачи патента доступ Google к этим данным был значительно ограничен. Хотя Google, вероятно, не использует эти механизмы в точности так, как описано (особенно после закрытия Google+), базовые принципы персонализации, учета авторитетности и использования неявных сигналов (Implicit Social Relevance) остаются высокоактуальными для современного поиска и систем рекомендаций.

Важность для SEO

Влияние на современные SEO-стратегии умеренное (6/10). Патент демонстрирует стремление Google к максимальной персонализации выдачи и важность социального контекста. Хотя прямое влияние сигналов из закрытых социальных сетей на стандартное веб-ранжирование ограничено, патент показывает методологию интеграции социальной активности, авторитетности (User Social Authority) и неявных сигналов (например, локации) в оценку релевантности. Это подчеркивает важность построения реального сообщества и авторитета в социальных медиа и качественной локальной оптимизации.

Детальный разбор

Термины и определения

Domain-Specific Content (Контент, специфичный для домена): Контент, относящийся к определенному сегменту социального графа (sub-graph) или публичной группы, указанному в запросе (например, «мои друзья-демократы» или «мужчины старше 30 в Бостоне»).
Entity (Сущность): Лексический объект (слово, фраза), описывающий предмет поиска (например, ресторан, фильм, политическое событие).
Explicit Social Relevance (Явная социальная релевантность): Факторы релевантности, которые явно указаны в тексте запроса (например, пол, возраст, конкретная группа друзей).
Facet (Фасет): Лексический объект, представляющий концепцию, свойство или характеристику сущности. Используется для фасетного поиска внутри социального контента.
Implicit Social Relevance (Неявная социальная релевантность): Факторы релевантности, которые не указаны в запросе, но известны системе о пользователе (например, текущее местоположение пользователя, определенное по смартфону или MAC-адресу).
Social Graph / Social Network (Социальный граф / Социальная сеть): Структура, представляющая пользователей и связи между ними (дружба, общие интересы, локация и т.д.). Может включать публичные и приватные подграфы (sub-graphs).
Social Index (Социальный индекс): База данных или кэш, хранящий проиндексированный социальный контент и атрибуты пользователей в структурированном формате.
Social Relevance (Социальная релевантность): Мера того, насколько конкретный социальный контент соответствует потребностям пользователя, подавшего запрос. Учитывает авторитетность пользователя, сходство с его социальным кругом, релевантность ключевых слов и свежесть контента.
Social Survey-Type Query (Запрос типа социального опроса): Запрос, направленный на получение персонализированной или основанной на мнениях информации (рейтинги, отзывы) из социального графа пользователя. Пример: «Что мои друзья думают о фильме X?».
Streaming Information Feed / Firehose (Потоковый информационный канал): Механизм получения обновлений социального контента в реальном времени (например, Twitter firehose) или через API (например, Facebook stream API).
User Social Authority (Социальная авторитетность пользователя): Метрика, оценивающая влияние пользователя внутри его социальной сети (например, на основе количества друзей или подписчиков).

Ключевые утверждения (Анализ Claims)

Патент содержит три независимых пункта (1, 7, 17), которые описывают систему, метод и носитель информации для реализации социального поиска.

Claim 1 и Claim 7 (Независимые пункты): Описывают основную систему и метод.

Система реализует social survey query через графический интерфейс (GUI) поисковой системы.
Происходит электронная обработка этого запроса пользователя.
Цель обработки — ранжирование domain-specific content (контента, специфичного для домена) в одной или нескольких онлайн социальных сетях этого пользователя.
Результаты, полученные в ответ на запрос, ранжируются, по крайней мере частично, на основе social relevance (социальной релевантности) для этого пользователя.

Claim 5 и 12 (Зависимые): Детализируют понятие social relevance.

Социальная релевантность определяется на основе Explicit Social Relevance (явной социальной релевантности), Implicit Social Relevance (неявной социальной релевантности) или их комбинации.

Claim 6, 13 и 14 (Зависимые): Конкретизируют неявные сигналы.

Implicit Social Relevance включает текущее местоположение пользователя. Это местоположение может быть определено, например, через MAC-адрес (Media Access Control address) (Claim 14).

Claim 15 и 16 (Зависимые): Конкретизируют явные сигналы.

Explicit Social Relevance может быть связана с полом (gender) пользователя (Claim 16).

Claim 2, 3, 8, 9 (Зависимые): Детализируют интерфейс ввода запроса.

GUI может представлять собой выбираемую пользователем панель инструментов (toolbar). Эта панель инструментов может быть размещена на веб-странице социальной сети.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на интеграции социальных данных в процесс поиска.

CRAWLING & INDEXING – Сканирование, Индексирование и Извлечение признаков
Система активно собирает данные из социальных сетей. Это происходит не традиционным краулингом, а через подписку на потоковые каналы данных (Firehose Stream Feed, Streaming Information Feeds) и запросы через API (Real-Time Search API). Information Extraction Engine извлекает социальный контент (обновления статусов, отзывы, лайки) и атрибуты пользователей (демография, локация, связи) и сохраняет их в структурированном виде в Social Index или кэше.

QUNDERSTANDING – Понимание Запросов
Система должна распознать запрос как social survey query. Компонент Segmenter выполняет парсинг и сегментацию запроса с использованием методов сопоставления с образцом (pattern-matching) или языкового моделирования (language-modeling) для извлечения Entities (объекта поиска) и определения Domain-Specific ограничений (целевого сегмента социального графа).

RANKING – Ранжирование
Основной этап применения патента. Система генерирует план выполнения запроса (Plan Generation) и выполняет его (Execution), отбирая кандидатов из Social Index, соответствующих доменным ограничениям. Затем Ranking Functions вычисляют Social Relevance Score. Эта оценка учитывает как явные, так и неявные социальные сигналы, авторитетность источников контента внутри графа и свежесть.

Входные данные:

Social survey query от пользователя.
Social Index (структурированные социальные данные и атрибуты пользователей).
Данные социального графа пользователя (связи).
Неявные сигналы пользователя (например, текущее местоположение, устройство).

Выходные данные:

Персонализированный список результатов (контент из социальных сетей), отранжированный по Social Relevance.

На что влияет

Специфические запросы: Наибольшее влияние на информационные и транзакционные запросы, где важны мнения, рекомендации и опыт других людей (например, выбор товара, фильма, ресторана).
Локальный поиск: Сильное влияние за счет использования Implicit Social Relevance, в частности текущего местоположения пользователя для персонализации локальных результатов (например, «лучшие бары рядом со мной, которые нравятся моим друзьям»).
Типы контента: Влияет на ранжирование пользовательского контента (UGC) — отзывов, рейтингов, статусов, комментариев.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система идентифицирует входящий запрос как social survey query. Это может определяться по структуре запроса (формулировка в виде вопроса о мнениях, наличие социальных ограничений) или по источнику запроса (например, если запрос введен через специальный социальный тулбар).
Условия применения: Применяется при наличии у пользователя активного социального графа и доступа системы к данным этого графа (через авторизацию, API или публичные данные).

Пошаговый алгоритм

Процесс А: Сбор и индексация данных (Офлайн/Реальное время)

Сбор данных: Система непрерывно получает данные из социальных сетей через Firehose Stream Feeds и Real-Time Search APIs.
Извлечение и структурирование: Information Extraction Engine извлекает социальный контент и атрибуты пользователей, сохраняя их в структурированном формате (учитывая источник, тип контента, данные о пользователе, сущность, время).
Объединение данных (Joining): Система может объединять данные из разных источников (например, Twitter и Facebook), если распознает, что они принадлежат одному и тому же пользователю (по общему идентификатору).
Индексирование и Кэширование: Данные сохраняются в Social Index и кэше.

Процесс Б: Обработка запроса (Реальное время)

Получение запроса: Пользователь вводит social survey query через GUI.
Обработка запроса (Query Processing): Система распознает тип запроса. Segmenter выполняет парсинг и сегментацию для выделения сущностей и доменных ограничений (например, Тип сущности, Локация, Время, Домен, Действие).
Генерация плана (Plan Generation): Создается план выполнения запроса, определяющий, какие источники данных будут использоваться и какие фильтры применены.
Исполнение (Execution): Запрос применяется к указанному домену в Social Index. Происходит отбор релевантных записей. Может выполняться агрегация данных (например, подсчет среднего рейтинга (avg(rating)) или количества (count(*))).
Ранжирование (Ranking): Для отобранных результатов вычисляется Social Relevance Score. Учитываются:
- Explicit Social Relevance (соответствие явным ограничениям запроса).
- Implicit Social Relevance (использование неявных данных, например, текущей локации).
- User Social Authority (авторитетность пользователей, создавших контент).
- Схожесть (Similarity) между пользователем и его социальным кругом.
- Свежесть контента (Recency).
Выдача результатов (Serve Listing): Отранированный список результатов передается пользователю.

Какие данные и как использует

Данные на входе

Система использует детальные данные о социальном взаимодействии и пользователях, извлеченные из социальных сетей (согласно Table 2 в патенте).

Контентные факторы: Текст социальных постов (статусы, отзывы). Ключевые слова (list of tokens). Связанные сущности и темы (Entity/Topic).
Временные факторы: Время публикации контента (Time). Используется для фильтрации и оценки свежести (Recency). Длительность социальных связей (length of contact).
Пользовательские и Социальные факторы:
- Идентификаторы пользователей (User ID).
- Источник контента (Source: Facebook, Twitter, Yelp и т.д.).
- Тип действия (Type: статус, комментарий, лайк, отзыв, шер).
- Демографические данные: пол (Gender), возраст (Age).
- Тип пользователя или интересы (Type: например, «демократ», «хипстер»).
Географические факторы: Локация, связанная с постом или пользователем (Location, woeid). Текущее местоположение пользователя (current location) — определяется неявно (Implicit), например, через MAC-адрес.

Какие метрики используются и как они считаются

Social Relevance Score (Оценка социальной релевантности): Основная метрика ранжирования. Агрегирует несколько сигналов:
Explicit Social Relevance (Явная релевантность): Соответствие атрибутов, указанных в запросе.
Implicit Social Relevance (Неявная релевантность): Соответствие контексту пользователя (местоположение, устройство).
User Social Authority (Социальный авторитет): Оценка авторитетности пользователя, создавшего контент, внутри социального графа (например, по количеству друзей/подписчиков).
Similarity (Схожесть): Сходство атрибутов (возраст, пол) между пользователем, подавшим запрос, и источником контента.
Keyword Relevance (Релевантность ключевых слов): Текстовая релевантность контента запросу.
Recency/Freshness (Свежесть): Хронологический порядок постов.
Агрегация оценок: Система агрегирует индивидуальные оценки (например, звездные рейтинги) для вычисления статистических показателей (среднее, медиана, количество оценок) по конкретной сущности.

Выводы

Приоритет персонализации через социальный контекст: Патент демонстрирует намерение использовать личный социальный граф пользователя и атрибуты его участников как основной фильтр для определения релевантности при обработке субъективных запросов (social survey queries).
Критическая важность неявных сигналов (Implicit Social Relevance): Особое внимание уделяется сигналам, которые пользователь не указывает в запросе. Текущее местоположение выделено как ключевой неявный сигнал, что подчеркивает важность контекста пользователя (особенно мобильного и локального) для ранжирования.
Структурированный подход к социальным данным: Система индексирует социальные данные в детализированном, структурированном виде (учитывая источник, тип действия, демографию автора, время). Это позволяет выполнять сложную фильтрацию по конкретным доменам (domain-specific поиск).
Ранжирование учитывает авторитетность внутри графа: Social Relevance включает оценку User Social Authority. Мнение более авторитетного пользователя внутри сети может иметь больший вес.
Объединение данных из разных источников (Joining): Система предусматривает возможность объединения социального контента от одного и того же пользователя из разных социальных сетей для увеличения полноты данных.
Зависимость от внешних данных: Эффективность описанной реализации напрямую зависит от глубины и скорости доступа к данным внешних социальных сетей через API и Firehose. Ограничение этого доступа снижает практическую применимость системы в исходном виде.

Практика

Best practices (это мы делаем)

Хотя прямое применение этого патента в веб-поиске ограничено доступом к данным, он дает важные инсайты о том, как Google оценивает социальный контекст и персонализацию.

Оптимизация под локальный и мобильный поиск (Local SEO): Патент подчеркивает важность Implicit Social Relevance, особенно текущего местоположения пользователя. Это подтверждает необходимость качественной локальной SEO-оптимизации и учета мобильного контекста, так как Google активно использует локацию для персонализации выдачи.
Стимулирование органического социального взаимодействия (UGC): Поощряйте пользователей оставлять отзывы, делиться контентом и обсуждать его на платформах, доступных для индексации. Система предназначена для агрегации и анализа этих данных (отзывы на Google Maps, Yelp упоминаются в патенте).
Построение социального авторитета и сообщества: Развивайте авторитетные профили бренда и ключевых сотрудников. Система учитывает User Social Authority, поэтому взаимодействие с авторитетными пользователями и построение собственного сильного, вовлеченного сообщества является стратегически важным.
Работа с целевыми сегментами: Поскольку запросы могут быть отфильтрованы по демографическим и социальным атрибутам, важно создавать контент и строить авторитет, который резонирует с конкретными сегментами аудитории.

Worst practices (это делать не надо)

Накрутка социальных сигналов и отзывов: Покупка лайков, шеров или подписчиков низкого качества неэффективна. Система анализирует Social Graph, связи между пользователями, их атрибуты и Social Authority. Изолированные сигналы от ботов или фейковых аккаунтов не создают ценности в рамках social relevance.
Игнорирование персонализации и контекста: Рассматривать SEO в отрыве от контекста пользователя (локация, интересы, демография) неэффективно. Стратегии, основанные только на общих ключевых словах, будут терять эффективность в персонализированной выдаче.
Фокус только на публичном контенте без вовлечения: Стратегии, направленные только на виральность публичного контента без построения реального сообщества, могут упускать возможности взаимодействия с целевыми сегментами аудитории, которые анализируются системой.

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google на глубокую персонализацию поисковой выдачи. Успех в SEO все больше зависит от понимания не только интента запроса, но и контекста пользователя, включая его социальное окружение, интересы и текущее местоположение. Несмотря на то, что техническая реализация столкнулась с ограничениями доступа к данным социальных сетей, заложенные в нее принципы (особенно Implicit Social Relevance и оценка авторитета источника) активно используются Google в других системах ранжирования и рекомендаций.

Практические примеры

Сценарий: Персонализированный локальный поиск ресторана

Контекст: Пользователь находится в центре города (локация определена по смартфону — Implicit Signal) и ищет место для ужина.
Запрос (Social Survey Query): «Индийские рестораны поблизости, которые нравятся моим друзьям».
Обработка:
- Система сегментирует запрос: Сущность = «Индийский ресторан», Локация = «поблизости» (используется текущая локация пользователя), Социальный домен = «мои друзья», Действие = «нравится».
Исполнение: Система обращается к Social Index (содержащему данные из доступных источников, например, Facebook, Yelp, Google Maps) и фильтрует отзывы об индийских ресторанах в радиусе X км, оставленные пользователями из социального графа истца.
Ранжирование: Результаты ранжируются.
- Ресторан А: 10 отзывов от друзей, средний рейтинг 4.5.
- Ресторан Б: 2 отзыва от друзей, рейтинг 5.0, но один из отзывов оставлен другом с высоким Social Authority.
Система определяет финальный порядок на основе весов в алгоритме Social Relevance (учитывая количество отзывов, их оценки и авторитет источников).
Результат: Пользователь получает персонализированный список рекомендаций, основанный на его местоположении и мнениях его социального круга.

Вопросы и ответы

Что такое «запрос типа социального опроса» (Social Survey Query) и чем он отличается от обычного?

Это запрос, направленный на получение субъективной, основанной на мнениях или персонализированной информации от определенной группы людей (домена). В отличие от фактологических запросов, он требует фильтрации по социальным или демографическим критериям. Примеры из патента: «Что мои друзья-демократы думают о реформе здравоохранения?» или «Обзоры ирландских баров от мужчин старше 30 в Бостоне».

Что такое «неявная социальная релевантность» (Implicit Social Relevance) и почему она важна для SEO?

Это информация о пользователе, которую система определяет автоматически, без явного указания в запросе. Самый важный пример — текущее местоположение пользователя, определяемое через устройство (например, GPS или MAC-адрес смартфона). Для SEO, особенно локального, это критически важно, так как система может автоматически локализовать и персонализировать результаты поиска, даже если пользователь не добавил название города в запрос.

Использует ли Google сигналы из Facebook и Twitter для ранжирования в веб-поиске сегодня, как описано в патенте?

Патент описывает систему, которая активно использует данные из Facebook, Twitter и других сетей через API и Firehose. Однако с момента публикации патента доступ Google к этим данным был сильно ограничен (особенно к данным Facebook). Хотя принципы, описанные в патенте, остаются актуальными и применяются к собственным данным Google (например, отзывам на Картах), прямая интеграция данных из закрытых экосистем в стандартный веб-поиск сейчас ограничена.

Как система определяет авторитетность пользователя (User Social Authority)?

Патент упоминает, что User Social Authority (или центральность пользователя) может основываться на количестве социальных друзей или подписчиков пользователя внутри его сети. Это означает, что система оценивает влиятельность пользователя внутри его социального графа. Мнение более авторитетного пользователя может иметь больший вес при расчете Social Relevance.

Что означает «Domain-Specific» поиск в контексте этого патента?

Это означает ограничение области поиска определенным набором пользователей или контента (доменом). Система сначала жестко фильтрует индекс, чтобы включить только указанный домен (например, «только мои друзья из Facebook», «только люди в Лондоне» или «только пользователи с определенными интересами»), и только потом ранжирует результаты внутри этого домена.

Может ли система объединять данные о пользователе из разных социальных сетей?

Да, в патенте упоминается возможность объединения (joining) социального контента из разных источников (например, Twitter и Facebook), если система может распознать, что контент принадлежит одному и тому же пользователю на основе общего идентификатора (имя, e-mail, физический адрес). Это позволяет улучшить социальную релевантность за счет учета более широкого спектра данных.

Как этот патент влияет на стратегию работы с отзывами (SERM)?

Он подчеркивает важность аутентичности и качества отзывов. Система не просто считает количество упоминаний, но и анализирует, кто именно оставил отзыв, его социальный авторитет, демографию и связь с ищущим пользователем. Работа над получением реальных, положительных отзывов от релевантной целевой аудитории становится приоритетом, в то время как фейковые отзывы становятся менее эффективными.

Насколько важна свежесть контента в этой системе?

Свежесть (Recency) является важным фактором ранжирования. Патент указывает, что результаты могут быть упорядочены хронологически. В ситуациях, когда несколько результатов имеют одинаковую социальную релевантность, свежесть может стать решающим фактором (и наоборот). Это стимулирует постоянную генерацию свежего социального контента.

Какие атрибуты пользователя индексирует система согласно патенту?

Патент приводит пример структуры данных (Table 2), которая включает: User ID, Местоположение, Тип пользователя (например, «демократ», «хипстер»), Пол, Возраст и Продолжительность контакта (как давно они являются друзьями). Это позволяет системе выполнять очень точную фильтрацию по domain-specific запросам.

Связан ли этот патент с E-E-A-T?

Концептуально они связаны через важность авторитета источника. Патент использует метрику User Social Authority для оценки веса мнения конкретного пользователя в социальном контексте. E-E-A-T является более широкой концепцией оценки качества и авторитетности контента и его авторов в веб-поиске. Оба механизма направлены на продвижение надежной информации от авторитетных источников.