Google (изначально Aardvark) разработал социальную поисковую систему, которая направляет вопросы не к документам, а к людям в социальном графе пользователя. Патент детализирует, как индексируется экспертиза пользователей (Topic Expertise), как ранжируются ответчики на основе социальной близости (Connectedness) и как эти ответы могут интегрироваться в основную поисковую выдачу.
Описание
Какую задачу решает
Патент решает проблему ограничений традиционного поиска («парадигма библиотеки») для субъективных, контекстуальных или требующих личного опыта запросов. Вместо поиска документов система реализует «парадигму деревни» — поиск подходящего человека для ответа на вопрос в реальном времени. Цель — использовать социальные связи (Social Affinity Group) для обеспечения доверия к ответу, основанного на близости (intimacy), а не только на авторитетности (authority).
Что запатентовано
Запатентована система социальной поисковой системы (Q&A платформы), которая маршрутизирует вопросы к людям. Система индексирует экспертизу пользователей и их социальные связи. При получении вопроса она ранжирует потенциальных ответчиков, комбинируя их тематическую экспертизу (Topic Expertise) и социальную близость (Connectedness). Вопрос последовательно отправляется кандидатам с динамическим управлением временем ожидания (Wait Time) до получения ответа.
Как это работает
Система работает следующим образом:
- Индексация (Офлайн): Система анализирует профили, блоги, сообщения пользователей для построения Индекса Экспертизы (Inverted Index) и Социального Графа (Social Graph).
- Анализ вопроса: Question Analyzer определяет темы входящего вопроса.
- Ранжирование людей: Routing Engine ранжирует кандидатов из социального графа спрашивающего, используя вероятностную модель, которая учитывает экспертизу, социальную близость и доступность кандидата.
- Маршрутизация: Conversation Manager последовательно связывается с кандидатами через разные каналы (IM, email). Для каждого рассчитывается индивидуальное время ожидания (Wait Time) на основе канала и истории ответов.
- Интеграция в Поиск: Ответы сохраняются в Q&A Archive и могут быть показаны в результатах веб-поиска (через Search Result Processor), потенциально с добавлением affiliate links.
Актуальность для SEO
Средняя. Патент описывает технологии Aardvark, приобретенные Google и позже закрытые. Хотя прямая реализация этой системы маршрутизации вопросов не используется, описанные концепции крайне актуальны: методы индексации экспертизы людей (связь с E-E-A-T и Author Authority) и интеграция качественного пользовательского контента (UGC) в основную поисковую выдачу (например, Perspectives, интеграция форумов).
Важность для SEO
Влияние на SEO значительное, но косвенное (6.5/10). Патент не описывает ранжирование веб-сайтов. Однако он критически важен для понимания того, как Google технически подходит к оценке экспертизы авторов (E-E-A-T), используя разнообразные источники данных. Кроме того, он демонстрирует механизм интеграции ответов экспертов (UGC) непосредственно в SERP, что создает конкуренцию традиционным веб-результатам и влияет на контент-стратегию.
Детальный разбор
Термины и определения
- Candidate Answerers (Кандидаты в ответчики)
- Пользователи, выбранные системой как потенциально способные ответить на вопрос, обычно из Social Affinity Group спрашивающего.
- Connectedness (Связность, p(ui|uj))
- Независимая от вопроса оценка качества (Quality Score). Вероятность того, что ответчик ui даст удовлетворительный ответ спрашивающему uj. Основана на социальной близости (intimacy) и схожести профилей/поведения.
- Conversation Manager (Менеджер диалогов)
- Компонент, управляющий взаимодействием: отправкой вопросов, получением ответов и управлением временем ожидания.
- Inverted Index (Инвертированный индекс экспертизы)
- Хранилище данных, которое для каждой темы содержит список пользователей-экспертов с оценками (p(ui|t)).
- Question Analyzer (Анализатор вопросов)
- Компонент, определяющий темы и характеристики вопроса (p(t|q)) с помощью классификаторов.
- Routing Engine (Механизм маршрутизации)
- Аналог функции ранжирования. Ранжирует Candidate Answerers, используя функцию скоринга s(ui, uj, q).
- Social Affinity Group (Группа социальной близости)
- Группа пользователей, с которыми у данного пользователя есть известные системе отношения (явные или неявные).
- Social Graph (Социальный граф)
- Структура данных, хранящая информацию о пользователях и силе связей между ними (Connectedness).
- Topic Expertise (Тематическая экспертиза, p(ui|q))
- Зависимая от вопроса оценка релевантности (Relevance Score). Вероятность того, что ответчик ui сможет успешно ответить на вопрос q.
- Village Paradigm (Парадигма деревни)
- Модель поиска информации, где цель — найти нужного человека, а не документ.
- Wait Time (Время ожидания)
- Индивидуально рассчитанное время, которое система ждет ответа от кандидата, прежде чем перейти к следующему. Зависит от канала связи и истории пользователя.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс маршрутизации вопроса с адаптивным управлением временем ожидания.
- Система получает вопрос от спрашивающего (Asker).
- Выбирается множество кандидатов на основе их социальной связи со спрашивающим в социальной сети.
- Для каждого кандидата определяется индивидуальное время ожидания (respective wait time). Оно основано на канале связи (IM, email, SMS и т.д.) И/ИЛИ исторической скорости ответа (historical responsiveness) пользователя на этом канале.
- Выбирается первый кандидат на основе ранжирования.
- Вопрос отправляется первому кандидату через его канал связи.
- Система определяет, что время ожидания для первого кандидата истекло без получения ответа.
- В ответ на это: выбирается второй кандидат на основе ранжирования, и вопрос отправляется ему.
- Получается ответ от второго кандидата.
- Ответ и информация, идентифицирующая второго кандидата, отправляются спрашивающему.
Ядро изобретения — это метод последовательной маршрутизации вопросов в социальной сети с использованием индивидуально рассчитанного времени ожидания для каждого ответчика, оптимизирующий скорость получения ответа.
Claim 3 (Зависимый): Уточняет расчет Wait Time.
Время ожидания может быть скорректировано (увеличено), если качество социального соответствия (quality of a social match) между спрашивающим и ответчиком высокое. Система готова ждать дольше ответа от более подходящего человека.
Claim 6 (Зависимый): Описывает групповую маршрутизацию.
Вопрос может быть отправлен группе кандидатов. Общее время ожидания группы (group wait time) устанавливается на основе индивидуальных времен ожидания членов группы (например, по самому длинному времени).
Где и как применяется
Этот патент описывает архитектуру специализированной социальной поисковой системы (Q&A платформы), но затрагивает стандартные этапы поиска в контексте обработки экспертизы и UGC.
CRAWLING & INDEXING (Сбор данных и Индексация)
Система активно собирает и индексирует данные о людях, а не только о документах:
- Индексация Экспертизы: Crawler/Indexer анализирует профили, блоги, статусы, сообщения, изображения и ссылки пользователей для определения их Topic Expertise (p(t|ui)). Данные хранятся в Forward/Inverted Index.
- Индексация Связей: Анализируются социальные связи, демография и поведение для расчета Connectedness (p(ui|uj)). Данные хранятся в Social Graph.
QUNDERSTANDING – Понимание Запросов
Question Analyzer обрабатывает входящий вопрос. Используются классификаторы для определения типа вопроса (локальный, тривиальный и т.д.) и Topic Mappers для определения тематики (p(t|q)).
RANKING – Ранжирование (Людей)
Routing Engine выполняет ранжирование кандидатов (а не документов). Используется функция скоринга s(ui, uj, q) = p(ui|uj) * p(ui|q). Также учитывается доступность (Availability).
METASEARCH – Метапоиск и Смешивание
Ключевая точка пересечения с веб-поиском. Search Result Processor может интегрировать ответы из Q&A Archive в результаты стандартного поиска. Также Affiliate Link Generator может добавлять ссылки в ответы.
На что влияет
- Специфические запросы: Наибольшее влияние на субъективные, рекомендательные или высококонтекстуальные запросы, где ответ от человека предпочтительнее документа.
- Типы контента: Влияет на видимость пользовательского контента (UGC) в формате Q&A, который может конкурировать с веб-страницами в SERP.
- Локальные запросы: Система использует Location Sensitive Classifier для маршрутизации вопросов, требующих знания конкретной локации.
Когда применяется
- Условия работы: Алгоритм маршрутизации применяется, когда пользователь задает вопрос через интерфейс этой социальной системы.
- Интеграция в SERP: Ответы из архива используются, когда стандартный поисковый запрос соответствует теме или сущностям сохраненного ответа.
- Временные рамки: Маршрутизация происходит в реальном времени, но с использованием динамических порогов ожидания (Wait Time), зависящих от канала связи и поведения пользователя.
Пошаговый алгоритм
Процесс А: Офлайн-индексация (Построение Базы Знаний)
- Сбор данных: Crawler/Indexer собирает данные о пользователях (контент, профили, связи).
- Извлечение и Расчет Экспертизы: Анализ контента для определения тем p(t|ui). Применяются алгоритмы усиления (Topic Strengthening — повышение оценки, если друзья также эксперты) и сглаживания (Smoothing — добавление связанных тем). Сохранение в Forward/Inverted Index.
- Расчет Связности: Вычисление оценок Connectedness p(ui|uj) на основе схожести профилей и поведения. Сохранение в Social Graph.
Процесс Б: Обработка вопроса (Реальное время)
- Получение и Анализ вопроса: Question Analyzer определяет темы вопроса p(t|q).
- Ранжирование кандидатов: Routing Engine рассчитывает скоринг s(ui, uj, q), комбинируя Экспертизу, Связность и Доступность.
- Фильтрация: Удаление недоступных пользователей или тех, кого нельзя беспокоить.
- Расчет времени ожидания: Определение индивидуального Wait Time для кандидатов на основе канала связи и истории ответов.
- Маршрутизация: Conversation Manager последовательно отправляет вопрос группам кандидатов. Если ответа нет в течение Wait Time, переход к следующей группе.
- Получение ответа и Обработка: Получение ответа. Опционально, добавление Affiliate Links.
- Доставка и Архивирование: Отправка ответа спрашивающему и сохранение в Q&A Archive.
Какие данные и как использует
Данные на входе
Система использует данные о пользователях для оценки экспертизы и связности.
Факторы экспертизы (Topic Expertise): (TABLE 1 в патенте)
- Контентные факторы: Текст из профилей соцсетей, блогов, домашних страниц, обновлений статусов, сообщений. Контент веб-страниц, на которые ссылается пользователь.
- Явные указания: Темы, указанные пользователем или его друзьями как области экспертизы.
- Мультимедиа факторы: Темы, извлеченные из изображений или видео пользователя.
Факторы связности (Connectedness):
- Социальные факторы: Социальные связи, общие друзья, степень социального опосредования (Degree of Social Indirection).
- Пользовательские факторы: Демографическое сходство, сходство профилей (интересы).
- Поведенческие и Лингвистические факторы: Совпадение словаря, разговорчивости (Chattiness), многословности (Verbosity), вежливости (Politeness), скорости ответа (Speed match).
Факторы доступности (Availability):
- Временные факторы: Время суток, историческая активность в это время, время с последнего контакта.
- Пользовательские факторы: Онлайн-статус, предпочтения по частоте контактов.
Какие метрики используются и как они считаются
Система использует вероятностную модель (вариант Aspect Model) для ранжирования.
- Scoring Function: s(ui, uj, q) = p(ui|uj) * p(ui|q). Цель — максимизировать эту оценку.
- p(ui|uj) (Connectedness): Рассчитывается офлайн. Может использоваться взвешенное косинусное сходство (weighted cosine similarity) по признакам связности.
- p(ui|q) (Topic Expertise): Рассчитывается в реальном времени как Sum over t [p(ui|t) * p(t|q)].
- p(ui|t) (User Expertise in Topic): Рассчитывается офлайн на основе анализа источников экспертизы. Патент упоминает использование SVM и tf-idf для анализа текста. Применяются алгоритмы Topic Strengthening и Smoothing.
- p(t|q) (Topic Relevance to Question): Рассчитывается в реальном времени Question Analyzer с использованием комбинации Topic Mappers (Keyword Match, Taxonomy (SVM), Salient Term).
- Wait Time: Динамическая метрика, рассчитываемая для каждого кандидата на основе канала связи и historical responsiveness.
Выводы
- Индексация Экспертизы Людей (E-E-A-T): Патент детально описывает инфраструктуру для оценки экспертизы человека (Topic Expertise) на основе анализа его контента из множества источников (блоги, профили, UGC). Это критически важно для понимания технической реализации оценки авторов в рамках E-E-A-T.
- Фокус на Людях, а не Документах: Система реализует «парадигму деревни», где основной единицей информации является человек и его способность генерировать ответ по запросу.
- Доверие через Близость (Intimacy): В этой системе социальная близость и схожесть поведения (Connectedness) играют роль независимого фактора качества. Доверие основано на близости, а не только на публичной авторитетности.
- Интеграция UGC в SERP: Патент явно предусматривает интеграцию ответов экспертов в стандартные результаты поиска через Q&A Archive. Это создает дополнительный слой контента в выдаче, конкурирующий с веб-страницами.
- Сложная Маршрутизация и Поведенческие Сигналы: Система использует сложный механизм ранжирования и маршрутизации, учитывающий доступность пользователя и его поведение (Wait Time, стиль общения), что подчеркивает важность поведенческих сигналов.
- Ограниченное влияние на Core Ranking: Патент не доказывает использование описанных социальных сигналов (Connectedness) для ранжирования веб-сайтов в основном поиске. Механизм специфичен для Q&A системы.
Практика
Best practices (это мы делаем)
Хотя патент описывает закрытую систему (Aardvark), его концепции имеют важное стратегическое значение для SEO, особенно в контексте E-E-A-T.
- Системное развитие экспертизы авторов (E-E-A-T): Активно демонстрируйте экспертизу авторов на сайте и внешних площадках (блоги, соцсети, профессиональные сообщества). Патент подтверждает, что Google разрабатывал технологии для построения профилей экспертизы (Topic Expertise) на основе всего контента, создаваемого человеком. Чем четче и полнее цифровой след автора, тем выше вероятность его корректной оценки.
- Обеспечение семантической связанности контента автора: Создавайте кластеры контента, демонстрирующие глубину знаний автора. Система использует методы семантического анализа и Smoothing для расширения списка тем эксперта. Широкий охват связанных тем повышает оценку экспертизы.
- Стимулирование качественного UGC и Q&A: Развивайте разделы Q&A или форумы с привлечением верифицированных экспертов. Патент показывает, что Google рассматривает качественный UGC как ценный контент, пригодный для интеграции в SERP (через Search Result Processor).
- Использование микроразметки для Q&A и авторов: Размечайте страницы вопросов и ответов (QAPage) и профили авторов (Person), чтобы облегчить системам извлечение данных об экспертизе и контенте.
Worst practices (это делать не надо)
- Использование фейковых авторов или игнорирование авторства: Создание искусственных персон без реального подтверждения экспертизы или публикация анонимного контента усложняет системам задачу индексации Topic Expertise. Описанные методы анализа (включая анализ внешних источников и социальных связей) направлены на выявление реальной экспертизы.
- Накрутка социальных сигналов для влияния на веб-поиск: Попытки манипулировать социальными связями в надежде повлиять на основной веб-поиск неэффективны. Механизм Connectedness применяется только для ранжирования людей внутри этой Q&A системы.
- Создание низкокачественного UGC: Запуск Q&A разделов без модерации и привлечения экспертов не даст эффекта. Ценность механизма заключается в качестве ответов и доверии к ответчику.
Стратегическое значение
Патент подчеркивает стратегическую важность перехода от индексации документов к индексации экспертизы людей и сущностей. Хотя система Aardvark была закрыта, лежащие в ее основе технологии анализа контента для определения Topic Expertise и построения профилей пользователей остаются ключевыми для развития поиска (E-E-A-T, Author Recognition). Для долгосрочной SEO-стратегии это означает необходимость фокусироваться на построении реального авторитета авторов и бренда в экосистеме.
Практические примеры
Сценарий: Усиление E-E-A-T автора для YMYL-сайта
- Задача: Повысить оценку экспертизы финансового аналитика, который ведет блог на сайте банка.
- Действия на основе патента (Анализ источников экспертизы — TABLE 1):
- Профили: Обеспечить полноту профиля аналитика на сайте банка и в профессиональных соцсетях (LinkedIn).
- Внешний контент (Блоги/Статусы): Стимулировать аналитика публиковать экспертные комментарии и статьи на внешних авторитетных финансовых площадках и вести профессиональный блог.
- Ссылки: Обеспечить, чтобы аналитик ссылался на авторитетные исследования и данные (Topics gleaned from articles or web pages linked to by the user).
- Связи (Topic Strengthening): Убедиться, что аналитик связан в профессиональных сетях с другими признанными экспертами. Если «друзья» эксперта также эксперты в теме, это повышает доверие к нему.
- Ожидаемый результат: Системы Google, использующие аналогичные методы анализа активности автора на разных площадках, с большей вероятностью идентифицируют его как эксперта (высокий Topic Expertise), что положительно скажется на ранжировании его контента.
Вопросы и ответы
Означает ли этот патент, что социальные сигналы (лайки, количество друзей) влияют на ранжирование моего сайта в Google?
Нет, патент этого не подтверждает. Он описывает специализированную Q&A платформу. Социальные сигналы (Connectedness) используются исключительно для ранжирования потенциальных ответчиков внутри этой системы, чтобы найти человека, наиболее близкого к спрашивающему. Механизм не описывает ранжирование веб-документов в основном поиске.
Какое отношение этот патент имеет к E-E-A-T и авторам?
Патент имеет важное концептуальное значение для E-E-A-T. Он детально описывает, как система индексирует экспертизу людей (Topic Expertise), анализируя создаваемый ими контент из множества источников (блоги, профили, сообщения, мультимедиа). Это дает представление о том, как Google технически может строить профили знаний авторов.
Как система определяет экспертизу пользователя, если он явно не указал свои интересы?
Система использует методы машинного обучения (например, SVM) и NLP (извлечение сущностей, tf-idf) для анализа неструктурированного текста, создаваемого пользователем (блоги, посты, статусы). Она также анализирует, на какие ресурсы ссылается пользователь и даже объекты на его фотографиях, чтобы сделать вывод о его экспертизе.
Что такое функция скоринга s(ui, uj, q) и как она работает?
Это основная функция ранжирования ответчиков. Она состоит из двух частей: p(ui|uj) (Connectedness — социальная близость) и p(ui|q) (Topic Expertise — экспертиза по теме вопроса). Итоговый скоринг является произведением этих двух вероятностей. Система ищет баланс между тем, насколько хорошо человек знает тему и насколько он близок к спрашивающему.
Что такое концепция Wait Time (Время ожидания) и зачем она нужна?
Это динамический порог времени, который система ждет ответа от пользователя, прежде чем перейти к следующему кандидату. Wait Time рассчитывается индивидуально и зависит от канала связи (IM быстрее, email медленнее) и исторической скорости ответа пользователя. Это позволяет оптимизировать общее время получения ответа.
Как описанная система может повлиять на видимость моего контента в SERP?
Система может косвенно повлиять на видимость, внедряя ответы из своего Q&A Archive в результаты основного поиска (с помощью Search Result Processor). Эти ответы, сгенерированные экспертами, могут конкурировать с вашими органическими результатами, особенно по субъективным или рекомендательным запросам.
Актуален ли этот патент, если система Aardvark, которую он описывает, была закрыта?
Да, патент остается актуальным с точки зрения технологий. Хотя сам продукт был закрыт, описанные методы индексации экспертизы (ключевые для E-E-A-T) и интеграции UGC в поиск (например, Google Perspectives) продолжают развиваться в других продуктах Google.
Что в патенте говорится об аффилиатских ссылках?
Патент включает компонент Affiliate Link Generator. Он предназначен для идентификации упоминаний продуктов или услуг в ответах и автоматической вставки партнерских ссылок, потенциально с разрешения автора ответа. Это показывает механизм монетизации экспертных рекомендаций.
Могут ли поведенческие факторы влиять на ранжирование экспертов?
Да, очень сильно. При расчете связанности (Connectedness) учитываются такие факторы, как скорость ответа, многословность (Verbosity), вежливость (Politeness) и даже используемый словарный запас. Система предпочитает пользователей с похожими паттернами общения.
Что такое «Topic Strengthening» и «Smoothing»?
Это методы улучшения оценки экспертизы. Topic Strengthening повышает оценку экспертизы пользователя в теме, если его друзья также являются экспертами в этой теме. Smoothing расширяет список тем пользователя, добавляя семантически связанные темы, даже если пользователь явно их не указывал.