Как Яндекс агрегирует и ищет информацию из социальных сетей друзей пользователя (на примере Yandex Wonder)

Патент описывает систему (Yandex Wonder), которая собирает активность друзей пользователя из разных социальных сетей (Facebook, Twitter, Foursquare и др.) через API в единую базу данных. Система позволяет пользователю искать по этой агрегированной социальной информации (например, «какие рестораны посещали мои друзья») и обогащает данные информацией из внешних источников (например, iTunes, карты).

Описание

Какую задачу решает

Патент решает проблему фрагментации информации в различных социальных сетях и отсутствия единого инструмента для поиска по активности своего социального круга. Он направлен на улучшение поиска субъективной информации (например, «хороший ресторан»), предоставляя рекомендации от знакомых людей (друзей), что повышает доверие к результатам по сравнению с отзывами от неизвестных рецензентов в обычном веб-поиске. Патент не направлен на улучшение основного веб-поиска Яндекса или борьбу с SEO-манипуляциями.

Что запатентовано

Запатентована система и способ создания персонализированного социального поиска. Суть изобретения — агрегация информации из новостных лент пользователя в нескольких разных социальных сетях в единую базу данных, обогащение этой информации данными из внешних источников и предоставление интерфейса для поиска исключительно по этой агрегированной базе. В качестве примера реализации приводится сервис Yandex Wonder.

Как это работает

Пользователь авторизует сервис в своих социальных сетях. Сервис периодически (в примере указано 15 минут) извлекает данные из новостных лент пользователя через API социальных сетей и сохраняет их в централизованной базе (упоминается MySQL). При получении запроса (текстом или голосом) система использует Блок распознавания естественного языка для преобразования запроса пользователя в структурированный SQL-запрос, который затем выполняется в этой базе данных.

Актуальность для SEO

Низкая. Описанный в патенте продукт (Yandex Wonder) был запущен в 2013 году и вскоре закрыт. Концепция отдельного агрегатора персональных социальных данных не стала популярной. Патент не описывает механизмы основного веб-поиска Яндекса.

Важность для SEO

Влияние на SEO минимальное (1/10). Патент описывает архитектуру и внутренние процессы отдельного продукта (Yandex Wonder), предназначенного для персонального поиска по социальным лентам. Он не содержит информации об алгоритмах ранжирования основного веб-поиска Яндекса и не дает никаких практических рекомендаций для SEO-специалистов, занимающихся продвижением сайтов в публичной выдаче.

Детальный разбор

Термины и определения

API (Application Programming Interface): Интерфейс программирования приложений. Используется сервером для программного извлечения данных из социальных сетей и внешних источников после авторизации пользователя.
Yandex Wonder: Приложение и сервис Яндекса, приведенные в патенте как иллюстративный пример реализации изобретения.
Первая база данных («База данных активности друзей»): Агрегированная база данных сервиса (в примере — MySQL), хранящая извлеченную социальную и обогащенную информацию.
Вторая база данных (Внешние источники): Внешние источники данных, функционально не связанные с социальными сетями (например, iTunes, Google Maps, Wikipedia), используемые для обогащения социальной информации.
Новостная лента (News Feed): Постоянно обновляющийся поток информации (посты, чек-ины, музыка, фото) от социальных связей пользователя в рамках социальной сети (например, лента Facebook или Twitter).
Блок распознавания естественного языка (NLP Block): Компонент на сервере, который преобразует текстовый запрос пользователя, заданный на естественном языке, в структурированный запрос к базе данных (например, SQL-запрос).
Первый пользователь: Пользователь, который использует сервис для поиска информации по активности своих друзей.
Второй/Третий пользователь: Социальные связи («друзья», «фолловеры») первого пользователя в различных социальных сетях.

Ключевые утверждения (Анализ Claims)

Патент защищает метод агрегации данных из нескольких социальных сетей с периодическим обновлением и обогащением из внешних источников для обеспечения персонализированного поиска.

Claim 1 (Независимый пункт): Описывает полный цикл работы системы на стороне сервера.

Авторизация сервера в первой социальной сети с использованием учетных данных пользователя.
Извлечение информации (первая информация) об активности связанных пользователей из новостной ленты через API первой социальной сети.
Сохранение этой информации в базе данных сервера (первая база данных).
Повторение шагов 1-3 на периодической основе.
Авторизация во второй социальной сети.
Извлечение информации (вторая информация) из второй социальной сети аналогичным образом.
Сохранение информации в ту же базу данных (агрегация).
Повторение шагов 5-7 на периодической основе.
Критически важно: Извлечение дополнительной (третьей) информации из внешних баз данных (вторая база данных), которая связана с уже извлеченной социальной информацией (обогащение), и ее сохранение в первой базе данных.
Получение поискового запроса от клиентского устройства пользователя.
Поиск в агрегированной (первой) базе данных.
Передача результатов поиска на клиентское устройство.

Claim 4 (Независимый пункт): Описывает работу системы с точки зрения клиентского устройства.

Передача учетных данных для первой и второй социальных сетей на сервер.
Передача поискового запроса на сервер. Запрос связан с информацией, которая извлекается сервером из новостных лент пользователя через API на периодической основе.
Осуществление поиска, который включает также поиск по дополнительной (третьей) информации, полученной из внешних источников.
Получение результатов поиска от сервера (включая первую, вторую и третью информацию).
Отображение результатов пользователю через интерфейс клиентского устройства.

Где и как применяется

Важно понимать, что этот патент не применяется в архитектуре основного веб-поиска Яндекса. Он описывает архитектуру отдельного, автономного сервиса, примером которого является Yandex Wonder.

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Вместо веб-краулинга используется специализированный механизм (на схеме обозначен как «Поисковый робот социальных сетей»). Он не сканирует веб-страницы, а периодически обращается к API социальных сетей (Facebook, Twitter, Foursquare, Instagram), используя авторизационные ключи пользователя, для извлечения его персональной новостной ленты.

INDEXING – Индексирование
Извлеченные данные индексируются и сохраняются в отдельной «Базе данных активности друзей» (в примере используется MySQL). На этом этапе также происходит обогащение (Enrichment) данными из внешних источников (например, iTunes, карты).

QUERY PROCESSING – Понимание Запросов
Система включает «Блок распознавания естественного языка». Он принимает текстовый запрос (введенный напрямую или распознанный из речи с помощью внешнего сервиса, например, Nuance) и преобразует его в структурированный запрос к базе данных (SQL-запрос).

RANKING – Ранжирование
Патент не описывает сложных ML-алгоритмов ранжирования. Поиск осуществляется путем выполнения SQL-запроса к базе данных. Ранжирование, вероятно, определяется логикой самого SQL-запроса (например, сортировка по свежести или географической близости).

На входе: Учетные данные пользователя, данные из API социальных сетей, данные из API внешних источников, поисковый запрос пользователя (текст или аудио).
На выходе: Результаты поиска по активности друзей, отображаемые на клиентском устройстве.

На что влияет

Патент не влияет на ранжирование сайтов в основном поиске Яндекса. Он влияет исключительно на результаты, которые пользователь видит в рамках специализированного сервиса персонального поиска.
Типы контента: Влияет на все типы контента, доступные в новостных лентах: чек-ины, музыка, фотографии, новости и посты.
Специфические запросы: Персонализированные запросы, связанные с социальным графом пользователя (например, «где мои друзья питаются в Майами?»).

Когда применяется

Сбор данных: Происходит периодически в фоновом режиме, после того как пользователь авторизовал доступ к своим социальным сетям. В примере указан интервал в 15 минут.
Поиск: Активируется в реальном времени при получении запроса от пользователя через клиентское приложение.

Пошаговый алгоритм

Процесс А: Агрегация данных (Офлайн/Фоновый процесс)

Авторизация: Сервер использует сохраненные учетные данные или ключи (OAuth) пользователя для авторизации в подключенных социальных сетях.
Извлечение социальной информации: Периодическое извлечение данных об активности друзей пользователя через API социальных сетей и анализ новостных лент.
Хранение: Сохранение извлеченной информации в центральной (Первой) базе данных сервиса.
Обогащение (Enrichment): Анализ извлеченных данных (например, идентификация песни или места) и извлечение связанной информации из внешних (Вторых) баз данных (например, запрос к iTunes или картографическому сервису).
Хранение обогащенных данных: Сохранение внешней информации в центральной базе данных с установлением связи с исходной социальной активностью.

Процесс Б: Обработка запроса (Онлайн процесс)

Получение запроса: Получение поискового запроса от клиентского устройства.
Предобработка запроса: Если запрос голосовой, он преобразуется в текст (например, с помощью Nuance).
Понимание запроса (NLP): Текстовый запрос обрабатывается Блоком распознавания естественного языка для преобразования в структурированный SQL-запрос.
Выполнение поиска: SQL-запрос выполняется системой управления базой данных по центральной базе данных.
Передача и Отображение: Результаты поиска передаются обратно клиентскому устройству и отображаются в интерфейсе (в примере Yandex Wonder результаты отображаются в виде «стеков»).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст из социальных сетей (комментарии, мнения, посты, сообщения, названия песен/мест), извлеченный из социальных лент.
Мультимедиа факторы: Изображения, видео, звукозаписи, доступные через новостные ленты.
Географические факторы: Данные о местоположении (чек-ины, например, из Foursquare). На скриншотах видно отображение расстояния до места.
Временные факторы: Время публикации поста или совершения действия в социальной сети.
Пользовательские факторы (Социальный граф): Учетные данные пользователя (для авторизации в API), идентификаторы друзей и подтвержденные социальные связи.
Внешние данные: Информация из источников, не являющихся социальными сетями (упомянуты iTunes, Google Maps, Wikipedia, 411.com), используемая для обогащения.

Какие метрики используются и как они считаются

Патент не описывает сложных метрик ранжирования или использования алгоритмов машинного обучения для определения релевантности.

Обработка текста (NLP): Ключевым элементом является Блок распознавания естественного языка. Его задача — точно преобразовать неструктурированный текст пользователя в формальный SQL-запрос.
Поиск: Осуществляется стандартными методами поиска в реляционной базе данных (в примере MySQL). Релевантность определяется соответствием условиям SQL-запроса.

Выводы

Патент описывает отдельный продукт, а не основной поиск: Ключевой вывод заключается в том, что этот патент описывает архитектуру и функциональность изолированного сервиса (Yandex Wonder), а не алгоритмы ранжирования основного веб-поиска Яндекса.
Персонализированный поиск по социальным данным: Изобретение фокусируется на создании персональной поисковой системы, которая индексирует только ту информацию, которая доступна конкретному пользователю через его личные новостные ленты в социальных сетях.
Агрегация через API и Обогащение: Основные технические механизмы — это периодическое извлечение данных через API социальных сетей, их агрегация в единой базе и обогащение данными из внешних источников (например, iTunes, карты).
Обработка запросов через NLP и SQL: Обработка запросов основана на технологиях NLP для перевода естественного языка в структурированные запросы (SQL), а не на классическом информационном ранжировании с использованием ML-моделей.
Отсутствие практической ценности для SEO: Патент является чисто техническим и инфраструктурным с точки зрения SEO. Он не содержит информации о факторах ранжирования веб-документов в Яндексе и не дает практических выводов для SEO-продвижения сайтов.

Практика

ВАЖНО: Патент является инфраструктурным и описывает отдельный продукт (Yandex Wonder), который функционировал отдельно от основного веб-поиска Яндекса. Он не дает практических выводов для SEO-специалистов, занимающихся оптимизацией сайтов.

Best practices (это мы делаем)

В контексте данного патента релевантных Best Practices для SEO нет.

Worst practices (это делать не надо)

В контексте данного патента релевантных Worst Practices для SEO нет. Патент не описывает механизмы борьбы с SEO-манипуляциями в веб-поиске.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент демонстрирует ранние (2013 год) эксперименты Яндекса в области социального поиска и технические возможности по сбору и обработке данных через API и использованию NLP. Он подтверждает интерес Яндекса к социальным данным, но не дает понимания их роли в ранжировании основного веб-поиска. Учитывая закрытие Yandex Wonder, данный подход не оказался стратегически приоритетным.

Практические примеры

Практических примеров применения в SEO нет, так как патент описывает персональный поиск по частным социальным данным.

Вопросы и ответы

Описывает ли этот патент, как социальные сигналы влияют на ранжирование моего сайта в Яндексе?

Нет. Патент описывает исключительно архитектуру отдельного продукта (Yandex Wonder), который представляет собой персонализированную поисковую систему по агрегированному контенту из социальных сетей пользователя. Он не касается алгоритмов ранжирования основного веб-поиска Яндекса и не содержит информации о влиянии лайков или репостов на позиции сайтов.

Что такое Yandex Wonder, упомянутый в патенте?

Yandex Wonder — это мобильное приложение и сервис, запущенный Яндексом в 2013 году (и вскоре закрытый), который является примером реализации этого патента. Он агрегировал ленты пользователя из Facebook, Twitter, Instagram и Foursquare и позволял искать по ним, например, запрашивая рекомендации друзей о ресторанах или музыке.

Как система собирала данные из социальных сетей?

Система требовала от пользователя авторизации и предоставления доступа к его аккаунтам. После этого серверы сервиса периодически (в примере указано каждые 15 минут) извлекали информацию об активности его друзей через официальные API социальных сетей и анализ новостных лент. Это не было сканированием открытого веба.

Что означает «обогащение» данных (Enrichment) в этом патенте?

Обогащение — это процесс дополнения данных из социальных сетей информацией из внешних источников (Вторая база данных). Например, если друг сделал чек-ин в ресторане, система могла добавить карту, адрес и телефон заведения из внешних справочников. Если друг поделился песней, система могла добавить информацию об исполнителе из iTunes.

Как работал поиск в этой системе? Использовался ли CatBoost или нейросети?

Патент не упоминает сложные алгоритмы машинного обучения для ранжирования (CatBoost, YATI). Поиск работал иначе: запрос пользователя на естественном языке преобразовывался с помощью NLP-блока (Блок распознавания естественного языка) в структурированный SQL-запрос. Этот SQL-запрос затем выполнялся по агрегированной базе данных (в примере MySQL).

Актуален ли этот патент сегодня для SEO-специалистов?

Актуальность для SEO крайне низкая. Патент имеет в основном историческую ценность, описывая устаревший продукт. Он не содержит полезной информации о текущих алгоритмах ранжирования Яндекса, факторах E-E-A-T или поведенческих метриках в основном поиске.

Что такое «Первая база данных» и «Вторая база данных»?

«Первая база данных» — это центральное хранилище сервиса (Yandex Wonder), куда складывается вся агрегированная информация о социальной активности друзей пользователя. «Вторая база данных» — это любой внешний источник данных (например, iTunes, Wikipedia, Google Maps), который используется для обогащения информации в первой базе.

Описывает ли патент, как Яндекс определяет авторитетность пользователей в социальных сетях?

Нет, патент не описывает механизмов оценки авторитетности или «веса» пользователей. Он фокусируется на факте наличия связи («друг», «фолловер») как достаточном условии для агрегации активности этого пользователя в базу данных Первого пользователя.

Отличается ли «Поисковый робот социальных сетей» от обычного краулера Яндекса (YandexBot)?

Да, принципиально. YandexBot сканирует общедоступный веб. «Поисковый робот социальных сетей», описанный в патенте, извлекает приватные или полуприватные данные (новостные ленты) через API социальных сетей, что требует предварительной авторизации от пользователя.

Какую пользу этот анализ приносит SEO-специалисту?

Основная польза заключается в четком понимании того, что этот патент НЕ относится к веб-поиску. Это позволяет избежать траты времени на поиск несуществующих SEO-инсайтов в этом документе и сфокусироваться на патентах, которые действительно описывают алгоритмы ранжирования и индексации основного поиска Яндекса.