Как Яндекс пытался создать персонализированный поиск по активности друзей в разных социальных сетях (Yandex Wonder)

Яндекс запатентовал систему (приложение «Wonder»), которая агрегирует данные об активности друзей пользователя из нескольких социальных сетей (например, Facebook, Twitter, Foursquare) в единую базу. Система позволяет пользователю искать по этой агрегированной информации, используя запросы на естественном языке, чтобы находить персонализированные рекомендации. Эта система работает независимо от основного веб-поиска Яндекса.

Описание

Какую задачу решает

Патент решает проблему фрагментации социальной информации и ее недоступности для эффективного поиска. Пользователи генерируют данные на разных платформах, и стандартные поисковые системы не способны выполнять кроссплатформенные запросы, основанные на социальном графе (например, «В какие рестораны в Майами ходят мои друзья?»). Изобретение направлено на предоставление более релевантных и заслуживающих доверия рекомендаций путем поиска по активности друзей, а не по отзывам незнакомцев в вебе.

Что запатентовано

Запатентована система агрегации и поиска информации из социальных сетей. Суть изобретения заключается в сборе данных об активности связанных пользователей («друзей») из как минимум двух разных Social Networking Services (SNS). Эта агрегированная информация сохраняется в специальной базе данных (Database of Friends’ Activity) и становится доступной для поиска через интерфейс, поддерживающий запросы на естественном языке.

Как это работает

Система использует специализированный краулер (Social Networks Crawler), который, используя учетные данные пользователя (credentials), периодически извлекает информацию (чекины, посты, музыку) о его друзьях через API соответствующих SNS. Эти данные индексируются в централизованной базе. Когда пользователь вводит запрос, блок понимания естественного языка (Natural Language Understanding Unit) транслирует его в структурированный запрос (в патенте упоминается SQL-QUERY). Система выполняет поиск по своей базе социальных активностей и возвращает результат, который может быть обогащен (Enrichment) данными из внешних источников.

Актуальность для SEO

Низкая. Патент описывает приложение «Yandex Wonder», которое было запущено ориентировочно в 2013 году и вскоре закрыто. Концепция централизованного поиска по всем социальным сетям не получила развития, в значительной степени из-за ограничений доступа к API социальных сетей (особенно Facebook) в последующие годы.

Важность для SEO

Влияние на SEO минимально (1/10). Этот патент не описывает архитектуру или алгоритмы ранжирования основного веб-поиска Яндекса. Он полностью сосредоточен на самостоятельном приложении для поиска частных, агрегированных данных социальных сетей. Он не дает понимания того, как Яндекс ранжирует веб-сайты в общей выдаче и не содержит рекомендаций для SEO.

Детальный разбор

Термины и определения

API (Application Programming Interface): Интерфейс, используемый системой для программного извлечения информации из социальных сетей.
Credentials (Учетные данные): Информация (токен доступа, логин/пароль), которую пользователь предоставляет системе для аутентификации в социальных сетях от его имени.
Database of Friends’ Activity (База данных активности друзей) / First Database: Централизованная база данных, в которой хранится агрегированная информация, извлеченная из различных SNS об активности связей пользователя.
Enrichment (Обогащение): Процесс дополнения данных, полученных из SNS, информацией из внешних баз данных (например, добавление карт или контактной информации из Google Maps, Wikipedia).
First User (Первый пользователь): Пользователь, который инициирует поиск и чьи социальные связи используются для сбора данных.
Natural Language Understanding Unit (NLU) (Блок понимания естественного языка): Компонент, отвечающий за перевод поискового запроса на естественном языке в структурированный запрос (например, SQL).
Second/Third User (Второй/Третий пользователь): Пользователи SNS, которые имеют идентифицированную связь с Первым пользователем («друзья», «фолловеры»).
Social Networking Service (SNS) (Социальная сеть): Онлайн-платформа для построения социальных связей (упомянуты Facebook, Twitter, Instagram, Foursquare, Spotify и др.).
Social Networks Crawler (Краулер социальных сетей): Компонент, который извлекает информацию из SNS, обычно через их API или новостные ленты (News Feeds), используя учетные данные Первого пользователя.
SQL-Query (SQL-запрос): Структурированный запрос (Structured Query Language), в который NLU транслирует запрос пользователя для поиска по базе данных активности друзей.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе управления информацией из нескольких социальных сетей.

Claim 1 (Независимый пункт): Описывает основной метод работы системы (серверная сторона).

Извлечение первой информации из первой социальной сети в отношении связанных пользователей (друзей).
Сохранение первой информации в первой базе данных.
Извлечение второй информации из второй социальной сети в отношении связанных пользователей.
Сохранение второй информации в той же первой базе данных (Агрегация).
Получение поискового запроса от пользователя.
Выполнение поиска по первой базе данных в соответствии с запросом.
Отправка результатов поиска пользователю.

Ключевым элементом является агрегация данных из как минимум двух разных источников (SNS) в единую доступную для поиска базу.

Claim 8 (Независимый пункт): Описывает метод работы с точки зрения клиентского устройства (приложения).

Отправка на сервер учетных данных пользователя для первой социальной сети.
Отправка на сервер учетных данных пользователя для второй социальной сети.
Отправка поискового запроса в отношении агрегированной информации.
Получение результатов поиска.
Предоставление пользователю результатов поиска через пользовательский интерфейс.

Claim 6 (Зависимый от 1): Дополняет метод обогащением данных.

Система извлекает третью информацию из второй базы данных (не связанной с SNS), которая связана с первой или второй информацией (например, данные из карт для чекина), и сохраняет ее в первой базе данных.

Где и как применяется

Изобретение не применяется в стандартной архитектуре веб-поиска Яндекса. Оно описывает параллельную, самодостаточную систему (приложение Wonder) для персонализированного социального поиска.

CRAWLING (Сбор данных)
Вместо сканирования веба используется Social Networks Crawler. Он взаимодействует с API различных SNS. Ключевая особенность: сканирование происходит с использованием аутентификации пользователя (credentials) для доступа к приватным или полуприватным данным (активности друзей).

INDEXING (Индексирование)
Индексируются не веб-документы, а социальные активности (события, чекины, музыка, новости). Данные сохраняются в структурированном виде в Database of Friends’ Activity. Также на этом этапе происходит Enrichment — обогащение данных из внешних источников.

QUERY PROCESSING (Понимание запросов)
Система принимает запросы на естественном языке. Ключевым компонентом является Natural Language Understanding Unit, который транслирует эти запросы в SQL-Query для выполнения поиска по структурированной базе данных.

RANKING/RETRIEVAL (Ранжирование/Поиск)
Поиск выполняется путем исполнения SQL-запроса к базе данных активности друзей. Патент не описывает сложных ML-алгоритмов ранжирования; поиск основан на соответствии структурированных данных запросу.

На что влияет

Типы контента: Влияет исключительно на поиск и отображение социальных активностей: чекинов (места), медиа (фото, музыка), новостей и постов, которыми поделились друзья.
Специфические запросы: Ориентировано на запросы, связанные с рекомендациями и активностью социального графа (например, «какую музыку слушают мои друзья?», «покажи рестораны поблизости, посещенные моими друзьями»).
Патент не влияет на ранжирование веб-сайтов, товаров или любого другого контента в основном поиске Яндекса.

Когда применяется

Алгоритм применяется только тогда, когда пользователь использует это конкретное приложение (Wonder) и отправляет запрос. Сбор данных происходит периодически («on a periodic basis») после того, как пользователь предоставил свои учетные данные для соответствующих социальных сетей.

Пошаговый алгоритм

Процесс А: Сбор и Индексация (Фоновый режим)

Авторизация: Пользователь предоставляет системе учетные данные (Credentials) для доступа к нескольким социальным сетям (SNS 1, SNS 2).
Сбор данных (Crawling): Social Networks Crawler периодически извлекает данные об активности друзей пользователя из SNS 1 и SNS 2 (через API или новостные ленты).
Индексация: Извлеченные данные сохраняются и индексируются в Database of Friends’ Activity.
Обогащение (Enrichment): Система может извлекать дополнительную информацию из внешних баз данных (например, координаты для названия ресторана) и добавлять ее в индекс.

Процесс Б: Обработка запроса (Реальное время)

Получение запроса: Система получает запрос от пользователя на естественном языке (текст или аудио).
Обработка запроса: Текстовый запрос обрабатывается Natural Language Understanding Unit.
Трансляция: Запрос на естественном языке транслируется в структурированный запрос (SQL-Query).
Поиск: Структурированный запрос выполняется к Database of Friends’ Activity.
Формирование ответа: Результаты поиска отправляются на клиентское устройство и отображаются пользователю.

Какие данные и как использует

Данные на входе

Пользовательские факторы: Учетные данные (Credentials) пользователя для доступа к SNS (Facebook, Twitter, Foursquare, Instagram, Spotify). Информация о связях пользователя (список друзей/подписок) в этих SNS.
Контентные факторы (Социальная активность): Посты, «твиты», «чекины» (check-ins), фотографии, прослушанные песни, комментарии, связанные с этими активностями.
Географические факторы: Данные о местоположении из чекинов или геотегированных постов/фотографий. Текущее местоположение пользователя при обработке запросов типа «поблизости».
Временные факторы: Временные метки социальных активностей.
Внешние данные (Enrichment): Информация из сторонних баз данных (упоминаются Google Maps, Wikipedia), используемая для обогащения результатов.

Какие метрики используются и как они считаются

Патент не описывает сложных метрик релевантности или алгоритмов машинного обучения для ранжирования результатов. Механизм поиска основан на преобразовании естественного языка в SQL. Это подразумевает, что поиск осуществляется путем сопоставления структурированных данных в базе с условиями запроса, а не путем расчета скоринга релевантности, как в веб-поиске. Ранжирование, вероятно, основано на простых правилах (например, хронология или количество друзей, связанных с результатом).

Выводы

Патент описывает внутренние процессы и архитектуру конкретного продукта Яндекса (приложение «Wonder») без прямых рекомендаций для SEO.

Изолированная система: Описанная система функционирует полностью независимо от основного веб-поиска Яндекса. Она имеет собственный краулер, индекс и механизм обработки запросов.
Агрегация как ядро изобретения: Основная инновация заключается в методе сбора и объединения информации об активности друзей из нескольких независимых социальных сетей в единый персонализированный индекс.
Требуется прямая авторизация: Система не может собирать данные автономно; она требует, чтобы пользователь предоставил свои учетные данные для доступа к API социальных сетей.
Фокус на структурированных данных и NLP: Система полагается на обработку естественного языка (NLP/NLU) для перевода пользовательских запросов в структурированные запросы (SQL), что указывает на высокоструктурированный характер хранимых данных (активностей).
Отсутствие практической ценности для SEO: Патент не предоставляет никаких действенных инсайтов для SEO-специалистов, работающих над продвижением сайтов в поисковой выдаче Яндекса. Он не раскрывает, как Яндекс использует социальные сигналы в веб-ранжировании.

Практика

Патент является инфраструктурным (описывает архитектуру конкретного приложения «Yandex Wonder») и не дает практических выводов для SEO.

Best practices (это мы делаем)

На основе данного патента невозможно сформулировать рекомендации для SEO-продвижения сайтов в веб-поиске Яндекса.

Worst practices (это делать не надо)

На основе данного патента невозможно определить неэффективные или опасные SEO-тактики для веб-поиска Яндекса.

Стратегическое значение

Стратегическое значение для современного SEO отсутствует. Исторически патент демонстрирует интерес Яндекса (по состоянию на 2013 год) к интеграции социальных сигналов и персонализированных данных в свои продукты. Однако, учитывая неудачу приложения Wonder и ужесточение политики конфиденциальности социальных сетей, описанные в патенте механизмы не отражают текущую стратегию развития поиска Яндекса. Патент интересен скорее с точки зрения истории продуктов Яндекса.

Практические примеры

Практических примеров применения в SEO нет, так как патент не относится к ранжированию веб-сайтов.

Вопросы и ответы

Объясняет ли этот патент, как Яндекс использует социальные сигналы (лайки, репосты) для ранжирования сайтов?

Нет, не объясняет. Этот патент посвящен исключительно отдельному приложению («Wonder»), которое позволяло пользователям искать по активности своих друзей в социальных сетях. Он не раскрывает, как социальные сигналы используются в основном веб-поиске Яндекса для ранжирования публичных сайтов.

Что за приложение «Wonder» описано в патенте и можно ли его сейчас использовать?

«Yandex Wonder» было экспериментальным мобильным приложением, запущенным Яндексом в 2013 году. Оно позволяло искать по агрегированной ленте друзей из Facebook, Twitter, Instagram и Foursquare, используя естественный язык. Приложение не получило популярности и было закрыто. В настоящее время оно недоступно.

Почему у этого патента такой низкий SEO Impact Score (5/100)?

Оценка низкая, потому что патент описывает архитектуру отдельного продукта, а не алгоритмы основного поиска Яндекса. Описанные механизмы (агрегация данных через API по логину пользователя, перевод NLP в SQL) не применяются для краулинга, индексации или ранжирования веб-сайтов в общей поисковой выдаче.

В патенте упоминается Natural Language Understanding (NLU). Значит ли это, что Яндекс использует эти технологии в основном поиске?

Яндекс безусловно использует передовые NLP-технологии (такие как YATI) в основном поиске. Однако данный патент описывает специфическое применение NLU — для перевода разговорных запросов об активности друзей в структурированные SQL-запросы. Механизмы понимания запросов в веб-поиске значительно сложнее и основаны на других принципах (например, векторных представлениях).

Описывает ли патент, как Яндекс ранжирует результаты внутри этого социального поиска?

Патент не детализирует алгоритмы ранжирования. Упоминание трансляции запросов в SQL предполагает, что поиск основан на точном сопоставлении структурированных данных. Вероятно, использовались простые правила сортировки, такие как хронология событий или количество друзей, связанных с найденным результатом, а не сложные ML-модели релевантности.

Что такое «Enrichment» (Обогащение) в контексте этого патента?

Это процесс дополнения данных из социальных сетей информацией из внешних источников. Например, если друг сделал чекин в ресторане «Ромашка», система обогащения может использовать внешние базы (карты, справочники), чтобы добавить точные координаты, часы работы и контактную информацию этого ресторана.

Почему идея агрегированного социального поиска провалилась?

Хотя патент этого не обсуждает, на практике такие системы столкнулись с рядом проблем. Ключевой проблемой стало то, что социальные сети (особенно Facebook) значительно ограничили доступ к своим API для сторонних разработчиков, чтобы защитить данные пользователей и удержать их внутри своей экосистемы, что сделало агрегацию технически сложной.

Использует ли Яндекс данные из Foursquare или Instagram для локального поиска?

Яндекс может использовать публично доступные данные из различных источников для улучшения своих карт и локального поиска. Однако данный патент описывает использование *приватных* данных (доступных только друзьям), полученных через аутентификацию пользователя. Это разные механизмы сбора и использования данных.

Могу ли я как SEO-специалист извлечь хоть какую-то пользу из этого патента?

Прямой пользы для SEO-стратегий нет. Патент может быть интересен только как исторический пример того, как поисковые системы экспериментировали с социальными данными и пытались решить проблему поиска достоверных рекомендаций, опираясь на социальный граф пользователя.

Чем Social Networks Crawler отличается от обычного YandexBot?

YandexBot сканирует публично доступный веб (HTML-страницы) для создания основного индекса поиска. Social Networks Crawler, описанный в патенте, работает иначе: он подключается к API социальных сетей, используя учетные данные пользователя, чтобы извлечь структурированные данные об активности его друзей для создания приватного, персонализированного индекса.