Как Яндекс создал систему агрегации и поиска по активности друзей в социальных сетях (Yandex Wonder)

Патент описывает систему (реализованную как приложение Yandex Wonder), которая собирает данные об активности друзей пользователя из нескольких разных социальных сетей (например, Facebook, Twitter, Foursquare, Instagram) в единую базу данных. Система позволяет пользователю искать исключительно по этому агрегированному контенту, используя запросы на естественном языке.

Описание

Какую задачу решает

Патент решает проблему фрагментации информации об активности социального графа пользователя, распределенной по разным социальным сетям (SNS). Он устраняет сложность централизованного поиска рекомендаций или действий друзей (например, узнать, какие рестораны посещали друзья, используя данные одновременно из Foursquare и Facebook). Изобретение направлено на предоставление персонализированных и заслуживающих доверия рекомендаций, в отличие от общего веб-поиска по отзывам незнакомцев. Он не устраняет какие-либо уязвимости SEO или манипуляции в основном веб-поиске.

Что запатентовано

Запатентована система и метод для управления информацией из сервисов социальных сетей (Social Networking Service, SNS). Суть изобретения заключается в создании отдельного сервиса (в описании приведен пример Yandex Wonder), который агрегирует данные об активности друзей пользователя из как минимум двух различных социальных сетей. Эта информация сохраняется в центральной базе данных (Database of Friends Activity), и система предоставляет пользователю возможность поиска исключительно по этому агрегированному набору социальных данных.

Как это работает

Пользователь авторизует сервис для доступа к своим аккаунтам в SNS. Специализированный краулер (Social Networks Crawler) периодически (например, каждые 15 минут) собирает информацию об активности друзей (через API или News Feed) и сохраняет ее в централизованной базе данных. Эта база может обогащаться (Enrichment) данными из внешних источников (например, iTunes, карты). Когда пользователь задает вопрос (голосом или текстом), блок понимания естественного языка (Natural Language Understanding Unit) переводит его в структурированный запрос (например, SQL), который выполняется в этой специализированной базе данных.

Актуальность для SEO

Низкая. Патент описывает приложение Yandex Wonder, которое было запущено в 2013 году и вскоре закрыто. Реализация подобной системы сегодня затруднена из-за ужесточения политики конфиденциальности социальных сетей и значительных ограничений доступа к данным друзей через API (особенно после 2014-2015 гг.).

Важность для SEO

Влияние на SEO минимальное (1/10). Этот патент не описывает алгоритмы ранжирования основного веб-поиска Яндекса. Он полностью посвящен отдельному продукту (Yandex Wonder) — персонализированному поисковому движку для агрегированных частных/полуприватных социальных данных. Описанные механизмы не влияют на то, как публичные веб-сайты индексируются или ранжируются в органической выдаче Яндекса.

Детальный разбор

Термины и определения

API (Application Programming Interface): Интерфейс, используемый краулером системы для извлечения информации об активности друзей из социальных сетей.
Database of Friends Activity (База данных активности друзей): Централизованная база данных (в патенте упоминается MySQL), в которой хранится агрегированная информация, собранная из нескольких социальных сетей пользователя. В Claims называется «First database».
Enrichment (Обогащение): Процесс дополнения данных, полученных из SNS, информацией из сторонних источников (External Databases / Second Database). Например, получение данных об исполнителе из iTunes для песни, упомянутой в посте, или адреса из картографического сервиса для чекина.
Natural Language Understanding Unit (NLU) (Блок понимания естественного языка): Компонент системы, отвечающий за обработку поискового запроса на естественном языке и его перевод в структурированный запрос (например, SQL-QUERY).
News Feed (Лента новостей): Источник данных в социальной сети (например, лента Facebook или твиты в Twitter), который используется системой для извлечения информации об активности друзей.
Social Networking Service (SNS) (Сервис социальных сетей): Онлайн-платформа, такая как Facebook, Twitter, Foursquare, Instagram, из которой система извлекает данные.
Social Networks Crawler (Краулер социальных сетей): Компонент системы, отвечающий за периодическое извлечение (CRAWLING) активности друзей из подключенных социальных сетей, обычно через их API.

Ключевые утверждения (Анализ Claims)

Патент защищает метод создания централизованного поискового индекса на основе данных из нескольких социальных сетей пользователя.

Claim 1 (Независимый пункт): Описывает основной метод управления информацией из SNS на стороне сервера.

Извлечение первой информации о связанных пользователях (друзьях) из первой социальной сети (SNS 1).
Сохранение этой информации в первой базе данных.
Извлечение второй информации о связанных пользователях из второй социальной сети (SNS 2).
Сохранение этой второй информации в ту же первую базу данных (агрегация).
Получение поискового запроса от пользователя.
Выполнение поиска по этой агрегированной первой базе данных.
Отправка результатов поиска пользователю.

Ядром изобретения является концепция создания стороннего сервиса, который индексирует активность социального графа пользователя, объединяя данные из как минимум двух разных SNS, и предоставляет интерфейс для поиска по этому объединенному индексу.

Claim 6 (Зависимый от 1): Описывает процесс обогащения (Enrichment).

Система может дополнительно извлекать «третью информацию» из внешней («второй») базы данных, которая операционно не связана с SNS 1 и SNS 2. Эта третья информация должна быть связана с первой или второй (социальной) информацией. Это позволяет дополнять социальные данные (например, чекин) метаданными из внешних источников.

Claim 8 (Независимый пункт): Описывает метод со стороны клиентского устройства (приложения).

Отправка учетных данных для первой SNS на сервер.
Отправка учетных данных для второй SNS на сервер.
Отправка поискового запроса, касающегося агрегированной информации.
Получение результатов поиска.
Отображение результатов пользователю через интерфейс.

Защищается функциональность клиентского приложения (например, Yandex Wonder App), которое управляет аутентификацией в нескольких SNS и предоставляет интерфейс для социального поиска.

Где и как применяется

Важно понимать, что этот патент описывает не основную поисковую систему Яндекс, а отдельный продукт — Yandex Wonder. Он функционирует вне стандартных слоев веб-поиска Яндекса.

CRAWLING – Сканирование и Сбор данных (Специализированный)
Система использует Social Networks Crawler. В отличие от веб-краулера (YandexBot), этот краулер работает с API социальных сетей и требует аутентификации пользователя. Он периодически (в патенте упоминается интервал в 15 минут) извлекает активность друзей пользователя из подключенных SNS.

INDEXING – Индексирование (Специализированное)
Собранные данные индексируются и сохраняются в отдельной Database of Friends Activity (упоминается MySQL), а не в основном веб-индексе. На этом этапе также происходит обогащение (Enrichment) — система запрашивает дополнительную информацию из внешних баз данных (например, iTunes, Google Maps).

QUERY PROCESSING – Понимание Запросов (Специализированное)
Система принимает запрос на естественном языке. Если запрос голосовой, он преобразуется в текст (упоминается Nuance Speech Recognition). Natural Language Understanding Unit анализирует текст и переводит его в структурированный запрос (SQL-QUERY). Это ключевое отличие от веб-поиска, где запрос обрабатывается для поиска по обратному индексу.

RANKING – Ранжирование (Специализированное)
Ранжирование осуществляется средствами системы управления базами данных (СУБД) при выполнении SQL-запроса. Патент не детализирует сложные ML-алгоритмы ранжирования (как CatBoost или Proxima); результаты упорядочиваются на основе критериев, заданных в SQL-запросе (например, по дате или местоположению).

На что влияет

Типы контента: Влияет только на контент, доступный через API социальных сетей: посты, чекины (Foursquare), фотографии (Instagram), прослушанная музыка. Не влияет на контент публичных веб-сайтов.
Специфические запросы: Предназначен для запросов о рекомендациях и активности социального круга («куда ходят мои друзья», «какую музыку слушает»).

Когда применяется

Алгоритм применяется только тогда, когда пользователь использует специализированное приложение (Yandex Wonder) и предоставил ему доступ к своим социальным сетям.

Сбор данных: Активируется периодически для обновления базы данных активности друзей.
Поиск: Активируется при получении запроса от пользователя через приложение.

Пошаговый алгоритм

Процесс А: Сбор и Индексация (Офлайн/Периодический)

Аутентификация: Система использует сохраненные учетные данные (ключи/токены) пользователя для доступа к API социальных сетей.
Извлечение данных (Crawling): Social Networks Crawler запрашивает активность друзей (News Feed) из подключенных SNS.
Агрегация и Индексация: Собранные данные сохраняются и индексируются в единую Database of Friends Activity.
Обогащение (Enrichment): Система анализирует собранные данные на наличие сущностей (например, мест, музыки) и запрашивает дополнительную информацию из внешних баз данных. Обогащенные данные также сохраняются.

Процесс Б: Обработка запроса (Онлайн)

Получение запроса: Пользователь вводит запрос в приложении (текстом или голосом).
Предварительная обработка: Если запрос голосовой, он преобразуется в текст (Speech Recognition).
Понимание языка (NLU): Natural Language Understanding Unit анализирует текстовый запрос.
Трансляция запроса: NLU переводит запрос на естественном языке в структурированный запрос (SQL).
Выполнение поиска: SQL-запрос выполняется в Database of Friends Activity.
Возврат результатов: Результаты поиска отправляются на клиентское устройство и отображаются в интерфейсе приложения.

Какие данные и как использует

Данные на входе

Система использует данные, доступные через API социальных сетей после аутентификации пользователя. В патенте нет упоминаний об использовании стандартных SEO-факторов (контентных веб-страниц, технических, ссылочных, поведенческих в веб-поиске).

Данные социальных сетей (Контентные/Мультимедиа/Географические/Временные):
- Посты и комментарии (текст).
- Медиаданные (фотографии).
- Географические данные (чекины, геотеги).
- Данные о потреблении контента (музыка).
- Временные метки активности.
Пользовательские факторы:
- Учетные данные (Credentials) или токены доступа к SNS.
- Идентификаторы друзей (социальный граф).
Внешние данные (Enrichment):
- Метаданные о местах (адреса, карты).
- Метаданные о медиа (данные iTunes об исполнителях и альбомах).

Какие метрики используются и как они считаются

Патент не описывает сложных метрик ранжирования или машинного обучения.

Методы анализа текста (NLP to SQL): Используется Natural Language Understanding Unit для перевода естественного языка в структурированные запросы SQL. Детали реализации этого блока не раскрываются (упоминается использование open source библиотек).
Поиск по базе данных: Поиск и фильтрация осуществляются средствами СУБД (например, MySQL) на основе критериев, извлеченных из запроса пользователя (например, фильтрация по типу активности, местоположению, времени или конкретному другу).
Алгоритмы машинного обучения: Не применяются для ранжирования в описанной системе.

Выводы

Патент описывает отдельный продукт, а не основной поиск Яндекса: Изобретение относится к приложению Yandex Wonder, которое функционировало как изолированная система персонализированного социального поиска. Описанные механизмы не являются частью основного алгоритма ранжирования веб-поиска Яндекса.
Фокус на агрегации данных из нескольких SNS: Ключевая особенность — сбор данных об активности друзей из разных, возможно не связанных между собой, социальных сетей в единое хранилище.
Использование API и необходимость аутентификации: Система полностью зависит от доступа к данным через API социальных сетей и требует явного разрешения пользователя. Это делает ее уязвимой к изменениям в политиках SNS.
Обработка запросов через NLP и SQL: В отличие от веб-поиска, использующего сложные формулы ранжирования и обратные индексы, эта система полагается на перевод естественного языка в структурированные SQL-запросы для поиска по реляционной базе данных. Сложные ML-модели ранжирования не упоминаются.
Обогащение данных (Enrichment): Система улучшает полезность социальных данных, связывая их с информацией из внешних источников (карты, музыкальные базы).
Нулевая ценность для традиционного SEO: Патент не содержит информации о факторах ранжирования, индексации публичного веба или методах оптимизации сайтов для улучшения видимости в Яндексе.

Практика

Патент является чисто инфраструктурным и описывает внутренние процессы отдельного продукта Яндекс (Yandex Wonder). Он не дает практических выводов для SEO-специалистов, занимающихся продвижением сайтов в основном поиске Яндекса.

Best practices (это мы делаем)

На основе этого патента нет применимых рекомендаций для стандартной SEO-практики.

Worst practices (это делать не надо)

На основе этого патента нет действий, которые следует прекратить в рамках стандартной SEO-практики.

Стратегическое значение

Стратегическое значение для SEO отсутствует. Патент демонстрирует попытку Яндекса создать продукт в нише социального поиска в начале 2010-х годов. Он подтверждает, что Яндекс экспериментировал с обработкой социальных данных и пониманием естественного языка (NLU), но не дает оснований полагать, что описанные механизмы (агрегация частных данных через API) используются в основном веб-поиске.

Практические примеры

Практических примеров применения для SEO нет.

Вопросы и ответы

Описывает ли этот патент, как Яндекс использует социальные сигналы (лайки, репосты) для ранжирования сайтов в основном поиске?

Нет, не описывает. Патент посвящен исключительно отдельному продукту (Yandex Wonder), который представляет собой персонализированный поисковый движок по активности друзей пользователя в социальных сетях. Механизмы ранжирования основного веб-поиска Яндекса в этом документе не рассматриваются.

Что такое Yandex Wonder, упоминаемый в патенте?

Yandex Wonder — это мобильное приложение, разработанное Яндексом примерно в 2013 году. Оно собирало информацию об активности друзей пользователя из Facebook, Twitter, Instagram и Foursquare в единую базу и позволяло искать по ней. Приложение требовало доступа к аккаунтам пользователя в этих сетях. Продукт просуществовал недолго и был закрыт.

В чем ключевое изобретение этого патента?

Ключевое изобретение — это метод агрегации данных об активности друзей из как минимум двух разных (и возможно, не связанных между собой) социальных сетей в единую централизованную базу данных и предоставление пользователю возможности поиска по этой агрегированной информации.

Как система понимает запросы пользователя?

Система использует компонент Natural Language Understanding Unit (Блок понимания естественного языка). Его задача — принять запрос на обычном языке (например, «Куда мои друзья ходили пить кофе?») и перевести его в структурированный запрос к базе данных (в патенте упоминается SQL). Это отличается от того, как работает веб-поиск.

Что означает «Обогащение» (Enrichment) данных в контексте патента?

Обогащение — это процесс дополнения социальных данных информацией из внешних источников. Например, если друг опубликовал название песни, система может автоматически найти информацию об исполнителе и альбоме в iTunes. Если друг сделал чекин в кафе, система может добавить карту и точный адрес этого кафе из картографического сервиса.

Может ли информация из этого патента помочь мне лучше оптимизировать мой сайт?

Нет. Патент не содержит информации о факторах ранжирования, индексации публичных веб-страниц или методах оптимизации сайтов для поисковых систем. Он описывает инфраструктуру для поиска по приватным социальным данным.

Использует ли система машинное обучение для ранжирования?

Патент не упоминает использование сложных алгоритмов машинного обучения для ранжирования (таких как CatBoost или YATI). Поскольку поиск выполняется с помощью SQL-запросов в реляционной базе данных, ранжирование, вероятно, основано на стандартных методах СУБД (например, сортировка по дате или релевантности тексту запроса), а не на ML-моделях.

Как система получает доступ к данным социальных сетей?

Система получает доступ только после того, как пользователь явно предоставит ей свои учетные данные или токены доступа (например, через протокол OAuth). Специализированный краулер (Social Networks Crawler) затем использует официальные API социальных сетей для периодического сбора данных.

Актуален ли этот патент сегодня?

Актуальность низкая. Продукт Yandex Wonder был закрыт. Кроме того, многие социальные сети значительно ограничили доступ к данным друзей через свои API после 2014-2015 годов, что делает реализацию подобной системы в том виде, как она описана в патенте, затруднительной сегодня.

Чем краулер в этом патенте отличается от основного робота Яндекса (YandexBot)?

Краулер в этом патенте (Social Networks Crawler) предназначен для работы с API социальных сетей и требует аутентификации пользователя. Он собирает приватную или полуприватную информацию об активности друзей. YandexBot предназначен для сканирования публичного интернета, не требует аутентификации и собирает контент веб-сайтов для основного поискового индекса.