Автор: Виктор Репин

Патент описывает, как платформа (например, YouTube) анализирует социальные данные (комментарии, а также поисковые запросы и просмотры пользователей до и после видео) вокруг пользовательского контента (UGVC), чтобы идентифицировать связанный официальный контент (фильм, шоу). Затем система автоматически генерирует для него «обогащенную веб-страницу», агрегируя структурированные данные (актеры, рецензии, трейлеры).

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

Google использует ML-модели для прогнозирования ожидаемого объема обсуждений (например, твитов) по теме в реальном времени. Система анализирует разницу между фактической и прогнозируемой активностью (остаточный сигнал), чтобы точно и быстро выявлять статистически неожиданные всплески. Это позволяет активировать функции свежести (QDF), например, карусель Twitter в SERP, только в ответ на реальные события, игнорируя предсказуемые циклические тренды.

Google использует двухэтапную систему машинного обучения для точной категоризации видео. Сначала система обучается на большом корпусе веб-страниц, чтобы понять различные темы. Затем эти знания адаптируются для видео путем анализа как текстовых метаданных (Title, Description), так и фактического аудиовизуального контента. Это позволяет точно классифицировать видео, даже при дефиците размеченных вручную данных.

Google использует систему для определения коммерческого намерения пользователя в реальном времени. Система использует предварительно созданный список коммерческих шаблонов, основанный на данных рекламодателей, анализе логов и выявлении манипулятивных техник (например, доменов с множеством дефисов). Если запрос классифицируется как коммерческий, Google применяет измененный алгоритм ранжирования, например, снижая вес ключевых слов в доменном имени, чтобы обеспечить непредвзятые результаты.

Яндекс патентует метод обнаружения искусственных (аномальных) посещений сайтов, направленных на манипуляцию ранжированием. Система строит граф посещений и ищет группы сайтов, которые посещаются одними и теми же пользователями, но при этом не связаны ни общей тематикой, ни естественными поведенческими паттернами. Такие связи считаются признаком накрутки, что приводит к пессимизации сайтов и очистке истории поиска от этих данных.

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

Патент Google, раскрывающий, как система анализирует поведение пользователей (поисковые запросы и последующие клики) для понимания того, как люди интуитивно классифицируют бизнесы. На основе этих данных Google строит динамические иерархические деревья категорий. Эта классификация используется для значительного повышения точности распознавания названий компаний в голосовом поиске, особенно при запросе навигации.

Google использует механизм для выявления видео, популярность которых обусловлена их встраиванием на сторонних веб-сайтах (реферерах). Система анализирует объем и качество просмотров (время удержания), полученных через эти встраивания. Если видео получает значительный трафик от конкретного реферера, оно группируется с другими подобными видео и отображается в специальных разделах или «каналах» на видеохостинге, повышая его видимость.

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

Google использует механизм для понимания фактов и связей, описанных в свободном (неструктурированном) тексте. Система анализирует слова, окружающие сущность («Контекстное Облако»), и сравнивает этот контекст с тем, как эти слова используются в уже известных фактах. Это позволяет системе извлекать новую информацию и автоматически расширять Knowledge Graph, даже если контент не использует строгую разметку или шаблоны.

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

Google использует механизм для эффективного обнаружения дубликатов и почти дубликатов путем генерации цифровых отпечатков (фингерпринтов) и группировки похожих документов в кластеры. При формировании поисковой выдачи система фильтрует результаты из одного кластера, показывая только наиболее качественный (например, по PageRank или свежести) вариант, чтобы избежать избыточности в SERP.

Google использует этот механизм для анализа логов поисковых запросов и автоматического поиска часто задаваемых вопросов. Система группирует разные варианты одного и того же вопроса в «каноническую форму» путем нормализации текста. Затем она выбирает наиболее часто используемую формулировку как «репрезентативный вопрос» для публикации в Q&A сервисах или использования в поиске.