Автор: Виктор Репин

Анализ патента Google, описывающего два ключевых механизма: автоматическое расширение Графа Знаний путем анализа текста и ответы на вопросы на естественном языке. Система использует машинное обучение для определения надежных путей (связей) в графе. Эти пути используются как для вывода новых фактов из веб-документов, так и для интерпретации запросов пользователей и поиска прямых ответов.

Google патентует систему, которая определяет и оценивает экспертизу пользователей по различным темам, используя их социальные связи, профили и создаваемый контент. Система рассчитывает метрики экспертизы, отзывчивости и качества ответов, чтобы направлять вопросы наиболее подходящим экспертам в социальной сети пользователя. Этот механизм позволяет находить ответы у людей, а не в документах.

Google решает проблему «невидимости» контента внутри приложений для поиска. Система индексирует веб-ресурсы (URL), которые соответствуют контенту в приложении. Если пользователь ищет этот контент, а приложение у него не установлено, Google покажет в выдаче предложение (часто в виде рекламы) установить его. После установки пользователь направляется напрямую к искомому контенту через deep link.

Google использует систему для идентификации и обработки цитат, приписываемых сущностям. Система применяет разные критерии в зависимости от источника: для общих цитат важна частота упоминаний и консенсус, а для новостных — свежесть и качество ресурса. Это позволяет выбрать каноническую версию (representative quotation) и отобразить ее в поисковой выдаче (например, в Панелях знаний).

Google использует систему для улучшения результатов поиска по запросам на естественном языке. Если первоначальная выдача не удовлетворяет требованиям качества (например, отсутствуют прямые ответы или релевантность низкая), система генерирует и тестирует альтернативные, переписанные версии запроса. Если альтернативная версия дает лучшие результаты, они заменяют или дополняют исходную выдачу.

Патент Google, описывающий методы автоматического создания и проверки контактных данных (телефон, адрес, email) для сущностей (людей, организаций). Система анализирует различные источники, агрегирует разрозненные данные и использует частоту совместного упоминания (co-occurrence) для расчета оценки достоверности (confidence score) этой информации.

Анализ патента (IBM), описывающего механизм устранения неоднозначности сущностей (люди, места, организации). Система использует контекстные описания и метрику «Inverse Network Size» (INS) для оценки уникальности этих описаний в реальном мире, а не частоты их упоминания в интернете. Это позволяет определить, ссылаются ли разные страницы на одну и ту же конкретную сущность, и переранжировать выдачу.

Google анализирует локальные всплески поисковых запросов («excess queries»), чтобы найти города с похожими интересами, но смещенными во времени. Определяя, какие города лидируют в трендах, а какие следуют за ними, Google может предсказать предстоящий локальный интерес и соответствующим образом таргетировать контент или корректировать ранжирование.

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

Анализ патента (IBM), описывающего механизм улучшения локального поиска. Система рассчитывает «Оценку Ассоциации» страницы с географическим регионом на основе локальных терминов (адреса, телефоны), близости к другим регионам и входящих ссылок с других локально релевантных сайтов. Эта оценка используется для повышения веса географических ключевых слов во время индексации, что позволяет локальным сайтам ранжироваться выше национальных агрегаторов.

Анализ патента Google, детально описывающего методы ранжирования контента в социальных сетях (постов, пользователей, сообществ). Система использует метрики вовлеченности и применяет функции экспоненциального затухания (Time Decay) для приоритизации свежей активности, а также интегрирует PageRank. Кроме того, защищен механизм автоматического создания сообществ (кластеров) на основе меток пользователей.

Патент Google (применимый к YouTube) описывает создание «Sequenced Video Segment Mix». Система анализирует поведение пользователей для определения самых популярных фрагментов внутри видео. Затем она отслеживает, какие видео пользователи смотрят последовательно (co-watch) с положительной вовлеченностью, и на основе этих данных формирует упорядоченную ленту связанных клипов для быстрого ознакомления с коллекцией.

Google может использовать данные из своих рекламных систем (поисковая и контекстная реклама) для влияния на органическое ранжирование. Патент описывает анализ кликов по рекламе для определения интента запроса, использование данных о посещаемости страниц с рекламой и добавление терминов из рекламных объявлений к тексту документа для улучшения его релевантности.

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

Анализ патента Google, описывающего, как персональные ассистенты используют машинное обучение для определения «тона» сообщения. Система рассчитывает оценки «светской беседы» (Idle Chatter Score) и «пригодности для поиска» (Search Query Suitability Score). Это позволяет ассистенту решить, поддержать ли разговор или выполнить поиск и внедрить результаты в диалог.

Google анализирует последовательности запросов в пользовательских сессиях. Если два разных запроса часто следуют за одним и тем же набором предыдущих поисков (Predicate Queries), Google идентифицирует их как «родственные» (Sibling Queries). Это позволяет системе предлагать релевантные подсказки в рамках одной поисковой задачи, минимизируя тематический дрифт, даже для редких запросов.

Google может оценивать качество локальных сущностей (бизнесов), анализируя реальное офлайн-поведение пользователей. Система использует данные платежных сервисов (размер и частоту чаевых) и геолокационных сервисов (соотношение вернувшихся и разовых посетителей, выбор заведения при наличии альтернатив). Эти неявные сигналы используются для корректировки рейтинга сущности и влияния на ее ранжирование в поиске.

Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.

Патент описывает систему, которая автоматически изучает шаблоны вопросов (Question Types) и соответствующие им шаблоны ответов (Answer Types). Google использует эти шаблоны, чтобы классифицировать запрос как «ищущий ответ», найти в тексте веб-страниц пассажи, структурно и семантически соответствующие ожидаемому ответу, и сформировать из них блок с ответом (Featured Snippet).

Google использует механизм для обнаружения разных версий одного и того же документа (например, научной статьи в разных репозиториях). Система создает «кандидатные идентификаторы» из метаданных (автор, название, дата), нормализует их и сравнивает. Найденные версии объединяются в кластер, что позволяет точно подсчитать общее количество цитирований (Total Citation Count) и агрегировать сигналы авторитетности.