Анализ заявки на патент Google, описывающей радикально новую архитектуру поиска — Differentiable Search Index (DSI). В этой парадигме традиционный поисковый индекс (инвертированный или векторный) заменяется единой нейросетью (например, Transformer). Вся информация о корпусе документов сжимается и хранится непосредственно в параметрах модели. Модель обучается напрямую преобразовывать текст запроса в идентификатор релевантного документа (docid), минуя традиционные этапы поиска по индексу.
Автор: Виктор Репин
Google создает иерархическое дерево интересов (Profile Tree) для пользователя на основе его истории поиска, кликов и просмотров. При вводе запроса система переранжирует стандартные подсказки. Подсказки, соответствующие более глубоким и специфичным (нишевым) интересам пользователя, получают повышение, вытесняя общие популярные варианты.
Google автоматически проверяет и обновляет физическое местоположение бизнеса (Local SEO), анализируя геолоцированные изображения (например, Street View или фото пользователей). Система распознает логотипы и вывески на этих фото, а затем сверяет координаты снимка с адресом, указанным на официальном («авторитетном») сайте компании. Это позволяет поддерживать актуальность карт и локального поиска.
Google использует систему для ответов на фактические запросы, извлекая информацию из различных источников и сохраняя ее в структурированном хранилище (Fact Repository). Система выбирает лучший ответ, основываясь на corroboration (подтверждении из разных источников). Патент описывает, как Google предоставляет прямой ответ пользователю вместе с указанием источника и как генерируются сниппеты, которые содержат как термины запроса, так и термины ответа, для верификации факта.
Google использует иерархический метод для динамического определения предпочтительных языков пользователя, анализируя HTTP-заголовки, настройки браузера, IP-адрес и язык самих результатов поиска. Затем система переранжирует выдачу, повышая позиции документов на предпочтительных языках с помощью весовых коэффициентов или смещения позиций, улучшая релевантность для многоязычных пользователей.
Google применяет метрику BTF-IDF (Blacklist Term Frequency-Inverse Document Frequency) для борьбы со спамом в Картах (Local SEO). Система сравнивает частоту термина в известных спам-листингах (BTF) с тем, насколько редко этот термин встречается в проверенных легитимных листингах (IDF). Это позволяет выявлять языковые паттерны спама и автоматически классифицировать новые листинги.
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
Google использует механизм для тестирования качества своего ранжирования, перемещая результаты из глубины выдачи (невидимые пользователю) на топовые позиции. Это делается либо случайным образом (Exploration), либо путем подмешивания высокоранжированных результатов из связанных запросов (например, переформулировок или предыдущих запросов того же пользователя). Цель — собрать данные о кликах (CTR) для этих результатов и использовать их для корректировки будущих оценок релевантности.
Патент Google описывает инфраструктуру для сбора и обмена контекстной информацией о пользователе между разными поисковыми системами. Система определяет «постоянные» характеристики пользователя (например, интересы, уровень знаний) во время его взаимодействия с одним сайтом и сохраняет их в общем хранилище (Shared Context Repository). Эти данные затем используются другими системами для глубокой персонализации результатов поиска.
Патент Google, описывающий архитектуру Визуального Поиска (Google Lens). Система индексирует «цифровые дополнения» (информацию, отзывы, AR-модели, ссылки на покупку), связанные с объектами реального мира. Описаны процессы структурирования данных, обработки визуальных запросов (фотографий) и ранжирования результатов с учетом местоположения, времени и свежести контента.
Google патентует систему, которая создает детальную историю потребления медиаконтента пользователем (фильмы, музыка, ТВ) из разных источников (чеки, история просмотров, распознавание аудио). Эта история используется для персонализации результатов поиска по сущностям (например, актерам) и для ответов на неоднозначные запросы во время просмотра контента (например, «Где я видел этого актера раньше?»), используя данные окружающей среды для понимания контекста.
Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.
Патент Google, описывающий механизм работы динамических поисковых подсказок (Autocomplete/Google Suggest). Система в реальном времени предлагает варианты завершения запроса, комбинируя три источника: локальную историю поиска пользователя, популярные запросы других пользователей (серверные подсказки) и исправления опечаток. Также описан механизм подсветки синтаксиса сложных запросов.
Google анализирует, как пользователи взаимодействуют с результатами поиска за пределами клика. Действия, такие как сохранение результата, его совместное использование (sharing), отправка по почте или быстрое удаление из сохраненного, используются как явные сигналы качества. Google повышает рейтинг (Quality Scores) тех результатов, которые пользователи часто сохраняют, делятся ими или долго хранят.
Google использует метрику «Proxy Pad Score» для оценки вероятности того, что сайт систематически копирует контент у разных источников. Система анализирует кластеры дубликатов: если документы сайта часто проигрывают по качеству оригиналам с разных доменов, его Proxy Pad Score увеличивается. Этот балл используется при выборе канонической версии страницы для индексации, снижая шансы скопированного контента попасть в индекс.
Google использует систему для ответов на вопросительные запросы. Система анализирует текстовые сниппеты из результатов поиска, применяет NLP-анализ (аннотирование) для извлечения кандидатов в ответы и выбирает лучший на основе консенсуса и качества источников. Этот механизм используется как для предоставления прямых ответов пользователям (Featured Snippets), так и для автоматического поиска недостающей информации и обновления базы знаний (Entity Database).
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет «Предпочитаемые локации» на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
Google использует механизм для улучшения рекомендаций на контент-платформах (например, YouTube). Когда пользователь проявляет интерес к конкретной песне в просматриваемом видео (явно или неявно), система идентифицирует другие видео, содержащие альтернативные версии этой же песни (каверы, живые выступления). Затем блок рекомендаций обновляется, чтобы приоритизировать показ этих альтернативных версий над стандартными похожими видео.
Google использует криптографические методы (например, протокол Диффи-Хеллмана) для анонимного связывания идентификаторов (cookies, device IDs) одного пользователя на разных устройствах. Это позволяет агрегировать данные о кликах, показах и конверсиях. Агрегированные данные используются для расчета Quality Score контента (преимущественно рекламы), учитывая полное кросс-девайсное поведение пользователя.
Анализ патента Google, описывающего фундаментальную архитектуру поиска, основанную на фразах. Система идентифицирует значимые фразы и их взаимосвязи через Information Gain. Для масштабирования используется разделенный индекс: Primary Index хранит богатые данные о самых релевантных документах, а Secondary Index хранит остальные. Это позволяет Google понимать тематический контекст, ранжировать документы на основе связанных фраз и радикально увеличивать охват индекса.