Автор: Виктор Репин

Google использует гибридную архитектуру индекса, комбинируя документное шардирование (Document-Sharding) и терминологическое шардирование (Term-Sharding). Эта система позволяет балансировать нагрузку на сеть и операции ввода-вывода, а также обеспечивает механизмы обновления индекса без простоя (Zero Downtime Updates).

Этот патент описывает инфраструктуру, которую Google использует для крупномасштабных систем сопоставления медиа (таких как Content ID). В нем подробно рассказывается, как Google распределяет масштабную задачу сравнения пользовательских видео с защищенными авторским правом эталонными файлами между различными центрами обработки данных. Ключевой особенностью является возможность приоритизации задач сопоставления на основе актуальности живых событий (например, спортивных матчей, концертов) для быстрого выявления несанкционированных загрузок ценного, чувствительного ко времени контента.

Google использует историю взаимодействий пользователя и его социальные связи (Social Affinity), чтобы предсказать, какой контент (профили, ленты) он запросит следующим. Этот контент предварительно загружается (pre-fetching) и сохраняется локально, что ускоряет навигацию и снижает задержку при просмотре социальной сети.

Яндекс патентует статистический метод (линеаризацию) для улучшения оценки результатов A/B тестирования. Метод преобразует сложные метрики-отношения (например, CTR или клики на сессию) в линейную форму. Это повышает чувствительность оценки, позволяя быстрее и надежнее обнаруживать изменения в поведении пользователей при тестировании новых алгоритмов, и снижает вычислительные затраты на статистический анализ.

Яндекс патентует метод оптимизации обучения систем рекомендаций (например, Дзен). Вместо случайной инициализации при матричном разложении (ALS), система использует заранее рассчитанные векторы (эмбеддинги) контента. Это обеспечивает «теплый старт», ускоряет сходимость алгоритма и снижает вычислительные затраты на обучение модели.

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

Яндекс патентует метод оптимизации рекламных кампаний в рекомендательных системах (например, Дзен). Система рассчитывает вероятность взаимодействия каждого пользователя с контентом, прогнозирует размер доступной аудитории и определяет минимальный порог вероятности. Реклама показывается только пользователям выше этого порога, чтобы гарантировать достижение заданного числа взаимодействий (SLA) при минимальном количестве показов.

Яндекс патентует метод для рекомендательных систем (например, Дзен), гарантирующий достижение заданных показателей продвижения (SLA). Система рассчитывает вероятность взаимодействия для каждого пользователя, прогнозирует общий трафик и определяет минимальный порог вероятности. Контент показывается только пользователям выше этого порога, что позволяет достичь цели с минимальным количеством показов.

Патент Google, описывающий специализированную систему («Социальный граф вещей»), где пользователи вручную каталогизируют предметы, которыми владеют или интересуются. Система позволяет искать эти предметы, фильтруя результаты на основе социальных связей пользователя (контактов) и настроек приватности. Это не патент об алгоритмах ранжирования веб-поиска.

Google использует интерфейс «Relevance Bar» для визуализации результатов поиска по контенту, привязанному ко времени (например, ТВ-программы, подкасты, вебинары). Эта временная шкала показывает, когда происходят события, и использует визуальные атрибуты (цвет, размер, наложение), чтобы одновременно продемонстрировать количество результатов в данный момент и их релевантность запросу.

Google использует систему для эффективного тестирования и оценки различных критериев отбора ресурсов для включения в индекс. Вместо затратного перестроения индекса для каждого эксперимента, система симулирует, как разные процессы отбора повлияют на выдачу. Это позволяет сравнивать гипотетические индексы с помощью A/B тестов или асессоров, ускоряя разработку и улучшение качества индекса.

Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).

Яндекс патентует новый интерфейс для поисковых подсказок (саджеста). Вместо статического списка, подсказки представлены в виде прокручиваемой «карусели» или «колеса», которое пользователь перемещает относительно поля ввода. Это упрощает выбор и формирование сложных запросов, особенно на мобильных устройствах.

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

Google использует систему визуализации результатов поиска по историческим новостям. Она строит график, показывающий развитие новостных сюжетов (кластеров) во времени, включая их разделение и слияние. Система также использует различные маркеры для идентификации типов контента, таких как оригинальные статьи, дубликаты и редакционные материалы, в рамках каждого сюжета.

Google использует скрытые водяные знаки в своих структурированных результатах (таких как SERP или машинный перевод), чтобы позже идентифицировать их как контент, созданный машиной. Это позволяет исключать такой контент из обучающих данных для ИИ-моделей, гарантируя, что модели обучаются на данных, созданных человеком, а не на результатах работы других машин.

Патент описывает инфраструктурный механизм Google для эффективного обновления кеша данных в вертикальных поисках (Google Hotels, Flights). Система рассчитывает ценность (Utility Value) для каждого потенциального запроса к API партнера на основе прогнозируемого спроса и частоты изменения данных (U=I/F). Это позволяет Google запрашивать только самые важные обновления, не превышая лимиты пропускной способности партнерских систем.

Google использует метод для организации больших объемов неструктурированных данных (например, отзывов клиентов или сообщений на форумах) в иерархическую таксономию. Система итеративно применяет стандартные алгоритмы кластеризации: сначала группирует документы, затем группирует полученные кластеры и так далее. Это позволяет выявить структуру и взаимосвязи в данных для внутреннего анализа.

Патент описывает техническую инфраструктуру, позволяющую Google Картам работать офлайн. Google организует картографические данные и информацию о локальных объектах (бизнесы, POI) в виде тайлов. Эти тайлы загружаются на мобильное устройство, кэшируются и индексируются локально, что позволяет пользователям выполнять географический поиск даже без подключения к интернету.

Google использует систему для сканирования контента нативных мобильных приложений (App Indexing). Патент описывает, как система определяет момент полной загрузки приложения, отслеживая технические сигналы: стабилизацию использования памяти, сетевые запросы и события жизненного цикла. Это позволяет начать сканирование только тогда, когда контент полностью отображен.