Автор: Виктор Репин

Патент Google, описывающий внутренний механизм систем планирования путешествий (например, Google Flights). Он позволяет эффективно и точно рассчитывать стоимость авиабилетов, учитывая разные правила (цены, налоги, ограничения) для разных продавцов (авиакомпаний и агентств) в рамках одного поискового запроса, избегая ошибок и высоких вычислительных затрат.

Google использует двухуровневую архитектуру индекса для обработки огромных объемов данных. «Свежий» индекс хранится в быстрой, но дорогой оперативной памяти (RAM) для мгновенных обновлений. Основной «стабильный» индекс хранится на более медленных, но дешевых SSD-накопителях. Это позволяет системе балансировать между скоростью доступа, актуальностью контента и стоимостью инфраструктуры.

Патент Google, описывающий инфраструктурную оптимизацию баз данных для ускорения сложных запросов к многомерным данным (например, отчетам веб-аналитики). Система создает компактный хеш фиксированной длины для каждой записи, разбивая его на сегменты для каждого поля. Это позволяет быстро фильтровать данные, сравнивая хеши запроса с хешами записей, вместо доступа к полным данным.

Google использует механизм для оптимизации показа рекламы на SERP. Система генерирует связанные запросы к исходному запросу пользователя и формирует отдельные блоки рекламы для каждого из них. Затем она балансирует количество объявлений в этих блоках, динамически расширяя или сужая критерии подбора рекламы (семантический охват), чтобы обеспечить разнообразие и равномерное заполнение рекламного пространства.

Google использует фильтры Блума для оптимизации доступа к своей базе фактов (Facts Repository/Knowledge Graph). Система быстро проверяет, содержатся ли термины запроса и потенциальные пары атрибут-значение в базе данных. Это позволяет избежать дорогостоящих операций поиска, если ответ заведомо отсутствует.

Яндекс патентует метод повышения чувствительности и скорости A/B тестов. Вместо длительного сбора данных система использует машинное обучение (например, градиентный бустинг) для прогнозирования будущих метрик пользователей (клики, сессии) на основе краткосрочных данных. Это позволяет быстрее и точнее оценивать влияние изменений в алгоритмах ранжирования или интерфейсе SERP.

Анализ инфраструктурного патента Google, описывающего высокоэффективную систему управления хранилищем данных (Tokenspace Repository). Патент раскрывает механизм «Treadmilling», который позволяет Google постоянно обновлять документы в индексе и эффективно удалять старые версии, восстанавливая дисковое пространство без остановки обработки поисковых запросов. Это основа для обеспечения свежести и масштабируемости поиска.

Патент Google описывает механизм улучшения UX при навигации по результатам поиска или рекламе. Система может автоматически или вручную «назначать» интересующие ссылки и отображать их как «постоянные ссылки» (например, вкладки), которые остаются видимыми при переходе на другие страницы. Это позволяет пользователю быстро переключаться между выбранными результатами без возврата на исходную страницу SERP.

Патент описывает инфраструктурный механизм для повышения эффективности систем сопоставления контента (таких как Content ID). Система в реальном времени анализирует входящие живые аудио- и видеопотоки, вычисляет цифровые отпечатки и сравнивает их внутри скользящего временного окна. Если отпечатки слишком похожи (например, статичное изображение или тишина), система помечает этот сегмент как неактивный и предотвращает его добавление в индекс, экономя ресурсы и снижая количество ложных срабатываний.

Яндекс патентует метод обучения алгоритмов на основе деревьев решений (например, CatBoost). Вместо стандартного начала обучения, система создает начальные «шумовые деревья» со случайными значениями, в том числе в пустых узлах. Это служит техникой регуляризации, повышая стабильность и качество итоговой модели ранжирования и делая ее более устойчивой к переобучению.

Яндекс патентует архитектуру для систем рекомендаций (например, Музыка, Дзен), основанную на Gradient Boosting (CatBoost). Вместо одной большой модели система создает отдельную модель (ISDT) для каждого элемента (трека или статьи). Каждая ISDT-модель предсказывает вероятность взаимодействия с этим элементом, используя в качестве признаков историю взаимодействия пользователя с другими элементами. Это позволяет эффективно масштабировать обучение.

Яндекс патентует архитектуру для рекомендательных систем (например, Музыка, Дзен). Вместо одной большой модели используется множество Item-Specific Decision Trees (ISDT) — по одной модели CatBoost для каждого трека или статьи. Каждая модель предсказывает вероятность взаимодействия с элементом, используя в качестве признаков исключительно историю взаимодействий пользователя с другими элементами. Это позволяет масштабировать и распараллеливать обучение.

Google использует технологию компьютерного зрения для анализа геометрических отношений (гомографии) между изображениями в больших коллекциях. Система кластеризует фотографии, которые показывают одну и ту же сцену, и идентифицирует те, которые сняты с практически идентичной точки обзора, сравнивая матрицу гомографии с Единичной матрицей. Это улучшает навигацию в сервисах, таких как Google Maps и Image Search.

Google использует легковесный механизм для определения языка поисковых подсказок, который может выполняться на стороне клиента. Система анализирует каждый символ подсказки и оценивает, насколько он уникален для разных языков, используя локальную базу данных. Это позволяет точно определить исходный язык даже для смешанных запросов (например, Английский + Китайский) и обеспечить качественный машинный перевод кросс-язычных подсказок.

Патент Google, описывающий инфраструктурный механизм для эффективного управления размером индекса и скоростью поиска. Вместо полного игнорирования часто встречающихся признаков (ключей), Google пропорционально сокращает (субсемплирует) количество ссылок на документы, содержащие эти признаки. Это позволяет учитывать общие элементы контента при поиске совпадений, не перегружая систему.

Google использует механизм оптимизации производительности голосового поиска. Система анализирует начало фразы пользователя (промежуточную транскрипцию) и ищет совпадения с популярными запросами из логов. Результаты для этих популярных запросов загружаются заранее (prefetching). Если финальный запрос пользователя совпадает с одним из предугаданных, результаты отдаются мгновенно из кэша, минуя стандартный поиск.

Патент описывает систему и интерфейс (например, Google Ads), позволяющий рекламодателям таргетировать показ спонсируемого контента непосредственно в выпадающем блоке поисковых подсказок (Search Suggestion Control). Система позволяет выбирать частичные запросы (префиксы) и участвовать в аукционе за размещение рекламы рядом с органическими вариантами автозаполнения.

Механизм UX/UI для вертикального поиска (например, Google Flights). Система кластеризует похожие результаты (например, рейсы с близкой ценой и длительностью) и отображает их в виде компактной группы на временной шкале (Timeline), улучшая восприятие выдачи.

Google использует систему многоуровневых индексов: стандартный (быстрый) и расширенный (полный). Расширенный индекс ищется, только если в стандартном найдено мало результатов. Для ускорения поиска по большому расширенному индексу система использует «Индекс разделов» (Partition Index), который позволяет искать только в тех сегментах базы данных, где содержатся искомые термины, пропуская остальные.

Яндекс патентует метод расширения функциональности стандартной адресной книги мобильного устройства. Система позволяет пользователю искать контакты не только среди сохраненных локально, но и в удаленной базе данных Яндекса (например, в Справочнике организаций). При вводе имени или запроса система ищет совпадения локально и запрашивает данные с сервера, объединяя результаты в единый интерфейс и учитывая местоположение пользователя.