Автор: Виктор Репин

2013 Краулинг Патенты Google

Как Google использует гибридную архитектуру индекса (Hybrid-Sharded Index) для оптимизации скорости и эффективности поиска

Google использует гибридную архитектуру индекса, комбинируя документное шардирование (Document-Sharding) и терминологическое шардирование (Term-Sharding). Эта система позволяет балансировать нагрузку на сеть и операции ввода-вывода, а также обеспечивает механизмы обновления индекса без простоя (Zero Downtime Updates).

2012 Индексация Мультимедиа Патенты Google Свежесть контента

Как Google управляет инфраструктурой Content ID и приоритизирует сопоставление контента на основе недавних событий

Этот патент описывает инфраструктуру, которую Google использует для крупномасштабных систем сопоставления медиа (таких как Content ID). В нем подробно рассказывается, как Google распределяет масштабную задачу сравнения пользовательских видео с защищенными авторским правом эталонными файлами между различными центрами обработки данных. Ключевой особенностью является возможность приоритизации задач сопоставления на основе актуальности живых событий (например, спортивных матчей, концертов) для быстрого выявления несанкционированных загрузок ценного, чувствительного ко времени контента.

2012 Патенты Google Персонализация

Как Google предсказывает поведение пользователей в социальных сетях для ускорения загрузки контента (Pre-fetching)

Google использует историю взаимодействий пользователя и его социальные связи (Social Affinity), чтобы предсказать, какой контент (профили, ленты) он запросит следующим. Этот контент предварительно загружается (pre-fetching) и сохраняется локально, что ускоряет навигацию и снижает задержку при просмотре социальной сети.

2019 SERP Метрики качества поиска Патенты Яндекс Поведенческие факторы

Как Яндекс использует метод линеаризации метрик для повышения чувствительности и эффективности A/B тестов

Яндекс патентует статистический метод (линеаризацию) для улучшения оценки результатов A/B тестирования. Метод преобразует сложные метрики-отношения (например, CTR или клики на сессию) в линейную форму. Это повышает чувствительность оценки, позволяя быстрее и надежнее обнаруживать изменения в поведении пользователей при тестировании новых алгоритмов, и снижает вычислительные затраты на статистический анализ.

2020 Обучение моделей Патенты Яндекс Рекомендательные системы Яндекс Дзен

Как Яндекс ускоряет обучение рекомендательных систем (например, Дзен) с помощью контентных эмбеддингов («Warm Start» для Matrix Factorization)

Яндекс патентует метод оптимизации обучения систем рекомендаций (например, Дзен). Вместо случайной инициализации при матричном разложении (ALS), система использует заранее рассчитанные векторы (эмбеддинги) контента. Это обеспечивает «теплый старт», ускоряет сходимость алгоритма и снижает вычислительные затраты на обучение модели.

2010 Индексация Мультимедиа Патенты Google

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

2021 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

Как Яндекс оптимизирует показ рекламы в рекомендательных системах (например, Дзен) для достижения гарантированных результатов (SLA)

Яндекс патентует метод оптимизации рекламных кампаний в рекомендательных системах (например, Дзен). Система рассчитывает вероятность взаимодействия каждого пользователя с контентом, прогнозирует размер доступной аудитории и определяет минимальный порог вероятности. Реклама показывается только пользователям выше этого порога, чтобы гарантировать достижение заданного числа взаимодействий (SLA) при минимальном количестве показов.

2021 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

Как Яндекс оптимизирует показ продвигаемого контента в рекомендательных системах для гарантии результата

Яндекс патентует метод для рекомендательных систем (например, Дзен), гарантирующий достижение заданных показателей продвижения (SLA). Система рассчитывает вероятность взаимодействия для каждого пользователя, прогнозирует общий трафик и определяет минимальный порог вероятности. Контент показывается только пользователям выше этого порога, что позволяет достичь цели с минимальным количеством показов.

2011 Knowledge Graph Патенты Google

Как Google планировал индексировать и искать продукты, принадлежащие пользователям, через «Социальный граф вещей»

Патент Google, описывающий специализированную систему («Социальный граф вещей»), где пользователи вручную каталогизируют предметы, которыми владеют или интересуются. Система позволяет искать эти предметы, фильтруя результаты на основе социальных связей пользователя (контактов) и настроек приватности. Это не патент об алгоритмах ранжирования веб-поиска.

2007 Мультимедиа Патенты Google

Как Google визуализирует релевантность и плотность результатов поиска для контента, привязанного ко времени

Google использует интерфейс «Relevance Bar» для визуализации результатов поиска по контенту, привязанному ко времени (например, ТВ-программы, подкасты, вебинары). Эта временная шкала показывает, когда происходят события, и использует визуальные атрибуты (цвет, размер, наложение), чтобы одновременно продемонстрировать количество результатов в данный момент и их релевантность запросу.

2010 Paul Haahr Индексация Патенты Google

Как Google тестирует изменения в критериях индексации без перестроения всего индекса

Google использует систему для эффективного тестирования и оценки различных критериев отбора ресурсов для включения в индекс. Вместо затратного перестроения индекса для каждого эксперимента, система симулирует, как разные процессы отбора повлияют на выдачу. Это позволяет сравнивать гипотетические индексы с помощью A/B тестов или асессоров, ускоряя разработку и улучшение качества индекса.

2010 Мультимедиа Патенты Google

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR

Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).

2019 Интент пользователя Навигационные запросы Патенты Яндекс Поисковые подсказки

Как Яндекс предлагает интерфейс «карусели» для взаимодействия с поисковыми подсказками (саджестом)

Яндекс патентует новый интерфейс для поисковых подсказок (саджеста). Вместо статического списка, подсказки представлены в виде прокручиваемой «карусели» или «колеса», которое пользователь перемещает относительно поля ввода. Это упрощает выбор и формирование сложных запросов, особенно на мобильных устройствах.

2007 Knowledge Graph Патенты Google

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

2004 Патенты Google Свежесть контента

Как Google визуализирует эволюцию новостных сюжетов и классифицирует типы контента во времени

Google использует систему визуализации результатов поиска по историческим новостям. Она строит график, показывающий развитие новостных сюжетов (кластеров) во времени, включая их разделение и слияние. Система также использует различные маркеры для идентификации типов контента, таких как оригинальные статьи, дубликаты и редакционные материалы, в рамках каждого сюжета.

2011 Мультиязычность Патенты Google

Как Google маркирует собственные результаты поиска и переводы для борьбы с загрязнением данных

Google использует скрытые водяные знаки в своих структурированных результатах (таких как SERP или машинный перевод), чтобы позже идентифицировать их как контент, созданный машиной. Это позволяет исключать такой контент из обучающих данных для ИИ-моделей, гарантируя, что модели обучаются на данных, созданных человеком, а не на результатах работы других машин.

2016 Google Shopping Патенты Google Свежесть контента

Как Google оптимизирует получение данных о ценах и доступности от партнеров (отели, авиабилеты) в условиях ограниченной пропускной способности API

Патент описывает инфраструктурный механизм Google для эффективного обновления кеша данных в вертикальных поисках (Google Hotels, Flights). Система рассчитывает ценность (Utility Value) для каждого потенциального запроса к API партнера на основе прогнозируемого спроса и частоты изменения данных (U=I/F). Это позволяет Google запрашивать только самые важные обновления, не превышая лимиты пропускной способности партнерских систем.

2012 Индексация Патенты Google

Как Google создает иерархические таксономии из неструктурированных документов с помощью итеративной кластеризации

Google использует метод для организации больших объемов неструктурированных данных (например, отзывов клиентов или сообщений на форумах) в иерархическую таксономию. Система итеративно применяет стандартные алгоритмы кластеризации: сначала группирует документы, затем группирует полученные кластеры и так далее. Это позволяет выявить структуру и взаимосвязи в данных для внутреннего анализа.

2015 Local SEO Индексация Патенты Google

Как Google обеспечивает работу офлайн-поиска в Картах, используя тайловую архитектуру для данных о местах и бизнесе

Патент описывает техническую инфраструктуру, позволяющую Google Картам работать офлайн. Google организует картографические данные и информацию о локальных объектах (бизнесы, POI) в виде тайлов. Эти тайлы загружаются на мобильное устройство, кэшируются и индексируются локально, что позволяет пользователям выполнять географический поиск даже без подключения к интернету.

2015 Индексация Краулинг Патенты Google

Как Google определяет момент полной загрузки мобильного приложения перед его сканированием (App Indexing)

Google использует систему для сканирования контента нативных мобильных приложений (App Indexing). Патент описывает, как система определяет момент полной загрузки приложения, отслеживая технические сигналы: стабилизацию использования памяти, сетевые запросы и события жизненного цикла. Это позволяет начать сканирование только тогда, когда контент полностью отображен.