Патент Google, описывающий интерфейс автодополнения (Autocomplete). Система рассчитывает вероятность того, какую подсказку ищет пользователь. Если одна из них значительно превышает порог уверенности, она визуально или аудиально выделяется (например, подсветкой, гистограммой или звуковым сигналом), чтобы ускорить выбор пользователя.
Автор: Виктор Репин
Яндекс патентует метод повышения качества обучения ранжирующих моделей за счет обработки «зашумленных» (неточных или предвзятых) оценок релевантности. Система анализирует надежность и строгость каждого асессора или краудсорсера (например, из Толоки). Затем она рассчитывает Вес (уровень доверия) и скорректированное Значение Релевантности для каждой оценки, чтобы оптимизировать финальное качество ранжирования.
Яндекс патентует механизм гарантированного показа рекламы бренда в ответ на навигационный запрос, ведущий на сайт этого бренда. Система идентифицирует навигационный интент пользователя и искусственно завышает прогнозируемый CTR (Click-Through Rate) рекламного объявления этого бренда. Это обеспечивает объявлению победу в аукционе и позволяет занять специальное место в выдаче, например, над органическими результатами.
Google анализирует агрегированные данные (например, поисковые запросы) пользователей в определенной географической локации, чтобы выявить доминирующие интересы и присвоить этой локации категорию (например, «финансовый район» или «туристическое место»). Эта категория затем используется для повышения релевантности (бустинга) рекламы, показываемой пользователям, находящимся в этой локации.
Патент описывает систему для локального (Desktop) поиска, которая выборочно индексирует файлы на устройстве пользователя для экономии ресурсов. Система вычисляет «Оценку Сбора» (Capture Score) для каждого файла на основе его типа, расположения и частоты использования. Если оценка превышает порог, файл индексируется локально. Патент не относится к веб-поиску.
Патент Яндекса описывает механизм ранжирования для рекомендательных систем (например, Дзен). Система учитывает не только релевантность контента пользователю (Relevancy Parameter), но и обязательства платформы по минимальному количеству показов для авторов (Completion Parameter). Если канал отстает от графика выполнения квоты показов, его контент может получить приоритет в ранжировании для достижения баланса интересов пользователей и издателей.
Google использует инфраструктурный метод для высокоскоростного поиска точных совпадений в больших коллекциях документов. Запросы и документы токенизируются, а затем система использует FIFO-буфер (скользящее окно) для последовательного сравнения токенов. Это позволяет эффективно масштабировать обработку данных в распределенной среде.
Патент Google, описывающий инфраструктурный механизм для автоматической оптимизации систем векторного поиска (Approximate Nearest Neighbor, ANN). Система использует математическое моделирование и метод множителей Лагранжа для нахождения оптимального баланса между скоростью ответа сервера (Search Cost) и точностью результатов (Recall). Это позволяет Google эффективно масштабировать семантический поиск.
Патент описывает инфраструктуру, позволяющую пользователям определять собственный корпус контента (загружая данные или указывая конкретные веб-сайты) и создавать для него отдельный поисковый индекс. Система может искать по этим индексам независимо или совместно с основным веб-индексом, смешивая результаты и интегрируя их с рекламой или предлагая платный доступ к контенту.
Патент Google описывает архитектуру данных для картографических сервисов, позволяющую раздельно хранить объекты карты (сущности) и информацию об их достоверности (неопределенность). Это позволяет системе слияния (fusion) данных из множества источников (сенсоры, базовые карты, данные пользователей) обрабатывать противоречивые наблюдения и формировать наиболее точную и согласованную карту реального мира.
Патент описывает метод повышения эффективности поиска локальных данных (например, контактов) на мобильных устройствах. Система заранее преобразует алфавитно-цифровые данные в числовой индекс, основываясь на раскладке клавиатуры (аналогично T9). Это позволяет устройству быстро находить совпадения при вводе запроса, экономя вычислительные ресурсы и заряд батареи. Патент фокусируется на производительности устройства, а не на алгоритмах веб-поиска.
Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока) для обучения ML-алгоритмов (включая ранжирование и Proxima). Система динамически корректирует оценки качества асессоров на основе взвешенного консенсуса, а не только по контрольным заданиям. Это позволяет эффективнее выявлять недобросовестных исполнителей и обеспечивать более чистые данные (Ground Truth) для тренировки поисковых моделей.
Яндекс патентует метод исправления опечаток в запросах, которые система видит впервые (проблема «холодного старта»). Если для нового запроса нет истории, система находит похожий редкий запрос в логах («приближенный запрос») и использует его прошлые исправления (трансформации) как основу для генерации вариантов исправления для нового запроса.
Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.
Яндекс патентует метод организации структурированных данных (например, объявлений) в иерархическое дерево для оптимизации поиска. Каждый уровень дерева соответствует атрибуту (например, Марка, Модель, Год). Листья дерева хранят агрегированную статистику (минимальная/максимальная цена, количество). Это позволяет системе мгновенно применять фильтры и показывать статистику без обращения к основной базе данных.
Google может организовывать поисковую выдачу, используя многоуровневую сортировку («chunked sorting»). Пользователи (или сама система) могут определять критерии гранулярности (например, сначала по дате, затем по местоположению), создавая иерархически организованные наборы результатов. Это влияет на представление данных в SERP, особенно для контента, чувствительного ко времени и локации.
Яндекс патентует метод для интерпретации последовательных голосовых команд. Чтобы понять, уточняет ли пользователь предыдущий запрос или задает новый, система выполняет два фоновых «псевдопоиска»: один по комбинации запросов, другой только по последнему. Если комбинированный вариант дает более качественные результаты (определяется алгоритмом ранжирования), система считает запрос уточнением. Это используется, например, для заполнения полей в интерактивных виджетах на выдаче.
Яндекс использует свой основной алгоритм ранжирования для определения связи между последовательными голосовыми запросами. Система сравнивает качество результатов поиска по комбинированному запросу и по последнему запросу отдельно. Если комбинированный запрос дает более релевантные результаты (более высокий «вес»), система считает последний запрос уточнением, что позволяет, например, заполнять поля в интерактивных сниппетах (виджетах) голосом.
Патент Google, описывающий инфраструктуру для централизованного сбора комментариев к веб-страницам. Ключевой механизм заключается в идентификации похожих или дублирующихся документов и ассоциации одного и того же комментария с несколькими URL. Система позволяет отображать комментарий рядом с любым из этих документов, даже если он был оставлен на другой странице, а также индексирует эти комментарии для поиска.
Google использует многоэтапный процесс для создания компактного цифрового отпечатка, представляющего всю продолжительность видео. Это включает анализ небольших сегментов (суб-отпечатки), обобщение их характеристик (гистограммы) и применение взвешенного хеширования. Это позволяет Google/YouTube эффективно идентифицировать почти дублирующиеся видео, даже с разным временем начала или кодировкой, улучшая результаты поиска за счет снижения избыточности.