Система Google для автоматического преобразования текстовых объявлений в графические. Для определения контекста система глубоко анализирует контент посадочной страницы с помощью кластеризации, а также учитывает текст объявления и ключевые слова для ставок. Затем она подбирает изображения, оценивая их по контекстному соответствию и визуальной привлекательности, и генерирует графическое объявление.
Автор: Виктор Репин
Яндекс патентует метод генерации интерактивных поисковых подсказок (Search Suggest), который учитывает точное положение курсора в поле ввода. Вместо того чтобы просто дописывать запрос в конце, система анализирует, где находится курсор (начало слова, середина, конец запроса и т.д.), и предлагает контекстные действия: вставку нового слова, замену текущего слова или его удаление, основываясь на истории поисковых запросов.
Патент Google описывает систему для анализа схожести программного кода на субфайловом уровне. Система изолирует только исполняемые части файла, игнорируя метаданные и ресурсы, разбивает код на логические блоки и хеширует их. Сравнивая хеши, Google может эффективно находить схожие фрагменты кода в разных файлах, что используется для обнаружения вариантов вредоносного ПО или идентификации повторно используемого кода.
Патент описывает систему, позволяющую владельцам сайтов согласиться (opt-in) на краудсорсинг высококачественных человеческих переводов своих страниц. Google создает и хранит переведенные копии, встраивает в них дополнительный контент (например, рекламу) и показывает их иностранным пользователям, перехватывая запросы к оригиналу, потенциально делясь доходом с владельцем.
Google использует специализированную инфраструктуру для индексирования и поиска по большим графам данных, таким как Граф Знаний. Патент описывает двухмерную структуру индекса, механизмы предварительного вычисления сложных путей в графе, а также специальные структуры для эффективной обработки диапазонных (числовых) и пространственных (географических или временных) запросов, обеспечивая низкую задержку ответа.
Google использует статистический метод для интерпретации текста без пробелов (например, доменных имен). Система определяет потенциальные языки, разбивает строку на слова для каждого языка, а затем проверяет, какая комбинация слов (включая варианты с исправлением опечаток) чаще встречается в веб-индексе или поисковых запросах. Это позволяет выбрать наиболее вероятный язык и смысл текста.
Google использует систему для определения «Исключительных запросов» — тем, интерес к которым резко и неожиданно возрастает в короткий промежуток времени (менее 30 минут). Система сравнивает текущую частоту запроса с прогнозируемой моделью, основанной на исторических данных. Если фактическая активность значительно превышает прогноз, запрос помечается как трендовый. Это позволяет выявлять актуальные события, а не просто самые популярные запросы.
Патент описывает внутренний фреймворк Google для тестирования и оценки алгоритмов ранжирования (scoring functions). Система выбирает два алгоритма, которые дают максимально разные результаты по одному запросу (Diversity Score), показывает обе выдачи пользователям или асессорам (side-by-side) и агрегирует данные о предпочтениях для составления общего рейтинга самих алгоритмов.
Яндекс патентует метод генерации поисковых подсказок (саджеста), который учитывает точное положение курсора в строке ввода. В зависимости от того, где находится курсор (в начале, конце запроса или внутри слова), система предлагает разные действия: вставку, замену или удаление термина. Это позволяет пользователям быстрее модифицировать запрос, основываясь на популярных исторических данных поиска.
Google использует систему визуализации для поиска по картинкам, которая группирует похожие изображения на основе визуальных признаков и метаданных и отображает их в масштабируемом 2D-интерфейсе. При отдалении (zoom-out) система показывает меньше репрезентативных (канонических) изображений, часто выбираемых на основе их рейтинга. При приближении (zoom-in) раскрывается больше деталей внутри кластеров.
Патент описывает систему постобработки OCR, которая повышает точность индексации отсканированных документов и изображений. Google группирует похожие по форме символы в кластеры и сравнивает их, чтобы автоматически выявить и исправить ошибки распознавания (например, путаницу между ‘С’ и ‘G’). Для сложных случаев система может использовать ручную верификацию через CAPTCHA или онлайн-игры.
Патент Google, описывающий систему идентификации «Авторитетных Пользователей» (экспертов) по различным темам в рамках социальной сети (например, Google+). Система заранее определяет «Триггерные Запросы», которые активируют показ блока с экспертами в SERP. При отображении система также показывает социальный статус этих экспертов относительно пользователя для стимулирования взаимодействия.
Яндекс подал заявку на патент нового метода обучения моделей на основе деревьев решений (таких как CatBoost) под названием Stochastic Gradient Langevin Boosting (SGLB). Этот метод позволяет эффективнее оптимизировать сложные (невыпуклые) метрики ранжирования, избегая локальных минимумов за счет двойного добавления шума в процессе обучения. Это делает основные алгоритмы ранжирования Яндекса более точными.
Google использует механизм для оптимизации поиска по картинке. Система заранее определяет, какой визуальный признак (измерение) лучше всего имитирует «идеальное» ранжирование, полученное с помощью дорогостоящей кластеризации. Это позволяет быстро группировать похожие изображения в выдаче без выполнения кластеризации в реальном времени.
Google использует систему для глубокого анализа логов поисковых запросов. Определяется местоположение пользователя (источник), географическое место, упомянутое в запросе (назначение), и тематическая категория (вертикаль рынка). Эти данные индексируются, позволяя аналитикам и рекламодателям изучать тренды, например, как часто пользователи из США ищут отели в Германии и какие ключевые слова они используют.
Патент Google описывает систему для корпоративного поиска (Enterprise Search). Она извлекает сущности и факты из внутренних документов компании, формируя Корпоративный Граф Знаний. Ключевая особенность — применение прав доступа (ACL) не к документу, а к каждому отдельному факту, что обеспечивает безопасность данных при персонализации поиска и работе цифровых ассистентов.
Яндекс патентует метод улучшения обучения NLP-моделей (включая те, что используются в поиске). Метод модифицирует стандартный алгоритм токенизации (BPE), вводя элемент случайности (Dropout). Вместо одного фиксированного способа разделения слова на части (токены), система генерирует множество вариантов во время обучения. Это делает обученные модели более устойчивыми к ошибкам, лучше понимающими морфологию и редкие слова.
Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.
Система Google для показа релевантных постов из социальных сетей в результатах поиска в качестве рекламы. Система проводит аукцион среди спонсоров (включая авторов и третьих лиц), желающих продвинуть определенные посты. Победители определяются на основе комбинации ставки и релевантности поста запросу и отображаются в специальном блоке на SERP.
Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по его синергии (насколько он дополняет другие факторы) и избыточности (насколько он дублирует информацию), используя условную взаимную информацию (CMI).