Автор: Виктор Репин

Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических данных и контекста (например, времени суток). Это позволяет оптимально распределить нагрузку на процессоры и минимизировать общее время генерации SERP.

Анализ патента Google, описывающего управление проспективными поисковыми запросами. В отличие от стандартного веб-поиска, проспективный поиск фильтрует входящие потоки данных по заранее заданным правилам (например, системы обновлений устройств). Патент предлагает метод для обнаружения перекрывающихся или конфликтующих правил (запросов) на этапе их создания, чтобы избежать дублирования действий при обработке данных.

Патент описывает механизм, работающий на устройстве пользователя (например, в браузере или тулбаре), который отслеживает взаимодействие с первой поисковой системой. Если система определяет, что информационная потребность пользователя не удовлетворена (например, нет кликов по результатам, частые переформулировки), она предлагает воспользоваться альтернативной поисковой системой.

Патент описывает ключевые механизмы алгоритма CatBoost, используемого Яндексом для ранжирования. Он раскрывает, как система преобразует категориальные признаки (например, регион, тип сайта, URL) в числовые значения. Для предотвращения переобучения используется метод упорядочивания данных и расчета статистики признака только на основе «прошлых» данных в этом порядке, что повышает надежность моделей ранжирования.

Google анализирует контент веб-сайтов, которые встраивают карты определенных географических локаций (например, через Maps API). Ключевые слова извлекаются с этих сайтов и ассоциируются с соответствующими географическими областями («ячейками карты»). Эти данные затем используются для повышения релевантности рекламных объявлений, таргетированных на эти локации.

Патент описывает систему поиска аудиофайлов (и аудиодорожек видео) по текстовым запросам. Google преобразует звук в «слуховой образ», имитируя человеческое ухо (кохлеарная модель), извлекает из него разреженные признаки (sparse features) и обучает модель связывать эти звуковые признаки с ключевыми словами. Это позволяет классифицировать и находить аудиоконтент (например, «рев льва», «шум дождя») без использования метаданных.

Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент и определить нерелевантные части URL (например, общие префиксы пути или поддомены), чтобы улучшить каноникализацию и избежать сканирования дублирующегося контента.

Google разработал систему для улучшения качества межъязыковых поисковых подсказок (Autocomplete). Вместо буквального перевода система оценивает различные варианты перевода, отдавая предпочтение тем фразам, которые чаще всего используются носителями целевого языка в качестве реальных поисковых запросов. Это гарантирует, что предложенная подсказка является не только точным переводом, но и эффективным поисковым запросом.

Патент описывает метод обеспечения актуальности индекса для контента, у которого нет надежной даты последнего изменения (например, данные в БД). Система отслеживает внутренние номера версий контента. Если версия изменилась с момента последней генерации Sitemap, в тег <lastmod> принудительно ставится текущая дата, что заставляет краулер обновить данные в индексе.

Google (в частности, YouTube, упомянутый в патенте) использует итеративный процесс для генерации списков связанного контента. Система анализирует метаданные (заголовок, описание, теги) просматриваемого элемента и создает упорядоченный список ключевых слов. Затем она формирует внутренний поисковый запрос и автоматически уточняет его — сужая добавлением слов или расширяя удалением слов — пока не будет найдено оптимальное количество похожих результатов.

Google создает детальную модель пользователя (User Model) на основе его личного контента (письма, контакты, события). При получении запроса система анализирует эту модель, чтобы определить намерение пользователя (Intent Score): ищет ли он свои личные данные или общую информацию в интернете. Это позволяет автоматически активировать персональный поиск только тогда, когда это релевантно контексту и времени.

Google использует комбинацию алгоритмов машинного обучения (AdaBoost и Hillclimbing) для точного отделения изображений от текста на сканированных страницах. Система анализирует локальные визуальные признаки (например, SIFT), чтобы классифицировать контент и находить идентичные изображения в разных документах, создавая на их основе неявные связи (implicit links) между источниками.

Google разрабатывает систему для показа интерактивных 3D-моделей или видеороликов конкретных мест (например, достопримечательностей) в ответ на запросы о локациях. Система извлекает модель конкретного объекта из глобальной 3D-реконструкции мира и может добавлять симуляцию реальных условий, таких как погода или трафик. Это меняет представление результатов в SERP, Картах и AR-приложениях.

Google использует технологию цифровых отпечатков (фингерпринтинг) для идентификации одинакового контента (например, видео), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и создает базу соответствий. Это позволяет улучшить полноту поисковой выдачи, включая в нее контент с ошибками в метаданных.

Патент Google, описывающий механизм персонализации новостного агрегатора (Google News). Система позволяет пользователям создавать постоянные новостные разделы на основе запросов и настраивать правила ранжирования внутри них: выбирать предпочтительные источники, блокировать нежелательные, повышать статьи по ключевым словам или авторам, а также управлять сортировкой по свежести или важности.

Яндекс патентует механизм адаптации показа рекламы на SERP. Система рассчитывает «Коэффициент Релевантности» органических результатов, предсказывая удовлетворенность пользователя на основе исторических поведенческих данных. В зависимости от этого коэффициента, Яндекс выбирает, какие рекламные объявления (из разных групп, например, по CTR или CPC) и на каких позициях показывать.

Google использует вероятностную модель (Байесовский классификатор) для точной идентификации языка и кодировки документа. Система анализирует две группы сигналов: атрибуты документа (домен верхнего уровня, HTTP-заголовки, HTML-теги) и непосредственно текст, анализируемый на уровне байтовых триграмм. Это позволяет корректно определять язык даже при противоречивых метаданных и эффективно обрабатывать многобайтовые кодировки (например, азиатские языки).

Патент Google, описывающий механизм индексирования чисел и обработки запросов с числовыми диапазонами. Система раскладывает каждое число на компоненты (логарифмическую характеристику и отдельные цифры) и сохраняет их как специальные числовые термины в индексе. Это позволяет пользователям эффективно находить документы, содержащие числа в заданном диапазоне (например, товары по цене от $200 до $500).

Google применяет систему для индексации «Глубокого веба» (Deep Web), автоматически определяя, какие ключевые слова вводить в веб-формы. Система использует итеративное зондирование: извлекает начальные слова, отправляет их, анализирует уникальность результатов и извлекает новые слова. Это позволяет находить контент, недоступный при обычном сканировании, и оптимизировать краулинговый бюджет на основе обратной связи по трафику.

Анализ патента Google, описывающего механизм ранжирования для магазинов приложений (ASO). Система создает связи между приложениями через пользователей, которые их установили. Ранжирование основано на «Reputation Score» (влиятельности пользователя в соцсетях) и «Trust Score» (социальной близости к ищущему). Приложения, установленные влиятельными людьми или друзьями, ранжируются выше.