Автор: Виктор Репин

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

Патент Google описывает систему создания многоязычной карты синонимов (Synonyms Map), которая учитывает частоту использования вариантов слова (например, с ударениями, лигатурами или транслитерацией) в разных языках. При обработке запроса система определяет вероятный язык пользователя и использует эту карту для добавления к запросу статистически релевантных вариантов написания, улучшая полноту поиска с учетом языковых конвенций.

Google может измерять объем данных, необходимый для полной загрузки веб-страницы (включая HTML, изображения, скрипты). Этот показатель используется как условный сигнал ранжирования: более «легкие» страницы могут получать преимущество, особенно если система определяет, что пользователь находится в сети с ограниченной пропускной способностью или лимитированным тарифным планом.

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

Google использует структуру документа (например, иерархию сайта или главы книги) для определения наилучшей точки входа для пользователя. Система анализирует, где именно в структуре сконцентрированы (кластеризованы) ключевые слова из запроса. Вместо показа всего документа, Google может представить конкретный раздел, главу или страницу, которая наиболее точно соответствует запросу, основываясь на плотности и расположении этих совпадений.

Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте Синонимов». Это позволяет находить документы с правильной орфографией, даже если пользователь ввел упрощенный вариант. Также описан механизм защиты для «малых языков», ограничивающий подбор синонимов для сохранения точности выдачи.

Патент Google, описывающий итеративный алгоритм для определения того, какие последовательности слов являются значимыми фразами (коллокациями), а какие — случайным совпадением. Система анализирует текст, начиная с длинных фраз и двигаясь к коротким, используя статистические меры (отношение правдоподобия). Найденные фразы обрабатываются как единое целое, что повышает точность индексации и понимания запросов.

Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает установленного лимита, система информирует владельца, что увеличение лимита не повлияет на скорость обхода сайта. Если же лимит является ограничивающим фактором, владельцу предлагается его повысить.

Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые затем применяются для дополнения поисковых запросов (query augmentation) и переранжирования результатов (contextualization) с учетом личного контекста, интересов сообщества и недавней активности пользователя.

Яндекс патентует метод повышения точности и эффективности сбора размеченных данных из краудсорсинговых сред, где качество и личность асессоров неизвестны (например, CAPTCHA). Система использует инкрементальную разметку: она запрашивает ответы до тех пор, пока модель машинного обучения не достигнет заданного порога уверенности в одном из вариантов. Это позволяет получать точные метки (например, распознавать текст) с минимальным количеством запросов, отфильтровывая ботов и ошибки.

Google использует механизм для идентификации трендовых запросов («active keywords»), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, и отображает их в виде специальной встроенной ленты («discussion stream») прямо на странице результатов поиска, отделяя их от более старых социальных постов.

Google улучшает поиск изображений по редким (long-tail) запросам, когда данных о кликах недостаточно. Система анализирует визуальные характеристики топовых и нижних результатов исходной выдачи, чтобы создать «визуальную подпись» запроса. Затем все изображения переранжируются на основе того, насколько они визуально соответствуют этой подписи, повышая консистентные результаты.

Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение (Edit Distance) и нормализацию, система игнорирует незначительные правки и точно датирует только существенные обновления контента.

Яндекс патентует систему для контроля качества работы исполнителей на краудсорсинговых платформах (например, асессоров). Вместо использования только статических оценок качества, система обучает модель машинного обучения (MLA) предсказывать вероятность ошибки для конкретного задания на основе детальной истории действий и поведения исполнителя. Это позволяет динамически выявлять снижение качества работы или ботов, обеспечивая чистоту данных, используемых для обучения поисковых алгоритмов.

Google использует автоматизированную систему для определения «истинной геометрии» (точных физических границ) точек интереса (POI). Если бизнес связан с несколькими конфликтующими контурами (например, контур магазина и контур всего ТЦ), система ранжирует их по ряду критериев, таких как тип связи, количество арендаторов и схожесть названий, чтобы выбрать наиболее точное описание физического пространства.

Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от каждого домена. Это предотвращает избыточную кластеризацию (over-clustering), помогает эффективнее управлять дубликатами и обеспечивает разнообразие сайтов в результатах поиска.

Патент описывает архитектуру Custom Search Engine (CSE). Система позволяет разработчикам определять спецификации для модификации входящих запросов, выбора базовых поисковых систем (например, Web, Scholar), условного комбинирования их результатов и последующего изменения выдачи (фильтрация, повышение/понижение сайтов).

Патент описывает механизм, позволяющий пользователям явно указывать, какие веб-ресурсы связаны с ними, через интерфейс своего профиля. Google использует это подтверждение как фактор для связывания контента с конкретным человеком. Это улучшает точность кластеризации результатов поиска, помогая отличать людей с одинаковыми именами и формировать точное представление о присутствии человека в интернете.

Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока). Для задач с текстовыми ответами система конвертирует ответы в векторы, кластеризует их и использует оценки надежности (Quality Scores) асессоров (через модель Dawid-Skene), чтобы определить наиболее вероятный правильный ответ. Это обеспечивает высокое качество обучающих данных для алгоритмов Яндекса.

Google использует систему для управления ранжированием медиаконтента, защищенного авторским правом. Система идентифицирует оригинальную (авторитетную) версию контента и активно продвигает ее в результатах поиска выше, чем пользовательские копии, даже если эти копии разрешены правообладателем. Это гарантирует приоритет официальных источников над копиями при релевантных запросах.