Автор: Виктор Репин

Анализ фундаментального патента Xerox PARC, описывающего методы Information Retrieval. Патент раскрывает, как различные типы данных (текст, изображения, ссылки, поведение пользователей) преобразуются в векторы для мультимодальной кластеризации. Описаны концепции анализа пользователей через потребляемый ими контент (Mediation) и автоматического резюмирования кластеров (Salient Dimensions), критически важные для современных поисковых систем.

Яндекс патентует механизм обратной связи для корректировки ранжирования на основе соотношения качества сайта и объема его трафика. Система рассчитывает «Необработанную оценку качества» и сравнивает ее с эталонной кривой, показывающей ожидаемое качество для данного уровня трафика. Если фактическое качество сайта выше ожидаемого для его текущего трафика, система повышает его ранжирование (и наоборот), чтобы привести объем трафика в соответствие с уровнем качества.

Фундаментальный патент Ларри Пейджа, описывающий алгоритм PageRank. Он определяет, как Google вычисляет важность страницы рекурсивно, на основе важности и количества исходящих ссылок цитирующих ее документов. Патент также защищает использование анкорного текста и околоссылочного текста как ключевых сигналов релевантности целевой страницы в поиске.

Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести к исключению сайта из поиска, понижению в ранжировании или добавлению различных визуальных предупреждений в SERP и браузерных тулбарах.

Патент Google описывает систему отложенного поиска. Если на запрос пользователя нет ответа, соответствующего критериям качества (например, информация еще не опубликована), система запоминает запрос и начинает мониторинг. Когда высококачественный (авторитетный) ответ становится доступен (например, через обновление Knowledge Graph), Google автономно уведомляет пользователя, часто встраивая ответ в следующий диалог с Ассистентом.

Google использует механизм для генерации расширенных поисковых подсказок (Expanded Query Suggestions), особенно в географическом поиске. Система идентифицирует сущности, соответствующие введенному префиксу, а затем обходит граф связанных сущностей (Entity Graph), чтобы предложить релевантные подсказки, которые не начинаются с этого префикса. Это позволяет предлагать конкретные места или бизнесы (например, «MoMA New York» на запрос «new y»), основываясь на географических, категорийных и популярных связях между сущностями.

Инфраструктура для взаимодействия с отображаемыми (печатными или экранными) документами. Система использует захват текста (сканирование или голос) для идентификации электронного аналога, позволяя выполнять действия и добавлять аннотации. Патент также детально описывает механизмы индексирования контента в частных сетях, экспорта этих индексов в центральную поисковую систему и анализа популярности документов (Read Ranking) на основе пользовательских взаимодействий.

Google использует систему для динамического выбора thumbnail для видео в результатах поиска. Система анализирует запрос пользователя и содержание каждого кадра видео, преобразуя их в числовые векторы в общем семантическом пространстве. Кадр, наиболее близкий по смыслу к запросу, выбирается в качестве репрезентативного (thumbnail). Ссылка в выдаче может вести непосредственно к этому моменту в видео (Deep Linking).

Google использует иерархическую систему правил для выбора единственной «геолокации запроса» из множества доступных сигналов. Система анализирует физическое местоположение пользователя, локации в тексте запроса, историю поиска и настройки профиля. Затем она применяет строгую логику приоритетов, чтобы определить, какая локация наиболее релевантна для текущего интента, и соответствующим образом корректирует (смещает) ранжирование результатов.

Google использует систему для извлечения фактов (дат, имен, концепций) и связанных с ними фрагментов предложений из веб-документов. Эти пары индексируются отдельно. В ответ на запрос система находит релевантные факты, ранжирует их, используя метрики близости терминов и краткости описания, и отображает лучшие ответы напрямую в выдаче, часто в виде блоков ответов или временных шкал.

Анализ фундаментального патента (изначально Xerox), описывающего, как системы Information Retrieval преобразуют различные характеристики документов (текст, URL, ссылки, изображения) и поведение пользователей в векторные представления. Это позволяет численно определять сходство, комбинируя сигналы из разных модальностей, и кластеризовать контент для улучшения поиска и систем рекомендаций.

Google патентует механизм, позволяющий пользователям вручную изменять порядок результатов поиска на странице (например, перетаскиванием). Эти действия интерпретируются как явные сигналы предпочтений (пользователь считает один результат лучше другого). Google агрегирует эти данные для обучения моделей машинного обучения и улучшения глобальных алгоритмов ранжирования или использует их для персонализации выдачи.

Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.

Google использует систему для определения точного местоположения изображения путем анализа и сверки трех источников: визуального распознавания объектов (Landmark), текстовых подписей/тегов (Caption) и GPS-данных из файла (Metadata). Система разрешает конфликты, используя строгую иерархию приоритетов (Визуальный анализ > Текст > Метаданные), и вычисляет «Topicality Score», определяющий, насколько изображение репрезентативно для данной локации.

Патент Google, описывающий метод дедупликации статей на платформах агрегации контента (таких как Google News). Система нормализует заголовки и сравнивает их, используя расстояние Левенштейна. Одновременно сравниваются URL-адреса связанных ресурсов (например, изображений). Если и нормализованные заголовки, и URL-адреса считаются похожими, статьи признаются дубликатами.

Google определяет, какие бизнесы (POI) показывать на Картах, анализируя реальные изображения местности (например, Street View). Система использует распознавание образов (OCR) для чтения вывесок, подтверждая существование и местоположение бизнеса. Точки интереса с более четкими и крупными физическими вывесками получают более высокий приоритет для отображения на интерфейсе карты.

Патент описывает комплексную систему для визуального поиска. Google может анализировать изображения на удаленных (сторонних) веб-страницах, распознавать объекты (например, одежду на человеке), извлекать их визуальные характеристики (цвет, форму, текстуру) и делать эти объекты интерактивными. Это позволяет пользователям инициировать поиск похожих товаров, выбрав объект непосредственно на исходном изображении.

Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается каноническая «главная вакансия» (Master Job Posting), которая и показывается пользователю, устраняя дублирование в выдаче.

Google использует систему для определения порядка отображения различных категорий результатов поиска (Веб, Картинки, Локальные и т.д.). Ключевым элементом является расчет «индикатора локальной релевантности» запроса. Если система определяет, что запрос имеет сильное локальное намерение (даже без указания города), локальные результаты получают приоритет в выдаче. Для определения этого индикатора используются машинное обучение и анализ исторических данных поиска.

Google динамически оптимизирует макет страницы результатов поиска (SERP), агрегируя контент (например, рекламу), релевантный как текущему запросу пользователя, так и его предыдущему запросу. Система оценивает различные шаблоны компоновки и выбирает оптимальный, отображая контент для разных запросов в отдельных, визуально разграниченных блоках, чтобы повысить релевантность и эффективность выдачи.