Автор: Виктор Репин

Анализ патента Google, описывающего систему Dupserver для обнаружения дубликатов контента и редиректов до индексации. Система идентифицирует дубликаты с помощью фингерпринтов и выбирает каноническую версию на основе независимой оценки авторитетности (например, PageRank). Для обеспечения стабильности применяется тест гистерезиса (Hysteresis Test), требующий значительного превосходства в авторитетности для смены канонического URL.

Яндекс патентует метод автоматического улучшения классификаторов контента (например, фильтров SafeSearch). Если пользователи массово делятся примерами ошибок поиска (например, шокирующий контент в безопасном режиме), система обнаруживает связанный с этим всплеск трафика из социальных сетей, идентифицирует контент, подтверждает ошибку классификации и использует эти данные для переобучения ML-модели.

Google использует систему геокодирования для интерпретации неструктурированных локальных запросов. Система преобразует запрос в стандартный формат, не зависящий от порядка слов, учитывая синонимы, ошибки и аббревиатуры. Ранжирование результатов зависит от важности объекта (Feature Rank) и его близости к текущей области просмотра карты пользователя (Viewport), что критично для разрешения неоднозначностей.

Патент описывает два метода генерации отрицательных обучающих примеров для моделей ранжирования. Яндекс строит граф связей между запросами и документами на основе поведения пользователей. Документы, находящиеся далеко в графе от исходного запроса, или документы, популярные по одному запросу, но нерелевантные другому связанному запросу, используются как примеры нерелевантности. Это позволяет обучать модель лучше различать релевантный и нерелевантный контент.

Google использует этот механизм для понимания контекста местоположения пользователя за пределами сырых координат. Система идентифицирует вложенные «Области Поиска» (магазин, торговый центр, район, город) и выбирает наиболее релевантную. Это позволяет Google предоставлять локализованные результаты, часто без ввода запроса пользователем, используя выбранную Область Поиска как основу для поиска.

Яндекс патентует механизм оптимизации функции автодополнения (Search Suggest). Чтобы ускорить поиск, система может заранее загружать страницу результатов (SERP) для самой вероятной подсказки. Патент описывает, как Яндекс определяет, когда стоит выполнять эту предзагрузку, используя метрику Pre-fetch Overhead Parameter (PFOP). Также описан механизм маркировки предзагруженных, но не просмотренных SERP («Ghost SERPs»), чтобы исключить их из анализа поведенческих факторов и не искажать данные для ранжирования.

Система Google использует дифференцированное ранжирование в локальном поиске: результаты внутри указанной пользователем области («Broad Area») ранжируются по «Location Prominence» (авторитетность, цитируемость, отзывы), тогда как результаты за ее пределами ранжируются по расстоянию от центра области. Это объясняет, почему авторитетность бизнеса часто важнее его близости к центру города.

Google ранжирует локальные результаты (POI) не только по близости, но и по контексту. Система учитывает время суток (часы работы и актуальность категории), свежесть социальных обновлений, уникальность бизнеса в данной местности и историю местоположений пользователя (местный житель или турист) для предоставления контекстуально релевантных результатов.

Система использует технологию визуального поиска для анализа изображения товара или рекламы («seed content item»), извлекая его визуальные характеристики (цвет, форма, текстура) и генерируя «визуальную подпись» (Signature). Затем выполняется поиск по сходству для нахождения похожих товаров, которые отображаются в дополнительном окне или оверлее, предлагая альтернативы (в том числе при отсутствии товара на складе) или сопутствующие товары из других категорий.

Патент описывает технологию «неявного поиска» (Implicit Search), которая анализирует текущий контекст пользователя (например, редактируемый документ или просматриваемую страницу) для автоматической генерации запросов. Ранжирование этих контекстных результатов учитывает характеристики исходного контента (форматирование, капитализация, TF-IDF) и предпочтения пользователя (клики, типы файлов).

Google обучает передовые нейронные сети (Image Embedding Functions) с использованием «триплетов изображений» для отображения картинок в математическое пространство (эмбеддинги). Это позволяет системе понимать нюансы и тонкие визуальные сходства — например, различать почти идентичные товары — путем измерения расстояния между этими эмбеддингами, что улучшает Поиск по картинкам, Google Lens и рекомендации похожих изображений.

Google использует состояние устройства (например, телефон в автомобильном держателе или подключен к гарнитуре), чтобы определить формат ответа на запрос. Если система сформировала прямой ответ (Summarized Query Response) и устройство находится в «режиме прослушивания» (Audible State), ответ будет автоматически зачитан вслух. Этот механизм подчеркивает критическую важность оптимизации под Featured Snippets для голосового поиска.

Яндекс патентует метод кластеризации поисковых подсказок (саджеста). Система анализирует, насколько подсказка релевантна определенному вертикальному поиску (например, Картинкам или Видео), основываясь на прошлом поведении пользователей. Если связь сильная, подсказки группируются под заголовком этой вертикали. Клик по такой подсказке ведет пользователя сразу в соответствующий вертикальный поиск.

Яндекс патентует метод кластеризации поисковых подсказок (саджеста). Система анализирует исторические данные о том, в какие вертикали (например, Картинки или Видео) пользователи переходили после ввода определенных запросов. Если связь сильная, подсказка группируется под заголовком этой вертикали. Клик по такой подсказке сразу запускает поиск в соответствующей вертикали.

Google анализирует, как термины из известных эффективных запросов (Seed Queries) расположены в HTML-структуре страницы (например, H1, Title). Если эта структура повторяется на других страницах того же сайта, система создает шаблон и использует его для извлечения ключевых терминов из аналогичных позиций. Это позволяет Google генерировать новые релевантные запросы (Synthetic Queries) для контента в масштабе всего сайта.

Google использует систему для выбора наиболее релевантных и визуально качественных фотографий, представляющих туристические места (Destinations) и точки интереса (POIs). Система рассчитывает Relevancy Score, основанный на кликах в поиске по картинкам (Selection Success Data) и контексте веб-страниц, где размещено изображение, а также Visual Quality Score, оценивающий эстетику. Это определяет, какие фото будут представлять локацию в поиске.

Патент Google описывает инфраструктурную технологию для упрощения разработки приложений, использующих сложные распределенные базы данных. Система (View Gateway) позволяет разработчикам использовать простой язык запросов (например, RVL) и шаблоны, которые автоматически компилируются в сложный SQL. Это оптимизирует доступ к данным и упрощает логику агрегации, но не связано с алгоритмами поискового ранжирования.

Google анализирует неструктурированный текст пользовательских комментариев (UGC) для выявления упоминаний различных продуктов и определения взаимосвязей между ними (альтернативы, дополнения, сравнения). Эти данные используются для кластеризации товаров и, что особенно важно, для динамического изменения навигационных категорий на сайте (например, в маркетплейсе), помогая пользователям находить связанные товары.

Google использует архитектуру системы рендеринга (WRS) для эффективной пакетной обработки миллиардов страниц. Система применяет «виртуальное время», чтобы избежать таймаутов при загрузке ресурсов, активно блокирует ненужные скрипты (например, аналитику) и использует «mock-изображения» для расчета макета без загрузки пикселей.

Патент Google, описывающий систему массового присвоения геоданных изображениям. Система собирает информацию из EXIF, текста на странице, распознавания объектов и пользовательских альбомов/событий. Затем она кластеризует похожие или связанные изображения и «размазывает» (копирует) наиболее достоверные геоданные между ними, повышая точность локализации контента для Image Search и Local Search.