Яндекс использует систему приоритизации (Triage Server) для управления индексацией. Сразу после сканирования страницы система предсказывает ее будущую полезность как «свежего» результата (Importance Score) на основе доступных разреженных данных. Если оценка высока, страница попадает в очередь на индексацию в реальном времени; если низка — в отложенную очередь. Порог для попадания в быструю очередь динамически регулируется в зависимости от нагрузки на дата-центр.
Автор: Виктор Репин
Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими векторами физически группируются в кластеры (шарды) в базе данных. При поступлении запроса система ищет документы только в ближайшем кластере, что радикально ускоряет первичный отбор кандидатов.
Яндекс использует алгоритм для группировки близко расположенных и связанных точек интереса (POI) на картах. Система анализирует географическую близость, плотность объектов и текстовые описания для выявления связи. Затем она определяет иерархию — выделяет главный объект (например, торговый центр) и второстепенные (магазины внутри), создавая единую «Комплексную точку интереса» для улучшения визуализации и удобства пользователя.
Яндекс использует систему для объединения связанных Точек Интереса (POI) в одну «Комплексную Точку Интереса» для снижения визуального шума. Система анализирует географическую близость, плотность объектов в регионе и текстовые связи (взаимные упоминания в описаниях). Затем используется эвристический алгоритм, учитывающий популярность объекта (Фоторейтинг) или иерархию терминов, чтобы определить главный объект (например, ТЦ) и второстепенные (например, магазины внутри).
Яндекс патентует метод автоматического реферирования контента (текст, аудио, видео). Система сегментирует контент, оценивает «полезность» (Utility) каждого фрагмента и определяет смысловые зависимости (Linkage) между ними. В резюме (например, сниппет) включаются не только самые важные фрагменты, но и те, которые необходимы для их понимания, даже если их собственная полезность низка.
Анализ патента (Assignee: Fatdoor, Inc.), описывающего механизм, позволяющий пользователям напрямую влиять на порядок результатов поиска путем голосования за повышение или понижение конкретных ссылок. Система агрегирует эти голоса, рассчитывает весовой коэффициент с учетом авторитетности пользователя и переранжирует выдачу, смешивая алгоритмические сигналы с предпочтениями сообщества.
Яндекс патентует метод персонализации товарных рекомендаций на E-commerce платформах (например, Яндекс.Маркет). Система сначала определяет товары, которые часто покупают вместе (Взаимная Популярность). Затем она использует две отдельные ML-модели для оценки интереса пользователя: одна анализирует историю браузера и демографию, другая — данные устройства (модель, приложения, гео). Результаты объединяются (например, через CatBoost) для финального ранжирования.
Патент Google описывает систему «вспомогательного поиска» для баз данных приложений, расширений и товаров. Когда пользователь выделяет контент на веб-странице, система анализирует его, определяет несколько возможных намерений (объектов) и адаптирует их под специфику базы данных. Затем выполняются параллельные поиски по этим намерениям, а результаты группируются в комбинированной выдаче с выделением наиболее вероятного варианта.
Яндекс патентует метод создания интерактивных карточек объектов на SERP. Система распознает разные аспекты (компоненты) объекта, например, «Биография» и «Фильмография». Она добавляет интерактивные фильтры (исполнительные элементы), позволяющие пользователю уточнить интент и динамически изменить отображение информации (скрыть, дополнить, переупорядочить) прямо на выдаче, часто без перезагрузки страницы.
Патент описывает систему автоматического определения местоположения мобильного устройства в момент создания визуального контента (фото, видео). Система сопоставляет эти геоданные с базой точек интереса (POI), предлагает пользователю «подсказки» для подтверждения места и позволяет прикрепить отзыв и рейтинг. Это создает структурированный, геолоцированный UGC для локального поиска.
Патент описывает архитектуру, позволяющую Google одновременно запускать органический поиск и поиск рекламы для снижения задержки. Система отправляет результаты органического поиска на рекламный сервер до завершения выбора рекламы. Это позволяет корректировать ранжирование рекламы (PCTR, релевантность, ставки) и ее внешний вид на основе того, какой органический контент будет показан рядом.
Google использует систему проактивного поиска, которая отслеживает повторяющиеся действия пользователя (например, частые поиски или задачи). Система автоматически создает «постоянные запросы» и выполняет их в фоновом режиме, основываясь на контексте пользователя (местоположении, времени) и частоте его прошлых действий. Результаты доставляются в виде уведомлений, если система считает момент подходящим.
Анализ патента (Правообладатель: AT&T), описывающего систему поиска, которая ранжирует результаты на основе реальных данных о посещаемости и использовании веб-ресурсов (сетевого трафика). Система предполагает сбор данных на уровне интернет-провайдера с явного согласия пользователей (opt-in) для определения реальной популярности и релевантности ресурсов.
Патент Google описывает методы определения «текущего контекста» динамического контента, например, поисковой выдачи (SERP), для подбора релевантной рекламы. Если контекст неясен или запрос слишком общий, система анализирует исторические запросы, которые приводили к похожим результатам, или анализирует контент страниц, на которые ссылается SERP, чтобы точнее таргетировать объявления.
Патент Google описывает методы объединения результатов поиска из разных систем (например, стандартного веб-индекса и отдельного мобильного индекса), которые используют разные формулы ранжирования. Для создания единой выдачи система нормализует оценки, классифицирует запрос на наличие «мобильного интента» и модифицирует ранжирование, чтобы сделать разнородные результаты сопоставимыми.
Google использует механизм отслеживания кликов по результатам поиска без использования JavaScript или серверов переадресации. Система использует CSS стили (псевдоклассы :active, :hover, :focus) для инициации запроса фонового изображения с сервера отслеживания в момент клика. Сервер регистрирует клик и отвечает кодом «Нет контента» (HTTP 204), делая процесс незаметным для пользователя и минимизируя задержки.
Яндекс использует машинное обучение для анализа новостных статей и прогнозирования вероятности того, что пользователь захочет найти дополнительную информацию об упомянутых сущностях (людях, местах, событиях). Система анализирует исторические данные о поведении (просмотры статей и последующие поиски). Если вероятность интереса высока, система автоматически показывает «Карточку объекта» с краткой сводкой прямо в статье.
Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.
Google создает персонализированный индекс контактов пользователя, собирая данные из почты, социальных сетей и календаря. Система распознает естественные вопросы о людях (например, «Где живет Боб?») и предоставляет прямые ответы, используя этот индекс. Результаты ранжируются на основе истории взаимодействия, близости отношений и публичной авторитетности контакта.
Анализ патента Google, описывающего методы поиска похожих файлов в облачных системах (например, Google Drive). Система записывает геолокацию устройства пользователя при редактировании файла и использует эту информацию вместе с другими атрибутами (автор, даты, контент, ссылки) для расчета оценки схожести и ранжирования результатов внутреннего поиска.