Яндекс патентует метод ранжирования, который учитывает не только семантику (смысл), но и точное лексическое (словесное) соответствие запросу. Система использует три векторных эмбеддинга: один для запроса, один для всего документа (семантика) и один специально для фраз внутри документа, которые точно соответствуют словам из запроса. Это позволяет повышать в выдаче документы, содержащие точные формулировки, решая проблему игнорирования лексики трансформерными моделями.
Автор: Виктор Репин
Google анализирует текст, выделенный пользователем на странице, и окружающий контекст (включая местоположение и язык пользователя). Система определяет, относится ли выделенный текст к сущности (Entity), валюте или требует перевода, и на основе этого показывает специализированный формат ответа (например, Knowledge Panel или Answer Box) вместо стандартного определения.
Анализ патента (Yoogli, Inc.), описывающего механизм глубокого понимания запросов для извлечения структурированной информации, особенно в E-commerce. Система анализирует запрос, формирует взвешенные «микроконтексты» с учетом истории пользователя, определяет общий «макроконтекст» (тему/интент) и извлекает точные данные (например, характеристики продукта) из индекса, минуя необходимость ручной навигации.
Патент описывает инфраструктуру (аналогичную Google AMP Cache), позволяющую Google агрегировать полные версии веб-страниц и рекламные ассеты в единую «Композитную страницу». Весь контент передается пользователю сразу в ответ на запрос. Это обеспечивает мгновенное открытие результатов поиска без дополнительных сетевых запросов, при этом контент часто отображается с домена Google.
Google использует механизм для предотвращения ошибок при расширении запросов синонимами или однокоренными словами. Система генерирует потенциальные альтернативные термины, но добавляет их к запросу только если они подтверждаются контекстом. Контекст определяется анализом терминов, найденных в топовых результатах поиска по исходному запросу. Это гарантирует, что расширение запроса остается семантически релевантным.
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
Google анализирует неявные признаки веб-страницы (структуру, теги, размер, сложность), чтобы определить ее реальный формат и оценить удобство использования (Displayability) на конкретных мобильных устройствах. Это позволяет фильтровать поисковую выдачу, гарантируя пользователю качественный опыт, не полагаясь только на заявленные автором технические стандарты (DOCTYPE).
Яндекс патентует метод двухфазного обучения Трансформерных моделей (таких как BERT или YATI) для персонализации поиска. Модель сначала обучается предсказывать прошлые клики пользователя на широком наборе данных (Фаза 1), а затем дообучается только на документах, с которыми пользователь позитивно взаимодействовал (Фаза 2). Это позволяет точнее предсказывать вероятность будущих кликов, которая затем используется как фактор в основном ранжировании (CatBoost).
Яндекс использует историю поиска пользователя для персонализации агрегированной выдачи (блендинга). Система анализирует предпочтения пользователя между веб-сайтами и вертикальными сервисами (картинки, видео) на основе прошлых кликов и Dwell Time. Рассчитываются персональные параметры, которые определяют, насколько высоко показывать вертикальные блоки конкретному пользователю, смешивая их с основной веб-выдачей.
Google ускоряет отображение поисковой выдачи, заранее загружая и отрисовывая (пререндеринг) структуру страницы результатов (SERP) в фоновом режиме. Когда пользователь вводит запрос (например, в адресной строке браузера), он передается на уже готовую страницу через API, что позволяет мгновенно показать результаты без задержек на загрузку интерфейса.
Google использует этот механизм для улучшения точности понимания запросов и предотвращения «дрейфа темы». Система учится отличать настоящие синонимы от терминов, которые связаны, но не взаимозаменяемы (когипонимы, например, «красный» и «синий»). Патент описывает, как Google анализирует списки на веб-страницах, географические связи и использует машинный перевод для создания многоязычных «черных списков». Это блокирует ошибочное переписывание запросов и повышает релевантность выдачи.
Яндекс использует разделенную (двухфазную) нейросетевую архитектуру на базе Трансформеров (BERT/YATI) для ускорения персонализации. Первая фаза анализирует историю поиска пользователя и текущий запрос, создавая компактное представление интересов. Вторая фаза использует это представление для оценки каждого документа. Это позволяет быстро применять глубокую персонализацию в реальном времени.
Яндекс патентует метод защиты целостности рейтингов (например, на Маркете, Картах или Кинопоиске) от «флешмобов», вызванных внешними событиями (например, вирусным обзором блогера). Система обнаруживает аномальные всплески оценок, анализирует историю посещений пользователей, поставивших эти оценки, и вычисляет конкретный URL-источник, спровоцировавший всплеск. Оценки от пользователей, посетивших этот источник, пессимизируются или удаляются.
Google использует систему интерактивного поиска внутри видеоконтента. Пользователь может остановить видео, и система автоматически распознает объекты и людей в кадре. Используя визуальные индикаторы (например, цветные рамки), система показывает статус идентификации (известен, неизвестен, несколько вариантов). При выборе объекта пользователь получает информацию и ссылки в оверлее поверх видео.
Google обучает Большие Языковые Модели (LLM) для предсказания семантических обобщений («generalizations») публичных поисковых запросов. Эти обобщения преобразуются в «токены поиска» (retrieval tokens), которыми аннотируются запросы в базе данных. Это позволяет системам, таким как Google Ads Keyword Planner, более точно находить релевантные ключевые слова, не запуская LLM в реальном времени.
Google использует систему WebRef Entities для точного понимания содержания веб-страниц и рекламных объявлений. Система идентифицирует сущности (люди, места, объекты), устраняет неоднозначности с помощью контекста и связанных сущностей (например, отличая «Jaguar» автомобиль от животного) и определяет «главную сущность» страницы. Это позволяет точно подбирать релевантную контекстную рекламу.
Google использует алгоритм CRANE, чтобы понять, какая именно часть медиафайла (например, видео) соответствует тегу, даже если тег неточен. Система сравнивает сегменты медиафайла с тысячами негативных примеров, чтобы выделить истинный объект (концепцию) и игнорировать фон. Это улучшает понимание мультимедийного контента для поиска.
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
Google (изначально Aardvark) разработал социальную поисковую систему, которая направляет вопросы не к документам, а к людям в социальном графе пользователя. Патент детализирует, как индексируется экспертиза пользователей (Topic Expertise), как ранжируются ответчики на основе социальной близости (Connectedness) и как эти ответы могут интегрироваться в основную поисковую выдачу.
Google использует систему для точного сопоставления поисковых запросов с мобильными приложениями. Система анализирует семантические признаки запроса (основную тему и подтемы), извлекая их в том числе из результатов поиска (SERP). Затем эти признаки сравниваются с иерархической классификацией приложения (категорией и подкатегорией). Это позволяет показывать релевантные приложения (в ASO и рекламе), основываясь на тематическом соответствии, а не только на ключевых словах.