Автор: Виктор Репин

Google использует систему для преодоления ограничений поиска по ключевым словам, особенно для видео, где мало текста. Система определяет вероятность принадлежности запроса к определенной теме (P(T|Q)), а затем находит релевантные результаты для этой темы (P(R|T)). Ранжирование основано на комбинации этих вероятностей, что позволяет находить контент, даже если он не содержит точных ключевых слов из запроса.

Google использует механизм для понимания неоднозначных запросов, анализируя, какие документы пользователи выбирают (клики и время просмотра) и что еще они ищут в рамках одной сессии. Если пользователи часто выбирают документы определенной категории (например, «Товар») по данному запросу, Google присваивает эту категорию самому запросу и распространяет ее на связанные запросы в сессии.

Патент Google описывает систему генерации Панелей Знаний (Knowledge Panels). Система идентифицирует сущность в запросе, определяет ее тип и использует соответствующий шаблон. Этот шаблон наполняется контентом, агрегированным из множества разных источников. Ключевой механизм (Claim 1) заключается в выборе конкретных фактов на основе того, как часто пользователи искали эту информацию об этой сущности в прошлом.

Google патентует систему построения «графа интересов» пользователя на основе его личных данных: истории поиска, посещенных сайтов, email, социальных связей и истории местоположений. Этот граф используется для автоматического предсказания интересов и персонализации предложений локальных событий и мест, когда пользователь находится в новом месте.

Google использует модель машинного обучения для прогнозирования вероятности того, что пользователь перейдет по конкретной ссылке. Эта модель анализирует характеристики ссылки (положение, размер шрифта, анкорный текст) и данные о поведении пользователей. Ссылки с высокой вероятностью клика передают значительно больше ссылочного веса (например, PageRank), чем ссылки, которые пользователи обычно игнорируют.

Google анализирует исторические данные о том, как пользователи уточняют свои запросы. Система определяет семантическое значение каждого уточнения, анализируя контент возвращаемых документов. Уточнения с похожими результатами кластеризуются. Затем система выбирает лучший репрезентативный запрос из каждого кластера и ранжирует их, отдавая предпочтение наиболее частым и семантически согласованным группам, чтобы предложить пользователю концептуально различные варианты продолжения поиска.

Google использует механизм для обучения диалоговых систем (голосовых ассистентов). Система анализирует последующие реплики и действия пользователя (например, повторение вопроса или уточняющий запрос) как обратную связь на предоставленный ответ. Эта связь используется для корректировки оценок уверенности (Confidence Scores) в парах вопрос-ответ и для немедленного предложения альтернатив при негативной реакции.

Google использует механизм, позволяющий владельцам сайтов влиять на отображение своих страниц в поиске. Система идентифицирует «Объекты отображения результатов поиска» (структурированные данные) и «Шаблоны» (правила форматирования), предоставленные вебмастером или сгенерированные автоматически. Это позволяет формировать обогащенные сниппеты с дополнительной информацией (цены, рейтинги, изображения).

Google использует систему для определения степени связанности между сущностями путем анализа поведения пользователей (co-interaction data) в разных типах медиа (видео, веб-страницы, покупки). Этот механизм агрегирует поведенческие данные для расчета «оценки связанности» (Relatedness Score), что позволяет генерировать релевантные рекомендации даже для нового контента (решение проблемы «холодного старта»).

Google использует механизм для разрешения неоднозначности запросов. Если выдача содержит результаты о разных сущностях (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному результату сигнализирует о его интенте. При возврате на SERP система модифицирует выдачу, скрывая или понижая результаты о нерелевантных сущностях, и отображает уведомление о примененном фильтре.

Google анализирует объем поисковых запросов, упоминания в социальных сетях и ссылки в онлайн-документах для выявления наиболее популярных цитат и сущностей внутри видеоконтента. Эти данные используются для выделения ключевых моментов и обогащения базы знаний, демонстрируя, как внешние сигналы определяют значимость контента.

Яндекс использует технологию для анализа страниц в результатах поиска с целью обнаружения повторяющихся шаблонов (например, карточек товаров или объявлений). Система автоматически извлекает уникальные данные (цены, изображения, характеристики) из этих шаблонов и отображает их непосредственно на странице выдачи (SERP), заменяя или дополняя стандартный сниппет. Это позволяет пользователям сравнивать предложения без перехода на сайт.

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

Яндекс патентует метод улучшения поисковых подсказок (саджестов) за счет добавления свежих, трендовых запросов. Система анализирует недавнюю поисковую активность и свежие документы из надежных источников. Она рассчитывает частоту новых запросов, оценивает намерение пользователя получить свежий контент и измеряет взаимодействие (CTR). Ключевой механизм – масштабирование краткосрочной частоты свежих запросов для их корректного сравнения с долгосрочными историческими данными, что позволяет актуальным трендам появляться в подсказках.

Яндекс патентует механизм активного сбора поведенческих данных для документов с недостаточной статистикой. Система использует вспомогательную модель для прогнозирования качества документа (независимо от кликов). Затем ранг документа случайным образом изменяется (повышается или понижается) в выдаче, чтобы собрать новый фидбэк (Explore). Эти данные используются для переобучения основной формулы ранжирования (Exploit).

Google оценивает качество страниц и доменов, анализируя, как они конкурируют в поисковой выдаче. Система отслеживает «Победы» (Wins) и «Поражения» (Losses) на основе поведения пользователей: сравнивая время пребывания (Dwell Time) при мульти-кликах или анализируя клики относительно показов (CTR) с учетом позиций. На основе этого соотношения рассчитывается корректирующий фактор (Adjustment Factor), который повышает или понижает рейтинг ресурса.

Яндекс патентует механизм Активного Обучения (Active Learning) для сбора поведенческих данных о документах, по которым мало статистики. Система определяет вероятность принадлежности документа к определенному классу качества (например, «Хороший») и искусственно изменяет его позицию в выдаче (повышает или понижает), чтобы стимулировать взаимодействие пользователя. Собранные данные используются для дообучения основной формулы ранжирования.

Google использует механизм «Boost Vectors» для персонализации поиска. Система классифицирует интересы пользователя или тематику сайта-источника, и на основе этих категорий повышает в выдаче результаты, предварительно ассоциированные с этими темами. Это позволяет адаптировать ранжирование под тематический контекст.

Яндекс патентует технологию создания интерактивных сниппетов на странице результатов поиска (SERP). Ключевая особенность — установление двусторонней связи (например, через API) между сниппетом и внешним ресурсом. Это позволяет пользователю взаимодействовать с функционалом сайта (выполнять операции, заказывать, общаться в чате) и получать обновления в реальном времени, не покидая SERP и не переходя на сам сайт.

Google анализирует последовательность запросов пользователя в рамках одной поисковой сессии, чтобы определить ее контекст. Сравнивая эту последовательность с историческими паттернами поиска (Query Paths), система выявляет, к какому результату пользователь, вероятно, стремится. Если текущая сессия совпадает с известным паттерном, Google корректирует ранжирование, повышая те результаты, которые статистически часто выбирались в конце аналогичных поисковых сессий.