Google автоматически анализирует набор результатов поиска, чтобы предложить пользователю способы сузить выдачу (фасеты). Система ранжирует эти предложения, основываясь на том, насколько равномерно они разделяют результаты (селективность), а также на исторических данных о том, какие уточнения пользователи выбирают чаще всего, представляя сначала наиболее полезные варианты.
Автор: Виктор Репин
Google использует гибкий фреймворк для сбора, нормализации и ранжирования вспомогательной информации (аннотаций) из разнообразных источников (отзывы, редакционные статьи, списки Топ-X). Система использует машинное обучение, чтобы определить, какая аннотация наиболее полезна для конкретного результата, и отображает ее в сниппете, предоставляя контекст и обоснование ранжирования.
Google использует анализ личных медиафайлов (фото, видео) для построения профиля интересов пользователя. Объекты, распознанные в этих файлах (часто локально на устройстве), используются для определения релевантных тем с учетом их четкости и значимости в кадре. Эти данные затем применяются для персонализации поисковой выдачи и проактивной доставки контента (например, в Google Discover).
Патент Google, раскрывающий механизм ранжирования видеорекламы (Promoted Video Programs). Система рассчитывает Quality Factor (QF) видео, учитывая релевантность контента (CF), детальные метрики вовлеченности зрителей (PWF), а также физические характеристики ролика, такие как длина и качество звука/изображения (PF). Итоговый рейтинг в аукционе определяется комбинацией QF и ставки (Bid).
Google использует систему для идентификации основного контента веб-страницы путем ее разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
Google использует систему анализа слоев пользовательского интерфейса для точного определения, какие элементы контента реально видны пользователю, а какие скрыты перекрывающими элементами (меню, уведомлениями). Это позволяет отфильтровывать ложные сигналы вовлеченности (клики, показы), зарегистрированные на скрытых элементах, повышая точность поведенческих факторов и оценки качества страницы.
Google борется со спамом в локальной выдаче (например, в Google Maps), группируя ранее отклоненные фейковые бизнес-профили в кластеры на основе общих признаков (телефон, адрес, IP-адрес отправителя). Новые заявки или обновления сравниваются с этими известными кластерами спама. Если новая заявка слишком похожа на существующий паттерн спама, она автоматически помечается как спам.
Google анализирует контент (новости, блоги, социальные сети) для выявления упоминаний событий, привязанных к конкретному времени. Система извлекает ключевые фразы (N-граммы) и определяет точное время события. Если пользователь вводит запрос, связанный с событием, и делает это близко к времени события, Google динамически изменяет выдачу, приоритизируя контент, релевантный именно этому событию.
Google использует систему для извлечения сущностей (Instances), их характеристик (Attributes) и конкретных данных (Values) из разрозненных и неструктурированных веб-документов. Эта система агрегирует информацию, оценивает ее достоверность (Confidence) и представляет пользователю в структурированном виде, таком как сравнительные таблицы или карточки, даже если данные об одной сущности берутся с разных сайтов.
Google анализирует, на какие темы пользователи массово подписываются в сервисах оповещений (например, Google Alerts) за определенный период времени. Эти трендовые темы (Topical Subjects) затем используются как сигнал для ранжирования: новостные статьи, соответствующие этим актуальным темам, могут получать повышение (boost) в поисковой выдаче, особенно в поиске по новостям.
Google использует механизм для проактивного предложения пользователю его прошлых поисковых запросов и результатов, на которые он кликал, основываясь на его текущем физическом местоположении. Система анализирует историю поиска, определяет связанные с ней локации и оценивает их близость к пользователю. Это позволяет предоставлять релевантные локальные подсказки без необходимости ввода запроса (Zero-Click), особенно на мобильных устройствах.
Система Google для автоматического понимания характеристик географических областей (например, «дорогой район», «центр индийской кухни»). Система анализирует распределение бизнес-листингов, демографические данные и информацию о недвижимости, чтобы присвоить регионам классификации. Эти данные используются для улучшения локального поиска и персонализации результатов в зависимости от характера местности и предпочтений пользователя.
Google использует метод машинного обучения для оптимизации моделей ранжирования (например, в Поиске по картинкам). Вместо равномерного обучения на всех данных, система фокусируется на самых сложных примерах, которые попадают в топ выдачи (Hard Negative Mining). Для этого сравниваются лучшие релевантные результаты с наиболее высокоранжированными (но ошибочными) нерелевантными результатами, гарантируя максимальную точность именно в ТОП-10.
Google использует анализ логов запросов (уточнений и расширений) для выявления ключевых «аспектов» (подтем), связанных с сущностью. Эти аспекты ранжируются по популярности и разнообразию, а затем используются для организации поисковой выдачи в виде тематических блоков («mashup»), помогая пользователям исследовать разные грани темы.
Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.
Google использует статистический анализ для борьбы со спамом в названиях компаний (например, в Google Maps). Система анализирует корпус легитимных названий, чтобы понять естественные комбинации слов. Затем для проверяемого названия вычисляется «Оценка Неожиданности» (Surprisingness Value). Если сочетание слов слишком маловероятно (например, «Ресторан Слесарь»), листинг помечается как спам и исключается из выдачи.
Google использует «Фактор чувствительности к местоположению» (Location Sensitivity Factor), чтобы динамически определять, насколько важна близость для конкретного запроса. Система объединяет оценку расстояния (Distance Score) и тематическую оценку (Topical Score) в единый рейтинг. Это позволяет показывать наиболее релевантные результаты, будь то ближайшее кафе (высокая чувствительность) или лучший специалист в регионе (низкая чувствительность).
Google использует многоступенчатый процесс для улучшения аннотаций изображений. Система сначала генерирует набор меток на основе визуальных характеристик (Content Feature Values). Затем она использует базу семантических связей (Semantic Database/Граф знаний), чтобы найти связанные концепции и агрегировать оценки уверенности. Это позволяет выбрать наиболее точные метки, отсеивая слишком общие или ошибочно специфичные варианты.
Google использует механизм для ускорения уточнения запросов. Когда пользователь взаимодействует со словом в середине существующего запроса (например, ставит курсор), система определяет это слово («анкорный сегмент») и предлагает семантически отличные альтернативы («сегменты-сиблинги»). Эти предложения основаны на анализе поисковых сессий других пользователей и помогают быстро изменить направление поиска.
Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.