Автор: Виктор Репин

Google использует систему для устранения неоднозначности имен людей. Анализируя исторические данные о том, какие запросы (как включающие имя, так и нет) приводили пользователей на одни и те же ресурсы, система кластеризует различные контексты имени (например, разные люди с одним именем). Для каждого контекста выбирается лучший уточняющий термин, который затем предлагается пользователю в качестве поисковой подсказки.

Google анализирует, как часто и где текстовые пассажи (например, цитаты или определения) повторяются в корпусе документов. Система рассчитывает оценку значимости пассажа на основе популярности цитирующих авторов, разнообразия источников (diffusion/entropy) и текстуальных характеристик. Эта оценка используется для ранжирования результатов поиска и выбора наиболее важных пассажей для отображения.

Google использует механизм для очистки системы автозаполнения (Autocomplete). Система выявляет популярные подсказки, которые развлекают или интересуют пользователей, но не соответствуют их изначальному намерению. Путем экспериментов с временным скрытием этих подсказок Google проверяет, ищут ли пользователи эту информацию самостоятельно. Если нет, подсказка классифицируется как отвлекающая и понижается.

Google использует механизм для борьбы с кликбейтными или нерелевантными изображениями в поиске. Система анализирует, как часто пользователи кликают на изображение по множеству несвязанных запросов. Если изображение часто выбирают независимо от темы запроса, ему присваивается высокая «Оценка отвлекательности», и оно понижается в выдаче, уступая место более релевантному контенту.

Google улучшает поиск по визуальному контенту (картинки, видео), анализируя, как пользователи переформулируют запросы на других языках в рамках одной сессии. Если пользователь ввел запрос на одном языке, а затем его перевод на другом, система запоминает эту связь («двуязычное уточнение»). В дальнейшем система автоматически добавляет самый популярный перевод к исходному запросу, чтобы показать больше релевантных результатов на разных языках.

Google анализирует результаты поиска на предмет наличия «авторитетных ресурсов» (например, официальных сайтов или страниц Википедии), чтобы определить главную сущность, которой посвящен запрос. Если сущность точно идентифицирована, система извлекает связанные сущности (например, книги автора или фильмы актера) и отображает их в выдаче. Порядок отображения определяется поведением пользователей и частотой совместного упоминания в вебе.

Google анализирует массивы поисковых запросов, используя лингвистические шаблоны (например, «население [Города]»), чтобы автоматически определить, какие атрибуты наиболее важны для разных категорий сущностей. Этот механизм позволяет масштабно наполнять Knowledge Graph фактами, основываясь на том, как пользователи ищут информацию, а затем очищает и ранжирует эти данные по важности.

Google использует модель машинного обучения для прогнозирования текущих интересов пользователя на основе истории поиска. Эта модель объединяет несколько методов прогнозирования: анализ того, как недавно были отправлены запросы (на основе времени), порядок их отправки (на основе ранга) и как часто появляются определенные темы (на основе категорий). Этот сбалансированный подход помогает Google понять намерения пользователя для персонализации, даже если пользователь ищет нечасто или в разных контекстах.

Google использует метрику качества сайта («Site Quality Score»), которая рассчитывается как соотношение количества уникальных запросов, явно направленных на сайт (брендовые, навигационные, с оператором site:), к общему количеству уникальных запросов, по которым пользователи переходят на сайт. Этот показатель используется в ранжировании и отражает авторитетность, востребованность бренда и доверие пользователей.

Google использует систему для агрегации «контекстных данных» от множества вертикальных сайтов или экспертов по одной теме. Эта система позволяет Google понять истинное намерение пользователя (например, покупка, сравнение или решение проблемы) и модифицировать запрос и результаты поиска, объединяя правила, аннотации и фильтры из всех релевантных источников.

Google запатентовал систему сбора данных о репутации брендов, продуктов и сайтов через независимые опросы пользователей. Полученная статистика (например, удовлетворенность клиентов) автоматически преобразуется в «аннотации доверия» (trust annotations), отображаемые в выдаче. Патент также описывает использование этой статистики в качестве фактора, напрямую влияющего на ранжирование контента.

Патент Google описывает систему построения персонализированных «сетей доверия». Система определяет, каким источникам (людям или сайтам) доверяет пользователь, анализируя его поведение (web visitation patterns), социальные связи (контакты) и прямые указания («Trust Button»). Рекомендации от этих доверенных источников используются для влияния на сортировку результатов поиска.

Google использует гибридную систему для борьбы с манипуляциями в поиске. Если алгоритм фиксирует аномально быстрый рост позиций результата («Свежесть Ранжирования»), это инициирует проверку Арбитрами (асессорами). Решение о пессимизации (разрыве ассоциации) принимается на основе комбинации автоматической оценки подозрительности и вердиктов асессоров.

Google использует механизм для переноса важной информации между связанными страницами одного сайта. Авторитетность бренда может передаваться с главной страницы на внутренние (Propagation Down), а специфические термины, адреса или категории товаров с внутренних страниц могут ассоциироваться с главной (Propagation Up). Это позволяет улучшить ранжирование страниц, даже если нужные ключевые слова на них отсутствуют.

Google использует публичные взаимодействия в социальных сетях для расчета оценки авторитетности автора (User Score). Система строит граф взаимодействий, присваивая разный вес разным действиям: репосты ценятся выше ответов, а ответы выше подписок. Авторитетность рассчитывается итеративно (подобно PageRank) и используется для ранжирования контента этого автора в поиске.

Google использует систему ранжирования для видеоплатформ, которая идентифицирует «ведущее видео» (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

Патент Google, описывающий механизм встраивания структурированных отзывов и рейтингов непосредственно в HTML/XML код документов с помощью специальных тегов (Identifier Tag и Rating Tag). Поисковые роботы извлекают эту информацию, агрегируют ее и используют для корректировки веса (Weight) документа, что напрямую влияет на его ранжирование в поисковой выдаче.

Google использует метод масштабирования понимания фактологических запросов. Система показывает пользователям факт (например, «Рост Барака Обамы 6’1″») и просит их предложить запросы, которые ведут к этому факту. Полученные запросы нормализуются, фильтруются и обобщаются в шаблоны (например, «какой рост у [Person]»). Эти шаблоны связываются с базой знаний, позволяя системе отвечать на аналогичные вопросы о других сущностях.

Яндекс патентует двухэтапный механизм для ранжирования в рекомендательных системах. Сначала определяется персонализированная релевантность контента на основе вовлеченности. Затем независимый алгоритм классификации оценивает качество контента и его источника, генерируя «понижающую оценку» для борьбы с кликбейтом и нарушениями правил. Финальный ранг корректируется этой оценкой, понижая нежелательный контент независимо от его популярности.

Google использует систему для понимания диалогового поиска. Если пользователь задает последующий неполный запрос (например, «напомни мне за час до этого»), система определяет контекст из предыдущего запроса (например, время рейса). Затем она использует грамматические шаблоны, чтобы переписать неполный запрос в полный и понятный для выполнения действия (например, «установить напоминание на 13:40 для рейса UA 214»).