Google использует фундаментальную архитектуру для персонализации поиска. Система собирает историю действий пользователя (запросы, клики по результатам и рекламе, просмотренные страницы) с разных устройств и браузеров. Эти фрагментированные данные объединяются в единый профиль при входе в аккаунт. Собранная история используется для изменения порядка результатов поиска, выделения ранее посещенных сайтов и определения «предпочтительных местоположений» пользователя.
Автор: Виктор Репин
Google использует механизм диффузии для улучшения ранжирования в поиске по картинкам. Система строит граф визуально похожих изображений и распространяет оценки релевантности, основанные на поведении пользователей (клики, dwell time), по этому графу. Это позволяет сгладить шум в данных о кликах и присвоить оценки даже тем изображениям, по которым пользователи напрямую не кликали, основываясь на популярности визуально похожих картинок.
Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.
Фундаментальный патент Google, лежащий в основе AdSense. Он описывает, как Google анализирует контент документа (веб-страницы или видео) для определения его тем. Система использует классические методы Information Retrieval: частоту терминов (концепция TF-IDF), анализ анкорных текстов, контент связанных страниц и историю поисковых запросов. Эти темы затем используются для таргетинга релевантной рекламы.
Google использует систему для автоматического определения, какие URL-параметры влияют на контент страницы (content-relevant), а какие нет (content-irrelevant). URL группируются в кластеры по хосту и пути. Система анализирует статистику прошлых сканирований и создает «Правила эквивалентности». Это позволяет объединять разные URL, ведущие на один и тот же контент, в «Классы эквивалентности» и выбирать один Репрезентативный URL для сканирования, экономя ресурсы.
Патент описывает систему для определения семантического контекста текста (веб-страниц, запросов и истории пользователя). Она разделяет информацию на тематические Домены и вычисляет контекстный вектор (Macro-Context) на основе использования уникальной терминологии. Это позволяет поисковой системе классифицировать контент и сопоставлять намерение пользователя с документами на основе контекста, а не только ключевых слов.
Патент описывает механизм, который Google использует для консолидации фактов, извлеченных из интернета. Система анализирует разрозненные данные (объекты), сравнивает их на предмет сходств (например, общие редкие факты) и конфликтов (например, разные даты рождения). Используя графовый анализ и кластеризацию, Google объединяет объекты, относящиеся к одной и той же реальной сущности, формируя точный профиль в Knowledge Graph.
Google использует графовую модель Маркова (Markov Model) для кластеризации поисковых подсказок. Система анализирует, какие запросы пользователи вводят в рамках одной сессии (session co-occurrence) и на какие документы они кликают (click-through data). Это позволяет сгруппировать уточнения по скрытому намерению пользователя и показать более разнообразные и организованные подсказки.
Google использует гибридный подход для генерации рекомендаций контента. Система динамически переключается между внешними данными (например, ТВ-рейтингами) и поведенческими данными (поисковые запросы, клики). Для нового контента приоритет отдается внешним данным и тематическому анализу, но по мере накопления поведенческих данных система переходит к коллаборативной фильтрации, считая веб-активность более качественным сигналом.
Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.
Google анализирует логи запросов, чтобы понять, какую информацию пользователи чаще всего ищут о конкретных сущностях (например, «высота» для здания или «альбомы» для музыканта). Система комбинирует данные по конкретной сущности с данными по ее типу, чтобы определить и ранжировать наиболее востребованные атрибуты. Эти атрибуты затем используются для формирования блоков с фактами (например, Knowledge Panel) в ответ на запросы, даже если пользователь не спрашивал об этих фактах напрямую.
Google использует систему интерактивных подсказок (Autocomplete), которая предлагает как завершение запроса, так и прямые URL-адреса по мере ввода пользователем префикса. Система заранее создает индекс, анализируя популярные сайты и связывая префиксы с наиболее релевантными URL на основе анкорных текстов, заголовков, доменных имен и поисковых запросов пользователей.
Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).
Патент описывает фундаментальный процесс управления данными для идентификации дублирующихся записей об одной и той же сущности. Система использует хеширование для поиска совпадений в полях данных, а затем применяет сложную логику обнаружения конфликтов, включая алгоритмы нечеткого сравнения (Hamming distance, Needleman-Wunsch), чтобы определить, можно ли объединить записи. Это критически важно для консолидации данных в Knowledge Graph и Local Search.
Google использует данные о наведении курсора (hovers) на изображения как сигнал вовлеченности. Патент описывает, как эти данные улучшают ранжирование: вес hovers увеличивается для редких запросов с малым количеством кликов. Также система использует соотношение кликов к hovers (Click to Hover Ratio) для выявления и понижения изображений-приманок (click magnets), которые привлекают внимание, но не получают кликов.
Google анализирует агрегированные данные о поведении пользователей, чтобы определить, какие документы часто просматриваются в течение короткого времени после показа других документов в результатах поиска. Эта модель используется для расчета «Оценок силы связи» между документами. На основе этих оценок Google может персонализировать выдачу во время поисковой сессии, дополнять результаты связанным контентом или предлагать пользователю рекомендуемые документы и запросы.
Google использует данные о взаимодействии пользователей с бизнес-листингами в картографических сервисах (запросы адресов, построение маршрутов, клики для звонка) для определения популярности локальных компаний. Эти сигналы агрегируются и взвешиваются по значимости (конверсионные действия имеют больший вес), формируя оценку, которая напрямую влияет на ранжирование в локальном поиске.
Google использует метод для идентификации областей сайта, содержащих временный контент (например, рекламу, погоду, динамические виджеты). Система сравнивает разные версии страниц и анализирует, как часто меняется контент в определенных структурных расположениях (HTML-путях). Если контент по определенному пути меняется слишком часто, этот путь помечается как «временный», и его содержимое игнорируется при индексации, расчете PageRank и таргетинге рекламы.
Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.
Google улучшает локальное ранжирование, агрегируя поведенческие данные (клики) не только из страны пользователя, но и из «совместимых» стран (соседних, культурно близких) или схожих языков. Система определяет совместимость на основе общих характеристик (границы, культура), собирает клики из этих сегментов и активно исключает данные из несовместимых регионов, создавая более релевантную выдачу на основе поведения схожих аудиторий.