Патент Google описывает механизм обработки запросов с пропущенными словами (fill-the-blank). Система ищет текстовые совпадения в индексе и извлекает ответы («Filler Text»). Ранжирование ответов основано на трехуровневой оценке: информационная ценность ответа (IDF), авторитетность источника (Quality Metric) и консенсус (Relative Frequency) — насколько часто этот ответ встречается на других сайтах.
Автор: Виктор Репин
Google анализирует тренды в поведении пользователей (клики, время пребывания) с течением времени. Если система обнаруживает значительное изменение во взаимодействии с результатом поиска, она предполагает, что контент документа или интент запроса изменился. В этом случае исторические поведенческие данные дисконтируются при ранжировании, чтобы оценка релевантности основывалась на актуальных сигналах.
Google использует механизм для определения, насколько окружающие слова помогают уточнить смысл термина в запросе. Система строит иерархию контекстов и оценивает их значимость (Good/Bad Context). Это позволяет выбрать наиболее точные синонимы (Substitution Rules) и скорректировать их вес в ранжировании (IR score) в зависимости от однозначности контекста.
Google использует генеративные нейросетевые модели (Sequence-to-Sequence) для динамического создания вариантов поисковых запросов. Система учитывает контекст и предполагаемую задачу пользователя для генерации уточнений или эквивалентных формулировок. Механизм Actor-Critic (обучение с подкреплением) контролирует этот процесс, итеративно улучшая понимание интента и проверяя точность ответов перед их показом.
Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.
Google тестирует правила, которые делают определенные слова в запросе необязательными (опциональными), чтобы найти более релевантные результаты. Патент описывает, как система оценивает эффективность этих правил, анализируя поведение пользователей. Если пользователи кликают на результаты, найденные благодаря игнорированию слова, правило считается успешным. Если пропускают (skip) такие результаты, правило может быть удалено.
Google определяет уникальную «зону охвата» (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.
Google использует систему для определения истинного смысла документа путем разделения его на регионы (например, основной текст, меню, футер). Система анализирует локальные концепции в каждом регионе, определяет доминирующую тему документа, а затем исключает регионы, не связанные с этой темой. Это позволяет точно понять основное содержание страницы, отфильтровав шаблонный текст и шум.
Google определяет, насколько похожи друг на друга локальные бизнесы (например, рестораны), анализируя поведение пользователей. Система изучает, какие запросы вводят пользователи и как часто они кликают на конкретный бизнес в ответ на эти запросы. Сравнивая эти поведенческие профили, Google вычисляет меру сходства, учитывая распределение кликов и отфильтровывая общие или навигационные термины.
Google решает проблему «холодного старта» для новых документов или специализированных поисковых вертикалей (например, Google Покупки, Книги). Если у системы недостаточно поведенческих данных (клики, время просмотра) для оценки контента в вертикальном поиске, она может «заимствовать» эти данные из основного веб-поиска. Это происходит путем идентификации эквивалентного контента (например, того же товара) с помощью уникальных идентификаторов (GTIN, ISBN) и использования его поведенческих метрик для корректировки ранжирования.
Google идентифицирует связанные запросы, анализируя схожесть их исторических трендов популярности, а не только семантику. Система преобразует данные об объеме запросов в многомерные изображения и применяет вейвлет-анализ для извлечения ключевых характеристик трендов. Сравнение этих характеристик позволяет находить запросы с похожими паттернами роста или падения интереса.
Google использует запатентованную систему для генерации информативных сниппетов для сущностей, о которых оставляют отзывы (например, рестораны, товары). Система извлекает фразы, выражающие мнение (sentiment phrases), из множества отзывов, оценивает их тональность с учетом специфики домена и выбирает наиболее частотные и разнообразные фразы для формирования сниппета, суммирующего общественное мнение об этой сущности.
Google использует систему для корректировки поискового ранжирования на основе местоположения и языка пользователя. Система приоритизирует данные о кликах от конкретной популяции пользователей (например, страны) над более широкими популяциями (например, глобальными данными). Глобальные сигналы популярности «понижаются» в весе, чтобы гарантировать более высокое ранжирование локально релевантных результатов, даже если они менее популярны в мировом масштабе.
Google использует машинное обучение (Support Vector Machine и N-gram analysis) для анализа комментариев в социальных сетях, блогах и микроблогах, привязанных к геолокации. Система определяет, является ли комментарий отзывом о компании в этом месте, и может предложить пользователю опубликовать его как официальный отзыв.
Анализ патента Google, описывающего метод определения наиболее релевантного географического местоположения для веб-страницы. Система анализирует текст на странице (названия городов, штатов, почтовые индексы) и вычисляет оценку местоположения (Location Score). При расчете учитывается редкость слова в интернете (IDF) и данные о численности населения (Population Score), что позволяет системе отдавать предпочтение более крупным и уникально идентифицируемым локациям.
Google оценивает удовлетворенность пользователя, кодируя последовательность его онлайн-действий (поиски, клики, свайпы) в символьные строки. Анализируя эти паттерны, система классифицирует сессии как положительные или отрицательные, не полагаясь на ненадежные метрики вроде продолжительности клика (Dwell Time). Это позволяет корректировать показ рекламы и органических результатов на основе реального качества пользовательского опыта.
Google использует систему для индексации контента внутри нативных мобильных приложений. Приложение запускается в виртуальной машине, эмулирующей ОС устройства, где экстракторы извлекают текст и заголовки непосредственно из процесса рендеринга. Эта информация объединяется с иконкой и названием приложения из установочного пакета, позволяя показывать в поиске информативные Deep Links, ведущие на конкретный экран приложения.
Google создает персонализированную «Модель пользователя» на основе его личного контента (письма, события, контакты). Эта модель хранит ключевые термины и их контекст. Система использует ее, чтобы понять «неявное намерение» запроса — ищет ли пользователь общую информацию в вебе или свои личные данные (например, свой рейс) — и соответствующим образом адаптирует выдачу, даже если запрос выглядит общим.
Патент Google, описывающий механизм переменной персонализации. Система рассчитывает «значения повышения» (Boost Values) для авторитетных сайтов, анализируя граф сайтов (Site Graph) и распространение авторитета от доверенных источников (Seed Sites). Пользователь может динамически контролировать (например, ползунком), насколько сильно его профиль интересов влияет на ранжирование.