Автор: Виктор Репин

Google идентифицирует «параллельные ресурсы» — высококачественные переводы или оригинальный контент на ту же тему на разных языках. Когда мультиязычный пользователь выполняет поиск, система определяет его предпочтительный язык и повышает в ранжировании те результаты, которые имеют соответствующие параллельные ресурсы на этом языке. Количество доступных параллельных ресурсов влияет на ранжирование. Система также отображает сниппеты параллельного ресурса прямо в выдаче.

Google анализирует, как пользователь взаимодействует (кликает или игнорирует) с контентом авторов из его социального графа. Если взаимодействие по определенной теме превышает порог и у пользователя уже есть социальная связь с автором, система уточняет степень их близости (Affinity) к этой теме. Эта уточненная близость используется для повышения или понижения контента этого автора по этим темам в будущей выдаче пользователя.

Google использует систему для идентификации экспертов (Authoritative Users) и автоматического создания сниппетов, объясняющих их релевантность конкретному запросу. Эти сниппеты, или «псевдо-биографии», генерируются офлайн путем анализа профилей и публикаций экспертов в компьютерных сервисах (например, социальных сетях) и отображаются в поисковой выдаче для подтверждения их экспертизы.

Система для обработки неоднозначных запросов путем идентификации различных значений (концепций) запроса и представления их в виде отдельных вкладок (Tabs). Внутри каждой вкладки похожие результаты группируются в «стеки» (Stacks) для уменьшения дублирования, а для дальнейшего уточнения предлагаются динамически сгенерированные меню (Drill Down).

Google использует гибридную систему для оценки контента, содержащего изображения (например, рекламных баннеров). Система автоматически анализирует изображения (распознает текст, объекты, определяет наличие обнаженной натуры) и агрегирует эти данные с оценками людей-эвалуаторов и обратной связью пользователей. Итоговый рейтинг, взвешенный с учетом доверия к оценщику и чувствительности аудитории, определяет, будет ли контент одобрен и кому он будет показан.

Google использует систему для распознавания запросов, связанных с медиа (фильмы, сериалы). Если запрос идентифицирован как медийный, система автоматически расширяет его, добавляя семантически связанные термины (например, похожие шоу, актеров, жанры), найденные с помощью обученной модели машинного обучения. Это позволяет возвращать более широкий и релевантный набор результатов, даже если исходный запрос был узким.

Google классифицирует синонимы по степени надежности. Если синоним считается ненадежным или узкоконтекстным (Phrase-Restricted Substitute Term), он должен появиться в документе рядом с теми же соседними словами, что и в исходном запросе. Если это условие не выполняется, документ может быть исключен из ранжирования еще на этапе отбора кандидатов.

Патент Google описывает систему динамического выбора метода отслеживания кликов. При генерации страницы (например, SERP) система решает для каждой ссылки, использовать ли быстрое клиентское отслеживание (асинхронное или синхронное) или серверное отслеживание (редирект). Это позволяет Google собирать точные поведенческие данные без замедления пользователя и гарантировать учет клика перед уходом со страницы или запуском приложения.

Google анализирует темпоральную последовательность документов (например, новости по одной теме) для выявления нового контента. Система идентифицирует «информационные фрагменты» (сущности, факты) и их взаимодействия. Документы, которые первыми вводят важные фрагменты или значительно дополняют существующие, получают более высокую оценку новизны (Novelty Score) и ранжируются выше, вытесняя вторичный контент.

Google использует репутацию и научный вес членов программных или редакционных комитетов (например, их цитируемость) для оценки качества академического события (конференции, журнала). Эта оценка качества события затем используется для ранжирования документов (например, научных статей), опубликованных в рамках этого события.

Google анализирует контент страниц, ранжирующихся в топе по исходному запросу, чтобы понять его контекст. На основе этого контекста система находит похожие запросы из своей базы данных. Затем она фильтрует эти запросы, оставляя только те, которые лексически отличаются от исходного, чтобы предложить пользователю разнообразные и релевантные альтернативы для исследования темы.

Google патентует метод улучшения ранжирования для сложных запросов. Вместо оценки одного лучшего пассажа система находит несколько релевантных предложений по всему документу, объединяет их в «извлекающую сводку» (Extractive Summary) и переранжирует документ на основе релевантности этой сводки. Это позволяет выше ранжировать страницы, где полный ответ распределен по тексту.

Google использует данные окружающей среды (фоновый звук, изображения), чтобы понять контекст неоднозначных голосовых запросов. Если пользователь спрашивает «Кто это поет?», система анализирует фоновую музыку, идентифицирует песню и внутренне переформулирует запрос в «Кто поет [Название Песни]?», обеспечивая точный ответ.

Google использует вероятностную генеративную модель для выявления концепций (кластеров связанных слов) в тексте. Этот патент описывает механизм автоматического улучшения этой модели путем слияния слишком похожих кластеров (например, «шутки про Джорджа Буша» и «памятные вещи Джорджа Буша»). Это позволяет системе более обобщенно и точно понимать тематику документов и запросов.

Google использует механизм для определения порядка различных вертикалей (например, Музыка, Приложения, Книги) в смешанной выдаче. Чтобы избежать искажений из-за неравномерной популярности вертикалей, система анализирует результаты стандартного Веб-поиска (WWW-based corpus) по этому же запросу. Этот анализ позволяет определить истинный интент пользователя и использовать его как сигнал ранжирования для корректного упорядочивания специализированных корпусов.

Патент описывает инфраструктуру Google для оцифровки, индексирования и интеграции печатных изданий (книги, журналы) в результаты поиска наравне с веб-страницами. Он включает механизмы для получения разрешений от издателей (Permission Protocol), совместного ранжирования (Integrated Ranked Listing) и управления рекламой, включая ее динамическое обновление при показе результатов.

Google использует систему для дополнения прямых ответов контекстной информацией. Когда пользователь ищет факт о сущности (например, рост Барака Обамы), система не только предоставляет факт (6’1″), но и определяет его место в популярном рейтинге (например, «9-й самый высокий президент США»). Выбор рейтинга для показа основывается на анализе частоты поисковых запросов (List Score).

Система анализирует вводимый текст в редакторах (например, Google Docs или Gmail), распознает сущности и их атрибуты, автоматически запрашивает факты у поисковой системы (Knowledge Graph) и предлагает их для вставки. Также она способна проверять уже введенные факты на точность и предлагать исправления в реальном времени.

Google использует систему для автоматического поиска и ассоциации запросов с релевантными страницами (например, для рекламы). Ключевой механизм — это сравнение двух векторов: «Вектора Намерения» (интент запроса во всем вебе) и «Вектора Предложения» (интент конкретной страницы). Ассоциация происходит, только если эти векторы совпадают, гарантируя точное соответствие интента.

Google использует итеративный алгоритм для анализа исторических логов запросов, чтобы вычислить «независимую от запроса оценку» (Query-Independent Score) для каждого слова или фразы. Эта оценка показывает, насколько вероятно сегмент является самостоятельным запросом или главной темой. Это помогает системе отличить ключевые концепции от модификаторов, точнее понять интент пользователя и улучшить подбор релевантного контента.