Анализ патента Google, описывающего механизм таргетинга рекламы в поиске на основе предыдущих действий пользователя на сайте рекламодателя (RLSA). Система создает списки ретаргетинга и использует их в комбинации с ключевыми словами для определения показа объявлений и назначения ставок. Также патент описывает метод объединения последовательных голосовых команд в единый поток для эффективного выполнения задач ассистентом.
Автор: Виктор Репин
Яндекс патентует метод защиты от скоординированных манипуляций рейтингами («флешмобов» или ревью-бомбинга). Система обнаруживает аномальные всплески оценок и анализирует историю посещений пользователей, оставивших эти оценки. Сравнивая поведение «аномальной» группы с контрольной, система статистически вычисляет внешний URL-источник, спровоцировавший всплеск (например, вирусный пост), и понижает вес связанных с ним оценок.
Патент Google описывает систему, которая детально отслеживает взаимодействие пользователя с контентом (веб-страницами, документами) на его устройстве. Система анализирует, как долго пользователь изучал контент (активное время), как часто возвращался, вводил ли URL вручную или переходил по ссылке, и последовательность посещений. Эти данные используются для ранжирования результатов, особенно когда система автоматически генерирует запрос (имплицитный запрос) на основе действий пользователя вне поисковой строки.
Патент Google, описывающий метод сбора поведенческих данных (кликов по результатам поиска) без замедления загрузки целевой страницы. Вместо использования серверных редиректов, система применяет клиентский JavaScript (событие onmousedown) для асинхронной отправки данных о клике (включая URL и позицию ссылки) на отдельный сервер. Это позволяет Google собирать точные данные о CTR незаметно для пользователя.
Google использует систему для анализа контекста запроса, чтобы определить, являются ли стоп-слова (или фразы) значимыми. Система сравнивает результаты поиска или релевантные категории для запроса со стоп-словом и без него. Если результаты сильно различаются, стоп-слово сохраняется в запросе для более точного поиска.
Google использует паттерны просмотра пользователей внутри социальных сетей для классификации контента. Система строит граф, где связи показывают, кто просматривал чей профиль или контент. Если пользователи, которые смотрят известный контент категории А, также массово смотрят неклассифицированный контент Б, система делает вывод, что контент Б, вероятно, также относится к категории А. Это позволяет классифицировать контент без анализа его содержания.
Google использует систему для понимания неизвестных текстовых терминов (таких как сленг, опечатки или хештеги), анализируя, как они звучат (фонетические признаки) и какие слова их окружают (контекст). Это позволяет Google классифицировать эти термины и сопоставлять их с известными концепциями, повышая точность результатов поиска, даже если точное написание ранее не встречалось.
Google может хранить несколько версий (instances) документа в индексе, каждая из которых привязана к определенному диапазону дат (date range). Система использует эту информацию для корректировки ранжирования, рассчитывая взвешенную оценку релевантности в зависимости от близости диапазона дат версии документа к дате, указанной в запросе пользователя.
Google автоматически анализирует видео для поиска клипов, где слово (n-gram) четко произносится в правильном контексте. Система рассчитывает оценку пригодности (SDUE), сравнивая ручные субтитры с автоматической расшифровкой (ASR) для оценки качества аудио, а также анализируя видимость говорящего, фоновый шум и историю просмотров пользователя. Лучшие клипы используются для демонстрации произношения и употребления в Поиске и Ассистенте.
Google использует метод для определения семантической схожести между поисковыми запросами для генерации подсказок и связанных поисков. Система разбивает запросы на N-граммы и присваивает им «семантический вес» на основе их уникальности в корпусе документов (IDF) и в логах запросов (Энтропия). Затем запросы сравниваются как векторы этих взвешенных N-грамм, чтобы предложить релевантные уточнения.
Анализ патента Google, описывающего раннюю архитектуру Универсального Поиска. Система идентифицирует тему запроса (Topic ID) и сопоставляет ее с узлом в иерархической онтологии (BRIAN). Затем она динамически извлекает релевантные «Модули Контента» (Content Modules) из этой онтологии и отображает их в отдельной области SERP (RHS) рядом со стандартными веб-результатами (LHS).
Google использует модель идентификации вакансий для преодоления ограничений поиска по ключевым словам в сфере трудоустройства. Система обучается на основе таксономии профессий, генерируя векторы для вакансий с использованием специализированных весовых коэффициентов (Inverse Occupation Frequency и Occupation Derivative). Это позволяет системе понимать, что запросы вроде «Patent Guru» соответствуют профессии «Патентный поверенный», и возвращать релевантные вакансии, даже если ключевые слова не совпадают.
Google применяет технологию разрешения кореференции для определения того, какие именные группы (например, имена, описания и местоимения) относятся к одной и той же сущности. Система обучает специализированные векторные представления (эмбеддинги), интегрируя семантические данные и синтаксические признаки (например, расстояние в дереве разбора). Это позволяет Google точно понимать структуру контента и переписывать текущие поисковые запросы на основе контекста предыдущих.
Патент описывает математический метод, который Google использует для оценки качества поиска на основе попарных сравнений результатов людьми (асессорами). Система собирает данные о предпочтениях (Side-by-Side тесты) и использует модель, аналогичную PageRank (основанную на Марковских процессах), для агрегации этих оценок в единый, устойчивый к шуму рейтинг качества (Preference Ranking). Эти данные служат эталоном для обучения и валидации алгоритмов ранжирования.
Google автоматически верифицирует данные о локальных компаниях (адрес, телефон, часы работы), сравнивая информацию из сторонних каталогов и агрегаторов с данными, извлеченными с официального сайта компании («Authority Website»). Официальный сайт считается эталоном истины. На основе сравнения рассчитывается «Оценка Точности» (Accuracy Score) для каждого источника. Финальный профиль компании формируется с приоритетом данных с официального сайта и источников с высокой оценкой точности.
Яндекс патентует алгоритм Freshness Browsing Rank (FBR), который динамически оценивает авторитетность страниц на основе истории просмотров пользователей. FBR учитывает дату создания контента и недавнюю активность посещений. Ключевой особенностью является механизм распространения «свежести» по графу реальных переходов пользователей и ее затухание со временем, что позволяет приоритизировать актуальный и трендовый контент.
Google использует систему персонализации, которая анализирует историю поиска пользователя на всех устройствах. Сравнивая текущий контекст (время, местоположение) с контекстом прошлых поисков и используя поведенческие сигналы (клики, Dwell Time) для оценки интереса, система проактивно показывает релевантные прошлые результаты в виде информационных сниппетов, устраняя необходимость повторного поиска.
Патент раскрывает механизмы, которые Google использует для понимания сложных запросов на естественном языке, включающих сущности и их отношения. Система переводит неоднозначные формулировки в точные структурированные запросы (например, SQL), анализируя все возможные связи (Join Paths) в Базе Знаний и используя контекстные подсказки (Subcontexts) в запросе для выбора правильной интерпретации.
Патент Google, описывающий механизм управления отображением локальных результатов на картах (Google Maps, Local Pack). Система анализирует плотность объектов в видимой области карты (viewport). Если плотность слишком высока (визуальная перегрузка), система фильтрует результаты, показывая только объекты с наивысшим рейтингом (Score), чтобы обеспечить читаемость интерфейса.
Google может определять, какую ТВ-программу или потоковое видео смотрит пользователь, сопоставляя его поисковые запросы с контентом, доступным в его локации в это же время. Если корреляция найдена, система модифицирует исходный запрос, добавляя термины из программы (например, уточняя модель автомобиля из телешоу), чтобы предоставить более релевантные контекстуальные результаты.