Google анализирует массивы геопривязанных фотографий и их метаданных (включая теги объектов и данные GPS), чтобы идентифицировать конкретные объекты или точки интереса (POIs). Используя кластеризацию данных и пороговые значения от разных пользователей, система определяет, когда информации достаточно для добавления нового картографического объекта на цифровую карту, улучшая ее детализацию.
Автор: Виктор Репин
Google разработал механизм для улучшения точности поиска визуальных концепций. Система анализирует текстовый запрос и определяет слова с «визуальным интентом» (например, описание узора или цвета). Пользователю предлагается заменить эти слова конкретным изображением (из галереи, интернета или через камеру), формируя мультимодальный запрос (текст + изображение) для более точных результатов.
Google разработал систему для улучшения визуального поиска путем стандартизации входных изображений. Анализируя свою базу, Google определяет оптимальный ракурс («канонический вид») для разных объектов. Эти виды предоставляются как шаблоны (наложения) в камере, чтобы помочь пользователям сделать оптимальный снимок. Отправка изображения вместе с идентификатором шаблона позволяет Google точно сегментировать объект и ограничить поиск нужной категорией.
Яндекс патентует метод определения точного времени создания веб-страницы, когда стандартные методы (анализ URL, контента, временных меток) ненадежны. Система строит сеть связанных страниц и вычисляет вероятность существования ссылок в зависимости от разницы в возрасте между ними. Время создания, которое максимизирует общую вероятность сети, принимается за истинное. Метод также учитывает параметр качества страницы и скорость устаревания контента.
Google анализирует метаданные (GPS, ориентация устройства, данные акселерометра) и визуальные характеристики (края, цвет, текстура) фотографии, сделанной на мобильном устройстве. Эта система позволяет быстро классифицировать, изображено ли на ней «место» (например, здание), оптимизируя Визуальный Поиск (Google Lens) путем запуска соответствующих алгоритмов распознавания.
Google использует метод построения текстовых классификаторов, который учитывает структуру HTML для разделения текста на логические блоки (сегментация). Внутри этих блоков система извлекает n+k-граммы (фразы с пропуском стоп-слов) для лучшего понимания смысла. Кроме того, патент описывает механизм коррекции оценки релевантности, чтобы длинные документы не получали преимуществ только за счет своего объема.
Google анализирует текст отзыва, разбивая его на предложения. Каждое предложение оценивается по длине, позиции в тексте и информационной ценности слов (используя IDF). Система выбирает последовательность предложений с наивысшей совокупной оценкой качества, чтобы сформировать максимально полезный и информативный сниппет.
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
Google анализирует, как часто и в каких новостных источниках цитируются научные работы. На основе этого рассчитывается «Оценка Популярности» (Popularity Score), учитывающая авторитетность СМИ и Импакт-фактор журнала. Это позволяет высоко ранжировать авторитетные исследования в общем веб-поиске, даже если они были популярны в прошлом, а также генерировать новые поисковые подсказки на основе их терминологии.
Яндекс патентует метод для эффективной приоритизации сканирования веб-ресурсов на наличие вредоносных данных, особенно при публикации нового контента со ссылками. Система строит граф связей и назначает ресурсам «Оценки надежности» на основе их истории в поиске. Ключевой механизм: ресурс наследует самую низкую оценку среди всех ссылающихся на него сайтов. Используя алгоритм кратчайшего пути, система выявляет наиболее рискованные ресурсы для приоритетной проверки.
Яндекс патентует многоэтапный процесс обучения трансформерных моделей (типа BERT/YATI) для ранжирования. Система сначала обучается на огромном массиве данных о кликах и метаданных, а затем дообучается на оценках асессоров. Ключевой шаг — использование этой модели для генерации «синтетических асессорских оценок» для всего массива кликов и финальное обучение на этих обогащенных данных.
Анализ патента Google, описывающего систему выборочного применения «расширенных функций» (например, больший размер, видео, интерактивность) к рекламным объявлениям. Доступ к лучшим форматам предоставляется на основе оценки (Eligibility Score), учитывающей ставки, эффективность (CTR, конверсии) и качество рекламодателя (включая качество сайта и внешнюю репутацию), что стимулирует конкуренцию и улучшение качества ресурсов.
Google анализирует, какие слова часто встречаются вместе в рамках одной поисковой сессии (co-occurrence), чтобы понять их взаимосвязь. На основе этих данных система расширяет исходный запрос связанными терминами для поиска релевантного контента (например, рекламы). Оценка релевантности контента, найденного только по расширенному запросу («relaxed match»), корректируется с помощью динамического коэффициента, который постоянно обновляется на основе реальных данных о производительности (например, CTR).
Google использует двухэтапный анализ для генерации блока «Связанные запросы» (Related Searches). Система ищет запросы, у которых ТОП выдачи сильно отличается от исходного запроса (чтобы показать новое), но результаты на низких позициях сильно пересекаются (чтобы сохранить тематическую связь). Это позволяет предлагать пользователю смежные темы, не повторяя уже увиденные результаты.
Google использует этот механизм для управления отображением большого количества локальных результатов на карте. Чтобы избежать визуального шума и обеспечить репрезентативность, система выбирает результаты пропорционально их плотности в разных районах. Это гарантирует видимость локальных лидеров даже в менее насыщенных областях и оптимизирует производительность устройства пользователя с помощью гибридного рендеринга.
Google использует механизм валидации синонимов к многословным фразам, чтобы предотвратить потерю информации (т.н. «pseudo-drop»). Если синоним для всей фразы совпадает с синонимом только для ее части, система блокирует такую замену. Это предотвращает чрезмерное обобщение запроса и сохраняет точность исходного поискового намерения.
Google применяет механизм кросс-язычного поиска (CLIR) для улучшения выдачи изображений и видео. Система автоматически переводит запрос пользователя на другие языки, выбирая наиболее подходящий на основе частотности терминов (IDF) в его корпусе. Результаты поиска по переведенному запросу подмешиваются в основную выдачу, а их ранжирование зависит от статистики качества (например, CTR) этого запроса.
Google может улучшать поисковый опыт, встраивая интерактивные предложения запросов прямо в текстовые сниппеты результатов поиска. Система определяет альтернативные запросы (основываясь на анализе поведения пользователей) и связывает их с конкретными словами в сниппете. Эти слова выделяются (например, подчеркиванием), и пользователь может взаимодействовать с ними, чтобы запустить новый, уточненный поиск.
Google использует технологию распознавания объектов на изображениях для обогащения своей Базы Знаний (Knowledge Graph). Система анализирует наборы изображений, определяет, какие сущности часто появляются вместе (например, «Медведь Гризли» и «Рыба»), и выводит отношения между ними (например, «ест»). Эти извлеченные факты затем используются для ответов на поисковые запросы.
Яндекс патентует метод для решения проблемы нехватки данных при ранжировании (проблема «холодного старта»). Если у документа отсутствует значение для важного признака (например, поведенческих данных) по текущему запросу, система находит похожие прошлые запросы, по которым этот документ уже оценивался. Значения признаков из этих прошлых запросов переносятся и агрегируются для оценки документа по текущему запросу пропорционально степени их схожести.