Автор: Виктор Репин

Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает такие результаты в выдаче специальным индикатором и может ранжировать их выше. После запроса пользователя на удаление, система ускоряет повторное сканирование сайта и обновление индекса.

Патент Google, описывающий систему автоматического создания рекламных объявлений (креативов и ставок) путем сканирования сайта рекламодателя (например, страниц товаров). Система создает специальный индекс (Page-Ad Index), используя контент страниц как таргетинговые ключевые слова. Также описаны методы автоматического управления ставками на основе иерархии сайта или формул. Это механизм, лежащий в основе Dynamic Search Ads (DSA).

Патент Google, описывающий архитектуру Google News. Система агрегирует новости и позволяет пользователям или внешним сайтам создавать кастомизированные новостные ленты на основе запросов и предпочтений (включая источники, авторов и жанры). Также описан механизм динамической генерации связанного контента на основе взаимодействия пользователя с новостями.

Google использует метод обнаружения объектов, основанный на сегментации изображений. Система обучается связывать визуальные фрагменты (сегменты) с расположением всего объекта (Bounding Box). При анализе нового изображения система быстро определяет, какие объекты присутствуют и где они расположены, комбинируя прогнозы от разных сегментов. Это позволяет эффективно понимать содержание изображений для Поиска по картинкам и Google Lens.

Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.

Google использует систему для улучшения поисковой выдачи по запросам, содержащим имена людей. Система анализирует релевантные веб-страницы, обнаруживает наличие лиц (Face Detection) и определяет личность человека на фото, используя текстовые сигналы (alt-text, имя файла, окружающий текст). Наиболее качественное изображение лица затем отображается в сниппете.

Google оптимизирует визуальный поиск, группируя почти идентичные изображения (измененный размер, обрезка) в единый кластер. Система индексирует не отдельные картинки, а совокупность всех визуальных признаков («визуальных слов») из всех вариантов в кластере. Это повышает эффективность индекса и гарантирует согласованность результатов при поиске по изображению.

Google использует инфраструктурный механизм для эффективного хранения похожих документов. Система группирует документы (часто с одного хоста, используя реверсированные URL) в кластеры и сжимает их, удаляя повторяющиеся последовательности токенов внутри кластера. Индекс строится поверх этого сжатого пространства (Compressed Tokenspace), что экономит ресурсы, сохраняя при этом доступ ко всем версиям документов.

Google автоматически определяет географические регионы, связанные с новостным событием. Если язык региона отличается от языка пользователя, система переводит ключевые слова сюжета, ищет релевантные локальные статьи и интегрирует их в выдачу через машинный перевод, предоставляя локальную точку зрения на международные события.

Google использует систему для выбора дополнительного контента (например, рекламы или рекомендаций), который будет показан пользователю на просматриваемой странице. Система анализирует темы документа и тональность (sentiment) по отношению к этим темам. Затем она сравнивает этот контекст с историческими данными о кликах в похожих ситуациях, чтобы предсказать вероятность взаимодействия пользователя (Predicted Acceptance Score) и выбрать наиболее подходящий контент.

Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.

Google использует централизованную систему (Host Load Server) для управления скоростью сканирования. Система динамически распределяет максимальную пропускную способность веб-хоста между конкурирующими краулерами (например, Новости, Картинки, Основной поиск) на основе их приоритетов. Используется механизм «аренды» (Lease) и группировка хостов по IP-адресу для предотвращения перегрузки серверов и оптимизации бюджета сканирования.

Google использует историю потребления медиаконтента пользователем (музыка, фильмы, шоу) и фоновое аудио, захваченное микрофоном устройства во время ввода запроса, для персонализации поисковых подсказок (Autocomplete). Система идентифицирует сущности из недавно потребленного или воспроизводимого в данный момент контента и активно предлагает их в подсказках, направляя поисковое поведение пользователя.

Google использует высокоэффективный метод для сравнения и выравнивания изображений. Система выбирает ключевые участки (Tiles) с высокой детализацией, быстро вычисляет суммы пикселей в различных областях (Block Sums) с помощью технологии Summed Area Table (SAT) и создает компактные векторы признаков (Feature Vectors). Это позволяет Google масштабно и точно распознавать объекты, находить дубликаты и выполнять визуальный поиск.

Анализ инфраструктурного патента Google, описывающего метод повышения эффективности метапоиска. Система консолидирует результаты от разных алгоритмов, отправляя уникальные URL только один раз вместе с компактными «векторами позиций». Это позволяет пользователю переключать или смешивать разные варианты выдачи локально в браузере, экономя трафик и снижая нагрузку на сервер.

Google использует систему для автоматического перевода ключевых слов (например, для рекламы или тегирования контента), учитывая локальные особенности языка. Система переводит исходное слово, находит синонимы и проверяет, какие варианты чаще всего используются носителями языка в поисковых запросах, на сайтах и в социальных сетях. Наиболее частотный вариант выбирается как лучший локализованный перевод.

Патент описывает инфраструктуру Google для эффективного рендеринга веб-страниц в масштабах интернета. Система использует итеративный подход: если во время рендеринга обнаруживается отсутствующий ресурс (например, CSS или JS), процесс останавливается, ресурс ставится в очередь на сканирование, а рендеринг страницы перезапускается позже. Это позволяет индексировать контент, не перегружая внешние серверы запросами в реальном времени.

Google использует механизм визуальных уточнений в поиске по изображениям. Когда пользователь вводит общий запрос, система предлагает связанные уточненные запросы, сопровождая их репрезентативным изображением. Это позволяет пользователю предварительно оценить результаты уточнения в оверлейном окне, не покидая текущую выдачу, и направляет трафик на более релевантные изображения.

Google использует систему группировки поисковых подсказок (автозаполнения) в интерфейсах карт. Система определяет основной термин запроса (например, «отели») и группирует связанные уточнения (например, «рядом с Oakland» или «люкс»). Ключевая особенность — выбор типа уточнений (географические или качественные) динамически зависит от текущего масштаба и местоположения, отображаемого на карте.

Google автоматически оценивает техническое качество мультимедиа (видео, аудио, изображений) с помощью Production Quality Score. Система обучается на основе относительных сравнений асессоров и анализирует технические признаки (визуальные, аудио, метаданные, качество текста). Этот скор используется для ранжирования в поиске и определения стоимости рекламы.