Поделиться этой статьей CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
,Зависит от Байду Предложите новую визуальную основу ВИТ-Ко Мер, обновление интенсивных задач прогнозирования SOTA。
Эффект обнаружения SOTA
Без добавления дополнительных обучающих данных Ви Т-Ко Мер-Л хорошо справляется с тестом обнаружения целей. COCO Достигнуто 64,3% на val2017 AP。ранее протестированоSOTAалгоритмдляCo-DETR,без добавления дополнительныхданныечасCo-DETR的效果для60.7% AP использует ViT-CoMer для замены исходной магистрали (Swin-L) и использует BEiTv2*, предоставляемый ViT-Adapter, в качестве предварительного обучения. Его эффект обнаружения может достигать 64,3%. AP по сравнению с другими алгоритмами того же размера, ViT-CoMer, показывает лучшие результаты.
Эффект сегментации SOTA
Ви Т-Ко Мер-Л в семантической сегментации benchmark ADE20K Получил 62,1% по валу mIoU, эффект SOTA с менее чем 1 миллиардом параметров.на основеMask2Formerразделениеалгоритм,Сравнение ViT-CoMer и других продвинутых магистральных сетей (таких как RevCol-H),Ви Т-Адаптер-Л и др.),Это видно из таблицы 7.,в аналогичном размере,«ВИТ-Ко Мералгоритм» добился СОТА-эффекта,Даже сравним с другими более крупными моделями (Ви Т-Адаптер-Г).,параметр 1Б)
Маленький размер, большая энергия
Малый можно использовать и как Большой, Ви Т-Ко Мер-С (1/6 Параметры Ви Т-Л ) для достижения результатов обнаружения, сравнимых с Ви Т-Л.на основе经典的Mask В системе обнаружения R-CNN мы сравнили влияние на набор данных COCO по томам и магистральным сетям и были удивлены, обнаружив, что ViT-CoMer-Small (только 1/6 параметров ViT-Large) может достичь того же эффекта. как ViT-Large, а при использовании более продвинутого предварительного обучения эффект улучшается за счет разницы поколений.
Различные шкалы имеют сильные эффекты
«Ви Т-Ко Мер» может достигать эффектов SOTA при различных масштабах параметров.同样на основеMask-RCNNОбнаружениерамка,Мы сравнили влияние различных магистралей на набор данных COCO.,Не сложно найти,Производительность ViT-CoMer превосходит другие продвинутые магистральные сети при различных масштабах параметров и различных конфигурациях обучения.
Эффективность обучения и push-уведомлений очень мощная (содержимое Rebuttle будет добавлено в github позже)
По тому же эффекту ViT-CoMer лучше справляется с обучением и выводом (более короткие затраты времени). На основе системы обнаружения Mask-RCNN сравниваются и анализируются характеристики ViT-Large, ViT-Adapter-Large и ViT-CoMer-Base-light. Видно, что ViT-CoMer-Base-light (с использованием маленького. количество модулей CTI) Получите лучшие результаты за более короткое время обучения и вывода.
Используйте расширенное предварительное обучение по нулевой цене.
Ви Т-Ко Мер может напрямую загружать различные предобучения (такие как ImagNet-1K, ImageNet-22K, MM и т.д.).на основеMask-RCNNОбнаружение和UperNetразделениерамка,Используйте Imagenet-1K последовательно,Предварительно обученная ветвь инициализации ViT, такая как Imagenet-22K и мультимодальность. Из Таблицы 3 и Таблицы 6 мы видим, что чем сильнее предтренировочный,алгоритм Чем лучше.
Эффективно совместим с различными платформами алгоритмов.
ViT-CoMer может быть напрямую встроен в различные системы обнаружения.ВоляViT-CoMerМигрировать вCascade Из таблицы 2 видно, что в таких средах обнаружения, как Mask-RCNN, ATSS и GFL, ViT-CoMer более эффективен, чем другие магистральные сети.
Легко адаптируется к различным трансформерам
CoMer может не только адаптироваться к структуре ViT, но и другие базовые магистральные сети (например, Swin) также могут быть легко адаптированы.我们尝试ВоляCoMerМигрировать вViTКромеTransformerрамкасередина,Мы были приятно удивлены, обнаружив,CoMer также может сыграть в этом свою роль.,Как видно из таблицы 11,После адаптации эффект X-CoMer лучше, чем у базовой модели.
Эффективная стратегия PEFT (контент с опровержением будет добавлен на github позже)
CoMer также можно использовать в качестве эффективной стратегии PEFT.когда мыfreezeжитьViTчасть,Обучайте только некоторые параметры CoMer,Видно, что эффект CoMer лучше, чем у LoRA (ViT-CoMer-L (заморозка ViT) > ViT-L(full-tune) > ViT-L(freeze ViT + LoRA))。
Задачи плотного прогнозирования – это не предел
Помимо задач плотного прогнозирования, мы также опробовали влияние Ви Т-Ко Мера на задачи классификации. Мы сравнили результаты ViT и ViT-CoMer на наборе данных Imagenet, и эксперимент показывает, что наш алгоритм по-прежнему очень конкурентоспособен.
Текущая магистральная сеть Transformer имеет следующие проблемы при выполнении интенсивных задач прогнозирования:
В ответ на три вышеупомянутые проблемы компания Vit-CoMer провела следующие оптимизации:
Архитектура сети ViT-CoMer очень проста (как показано на рисунке 3), в которой ViT занимает основную часть (как показано в красном блоке 1), адаптируясь к облегченной структуре CNN (как показано в зеленом блоке). Вся структура содержит 2 ключевых модуля: MRFP (например, Green 2) и CTI (например, Green 3). Основная функция MRFP — дополнять информацию о многомасштабных и локальных функциях. Роль CTI заключается в расширении информации о различных архитектурных особенностях.
MRFP состоит из пирамиды признаков и сверточного слоя мультирецепторных полей. Пирамида функций может предоставить богатую многомасштабную информацию, а последняя расширяет восприимчивое поле за счет различных ядер свертки, расширяя возможности моделирования функций CNN на больших расстояниях. Этот модуль показан на рисунке 4.
CTI — это метод объединения функций между архитектурами, как показано на рисунке 5. Без изменения структуры ViT вводятся многомасштабные функции CNN. Поскольку ViT представляет собой одномасштабную функцию, а CNN является многомасштабной функцией, функции того же масштаба, что и ViT, в CNN добавляются непосредственно во время реализации ( Преимущество, просто и эффективно). В то же время над добавленными функциями выполняются многомасштабные операции самообслуживания, так что на функции разных масштабов также можно ссылаться и улучшать. Благодаря модулю двустороннего взаимодействия CTI решает проблему отсутствия локального информационного взаимодействия и неиерархических функций в ViT, одновременно расширяя возможности моделирования на больших расстояниях и семантического представления CNN.
Визуальный сравнительный анализ обнаружения целей и сегментации экземпляров
По сравнению с ВИТ:С картинки6Это можно увидеть,ViT-CoMer создает более иерархические многомасштабные функции,Богатые локальные края и текстуры,Улучшено обнаружение объектов и сегментация экземпляров.
По сравнению с ViT-Adapter (контент Rebuttle будет добавлен на github позже):С картинки1Это можно увидеть,ViT-Adapter и ViT-CoMer имеют богатую многомасштабную текстурную информацию.,Но по сравнению с Ви Т-Адаптером, Детализация информации у «Ви Т-Ко Мер» еще выше. Пожалуйста, прочитайте исходный текст и код для более подробной информации.
Reference Xia, C., Wang, X., Lv, F., Hao, X., & Shi, Y. (2024). ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions.