CVPR2024 | Для семантического восприятия реального изображения сверхвысокого разрешения команда Чжан Лея из Гонконгского политехнического института предложила SeeSR, исходный код которого открыт.

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

CVPR2024 | Для семантического восприятия реального изображения сверхвысокого разрешения команда Чжан Лея из Гонконгского политехнического института предложила SeeSR, исходный код которого открыт.

Подпишитесь на "AIWalker" и поставьте ему звездочку.

Отныне ИИ никогда не потеряется

https://arxiv.org/abs/2311.16518 https://github.com/cswry/SeeSR

Краткое содержание этой статьи

Получите выгоду от создания априоров благодаря мощным,Распространение предварительно обученного текста в изображение (T2I) Модельсуществовать становится все более популярной при решении реальных задач сверхразрешения изображений.。Однако,Сильное ухудшение качества изображения из-за входного низкого разрешения (LR),Разрушение локальной структуры может привести к неоднозначной семантике изображения.,Это, в свою очередь, приводит к воспроизведению изображений и контента высокого разрешения, которые могут содержать смысловые ошибки.,Таким образом, производительность сверхвысокого разрешения ухудшается.

Чтобы решить эту проблему,В данной статье предлагается метод семантического восприятия.,Создавайте реальные изображения сверхвысокого разрешения с лучшим сохранением семантической точности.。

первый,Автор тренируетСредство извлечения подсказок с учетом деградации,Даже если существование сильно деградировало из-за,Он также может генерировать точные мягкие и жесткие семантические подсказки.。Жесткие семантические подсказки ссылаются на теги изображений.,Цель существования: улучшить способность T2 Modeliz к местному восприятию.,Мягкие семантические сигналы компенсируют жесткие семантические сигналы.,Предоставить дополнительныеиз Представлять информацию。Эти семантические сигналы могут стимулировать T2I Модель генерирует подробный и семантически точный результат.
также,существовать в процессе рассуждения,Интегрируйте изображения LR в исходный дискретный шум,Чтобы смягчить диффузию, модель склонна генерировать слишком много случайных деталей из。

Эксперименты показывают, что авторский метод позволяет воспроизводить более реалистичные детали изображения и лучше сохранять семантику.

Отправная точка этой статьи

Чтобы раскрыть генеративный потенциал предварительно обученных моделей T2I, избегая при этом семантических искажений в выходных данных Real-ISR, авторы исследовали использование трех репрезентативных стилей семантических сигналов, включая стиль классификации, стиль заголовка и стиль меток. В частности, автор использует подсказки в стиле категории, стиле заголовка и стиле тега соответственно.

Категориальные подсказки предоставляют только одну метку категории для всего изображения, что делает его устойчивым к ухудшению качества изображения из-за его глобального представления.。Однако,Такие подсказки не способны обеспечить семантическую поддержку локальных объектов.,Особенно существование содержит несколько сущностей из сцены. Как показано на рисунке. Как показано на рисунках 1(b) и 1(f).,Извлечение категориальных сигналов из изображений LR и HR с помощью,Real-ISRрезультат практически неотличим от получения изрезультата с использованием пустой подсказки (см. рисунок 1(e)).
Подсказки к заголовку содержат предложение, описывающее соответствующее изображение.,По сравнению с категоричными подсказками,Предоставляет более подробную информацию。Однако,У него все еще есть два недостатка. первый,из Избыточные предлоги и наречия в таких подсказках могут отвлечь внимание T2I Модельиз на деградацию объекта. Во-вторых,Из-за ухудшения качества изображения LR из-за удара,Семантические ошибки склонны к возникновению. Как показано на рисунке 1(c),Из-за некорректного извлечения заголовка из изображения LR.,T2IМодель неправильно воссоздала птицу вместо корабля.
Помеченные подсказки предоставляют информацию обо всех категориях объектов на изображении.,По сравнению с подсказками в заголовке,Предоставьте более подробное описание объекта。Даже если это не предусмотренообъектинформация о местоположении,Было обнаружено, что T2IМодель также может выравнивать семантические сигналы с соответствующими областями изображения благодаря своим базовым возможностям семантической сегментации. К сожалению, это,Похоже на: Модель подзаголовка,Маркировка Модель также подвержена ухудшению качества изображения из-за,Это приводит к ошибкам в смысловых подсказках и смысловым искажениям результата реконструкции. Как показано на рисунке 1(d),Неправильная смысловая подсказка «самолет» приводит к искажению реконструкции корабля.

Различные советы и особенности стиля обобщены в разделе «Автор указан 1». Это мотивирует автора,Было бы полезно, если бы автор мог настроить подсказки по стилю тегов для понижения версии программного обеспечения. T2I Модели генерируют высококачественные Real-ISR выход,сохраняя при этом правильностьизрезультатсемантика изображения。

План этой статьи

Судя по приведенному выше обсуждению,делатьАвтор рекомендует начинать с LR Извлекайте высококачественные метки из изображений для проведения предварительной подготовки. T2I модель для создания семантически сохраняющей Real-ISR результат。делать者提出изметодизрамка,То есть Semantic Aware SR (см. SR).,Как показано на картинке выше. Обучение SeeSRиз проходит в два этапа:

существуют первая ступень (рисунок 2(а)),Авторы разработали средство извлечения подсказок с учетом деградации (DAPE), которое состоит из кодера изображений и головки тегов.。Ожидайте исходный тег, используя Модель,Изображение LR из представления объекта и вывода метки может быть как можно ближе к соответствующему изображению HR из представления объекта и вывода метки.
Научитесь из DAPE копируется на второй этап (рис. 2(b)）,Извлечение представлений и меток объектов (в виде текстовых подсказок) из входных изображений LR.,这些特征表示и标签делать为预训练 T2I Моделирование управляющих сигналов для создания визуально приятных и семантически правильных Real-ISR результат。

Во время вывода необходим только второй этап для обработки входного изображения. На рисунке 2(c) показано совместное взаимодействие ветви изображения, ветви представления функций и ветви текстовых подсказок при управлении предварительно обученной моделью T2I.

Напоминание о деградации

DAPE настраивается на основе предварительно обученной модели меток (т. е. ОЗУ). Как показано на рисунке 2(а), изображение HR

Встраивание представлений через выходные данные модели замороженной метки

f_x^{rep}

и встраивание логитов

f_x^{logits}

Служит якорем для наблюдения за обучением DAPE. LR-изображения y получаются путем применения случайной деградации к x и подачи их в обучаемый кодер изображений и маркировочную головку. Чтобы сделать DAPE устойчивым к ухудшению изображения, мы заставляем встраивание представления и встраивание логитов ветки LR быть близкими к встраиванию ветки HR.

\mathcal{L}_{DAPE} = \mathcal{L}_r(f_y^{rep}, f_x^{rep}) + \lambda \mathcal{L}_l(f_y^{logits}, f_x^{logits})

После тренировки,DAPE Просто играй из LR играет ключевую роль в извлечении надежных семантических подсказок из изображений.。Советы можно разделить на две категории：Жесткое напоминание（то есть из заголовка тегаизтекст метки）и мягкие подсказки（то есть из кодера изображенийиз Представляет встраивание）。Как показано на картинке。Как показано на картинке2(b)и2(c)показано,Жесткие подсказки передаются непосредственно во встроенный в T2IМодель кодировщик стоп-текста.,улучшить свое местное понимание. Насыщенность текстовых подсказок контролируется заранее заданным пороговым значением. Если порог слишком высок,Точность категорий прогнозов повысится,Но это повлияет на скорость отзыва,наоборот. поэтому,Используйте подсказки с мягкими метками, чтобы компенсировать ограничения жестких подсказок.,Не зависит от порога,Избегайте проблемы низкой информационной энтропии, вызванной подсказками с жесткими категориями.

См. обучение SR

Рисунок 2(c) иллюстрирует подробную структуру модели контролируемой диффузии T2I. Учитывая успешное применение ControlNet при генерации условного изображения, мы используем его в качестве контроллера нашей модели T2I для целей Real-ISR. Конкретно,

Мы проведем предварительное обучение SD Модельсерединаиз Unet Кодировщик клонируется как обучаемая копия для инициализации. ControlNet。
Чтобы включить мягкие сигналы в процесс распространения, мы используем PASD Для изучения семантического руководства предлагается механизм перекрестного внимания. Добавьте модуль Representation Cross Attention (RCA) в Unet в месте после модуля «Перекрестное внимание к тексту» (TCA). Обратите внимание, что случайная инициализация RCA Модули и энкодеры клонируются одновременно.
Помимо текстовой ветки и ветки представления, для реконструкции также необходима ветка изображений. HR играть роль в имидже. мы будем LR Изображение передается через обучаемый кодер изображений для получения LR Отправьте существующее изображение и импортируйте его в Контрол Нет. Структура обучаемого кодера изображений такая же, как и структура серединаiz.

Вложение LR времени вывода

SD Ждите предварительные тренировки T2IСуществовать Модель Фаза обучения не полностью преобразует изображение в случайный гауссов шум. Однако,существовать в процессе рассуждения,Большинство существующих методов SDizReal-ISR используют случайный гауссов шум в качестве отправной точки.,привести кРазличия в обработке шума между обучением и выводом。

существовать Real-ISR В ходе миссии мы заметили, что эта разница заставляет Модель воспринимать деградацию как необходимость улучшения содержания, особенно гладких областей, таких как существование, как показано на рисунке. 3 из顶行показано。Чтобы решить эту проблему,Мы предлагаем встроить задержку LR непосредственно в исходный случайный гауссов шум согласно планировщику обучающего шума.。Эта стратегия работает для большинства, основываясь на SD из Real-ISR метод. Как показано на картинке 3 из底行показано,Предлагаемая стратегия внедрения LR (LRE) значительно устраняет несогласованность между обучением и выводом.,Обеспечивает более точную отправную точку для распространения Модели.,Это подавляет большое количество артефактов в области неба.。

Эксперимент в этой статье

Рекомендация

Категории

Модель дизайн объект Открытый исходный код программное обеспечение

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле