Подпишитесь на "AIWalker" и поставьте ему звездочку.
Отныне ИИ никогда не потеряется
https://arxiv.org/abs/2311.16518 https://github.com/cswry/SeeSR
Получите выгоду от создания априоров благодаря мощным,Распространение предварительно обученного текста в изображение (T2I) Модельсуществовать становится все более популярной при решении реальных задач сверхразрешения изображений.。Однако,Сильное ухудшение качества изображения из-за входного низкого разрешения (LR),Разрушение локальной структуры может привести к неоднозначной семантике изображения.,Это, в свою очередь, приводит к воспроизведению изображений и контента высокого разрешения, которые могут содержать смысловые ошибки.,Таким образом, производительность сверхвысокого разрешения ухудшается.
Чтобы решить эту проблему,В данной статье предлагается метод семантического восприятия.,Создавайте реальные изображения сверхвысокого разрешения с лучшим сохранением семантической точности.。
Эксперименты показывают, что авторский метод позволяет воспроизводить более реалистичные детали изображения и лучше сохранять семантику.
Чтобы раскрыть генеративный потенциал предварительно обученных моделей T2I, избегая при этом семантических искажений в выходных данных Real-ISR, авторы исследовали использование трех репрезентативных стилей семантических сигналов, включая стиль классификации, стиль заголовка и стиль меток. В частности, автор использует подсказки в стиле категории, стиле заголовка и стиле тега соответственно.
Различные советы и особенности стиля обобщены в разделе «Автор указан 1». Это мотивирует автора,Было бы полезно, если бы автор мог настроить подсказки по стилю тегов для понижения версии программного обеспечения. T2I Модели генерируют высококачественные Real-ISR выход,сохраняя при этом правильностьизрезультатсемантика изображения。
Судя по приведенному выше обсуждению,делатьАвтор рекомендует начинать с LR Извлекайте высококачественные метки из изображений для проведения предварительной подготовки. T2I модель для создания семантически сохраняющей Real-ISR результат。делать者提出изметодизрамка,То есть Semantic Aware SR (см. SR).,Как показано на картинке выше. Обучение SeeSRиз проходит в два этапа:
Во время вывода необходим только второй этап для обработки входного изображения. На рисунке 2(c) показано совместное взаимодействие ветви изображения, ветви представления функций и ветви текстовых подсказок при управлении предварительно обученной моделью T2I.
DAPE настраивается на основе предварительно обученной модели меток (т. е. ОЗУ). Как показано на рисунке 2(а), изображение HR
Встраивание представлений через выходные данные модели замороженной метки
и встраивание логитов
Служит якорем для наблюдения за обучением DAPE. LR-изображения y получаются путем применения случайной деградации к x и подачи их в обучаемый кодер изображений и маркировочную головку. Чтобы сделать DAPE устойчивым к ухудшению изображения, мы заставляем встраивание представления и встраивание логитов ветки LR быть близкими к встраиванию ветки HR.
После тренировки,DAPE Просто играй из LR играет ключевую роль в извлечении надежных семантических подсказок из изображений.。Советы можно разделить на две категории:Жесткое напоминание(то есть из заголовка тегаизтекст метки)и мягкие подсказки(то есть из кодера изображенийиз Представляет встраивание)。Как показано на картинке。Как показано на картинке2(b)и2(c)показано,Жесткие подсказки передаются непосредственно во встроенный в T2IМодель кодировщик стоп-текста.,улучшить свое местное понимание. Насыщенность текстовых подсказок контролируется заранее заданным пороговым значением. Если порог слишком высок,Точность категорий прогнозов повысится,Но это повлияет на скорость отзыва,наоборот. поэтому,Используйте подсказки с мягкими метками, чтобы компенсировать ограничения жестких подсказок.,Не зависит от порога,Избегайте проблемы низкой информационной энтропии, вызванной подсказками с жесткими категориями.
Рисунок 2(c) иллюстрирует подробную структуру модели контролируемой диффузии T2I. Учитывая успешное применение ControlNet при генерации условного изображения, мы используем его в качестве контроллера нашей модели T2I для целей Real-ISR. Конкретно,
SD Ждите предварительные тренировки T2IСуществовать Модель Фаза обучения не полностью преобразует изображение в случайный гауссов шум. Однако,существовать в процессе рассуждения,Большинство существующих методов SDizReal-ISR используют случайный гауссов шум в качестве отправной точки.,привести кРазличия в обработке шума между обучением и выводом。
существовать Real-ISR В ходе миссии мы заметили, что эта разница заставляет Модель воспринимать деградацию как необходимость улучшения содержания, особенно гладких областей, таких как существование, как показано на рисунке. 3 из顶行показано。Чтобы решить эту проблему,Мы предлагаем встроить задержку LR непосредственно в исходный случайный гауссов шум согласно планировщику обучающего шума.。Эта стратегия работает для большинства, основываясь на SD из Real-ISR метод. Как показано на картинке 3 из底行показано,Предлагаемая стратегия внедрения LR (LRE) значительно устраняет несогласованность между обучением и выводом.,Обеспечивает более точную отправную точку для распространения Модели.,Это подавляет большое количество артефактов в области неба.。