С 28 по 31 декабря 2023 года в Гуанчжоу, Китай, прошла 19-я конференция молодых ученых CSIG, организованная Китайским обществом изображения и графики. Конференция привлекла экспертов и молодых ученых из академических и деловых кругов и была ориентирована на международные академические границы В соответствии с национальными стратегическими потребностями сосредоточить внимание на новейших передовых технологиях и Горячие области: совместно обсуждайте передовые проблемы в области графической графики и делитесь последними результатами исследований и инновационными идеями. На специальной сессии, посвященной большим моделям в вертикальных полях, доктор Дин Кай, заместитель генерального директора и старший инженер Hehe. Нас возглавил отдел информационных интеллектуальных технологических платформ. Представляем доклад по теме «Размышление и исследование больших моделей изображений документов».
В этой статье основное внимание будет уделено следующим вопросам, а в тематическом отчете будут представлены проблемы исследования и глубокие размышления в области интеллектуальной обработки изображений документов в эпоху больших моделей:
UPOCR — это единая модель OCR на уровне пикселей, предложенная Объединенной лабораторией анализа, распознавания и понимания изображений документов Hehe Information-South China University в декабре 2023 года. Архитектура кодера-декодера UPOCR на основе визуального преобразователя (ViT),Преобразование различных задач OCR в парадигму преобразования изображений в изображения.,и представили обучаемые подсказки к задачам,Поместите общее представление объекта, извлеченное кодировщиком, в пространство для конкретной задачи.,Сообщите о задаче декодера. Эксперименты показывают,Модели могут иметь функции моделирования для разных задач.,Возможность одновременно добиться стирания текста、текстразделениеи篡改текст检测等像素级OCRЗадача。
В настоящее время область общего распознавания символов (OCR) сталкивается с рядом серьезных проблем, которые фактически ограничивают ее широкое применение в различных областях применения.
UPOCR — это общая модель OCR, в которой используется команда AAAI Южно-Китайского технологического университета. ViTERaser в 2024 году принял бумаги в качестве магистральной сети,В то же время для самостоятельного предварительного обучения используется SegMIM, метод предварительного обучения изображения документа с самоконтролем, основанный на руководстве по карте сегментации MIMi.,然后结合текст擦除、текстразделениеи篡改текст检测等3个不同的Задача提示词进行единыйтренироваться。
После обучения модели ее можно напрямую использовать для последующих задач.,Незачем, а затем провести специальную доводку,Модель в основном изучается с трех аспектов: единыйпарадигма, единая архитектура и единая стратегия обучения.
Как показано на картинке,Автор предлагает задачу OCR единыйпарадигма.,Он преобразует различные задачи OCR на уровне пикселей в задачи преобразования RGB в RGB. Хотя цели этих задач разные (например, генерация изображений и сегментация),Но их всех можно рассматривать как действующие в общем пространстве функций:
Как показано на картинке,Автор реализует парадигму перевода изображения в изображение, приняв кодер-декодер на основе ViT для решения различных задач OCR на уровне пикселей. в,Архитектура кодировщика-декодера использует ViTERaser в качестве магистральной сети.,Кодировщик состоит из четырех последовательных блоков.,Каждый блок кодера содержит слой внедрения блоков для понижающей дискретизации и Swin. Transformer блок v2. Часть декодера состоит из пяти последовательных блоков, каждый блок декодера содержит слой разделения блоков для повышения дискретизации и Swin. Transformer блок v2. Кроме того, авторы вводят обучаемые подсказки задач в архитектуру кодировщика-декодера, и соответствующие подсказки добавляются к каждому пикселю скрытых функций, генерируемых кодировщиком, перемещая общие представления, связанные с распознаванием текста, сгенерированные кодировщиком, в область, специфичную для задачи. . Затем декодер преобразует скорректированные скрытые функции в выходные изображения для конкретной задачи. Основываясь на этой архитектуре, UPOCR может просто и эффективно выполнять несколько задач одновременно с минимальными параметрами и вычислительными затратами.
Поскольку модель обучается с использованием парадигмы преобразования изображений в изображения.,Итак, в процессе обучения,Цель оптимизации модели должна учитывать только минимизацию разницы между сгенерированным прогнозируемым изображением и реальным изображением в пространстве пикселей и пространстве признаков.,без учета различий между задачами.
Результаты эксперимента показаны в трех таблицах выше.,Таблица в левом верхнем углу представляет собой сравнение экспериментов по стиранию текста.,Даже по сравнению с точно настроенными моделями стирания, специфичными для конкретной предметной области.,Модель UPOCRединый также опережает метод SOTA в данной области по большинству показателей. Таблица в правом верхнем углу представляет собой сравнение экспериментов по сегментации текста и изображений;,можно увидеть,UPOCR лучше, чем однозадачные методы сегментации по всем показателям, таблица в левом нижнем углу — обнаружение подделки текста;,УПЦР также добился хороших результатов. На рисунке 5 показано, что подсказки, связанные с задачами, разработанные с помощью модели UPOCR, также могут хорошо различать разные задачи.,下图是текст擦除、разделение、И наглядная сравнительная таблица обнаружения несанкционированного доступа и методов SOTA для существующих подзадач.
В итоге,UPOCR предлагает простой и эффективный интерфейс OCR на уровне пикселей.,Он использует кодер-декодер на базе ViT.,Решайте различные задачи с помощью обучаемых подсказок,在текст去除、текстразделениеи篡改текст检测等Задача上都表现出极高的性能。
Бумажный адрес:https://link.springer.com/chapter/10.1007/978-3-031-19815-1_29
Адрес проекта:https://github.com/clovaai/donut
Модель Donut — это новая модель VDU без оптического распознавания символов, основанная на архитектуре Transformer. Модель Donut сначала генерирует макет с помощью простого правила, а затем применяет некоторые методы рендеринга изображений для имитации реальных документов, что выполняется в два этапа предварительной обработки. -обучение и доводка поезда. На этапе предварительного обучения модель использует набор данных IIT-CDIP для моделирования визуального языка и учится читать текст с изображений. На этапе тонкой настройки модель обучается генерировать выходные данные в формате JSON для решения последующих задач, таких как классификация документов, извлечение информации о документе и визуальный ответ на вопросы документа. По сравнению с другими моделями на основе OCR, Donut не нуждается в механизме OCR и поэтому имеет более высокую скорость и меньший размер модели. Эксперименты с несколькими общедоступными наборами данных показывают, что Donut демонстрирует повышенную производительность в задачах классификации документов.
Бумажный адрес:https://arxiv.org/abs/2308.13418
Адрес проекта:https://github.com/facebookresearch/nougat
Модель Nougat — это модель оптического распознавания символов, которая реализует изображение документа для вывода последовательности документов с помощью Swing Transformer и Transformer Decoder. Модель использует метод сквозного обучения, основанный на преобразователе без оптического распознавания символов, и обучается с использованием предварительного обучения и точной обработки. тюнинг. На этапе предварительного обучения Donut проходит предварительное обучение с использованием изображений документов и их текстовых аннотаций, обучаясь чтению текста путем объединения изображения и предыдущего текстового контекста для прогнозирования следующего слова. На этапе тонкой настройки Donut учится понимать весь документ на основе последующих задач. Обширные оценки различных задач и наборов данных VDU демонстрируют сильные способности Donut к пониманию.
Бумажный адрес:https://arxiv.org/abs/2112.07917
Адрес проекта:https://github.com/shannanyinxiang/SPTS
SPTS, полное название Single-Point Text Spotting, представляет собой технологию одноточечного распознавания текста. Ее главное нововведение заключается в том, что метод использует чрезвычайно недорогие одноточечные аннотации для обучения формализации задачи обнаружения текста в задачу языкового моделирования. , только необходимо пометить каждый экземпляр текста в одной точке, чтобы обучить модель распознавания текста сцены. SPTS основан на авторегрессионной платформе Transformer, которая просто генерирует результаты в виде последовательных токенов, что позволяет избежать сложных этапов постобработки или эксклюзивных этапов выборки. Основываясь на такой краткой структуре, SPTS демонстрирует повышенную производительность на различных наборах данных.
Модель большого языка может понимать текст на естественном языке и понимать контекст. В приложениях для распознавания и анализа документов работа, связанная с пониманием документов, передается модели большого языка, а автоматическое понимание и анализ документов на уровне глав может помочь. система для лучшего понимания содержания документа, включая связи в контексте, распознавание объектов, анализ настроений и т. д. В настоящее время к наиболее распространенным и широко распространенным приложениям относятся улучшенная генерация поиска (RAG), вопросы и ответы по документам, а также анализ макета.
Интеллектуальная обработка документов (IDP) использует технологию искусственного интеллекта и машинного обучения для автоматического анализа и понимания документов. Она улучшает бизнес-процессы путем идентификации, анализа, понимания содержания документов и преобразования его в полезные данные или информацию. Степень автоматизации повышает эффективность работы и повышает эффективность работы. снижает затраты. Доктор Дин Кай также представил нам Hehe Information, распознавание изображений документов и обмен продуктами для анализа. На основе такой интеллектуальной технологии обработки документов продукт может быстро и точно обрабатывать большое количество документов, помогая банкам, страхованию, логистике, цепочке поставок и клиентам. service Цифровая трансформация во многих сферах, включая более эффективное и надежное управление бизнес-процессами.
Хотя технология мультимодальных больших моделей, представленная GPT4-V, значительно продвинула технологический прогресс в области распознавания и анализа документов, она не полностью решила проблемы, с которыми сталкиваются в области обработки документов-изображений. Есть еще много проблем, заслуживающих нашего внимания. Как объединить Способность больших моделей лучше решать проблемы ВПЛ заслуживает большего размышления и изучения.