[Большая модель вертикального поля CSIG 2023] Как в эпоху больших моделей завершить унификацию оптического распознавания символов в области интеллектуальной обработки документов IDP?
[Большая модель вертикального поля CSIG 2023] Как в эпоху больших моделей завершить унификацию оптического распознавания символов в области интеллектуальной обработки документов IDP?

С 28 по 31 декабря 2023 года в Гуанчжоу, Китай, прошла 19-я конференция молодых ученых CSIG, организованная Китайским обществом изображения и графики. Конференция привлекла экспертов и молодых ученых из академических и деловых кругов и была ориентирована на международные академические границы В соответствии с национальными стратегическими потребностями сосредоточить внимание на новейших передовых технологиях и Горячие области: совместно обсуждайте передовые проблемы в области графической графики и делитесь последними результатами исследований и инновационными идеями. На специальной сессии, посвященной большим моделям в вертикальных полях, доктор Дин Кай, заместитель генерального директора и старший инженер Hehe. Нас возглавил отдел информационных интеллектуальных технологических платформ. Представляем доклад по теме «Размышление и исследование больших моделей изображений документов».

В этой статье основное внимание будет уделено следующим вопросам, а в тематическом отчете будут представлены проблемы исследования и глубокие размышления в области интеллектуальной обработки изображений документов в эпоху больших моделей:

  • Какое вдохновение может привнести представительная большая модель GPT4-V Gemini в исследования и разработку технических решений в области IDP?
  • Можем ли мы извлечь уроки из преимуществ больших моделей и предложить единую модель OCR с хорошей точностью и сильным обобщением?
  • Может ли LLM лучше сочетаться с механизмами анализа распознавания документов для решения основных проблем в области ВПЛ?

1. Унифицированная модель оптического распознавания символов на уровне пикселей: UPOCR.

UPOCR — это единая модель OCR на уровне пикселей, предложенная Объединенной лабораторией анализа, распознавания и понимания изображений документов Hehe Information-South China University в декабре 2023 года. Архитектура кодера-декодера UPOCR на основе визуального преобразователя (ViT),Преобразование различных задач OCR в парадигму преобразования изображений в изображения.,и представили обучаемые подсказки к задачам,Поместите общее представление объекта, извлеченное кодировщиком, в пространство для конкретной задачи.,Сообщите о задаче декодера. Эксперименты показывают,Модели могут иметь функции моделирования для разных задач.,Возможность одновременно добиться стирания текста、текстразделениеи篡改текст检测等像素级OCRЗадача。

1.1. Почему предлагается УПЦР?

В настоящее время область общего распознавания символов (OCR) сталкивается с рядом серьезных проблем, которые фактически ограничивают ее широкое применение в различных областях применения.

  1. Фрагментация моделей, ориентированных на конкретные задачи. Хотя в полевых исследованиях OCR появилось множество моделей, ориентированных на конкретные задачи, каждая модель оптимизирована только для конкретной области. Модель слишком фрагментирована и сложна для совместного использования между различными задачами. Универсальность сцены сильно ограничена.
  2. Отсутствие интерфейсов: некоторые существующие общие модели полагаются на конкретные интерфейсы или механизмы декодирования, такие как VQGAN.,Эта зависимость ограничивает гибкость и адаптируемость модели в пиксельном пространстве.,Трудно соединить разные задачи.
  3. Проблемы оптического распознавания символов на уровне пикселей. Современные модели по-прежнему сталкиваются с проблемами при создании текстовых последовательностей на уровне пикселей. Это связано с тем, что генерация текста включает не только семантическое понимание, но также требует учета деталей на уровне пикселей. Улучшение способности модели генерировать текст на уровне пикселей по-прежнему остается важным направлением исследований.

1.2. Что такое УПЦР?

UPOCR — это общая модель OCR, в которой используется команда AAAI Южно-Китайского технологического университета. ViTERaser в 2024 году принял бумаги в качестве магистральной сети,В то же время для самостоятельного предварительного обучения используется SegMIM, метод предварительного обучения изображения документа с самоконтролем, основанный на руководстве по карте сегментации MIMi.,然后结合текст擦除、текстразделениеи篡改текст检测等3个不同的Задача提示词进行единыйтренироваться。

После обучения модели ее можно напрямую использовать для последующих задач.,Незачем, а затем провести специальную доводку,Модель в основном изучается с трех аспектов: единыйпарадигма, единая архитектура и единая стратегия обучения.

1.2.1、Unified Paradigm единый парадигма

Как показано на картинке,Автор предлагает задачу OCR единыйпарадигма.,Он преобразует различные задачи OCR на уровне пикселей в задачи преобразования RGB в RGB. Хотя цели этих задач разные (например, генерация изображений и сегментация),Но их всех можно рассматривать как действующие в общем пространстве функций:

  1. Задача стирания текста:для Задача стирания текста,Выходные данные представляют собой изображение с удаленным текстом, соответствующее входным данным.,Принадлежит задаче RGBtoRGB.
  2. задача сегментации текста:текстразделение Стремится назначить каждый пиксель на передний план(即текст笔画)или фон,Парадигма перевода изображений в изображения для единого,UPOCR предсказывает RGB-изображение с белым и черным цветом,Категория определяется путем сравнения расстояния сгенерированного значения RGB с предопределенным значением RGB переднего плана.
  3. Задача обнаружения поддельного текста:Воля Задача обнаружения поддельного текст определяется как попиксельная классификация подделанного текста, реального текста и категорий фона, а затем UPOCR присваивает красный цвет подделанному тексту, реальному тексту и фону соответственно (255, 0, 0), зеленый (0, 255, 0) и синий (0, 0, 255) Цвет. Во время вывода класс каждого пикселя определяется путем сравнения расстояния прогнозируемого значения RGB до этих трех цветов.

1.2.2、Unified Архитектура Единый Архитектура

Как показано на картинке,Автор реализует парадигму перевода изображения в изображение, приняв кодер-декодер на основе ViT для решения различных задач OCR на уровне пикселей. в,Архитектура кодировщика-декодера использует ViTERaser в качестве магистральной сети.,Кодировщик состоит из четырех последовательных блоков.,Каждый блок кодера содержит слой внедрения блоков для понижающей дискретизации и Swin. Transformer блок v2. Часть декодера состоит из пяти последовательных блоков, каждый блок декодера содержит слой разделения блоков для повышения дискретизации и Swin. Transformer блок v2. Кроме того, авторы вводят обучаемые подсказки задач в архитектуру кодировщика-декодера, и соответствующие подсказки добавляются к каждому пикселю скрытых функций, генерируемых кодировщиком, перемещая общие представления, связанные с распознаванием текста, сгенерированные кодировщиком, в область, специфичную для задачи. . Затем декодер преобразует скорректированные скрытые функции в выходные изображения для конкретной задачи. Основываясь на этой архитектуре, UPOCR может просто и эффективно выполнять несколько задач одновременно с минимальными параметрами и вычислительными затратами.

1.2.3、Unified Training Strategy единый Стратегия обучения

Поскольку модель обучается с использованием парадигмы преобразования изображений в изображения.,Итак, в процессе обучения,Цель оптимизации модели должна учитывать только минимизацию разницы между сгенерированным прогнозируемым изображением и реальным изображением в пространстве пикселей и пространстве признаков.,без учета различий между задачами.

1.3. Насколько эффективен УПЦР?

Результаты эксперимента показаны в трех таблицах выше.,Таблица в левом верхнем углу представляет собой сравнение экспериментов по стиранию текста.,Даже по сравнению с точно настроенными моделями стирания, специфичными для конкретной предметной области.,Модель UPOCRединый также опережает метод SOTA в данной области по большинству показателей. Таблица в правом верхнем углу представляет собой сравнение экспериментов по сегментации текста и изображений;,можно увидеть,UPOCR лучше, чем однозадачные методы сегментации по всем показателям, таблица в левом нижнем углу — обнаружение подделки текста;,УПЦР также добился хороших результатов. На рисунке 5 показано, что подсказки, связанные с задачами, разработанные с помощью модели UPOCR, также могут хорошо различать разные задачи.,下图是текст擦除、разделение、И наглядная сравнительная таблица обнаружения несанкционированного доступа и методов SOTA для существующих подзадач.

В итоге,UPOCR предлагает простой и эффективный интерфейс OCR на уровне пикселей.,Он использует кодер-декодер на базе ViT.,Решайте различные задачи с помощью обучаемых подсказок,在текст去除、текстразделениеи篡改текст检测等Задача上都表现出极高的性能。

2. Краткий обзор передовых исследований унифицированных моделей OCR.

2.1、Donut:Незачем OCR для понимания документа Модель трансформера

Бумажный адрес:https://link.springer.com/chapter/10.1007/978-3-031-19815-1_29

Адрес проекта:https://github.com/clovaai/donut

Модель Donut — это новая модель VDU без оптического распознавания символов, основанная на архитектуре Transformer. Модель Donut сначала генерирует макет с помощью простого правила, а затем применяет некоторые методы рендеринга изображений для имитации реальных документов, что выполняется в два этапа предварительной обработки. -обучение и доводка поезда. На этапе предварительного обучения модель использует набор данных IIT-CDIP для моделирования визуального языка и учится читать текст с изображений. На этапе тонкой настройки модель обучается генерировать выходные данные в формате JSON для решения последующих задач, таких как классификация документов, извлечение информации о документе и визуальный ответ на вопросы документа. По сравнению с другими моделями на основе OCR, Donut не нуждается в механизме OCR и поэтому имеет более высокую скорость и меньший размер модели. Эксперименты с несколькими общедоступными наборами данных показывают, что Donut демонстрирует повышенную производительность в задачах классификации документов.

2.2、NouGAT:Внедрить изображение документа в вывод последовательности документов

Бумажный адрес:https://arxiv.org/abs/2308.13418

Адрес проекта:https://github.com/facebookresearch/nougat

Модель Nougat — это модель оптического распознавания символов, которая реализует изображение документа для вывода последовательности документов с помощью Swing Transformer и Transformer Decoder. Модель использует метод сквозного обучения, основанный на преобразователе без оптического распознавания символов, и обучается с использованием предварительного обучения и точной обработки. тюнинг. На этапе предварительного обучения Donut проходит предварительное обучение с использованием изображений документов и их текстовых аннотаций, обучаясь чтению текста путем объединения изображения и предыдущего текстового контекста для прогнозирования следующего слова. На этапе тонкой настройки Donut учится понимать весь документ на основе последующих задач. Обширные оценки различных задач и наборов данных VDU демонстрируют сильные способности Donut к пониманию.

2.3. SPTS v3: унифицированная модель оптического распознавания символов на основе SPTS.

Бумажный адрес:https://arxiv.org/abs/2112.07917

Адрес проекта:https://github.com/shannanyinxiang/SPTS

SPTS, полное название Single-Point Text Spotting, представляет собой технологию одноточечного распознавания текста. Ее главное нововведение заключается в том, что метод использует чрезвычайно недорогие одноточечные аннотации для обучения формализации задачи обнаружения текста в задачу языкового моделирования. , только необходимо пометить каждый экземпляр текста в одной точке, чтобы обучить модель распознавания текста сцены. SPTS основан на авторегрессионной платформе Transformer, которая просто генерирует результаты в виде последовательных токенов, что позволяет избежать сложных этапов постобработки или эксклюзивных этапов выборки. Основываясь на такой краткой структуре, SPTS демонстрирует повышенную производительность на различных наборах данных.

3. Интеллектуальные приложения для обработки документов в эпоху больших моделей

3.1 Применение LLM и анализ распознавания документов.

Модель большого языка может понимать текст на естественном языке и понимать контекст. В приложениях для распознавания и анализа документов работа, связанная с пониманием документов, передается модели большого языка, а автоматическое понимание и анализ документов на уровне глав может помочь. система для лучшего понимания содержания документа, включая связи в контексте, распознавание объектов, анализ настроений и т. д. В настоящее время к наиболее распространенным и широко распространенным приложениям относятся улучшенная генерация поиска (RAG), вопросы и ответы по документам, а также анализ макета.

  1. Генерация улучшений поиска:Уже существуют крупные языковые модели, предназначенные для извлечения актуальной информации из больших объемов документов.,и давать более подробные и точные ответы в генеративной манере. Это имеет важное прикладное значение в сценариях поиска информации.
  2. Документация: вопросы и ответы:LLMМожет использоваться непосредственно для создания Документация: вопросы и ответысистема,Разрешить пользователям задавать вопросы для получения соответствующей информации в документе.,Может использоваться, например, при интерпретации юридических документов.、Запрос технического руководства、Понимание базы знаний и других сценариев.

3.2. Прикладные продукты для интеллектуальной обработки документов.

Интеллектуальная обработка документов (IDP) использует технологию искусственного интеллекта и машинного обучения для автоматического анализа и понимания документов. Она улучшает бизнес-процессы путем идентификации, анализа, понимания содержания документов и преобразования его в полезные данные или информацию. Степень автоматизации повышает эффективность работы и повышает эффективность работы. снижает затраты. Доктор Дин Кай также представил нам Hehe Information, распознавание изображений документов и обмен продуктами для анализа. На основе такой интеллектуальной технологии обработки документов продукт может быстро и точно обрабатывать большое количество документов, помогая банкам, страхованию, логистике, цепочке поставок и клиентам. service Цифровая трансформация во многих сферах, включая более эффективное и надежное управление бизнес-процессами.

Хотя технология мультимодальных больших моделей, представленная GPT4-V, значительно продвинула технологический прогресс в области распознавания и анализа документов, она не полностью решила проблемы, с которыми сталкиваются в области обработки документов-изображений. Есть еще много проблем, заслуживающих нашего внимания. Как объединить Способность больших моделей лучше решать проблемы ВПЛ заслуживает большего размышления и изучения.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose