Извлечение ключевой информации: модель UIE выполняет весь процесс извлечения информации об изображении.

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Сначала перейдите в город изображений. Красный фон внутри — это файл, на котором необходимо сосредоточиться при извлечении информации об изображении.

Теория UIE

Оригинальные документы UIE заметки о чтении бумаги

UIE (универсальное извлечение информации): Яоцзе Лу и другие предложили единую структуру для универсального извлечения информации UIE в ACL-2022. Эта среда реализует унифицированное моделирование таких задач, как извлечение сущностей, извлечение отношений, извлечение событий и анализ настроений, а также обеспечивает хорошие возможности переноса и обобщения между различными задачами. Чтобы облегчить каждому использование мощных возможностей UIE, PaddleNLP использовала методы, описанные в этой статье, и на основе модели предварительного обучения с расширенными знаниями ERNIE 3.0 обучила и открыла исходный код первой китайской общей модели извлечения информации UIE. . Эта модель может поддерживать извлечение ключевой информации без ограничения областей промышленности и целей извлечения, обеспечивать быстрый холодный запуск с нулевыми образцами и обладает отличными возможностями точной настройки небольших выборок для быстрой адаптации к конкретным целям извлечения.

Непосредственно ознакомьтесь с оригинальной моделью UIEX на веб-странице: https://huggingface.co/spaces/PaddlePaddle/UIE-X. Введите схему и нажмите «Отправить».

Установите и используйте эту машину

Установка среды

По сути, используется функция прогнозирования одним щелчком мыши: используется API Taskflow, пакет устанавливается, вводится библиотека, а затем она готова к использованию всего с тремя строками кода, и пакет является очень полным.

python >= 3.7
paddlepaddle >= 2.3

pip install --upgrade paddlenlp

быстрый старт

Здесь мы возьмем задачу распознавания объектов с названием извлечения информации и модель UIE в качестве примера, чтобы проиллюстрировать, как быстро использовать PaddleNLP:

Извлечение информации текстового типа PaddleNLP предоставляет функцию прогнозирования в один клик,Никакого обучения не требуется,Введите данные напрямую, чтобы открыть результаты извлечения домена:

Извлечение информации об изображении (с использованием uie-x)

Запуск непосредственно в каталоге /root/. При первом запуске в корневом каталоге будут созданы скрытые папки .paddlenlp и .paddleocr, которые используются для хранения автоматически загруженных моделей uie и ocr, а затем начнется вывод.

Есть некоторые поля, которые не отображаются, а значит, они не найдены. Однако точность отображаемых полей очень высокая. область пароля никогда не распознается. Вывод, который можно сделать, заключается в том, что пока на изображении присутствуют очевидные пары ключ-значение, находящиеся близко друг к другу, их можно идентифицировать только информацию, имеющую незаметные пары ключ-значение, или только значения без ключей. , будет сложно извлечь и потребуется доработка.

На данном этапе тестирования я чувствую, что это решение осуществимо, поэтому я планирую провести небольшое выборочное обучение на основе UIEX. Фактически, за исключением счетов, для любого сценария извлечения информации об изображении, в соответствии с его введением, требуется небольшой объем. Обучение может принести значительные улучшения. Судя по моему опыту, тест дает результат.

шаг 1. Точная настройка модели UIEX (обучение на небольшой выборке).

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document для точной настройки модели. Руководство довольно понятно. Здесь я упомяну еще несколько моментов.

Маркировка данных (label_studio)

Это используется для локального запуска веб-страницы службы. Чтобы облегчить сбор данных, я установил ее при победе. Поскольку моя базовая среда не работает, возникнут некоторые странные ошибки: django.db.utils.OperationalError: нет такой функции: JSON_VALID, поэтому я установил его в anaconda. Создайте внутри новую среду py39, и она сможет работать нормально.

Это место должно быть изображением или текстом, а не OCR или чем-то подобным. Когда файл json будет преобразован в набор данных весла во время последующей обработки, будет распознаваться только изображение/тест. Если он будет изменен на другой, он не будет распознан. будет распознан, и будет сообщено об ошибке.

При аннотации рамка должна быть немного больше, а не только близко к тексту, иначе при извлечении информации будут пропущены первые несколько символов.

И только позже, когда у меня появилось больше ярлыков, я понял, что визуализация исходной модели научила меня тому, как маркировать наиболее идеально: выдвинуть ее немного вперед, включая двоеточия.

Преобразование экспортных данных

ext: Задачи извлечения, сбор сущностей и извлечение отношений являются извлечениями.

Прогнозирование в один клик по индивидуальной модели

Я написал скрипт, позволяющий одновременно выполнять выполнение исходной модели и доработанной модели на одной картинке, при этом визуализируя и выводя результаты распознавания в txt для сравнения:

Причина в том,

python testuie_self.py data/testimages/b78.jpg

Колонка слева — доработанная, а справа исходная UIE-X-база.

Но есть и проблемы: например, область пароля распознается, но она не пересекает линии, только первую строку (ее лучше не иметь), распознавание штампа и распознавание QR-кода. удалил его и не настроил схему. Это требует дополнительной оптимизации.

Рекомендация

Категории

рамка Модель данные Визуализация бумага

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Извлечение ключевой информации: модель UIE выполняет весь процесс извлечения информации об изображении.