Возможности понимания многоязычного текста в мультимодальных больших моделях еще предстоит пройти долгий путь. Byte и Huake совместно выпустили MTVQA Bench.

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Возможности понимания многоязычного текста в мультимодальных больших моделях еще предстоит пройти долгий путь. Byte и Huake совместно выпустили MTVQA Bench.

введение

В последнее время мультимодальные большие модели (MLLM) добились значительного прогресса в области визуального понимания текста, такие как модели с открытым исходным кодом InternVL 1.5, MiniCPM-Llama3-V 2.5, TextMonkey, модели с закрытым исходным кодом GPT-4o, Claude и т. д., а также даже в некоторых аспектах продемонстрировал сверхчеловеческие способности. Однако текущие оценки в основном сосредоточены на английской и китайской языковой среде, а исследования более сложных многоязычных сред относительно недостаточны.

В современном глобализованном мире многоязычная среда все чаще появляется в повседневной жизни людей, что также создает большие проблемы для развития искусственного интеллекта. На этом фоне появился эталонный тест MTVQA (Многоязычный текстово-ориентированный визуальный ответ на вопросы). Он ориентирован на многоязычный визуальный ответ на вопросы, ориентированный на текст, и направлен на заполнение пробелов в существующих тестах оценки в области многоязычного визуального текста.

MTVQA охватывает 9 языков, включая арабский, корейский, японский, тайский, вьетнамский, русский, французский, немецкий и итальянский, а также собирает и систематизирует многоязычные изображения с форматированным текстом в естественных сценах и сценах документов, таких как меню, дорожные знаки и карты. , счета, PPT, документы, диаграммы и т. д. Пары вопросов и ответов тщательно аннотируются экспертами, чтобы обеспечить высокую степень согласованности между визуальным текстом и вопросами и ответами.

Результаты тестов MTVQA показывают, что будь то модель с открытым исходным кодом или самая совершенная модель с закрытым исходным кодом, такая как GPT-4o (27,8%), точность составляет менее 30%, а производительность модели с открытым исходным кодом документ эксперт большая модель также неудовлетворительна.

Как ни посмотри, в понимании многоязычного текста еще есть много возможностей для улучшения. MTVQA фокусируется на широко используемых языках, помимо китайского и английского, в надежде способствовать развитию возможностей понимания многоязычного текста и распространению результатов мультимодальных больших моделей на большее количество стран и регионов.

Ссылка на статью: https://arxiv.org/abs/2405.11985.
Ссылка на проект: https://bytedance.github.io/MTVQA/

Рисунок 1 Пример отображения разных языков и сценариев в MTVQA

Предыстория

Способность визуального понимания текста является ключевым параметром возможностей мультимодальных больших моделей. Существующие тесты, такие как DocVQA, TextVQA, STVQA и т. д., использовались при оценке передовых MLLM с закрытым и открытым исходным кодом, таких как GPT-4o. Gemini и Internlm VL. Он играет важную роль в оценке способности к визуальному пониманию текста мультимодальных больших моделей в различных измерениях. Однако все они сосредоточены на оценке навыков китайского и английского языков и не имеют контрольного показателя, который мог бы оценить понимание. способность других языков.

В ответ на эти недостатки исследователи из Byte и Huake предложили MTVQA, первый тест для всесторонней оценки возможностей визуального понимания текста в нескольких сценариях и на нескольких языках.

Процесс строительства MTVQA

а) Сбор данных

Тестовый набор включает 1220 панорамных изображений и 876 изображений естественных сцен. Источники данных можно разделить на три части:

Картинки, собранные из Интернета, например PPT, бумага, логотип и т. д.
Сбор и съемка фотографий, в том числе различных сцен, на месте проводятся с марта 2023 года по март 2024 года.
Существующая публикаданные,Из ИКДАР На общедоступных изображениях MLT19 представлены некоторые типичные текстовые изображения сцен.

б) Аннотация данных

Все данные контроля качества аннотируются обученными носителями языка и проходят несколько раундов перекрестной проверки, чтобы гарантировать разнообразие вопросов и точность ответов.

Правила маркировки:

Вопрос должен быть связан с текстовым содержанием на картинке
Каждая картинка включает в себя 3 вопроса, на которые можно ответить напрямую, и 2 вопроса, требующие рассуждения.
Ответ должен максимально соответствовать тексту на картинке.
Старайтесь отвечать как можно короче, не повторяя содержание вопроса.

Рис. 2. Процесс аннотирования данных MTVQA

Перекрестная оценка и пересмотр:

Оценить релевантность текстового контента в вопросах и изображениях
Оценивайте ответы на точность и полноту.
Моральная оценка, суждение о том, соответствует ли она человеческой этике.

в) Обзор набора данных

Рисунок 3. Богатые сценарии, охватываемые MTVQA, и количество проверок качества на разных языках.

Рисунок 4. Облако слов.

Показатели MLLM на стенде MTVQA

На MTVQA оценили 19 продвинутых MLLM, в том числе Открытый исходный коди закрытый исходный код Модель,Результаты оценки следующие:

Результаты эксперимента показали:

а. Понимание многоязычного текста на данном этапе все еще остается очень сложной задачей.хотяGPT-4oЗанял первое место по большинству языков и общим результатам,Но средняя точность всего 27,8.,По сравнению с мультимодальной способностью понимания английского языка в большой модели,Разрыв очевиден,Не говоря уже о разрыве с людьми.

б. Существует большой разрыв между моделью с открытым исходным кодом и моделью с закрытым исходным кодом.оптимальный Открытый исходный код МодельдаMiniCPM-V 2.5, набрал 18,9%, но это далеко от лучших моделей с закрытым исходным кодом, таких как QwenVL. Max, Gemini Ultra, Claude3 Opus, GPT-4o и другие все еще находятся относительно далеко.

в. Мультимодальные большие модели, ориентированные на понимание текста, не имеют очевидных преимуществ.Исследователи выбрали самые последние3визуальное понимание текста, ориентированное на пониманиеMLLM,mPLUG-DocOwl 1.5, TextMonkey, TextSquare, найдите оптимальный TextSquare по сравнению с обычным MLLM MiniCPM-V 2,5 не имеет преимущества (15,6 vs. 18.9）。

г. Существует очевидный разрыв в понимании разных языков.Латинские языки, такие как итальянский、немецкий、Французский язык работает намного лучше, чем нелатинские языки, такие как японский.、корейский、Русский. Вероятно, это связано с тем, что латинские языки больше похожи на английский как визуально, так и семантически.

Подвести итог

Исследователи из ByteDance и Хуачжунского университета науки и технологий предложили новый эталон оценки MTVQA Bench для задач визуального понимания многоязычного текста, а также оценили и проанализировали производительность мультимодальных больших моделей.

Исследования показали, что задачи визуального понимания на нескольких языках очень сложны. Современные большие мультимодальные модели работают плохо и все еще далеки от человеческого уровня. Исследователи ожидают, что последующие исследования и разработки мультимодальных больших моделей будут уделять больше внимания многоязычным сценариям и расширять сферу применения мультимодальных больших моделей, чтобы люди в большем количестве стран и регионов могли участвовать и делиться удобствами, предоставляемыми искусственным интеллектом.

Рекомендация

Категории

тест Модель данные Открытый исходный код ИИ

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Возможности понимания многоязычного текста в мультимодальных больших моделях еще предстоит пройти долгий путь. Byte и Huake совместно выпустили MTVQA Bench.

введение

Предыстория