В последнее время мультимодальные большие модели (MLLM) добились значительного прогресса в области визуального понимания текста, такие как модели с открытым исходным кодом InternVL 1.5, MiniCPM-Llama3-V 2.5, TextMonkey, модели с закрытым исходным кодом GPT-4o, Claude и т. д., а также даже в некоторых аспектах продемонстрировал сверхчеловеческие способности. Однако текущие оценки в основном сосредоточены на английской и китайской языковой среде, а исследования более сложных многоязычных сред относительно недостаточны.
В современном глобализованном мире многоязычная среда все чаще появляется в повседневной жизни людей, что также создает большие проблемы для развития искусственного интеллекта. На этом фоне появился эталонный тест MTVQA (Многоязычный текстово-ориентированный визуальный ответ на вопросы). Он ориентирован на многоязычный визуальный ответ на вопросы, ориентированный на текст, и направлен на заполнение пробелов в существующих тестах оценки в области многоязычного визуального текста.
MTVQA охватывает 9 языков, включая арабский, корейский, японский, тайский, вьетнамский, русский, французский, немецкий и итальянский, а также собирает и систематизирует многоязычные изображения с форматированным текстом в естественных сценах и сценах документов, таких как меню, дорожные знаки и карты. , счета, PPT, документы, диаграммы и т. д. Пары вопросов и ответов тщательно аннотируются экспертами, чтобы обеспечить высокую степень согласованности между визуальным текстом и вопросами и ответами.
Результаты тестов MTVQA показывают, что будь то модель с открытым исходным кодом или самая совершенная модель с закрытым исходным кодом, такая как GPT-4o (27,8%), точность составляет менее 30%, а производительность модели с открытым исходным кодом документ эксперт большая модель также неудовлетворительна.
Как ни посмотри, в понимании многоязычного текста еще есть много возможностей для улучшения. MTVQA фокусируется на широко используемых языках, помимо китайского и английского, в надежде способствовать развитию возможностей понимания многоязычного текста и распространению результатов мультимодальных больших моделей на большее количество стран и регионов.
Рисунок 1 Пример отображения разных языков и сценариев в MTVQA
Способность визуального понимания текста является ключевым параметром возможностей мультимодальных больших моделей. Существующие тесты, такие как DocVQA, TextVQA, STVQA и т. д., использовались при оценке передовых MLLM с закрытым и открытым исходным кодом, таких как GPT-4o. Gemini и Internlm VL. Он играет важную роль в оценке способности к визуальному пониманию текста мультимодальных больших моделей в различных измерениях. Однако все они сосредоточены на оценке навыков китайского и английского языков и не имеют контрольного показателя, который мог бы оценить понимание. способность других языков.
В ответ на эти недостатки исследователи из Byte и Huake предложили MTVQA, первый тест для всесторонней оценки возможностей визуального понимания текста в нескольких сценариях и на нескольких языках.
Тестовый набор включает 1220 панорамных изображений и 876 изображений естественных сцен. Источники данных можно разделить на три части:
Все данные контроля качества аннотируются обученными носителями языка и проходят несколько раундов перекрестной проверки, чтобы гарантировать разнообразие вопросов и точность ответов.
Правила маркировки:
Рис. 2. Процесс аннотирования данных MTVQA
Перекрестная оценка и пересмотр:
Рисунок 3. Богатые сценарии, охватываемые MTVQA, и количество проверок качества на разных языках.
Рисунок 4. Облако слов.
На MTVQA оценили 19 продвинутых MLLM, в том числе Открытый исходный коди закрытый исходный код Модель,Результаты оценки следующие:
Результаты эксперимента показали:
а. Понимание многоязычного текста на данном этапе все еще остается очень сложной задачей.хотяGPT-4oЗанял первое место по большинству языков и общим результатам,Но средняя точность всего 27,8.,По сравнению с мультимодальной способностью понимания английского языка в большой модели,Разрыв очевиден,Не говоря уже о разрыве с людьми.
б. Существует большой разрыв между моделью с открытым исходным кодом и моделью с закрытым исходным кодом.оптимальный Открытый исходный код МодельдаMiniCPM-V 2.5, набрал 18,9%, но это далеко от лучших моделей с закрытым исходным кодом, таких как QwenVL. Max, Gemini Ultra, Claude3 Opus, GPT-4o и другие все еще находятся относительно далеко.
в. Мультимодальные большие модели, ориентированные на понимание текста, не имеют очевидных преимуществ.Исследователи выбрали самые последние3визуальное понимание текста, ориентированное на пониманиеMLLM,mPLUG-DocOwl 1.5, TextMonkey, TextSquare, найдите оптимальный TextSquare по сравнению с обычным MLLM MiniCPM-V 2,5 не имеет преимущества (15,6 vs. 18.9)。
г. Существует очевидный разрыв в понимании разных языков.Латинские языки, такие как итальянский、немецкий、Французский язык работает намного лучше, чем нелатинские языки, такие как японский.、корейский、Русский. Вероятно, это связано с тем, что латинские языки больше похожи на английский как визуально, так и семантически.
Исследователи из ByteDance и Хуачжунского университета науки и технологий предложили новый эталон оценки MTVQA Bench для задач визуального понимания многоязычного текста, а также оценили и проанализировали производительность мультимодальных больших моделей.
Исследования показали, что задачи визуального понимания на нескольких языках очень сложны. Современные большие мультимодальные модели работают плохо и все еще далеки от человеческого уровня. Исследователи ожидают, что последующие исследования и разработки мультимодальных больших моделей будут уделять больше внимания многоязычным сценариям и расширять сферу применения мультимодальных больших моделей, чтобы люди в большем количестве стран и регионов могли участвовать и делиться удобствами, предоставляемыми искусственным интеллектом.