[Колонка обзора] Крупномасштабные языковые модели соответствуют текстоцентрическому мультимодальному анализу настроений

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

[Колонка обзора] Крупномасштабные языковые модели соответствуют текстоцентрическому мультимодальному анализу настроений

В научных исследованиях, с методологической точки зрения, следует «видеть лес раньше деревьев». В настоящее время научные исследования в области искусственного интеллекта находятся на подъеме, и технологии быстро развиваются. Можно сказать, что тысячи деревьев конкурируют за процветание и меняются с каждым днем. Для практиков ИИ, находящихся в обширном лесу знаний, только систематически разбираясь в контексте, они могут лучше понять тенденции. С этой целью мы отобрали отличные обзорные статьи в стране и за рубежом и открыли «Колонку обзоров», так что следите за обновлениями.

По сравнению с традиционным анализом настроений, который учитывает только текст,Мультимодальный анализ настроений требует одновременного рассмотрения сигналов настроений из мультимодальных источников.,Следовательно, это больше соответствует тому, как люди обрабатывают эмоции в реальных сценариях. Он включает в себя обработку эмоциональной информации из различных источников.,например, естественный язык、изображение、видео、Аудио、Физиологические сигналы и т. д.。Однако, хотя другие модальности также содержат разнообразные эмоциональные сигналы, естественный язык обычно содержит более богатую контекстную информацию и поэтому всегда занимает ключевую позицию в мультимодальном анализе настроений.。Появление ChatGPT открывает огромный потенциал для применения Большой языковой модели (LLM) для текстоориентированных мультимодальных задач.。Однако,Неясно, как существующие LLM можно лучше адаптировать для задач мультимодального анализа настроений, ориентированных на текст. Целью этого обзора является: (1) всесторонний обзор недавних исследований по задачам текстоцентрического мультимодального анализа настроений.,(2) Изучите потенциал LLM в текстово-ориентированном мультимодальном анализе настроений.,Опишите его методы, преимущества и ограничения.,(3) Обобщить сценарии применения технологии мультимодального анализа настроений на основе LLM.,и (4) изучить проблемы и потенциальные направления исследований для будущего мультимодального анализа настроений.

введение

Анализ настроений на основе текста — ключевая исследовательская задача в области обработки естественного языка, целью которой является автоматическое выявление основного отношения, которого мы придерживаемся к текстовому контенту.。Однако,Люди склонны обрабатывать эмоции в мультимодальных контекстах.,Это отличается от анализа настроений на основе текста в следующих аспектах:

Люди способны получать и интегрировать мультимодальные мелкозернистые сигналы.。Люди часто оказываются в мультимодальных ситуациях.,Благодаря комплексному воздействию языка, изображений, звуков и физиологических сигналов,Способен легко понимать намерения и эмоции других. когда работаешь с эмоциями,Люди способны остро улавливать и интегрировать мелкозернистые эмоциональные сигналы различных модальностей.,и сопоставить их для эмоционального рассуждения.
Способность мультимодального выражения。Способы выражения эмоций людьми включают в себя язык.、выражение лица、движения тела、Голос и т. д.。Например,в ежедневном разговоре,Выражения нашего естественного языка могут быть двусмысленными (например, кто-то говорит: «Хорошо»).,Но в сочетании с другой модальной информацией (например, счастливым выражением лица в визуальной модальности или удлиненной интонацией в модальности Аудио),Эмоции выражаются разные.

Очевидно, что изучение анализа настроений в мультимодальной среде приближает нас к реальной обработке человеческих эмоций.。Исследования в области технологии мультимодального анализа эмоций с возможностями обработки эмоций, подобными человеческим, обеспечат техническую поддержку для реальных приложений.,Такие как высококачественный умный компаньон, обслуживание клиентов、Электронная коммерция и обнаружение депрессии.

в последние годы,Большая языковая модель (LLM) демонстрирует удивительные возможности диалога между человеком и машиной.,и хорошо справляются с широким спектром задач по обработке естественного языка.,Покажите, что у них богатые знания и сильные способности к рассуждению.。в то же время,LMM, которые улучшают способность понимать такие модальности, как изображения, также предоставляют новые идеи для задач, связанных с мультимодальными режимами. Они могут напрямую выполнять контекстное обучение с нулевым или малым количеством кадров.,Никакого контролируемого обучения не требуется. Хотя были некоторые попытки применить LLM к текстовому анализу настроений.,Однако отсутствует систематический и всесторонний анализ применения LLM и LMM в мультимодальном анализе настроений. поэтому,Неясно, насколько существующие LLM и LMM подходят для мультимодального анализа настроений.

Учитывая ключевую роль естественного языка в мультимодальном анализе настроений и его роль в качестве важного вклада в текущие LLM и LMM, мы сосредотачиваемся на задачах мультимодального анализа настроений, ориентированных на текст, которые могут использовать LLM для повышения производительности, таких как классификация настроений изображения и текста, Граф Классификация текстовых эмоций, классификация эмоций аудио-изображение-текст (видео) и т. д. В этой работе мы стремимся всесторонне рассмотреть текущее состояние текстоцентрических методов мультимодального анализа настроений, основанных на LLM и LMM. В частности, мы уделяем внимание следующим вопросам:

Как LLM и LMM справляются с различными задачами мультимодального анализа настроений?
в различных задачах мультимодального анализа настроений,Каковы различия между методами использования LLM и LMM?,Каковы их преимущества и ограничения?
Каковы будущие сценарии применения мультимодального анализа настроений?？

С этой целью мы сначала представляем задачу текстоцентрического мультимодального анализа настроений и ее недавний прогресс.。Мы также очерчиваем основные проблемы, стоящие перед современными технологиями.,и предложить возможные решения. Мы проанализировали в общей сложности 14 задач мультимодального анализа настроений.,Эти задачи традиционно изучались самостоятельно. Мы проанализировали уникальные характеристики и общие черты каждой задачи. Структура обзорного исследования представлена на рисунке 1. Поскольку LMM также основаны на LLM,Для удобства выражения,Следующие методы, основанные на LLM, включают методы, основанные на LMM.

Оставшаяся часть этой статьи организована следующим образом.。Нет.2введение в разделLLMsиLMMsбазовые знания。Нет.3В разделе представлен обширный обзор широкого спектра задач мультимодального анализа настроений, ориентированных на текст.,Подробное описание определения задачи, сбора соответствующих данных и новейших методов. Мы также обобщили преимущества и прогресс LLM по сравнению с предыдущими технологиями в задачах мультимодального анализа настроений.,и проблемы, которые остаются. В разделе 4 представлены настройки подсказок, индикаторы оценки и справочные результаты текстоцентрического мультимодального метода анализа настроений на основе LLM. В разделе 5 рассматриваются будущие сценарии применения мультимодального анализа настроений.,и сделать заключительные замечания в разделе 6.

Большая языковая модель

В общем, Большая языковая Модель (LLM) относится к модели трансформаторов с десятками миллиардов или более параметров, которые обучаются на больших объемах текстовых данных с высокими затратами, например GPT-3. [2]、PaLM [22]、Galactica [23] и LLaMA2 [24]。LLMsОбычно обладает обширными знаниями,И продемонстрировал сильные способности к пониманию и созданию естественного языка и решению сложных практических задач. LLM продемонстрировали некоторые способности, которых не было у маленькой Модели.,Это наиболее существенное различие между LLM и предыдущими предварительно обученными языками (PLM).,Например, возможность контекстного обучения (ICL).

Гипотетическая модель языка получила инструкции на естественном языке и несколько демонстраций задач.,Он может выдать ожидаемый результат тестового экземпляра, завершив последовательность слов из входного текста.,без дополнительного обучения или обновлений градиента；Следуйте инструкциям。Форматируя многозадачность с помощью описаний на естественном языкеданныенабор для тонкой настройки（адаптация инструкций）,LLM хорошо справляются с невидимыми задачами. Эта инструкция по тонкой настройке,Позволяет LLM следовать инструкциям для новых задач без использования явных примеров.,Тем самым улучшая способность к обобщению. Рассуждаем шаг за шагом. Модель для малых языков (SLM),Часто бывает трудно решить сложные задачи, требующие многоэтапного рассуждения.,Например, задачи по математике. Напротив,Используя стратегии подсказок «Цепочка мышления» (CoT) [25–27],LLM могут использовать механизмы подсказок, включающие промежуточные этапы рассуждения, для решения таких задач и получения окончательного ответа.

Было предпринято несколько предварительных попыток оценить эффективность LLM при выполнении задач анализа тональности текста.。существовать[7]середина,Авторы заметили, что производительность LLM при нулевом импульсе сравнима с точно настроенным BERT [105]. также,В [8],Автор провел предварительное исследование возможностей ChatGPT в некоторых задачах анализа настроений.,В частности, изучалась его способность справляться с изменениями полярности, сценами открытого пространства и проблемами эмоционального мышления. В [9],Автор всесторонне обсуждает эффективность LLM в анализе тональности текста. В [28],Авторы протестировали эффективность коммерческих LLM на наборе данных мультимодального анализа настроений на основе видео. Несмотря на существующие усилия,Объем обычно ограничивается подмножеством задач.,И включает в себя другой набор данных и экспериментальный дизайн. Наша цель — всесторонне обобщить результаты деятельности LLM в области мультимодального анализа настроений.

Большие мультимодальные модели

Большие мультимодальные модели（LMMs）цельсуществоватьиметь дело си Интегрируйте различныеданныетип,Такие как текст, изображение, аудиоивидео. LMM расширяют возможности LLM, вводя дополнительные условия.,Это приводит к более полному пониманию и созданию разнообразного контента. LMM были разработаны для более точного отражения мультимодальной природы человеческого общения и восприятия. В то время как традиционные LLM, такие как GPT-4, в основном основаны на тексте,LMM способны обрабатывать и генерировать выходные данные различных типов данных. Например,Они могут интерпретировать визуальную информацию и генерировать текстовые описания изображений.,Даже иметь дело с Аудиоданными,Тем самым устраняется разрыв между различными формами информации.

Одним из ключевых достижений в области LMM является создание единого мультимодального пространства для встраивания. Это предполагает использование отдельного кодировщика для каждой модальности для создания представления конкретных данных.,Эти представления затем выстраиваются в единое мультимодальное пространство. Такой унифицированный подход позволяет Модели легко интегрировать и сопоставлять информацию из разных источников. Известные примеры включают Gemini [111], GPT-4V и ImageBind [110]. Данные Модели демонстрируют возможность обработки текста, изображений, аудиоивидео.,Расширенный перевод、изображение Распознавание и другие функции。

Помимо этих хорошо известных моделей, значительного прогресса достигли и другие новые модели: BLIP-2. [112] представили новый метод объединения замороженных предварительно обученных визуальных кодеров с замороженными Большими с помощью модуля Q-former. языковая модельинтегрированная. Этот модуль использует обучаемые входные запросы для взаимодействия с функциями изображения и LLM, что обеспечивает эффективное кросс-модальное обучение. Такая установка позволяет эффективно использовать визуальную информацию, сохраняя при этом универсальность LLM. Ллава [113] представляет собой предварительно обученный ансамбль CLIP. [116]Визуальный кодер (Ви Т-Л/14), Викунья [115] Языковые модели Простой линейный проекционный слой Больших мультимодальные модели. Его обучение разделено на два этапа: предварительное обучение выравниванию функций с использованием только 595 тысяч пар изображений и сравнения текста из Conceptual. Набор данных подписей [118] обучает слой проекции и осуществляет сквозную точную настройку с использованием 158 тыс. инструкций для точной настройки слоя проекции и LLM в соответствии с набором данных Data и Science QA [117]. Такая настройка обеспечивает эффективную интеграцию визуальной и текстовой информации, благодаря чему LLava хорошо справляется с созданием субтитров изображений, визуальными ответами на вопросы и задачами визуального рассуждения. Квен-ВЛ [114]существовать Отличная производительность в мультимодальных районах。Qwen-VLсуществоватьнулевая выборкаизображениесоздание субтитрови Визуальное задание на ответ на вопроссерединавыдающаяся производительность,Поддерживает распознавание текста на китайском и английском языках. Qwen-VL-Chat расширяет интерактивные возможности ввода нескольких изображений и многоэтапных вопросов и ответов.,Продемонстрированы значительные улучшения в понимании и создании мультимодального контента.

Парадигма замораживания параметров и парадигма настройки параметров

В [208] автор резюмирует использование Большой языковая Две парадигмы модели (LLM): Парадигма замораживания параметров и парадигма настройки параметров。

Приложение для замораживания параметров: эта парадигма применяет методы подсказок непосредственно в LLM.,Нет необходимости настраивать параметры модели. Меньше примеров демонстраций в зависимости от того, нужны ли они вам,Приложения для замораживания параметров включают в себя обучение с нулевым шагом и обучение с несколькими шагами.
Приложение настройки параметров. Эта парадигма требует настройки параметров LLM. При необходимости выполните точную настройку всех параметров модели.,Приложения для настройки параметров включают полную настройку параметров и эффективную настройку параметров.

Задачи мультимодального анализа настроений, ориентированные на текст

ктекстдлясерединамультимодальность умаанализ настроений В основном включает в себя изображения и текстыанализ настроенийи Аудио-изображение-текст（видео）анализ настроений。Чтосередина,Комментируйте в соответствии с разными эмоциями,Наиболее распространенными задачами являются задачи классификации эмоций (например, наиболее распространенные задачи трех категорий: положительные, нейтральные и отрицательные) и задачи классификации эмоций (включая эмоциональные метки, такие как счастье, печаль, гнев и т. д.). Аналогично текстовой классификации настроений,Текстоориентированный мультимодальный анализ настроений также можно разделить на крупнозернистый мультимодальный анализ настроений (например, уровень предложения) и детальный мультимодальный анализ настроений (например, уровень аспектов) в зависимости от детализации целевых мнений.

Существующий детальный мультимодальный анализ настроений обычно фокусируется на парных данных изображение-текст, включая мультимодальное извлечение аспектных терминов (MATE), мультимодальную классификацию настроений на основе аспектов (MASC) и совместный мультимодальный анализ аспект-настроений (JMASA). Более того, в последние годы широко обсуждаемой задачей стало обнаружение мультимодального сарказма. В связи с необходимостью анализа конфликтов между различными модальными эмоциями подчеркивается важность нетекстовых модальностей в оценке эмоций в сценариях реальной жизни. Мы представляем эти задачи в следующих подразделах и суммируем их в таблице 1.

Рекомендация

Категории

тест Модель данные видео Аудио

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

[Колонка обзора] Крупномасштабные языковые модели соответствуют текстоцентрическому мультимодальному анализу настроений