В научных исследованиях, с методологической точки зрения, следует «видеть лес раньше деревьев». В настоящее время научные исследования в области искусственного интеллекта находятся на подъеме, и технологии быстро развиваются. Можно сказать, что тысячи деревьев конкурируют за процветание и меняются с каждым днем. Для практиков ИИ, находящихся в обширном лесу знаний, только систематически разбираясь в контексте, они могут лучше понять тенденции. С этой целью мы отобрали отличные обзорные статьи в стране и за рубежом и открыли «Колонку обзоров», так что следите за обновлениями.
По сравнению с традиционным анализом настроений, который учитывает только текст,Мультимодальный анализ настроений требует одновременного рассмотрения сигналов настроений из мультимодальных источников.,Следовательно, это больше соответствует тому, как люди обрабатывают эмоции в реальных сценариях. Он включает в себя обработку эмоциональной информации из различных источников.,например, естественный язык、изображение、видео、Аудио、Физиологические сигналы и т. д.。Однако, хотя другие модальности также содержат разнообразные эмоциональные сигналы, естественный язык обычно содержит более богатую контекстную информацию и поэтому всегда занимает ключевую позицию в мультимодальном анализе настроений.。Появление ChatGPT открывает огромный потенциал для применения Большой языковой модели (LLM) для текстоориентированных мультимодальных задач.。Однако,Неясно, как существующие LLM можно лучше адаптировать для задач мультимодального анализа настроений, ориентированных на текст. Целью этого обзора является: (1) всесторонний обзор недавних исследований по задачам текстоцентрического мультимодального анализа настроений.,(2) Изучите потенциал LLM в текстово-ориентированном мультимодальном анализе настроений.,Опишите его методы, преимущества и ограничения.,(3) Обобщить сценарии применения технологии мультимодального анализа настроений на основе LLM.,и (4) изучить проблемы и потенциальные направления исследований для будущего мультимодального анализа настроений.
Анализ настроений на основе текста — ключевая исследовательская задача в области обработки естественного языка, целью которой является автоматическое выявление основного отношения, которого мы придерживаемся к текстовому контенту.。Однако,Люди склонны обрабатывать эмоции в мультимодальных контекстах.,Это отличается от анализа настроений на основе текста в следующих аспектах:
Очевидно, что изучение анализа настроений в мультимодальной среде приближает нас к реальной обработке человеческих эмоций.。Исследования в области технологии мультимодального анализа эмоций с возможностями обработки эмоций, подобными человеческим, обеспечат техническую поддержку для реальных приложений.,Такие как высококачественный умный компаньон, обслуживание клиентов、Электронная коммерция и обнаружение депрессии.
в последние годы,Большая языковая модель (LLM) демонстрирует удивительные возможности диалога между человеком и машиной.,и хорошо справляются с широким спектром задач по обработке естественного языка.,Покажите, что у них богатые знания и сильные способности к рассуждению.。в то же время,LMM, которые улучшают способность понимать такие модальности, как изображения, также предоставляют новые идеи для задач, связанных с мультимодальными режимами. Они могут напрямую выполнять контекстное обучение с нулевым или малым количеством кадров.,Никакого контролируемого обучения не требуется. Хотя были некоторые попытки применить LLM к текстовому анализу настроений.,Однако отсутствует систематический и всесторонний анализ применения LLM и LMM в мультимодальном анализе настроений. поэтому,Неясно, насколько существующие LLM и LMM подходят для мультимодального анализа настроений.
Учитывая ключевую роль естественного языка в мультимодальном анализе настроений и его роль в качестве важного вклада в текущие LLM и LMM, мы сосредотачиваемся на задачах мультимодального анализа настроений, ориентированных на текст, которые могут использовать LLM для повышения производительности, таких как классификация настроений изображения и текста, Граф Классификация текстовых эмоций, классификация эмоций аудио-изображение-текст (видео) и т. д. В этой работе мы стремимся всесторонне рассмотреть текущее состояние текстоцентрических методов мультимодального анализа настроений, основанных на LLM и LMM. В частности, мы уделяем внимание следующим вопросам:
С этой целью мы сначала представляем задачу текстоцентрического мультимодального анализа настроений и ее недавний прогресс.。Мы также очерчиваем основные проблемы, стоящие перед современными технологиями.,и предложить возможные решения. Мы проанализировали в общей сложности 14 задач мультимодального анализа настроений.,Эти задачи традиционно изучались самостоятельно. Мы проанализировали уникальные характеристики и общие черты каждой задачи. Структура обзорного исследования представлена на рисунке 1. Поскольку LMM также основаны на LLM,Для удобства выражения,Следующие методы, основанные на LLM, включают методы, основанные на LMM.
Оставшаяся часть этой статьи организована следующим образом.。Нет.2введение в разделLLMsиLMMsбазовые знания。Нет.3В разделе представлен обширный обзор широкого спектра задач мультимодального анализа настроений, ориентированных на текст.,Подробное описание определения задачи, сбора соответствующих данных и новейших методов. Мы также обобщили преимущества и прогресс LLM по сравнению с предыдущими технологиями в задачах мультимодального анализа настроений.,и проблемы, которые остаются. В разделе 4 представлены настройки подсказок, индикаторы оценки и справочные результаты текстоцентрического мультимодального метода анализа настроений на основе LLM. В разделе 5 рассматриваются будущие сценарии применения мультимодального анализа настроений.,и сделать заключительные замечания в разделе 6.
В общем, Большая языковая Модель (LLM) относится к модели трансформаторов с десятками миллиардов или более параметров, которые обучаются на больших объемах текстовых данных с высокими затратами, например GPT-3. [2]、PaLM [22]、Galactica [23] и LLaMA2 [24]。LLMsОбычно обладает обширными знаниями,И продемонстрировал сильные способности к пониманию и созданию естественного языка и решению сложных практических задач. LLM продемонстрировали некоторые способности, которых не было у маленькой Модели.,Это наиболее существенное различие между LLM и предыдущими предварительно обученными языками (PLM).,Например, возможность контекстного обучения (ICL).
Гипотетическая модель языка получила инструкции на естественном языке и несколько демонстраций задач.,Он может выдать ожидаемый результат тестового экземпляра, завершив последовательность слов из входного текста.,без дополнительного обучения или обновлений градиента;Следуйте инструкциям。Форматируя многозадачность с помощью описаний на естественном языкеданныенабор для тонкой настройки(адаптация инструкций),LLM хорошо справляются с невидимыми задачами. Эта инструкция по тонкой настройке,Позволяет LLM следовать инструкциям для новых задач без использования явных примеров.,Тем самым улучшая способность к обобщению. Рассуждаем шаг за шагом. Модель для малых языков (SLM),Часто бывает трудно решить сложные задачи, требующие многоэтапного рассуждения.,Например, задачи по математике. Напротив,Используя стратегии подсказок «Цепочка мышления» (CoT) [25–27],LLM могут использовать механизмы подсказок, включающие промежуточные этапы рассуждения, для решения таких задач и получения окончательного ответа.
Было предпринято несколько предварительных попыток оценить эффективность LLM при выполнении задач анализа тональности текста.。существовать[7]середина,Авторы заметили, что производительность LLM при нулевом импульсе сравнима с точно настроенным BERT [105]. также,В [8],Автор провел предварительное исследование возможностей ChatGPT в некоторых задачах анализа настроений.,В частности, изучалась его способность справляться с изменениями полярности, сценами открытого пространства и проблемами эмоционального мышления. В [9],Автор всесторонне обсуждает эффективность LLM в анализе тональности текста. В [28],Авторы протестировали эффективность коммерческих LLM на наборе данных мультимодального анализа настроений на основе видео. Несмотря на существующие усилия,Объем обычно ограничивается подмножеством задач.,И включает в себя другой набор данных и экспериментальный дизайн. Наша цель — всесторонне обобщить результаты деятельности LLM в области мультимодального анализа настроений.
Большие мультимодальные модели(LMMs)цельсуществоватьиметь дело си Интегрируйте различныеданныетип,Такие как текст, изображение, аудиоивидео. LMM расширяют возможности LLM, вводя дополнительные условия.,Это приводит к более полному пониманию и созданию разнообразного контента. LMM были разработаны для более точного отражения мультимодальной природы человеческого общения и восприятия. В то время как традиционные LLM, такие как GPT-4, в основном основаны на тексте,LMM способны обрабатывать и генерировать выходные данные различных типов данных. Например,Они могут интерпретировать визуальную информацию и генерировать текстовые описания изображений.,Даже иметь дело с Аудиоданными,Тем самым устраняется разрыв между различными формами информации.
Одним из ключевых достижений в области LMM является создание единого мультимодального пространства для встраивания. Это предполагает использование отдельного кодировщика для каждой модальности для создания представления конкретных данных.,Эти представления затем выстраиваются в единое мультимодальное пространство. Такой унифицированный подход позволяет Модели легко интегрировать и сопоставлять информацию из разных источников. Известные примеры включают Gemini [111], GPT-4V и ImageBind [110]. Данные Модели демонстрируют возможность обработки текста, изображений, аудиоивидео.,Расширенный перевод、изображение Распознавание и другие функции。
Помимо этих хорошо известных моделей, значительного прогресса достигли и другие новые модели: BLIP-2. [112] представили новый метод объединения замороженных предварительно обученных визуальных кодеров с замороженными Большими с помощью модуля Q-former. языковая модельинтегрированная. Этот модуль использует обучаемые входные запросы для взаимодействия с функциями изображения и LLM, что обеспечивает эффективное кросс-модальное обучение. Такая установка позволяет эффективно использовать визуальную информацию, сохраняя при этом универсальность LLM. Ллава [113] представляет собой предварительно обученный ансамбль CLIP. [116]Визуальный кодер (Ви Т-Л/14), Викунья [115] Языковые модели Простой линейный проекционный слой Больших мультимодальные модели. Его обучение разделено на два этапа: предварительное обучение выравниванию функций с использованием только 595 тысяч пар изображений и сравнения текста из Conceptual. Набор данных подписей [118] обучает слой проекции и осуществляет сквозную точную настройку с использованием 158 тыс. инструкций для точной настройки слоя проекции и LLM в соответствии с набором данных Data и Science QA [117]. Такая настройка обеспечивает эффективную интеграцию визуальной и текстовой информации, благодаря чему LLava хорошо справляется с созданием субтитров изображений, визуальными ответами на вопросы и задачами визуального рассуждения. Квен-ВЛ [114]существовать Отличная производительность в мультимодальных районах。Qwen-VLсуществоватьнулевая выборкаизображениесоздание субтитрови Визуальное задание на ответ на вопроссерединавыдающаяся производительность,Поддерживает распознавание текста на китайском и английском языках. Qwen-VL-Chat расширяет интерактивные возможности ввода нескольких изображений и многоэтапных вопросов и ответов.,Продемонстрированы значительные улучшения в понимании и создании мультимодального контента.
ктекстдлясерединамультимодальность умаанализ настроений В основном включает в себя изображения и текстыанализ настроенийи Аудио-изображение-текст(видео)анализ настроений。Чтосередина,Комментируйте в соответствии с разными эмоциями,Наиболее распространенными задачами являются задачи классификации эмоций (например, наиболее распространенные задачи трех категорий: положительные, нейтральные и отрицательные) и задачи классификации эмоций (включая эмоциональные метки, такие как счастье, печаль, гнев и т. д.). Аналогично текстовой классификации настроений,Текстоориентированный мультимодальный анализ настроений также можно разделить на крупнозернистый мультимодальный анализ настроений (например, уровень предложения) и детальный мультимодальный анализ настроений (например, уровень аспектов) в зависимости от детализации целевых мнений.
Существующий детальный мультимодальный анализ настроений обычно фокусируется на парных данных изображение-текст, включая мультимодальное извлечение аспектных терминов (MATE), мультимодальную классификацию настроений на основе аспектов (MASC) и совместный мультимодальный анализ аспект-настроений (JMASA). Более того, в последние годы широко обсуждаемой задачей стало обнаружение мультимодального сарказма. В связи с необходимостью анализа конфликтов между различными модальными эмоциями подчеркивается важность нетекстовых модальностей в оценке эмоций в сценариях реальной жизни. Мы представляем эти задачи в следующих подразделах и суммируем их в таблице 1.