Эта статья взята из «Ежегодного официального доклада китайской цифровой музыки 2023 года».
Технические знания:
Оживленная битва между сотнями моделей, тревожными аудиомоделями
2023 год известен как «Первый год генеративного искусственного интеллекта». Ноябрь 2022 г., OpenAI Выпущено как GPT-3.5 Модель — ChatGPT ядра. ChatGPT появился с высоким интеллектом, таким как контекстное обучение и цепочка мыслей, и считается, что он несет в себе прорывные технологические прорывы и ценность междоменных приложений ИИ. AgentСчитается, что производные направления, подобные этим, также имеют значение платформы и начального уровня.。Возьмите это как узел,Модель большого языка (LLM) с большими параметрами, большой вычислительной мощностью и стилем «насильственного решения» положила начало диахронному процессу.всего несколько месяцев,На рынок вышло большое количество AI-стартапов и производителей технологий.,В области LLM вступила в битву сотен моделей.
естественный Различные формы информации, такие как язык, изображение, видео, аудио и т. д.,В компьютерной сфере это называется по-другому「модальный」。многомодальный Исследования были ИИразные отрасли сферы。После бурного развития больших языковых моделей мультимодальные большие модели также стали горячей точкой в технической сфере.компьютер Зрениеполе,Модель диаграммы Винсента за два года добилась быстрого прогресса. Midjourney выпустит свою первую версию в феврале 2022 года.,тот же год11луноподобныйV4Реализм и художественный смысл версии были значительно улучшены.;Модель с открытым исходным кодомStable Diffusion впервые появится в августе 2022 года, а версия XL1.0 будет выпущена в июле 2023 года, что отражает превосходный реализм и быстрое понимание слов.
Генерация видео всегда считалась важной технической задачей для больших моделей, и такие компании, как Runway и Pika, уже давно активно участвуют в этой области. В феврале 2024 года OpenAI запустила пример высококачественного видео, созданного с помощью модели Sora. Учитывая описание или статическое изображение, можно создать реалистичное видео 1080P, содержащее насыщенных персонажей, действия и сцены. С тех пор сфера видео Вэньшэн перешла на новый этап.
В области музыки крупные технологические прорывы, похоже, произойдут позже, чем предполагалось. До марта 2024 г. Суно Выпуск V3 вызвал широкую обеспокоенность в отрасли и обществе. на。TMEЧжао Вэйфэн, руководитель отдела аудиотехнологий в лаборатории Тяньцинь, представил,Фактически, с 2023 года сфера создания музыки продолжает глубоко культивироваться, постоянно появляются новые модели и парадигмы. Сейчас существует определенный консенсус по поводу технической парадигмы.Основное выступление –:От символической музыки к исследованию аудиомоделей、Внедрение архитектуры диффузии и трансформатора в области больших моделей.、Постепенно решить проблему вокальной лирики、Интеграция текста/голоса/музыки/звуковых эффектов и т. д.
Типичные парадигмы технологии аудиомоделей в отрасли:
*Каковы реальные вехи?
MusicLM & MusicGen: создание музыки из шума, технологическая веха
Передовые специалисты в области технологий отметили, что в первой половине 2023 года MusicLM и MusicGen решили большинство проблем, связанных с созданием музыки. Среди раскрытых технических архитектур более эффективным является Transformer (о том, как оценить создаваемый музыкальный эффект, см. ниже). С технической точки зрения MusicLM и MusicGen являются еще одним достижением. Потому что он соединяет модальности естественного языка и аудио и генерирует музыку из шума.
Suno & Udio: решить проблему вокальных текстов и стать хорошим продуктом
Суно и Удио сосредоточились на решении еще одной проблемы: вокальных текстов. Это действительно превращает генеративную музыку в генеративные песни. Практики предполагают, что он может использовать архитектуру, аналогичную MusicLM, для создания музыки или использовать готовый аккомпанемент, а затем петь тексты песен (либо вводимые пользователем вручную, либо сгенерированные путем вызова большой языковой модели), используя технологию TTS для создания эффект контрапункта. Поскольку техническое решение не анонсировано, сложно судить о его технологическом прорыве, но оно хорошо интегрирует родственные технологии и становится хорошим продуктом.
СОВЕТЫ: Основные показатели для оценки музыки, созданной искусственным интеллектом (обзор опыта Tianqin Lab и команд сотрудничества)
1. Музыкальность/музыкальность: учитывается мелодия, аккорды, аранжировка, ритм, сочетание инструментов и т. д., а также артистизм музыки.
2. Степень соответствия тегов: соответствует ли музыка, которую хочет создать пользователь, окончательно созданной музыке.
3. Тексты (семантика). Обладают семантическими возможностями, включая многоязычность, семантическую разборчивость и семантическую целостность.
4. Связность и структура длинных эпизодов. Хотя это и музыкально, длинные эпизоды в настоящее время являются техническим узким местом, поэтому мы сосредоточиваемся на них. Музыкальность короткого периода времени не обязательно может быть музыкальностью длинной последовательности.
5. Качество звука: может ли качество звука достичь уровня художественных произведений, которыми могут наслаждаться пользователи.
6. Больше функций: например, поддержка большего количества входов, возможность редактирования и т. д.
Из вышесказанного видно, что в период с 2023 по 2024 год аудиомодель достигла стремительного прорывного развития, которое было невообразимо еще несколько лет назад. На более раннем этапе технической точкой создания музыки с помощью ИИ был другой технический маршрут: генерация музыкальных символов.
Маршрут нотной записи: тексты песен, музыка, запись и микширование можно контролировать, но целостность недостаточна.
Технический принцип:Извлекайте музыкальные знания из аудио(Такие как тексты песен и музыка、аккорд、музыкальный инструмент),Похоже на: МИДИ,Превратите его в форму данных, похожую на спектр музыкальной функции.,Разделите каждую ссылку «композиция, запись и микширование» для создания,Включая AIСостав, AI-Arranger, Synthesis пения искусственного интеллекта и другие технологии.
Длинная и короткая версия:Самым большим преимуществом является то, что каждую ссылку можно контролировать.,Лучше встроен в рабочие процессы музыкантов,Станьте вспомогательным творческим инструментом. Но благодаря сочетанию нескольких технологий,Добиться хорошего общего эффекта сложно. Музыка – это органическое сочетание текстов, музыки, записи и сведения.,Иногда тексты очень хороши, а музыка очень хороша.,Вместе они хуже. Другой вопрос:,Для музыкальных партитур имеется гораздо меньше обучающих данных, чем для аудио.
Маршрут аудиомодели: общий эффект лучше, но редактирование/отслеживание затруднено.
Технический принцип:Сквозное прямое создание полноценной музыки。можно понимать как,Представьте себе музыкальное произведение как спектрограмму.,Используйте спектрограммы как картинки для обучения ИИ,Генерация похожих изображений,оказатьсяестественный язык Отношения контрапункта со звуком。
Длинная и короткая версия:Созданные работы имеют сильную целостность.,Но поскольку это сквозное,Трудно вносить дальнейшие изменения и корректировки (например, изменение одной мелодии).,Также сложно получить рабочие файлы, такие как треки и MIDI. Другой вопрос:,Из-за высокой сложности звука (не менее 44100 точек данных в секунду),Улучшение качества звука требует инвестиций чрезвычайно высоких вычислительных мощностей.
* Маршрут битвы? Интеграция маршрутов!
В конкуренции между двумя техническими направлениями, с выпуском таких модельных продуктов, как MusicLM и Suno, баланс технических горячих точек сместился в сторону аудиомоделей. Приходится сетовать, что жестокий стиль решения больших моделей находит свое подтверждение и в музыкальной сфере. Однако текущая аудиомодель по-прежнему сталкивается с несколькими серьезными техническими проблемами: недостаточная редактируемость, музыкальность длинных последовательностей и плохое качество звука.
в,«Редактируемость»Его практическая ценность и голос отрасли очень высоки.,Это также недостаток аудиомаршрута.,Символьный маршрут длинной доски. Сквозная модель обратно решает проблемы редактирования,Необходимо сделать более уточненные аннотации к данным аудиотренинга – возвращаясь к логике символического маршрута. поэтому,Лю Сяогуан, основатель и генеральный директор DeepMusic Technology, считает, что,Будущая аудиомодель и символическая модель должны быть согласованы. Мы можем использовать музыкальные символы разных размеров для создания музыки с помощью аудиомоделей.
Применить изменения:
Оставьте споры о маршрутах и каждый бросает камни, чтобы спросить дорогу.
Хотя техническая архитектура и маршруты создания музыки еще не полностью раскрыты и унифицированы, общее направление проверено, а техническая конкуренция и исследование приложений всеми сторонами также ускоряются. Комплексные продукты, представленные Suno и Udio, должны задуматься о своей прикладной ценности после бума; DeepMusic, как представитель символического направления, обновляет свои возможности в соответствии с новой ситуацией в качестве технологического двигателя; платформа, исследует больше Самое главное — это глубокая связь между созданием музыки с помощью искусственного интеллекта и платформой музыкальных развлечений.
Реакция, вызванная продукцией Suno, помимо технологических прорывов, во многом обусловлена ее массовостью: впервые простые люди могут ощутить всю красоту «сочинения» песен. Хотя этот метод «генерации в один клик» сложно приравнять к традиционному созданию, появление такого опыта позволяет нам более обоснованно делать выводы о будущем музыки с использованием ИИ.
Несколько репрезентативных мнений в отрасли:
СОВЕТЫ: Сегментация музыкального рынка (исследования рынка DeepMusic)
По различному участию и профессионализму в музыке музыкальных людей можно разделить на три категории: профессиональные музыканты, музыкальные практики и обычные любители музыки. Музыкальная практика – это состояние между профессиональным производством и чистым потреблением.
1. Профессиональный музыкант:шкала100Уровень 10000。Основные способы участия – творчество и исполнение.,Около 100 000 имеют производственные мощности.
2. Музыкальные исполнители:шкала1уровень миллиарда。Методы участия включают в себя игру.музыкальный инструмент、Музыкальное приложение、Музыкальные общества и т.д. можно разделить на глубину、умеренный практик,Самая большая разница в том, что умеренные практики не обязательно имеют желание творить.,Никакого тонкого контроля над музыкальным контентом не требуется.
3. Любители пан-музыки:шкала10уровень миллиарда。Большинство из них слушают песни,Сюда также входят такие занятия, как пение К и просмотр музыкальных представлений.
По сравнению с комплексными продуктами типа Suno,Генерация символической музыки, естественно, доступна для редактирования.,Больше преимуществ в обслуживании профессиональных музыкантов。DeepMusicЭто отечественная представительская компания, которая глубоко культивирует символические маршруты.AIмузыкальные стартапы。Лю Сяогуан проанализировал это.:Аудиомодель похожа на «чудо с великой силой», с высокой неопределенностью, а стоимость обучения внутри страны в 10 раз выше, чем в зарубежных странах. Окупаемость инвестиций в аудиомодель, которая не обязательно будет стоить много или сколько времени потребуется для достижения успеха, очень низка, но когда символическая модель недостаточно эффективна, существуют промежуточные продукты, которые пользователи могут модифицировать самостоятельно, что требует большего количества стадий; ценить.
Благодаря прорывам в области аудиомоделей,DeepMusic будет ждать, пока базовая аудиомодель станет открытой, чтобы принять меры, и воспользуется накопленными преимуществами для управления аудиомоделью с помощью точно аннотированных данных из закрытого источника;видимый,Прорыв в возможности редактирования в комплексных продуктах,Интегрируйте аудиомодели в символические маршруты,Два технических маршрута сливаются и возвращаются,Посмотрим, кто сможет добиться лучших результатов.
Флагманский продукт DeepMusic «Chord Pai» — это вспомогательный творческий инструмент.2024В начале года была проведена интеллектуальная модернизация,Интегрируйте аранжировку AI, пение AI и другие функции.,Возможность создавать высококачественные демо за одну остановку,И все аспекты контролируемы. Тем не менее, пользователям по-прежнему приходится сталкиваться со спектром музыкальных функций с более высоким порогом. Текущий состав пользователей также узкоспециализирован: 20% музыкантов, 30% учителей музыки, 25% умеренных практиков, понимающих теорию музыки, и 25% умеренных практиков, не понимающих теорию музыки. В конце апреля вышла версия 2.0 «Аккорд Пай».,Лю Сяогуан отметил,На следующем этапе целевые пользователи будут обобщены, ориентируясь на людей, которые не понимают теорию музыки и функциональный спектр, и официально войдут в категорию умеренных практикующих.
После бурного развития технологий больших моделей многие отечественные производители Интернета и оборудования в той или иной степени присоединились к конкуренции. Будучи платформой музыкальных развлечений, TME никогда не переставала думать о технологической эволюции языковых, визуальных и аудиомоделей.
У Бинь, старший директор лаборатории TME Tianqin, считает, что у больших моделей есть важная особенность: количество основных моделей очень мало. Когда структура достаточно общая, для проведения экспериментов необходимо полагаться на кучу вычислительных мощностей и данных. . В то же время продолжают появляться более совершенные модели с открытым исходным кодом, что делает бессмысленными ранние инвестиции многих компаний.Вся отрасль по-прежнему находится в очень неспокойном состоянии.,Слепое инвестирование нежелательно.。Самое важное решение — «как наиболее разумным образом следовать тенденции больших моделей».Основные возможности платформы — пользователи и сценарии.,На основе модели с открытым исходным кодом мы можем,Переосмыслите сцену,Улучшите сервисы приложений.
Даже если вариант «Все крупные модели IN» не был выбран, лаборатория Tianqin Lab все равно выполнила эти три вещи в период быстрого обновления технологий:
потому что Зрение、Технология языковой модели созревает раньше,Вначале инвестиции Tianqin в аудиомодели были невысокими.。Чжао Вэйфэн представил:С 2023 по 2024 год инвестиции Tianqin в аудиомодели будут продолжать расти, а фокус исследований и разработок сместится с модели синтеза певческого голоса «Цинь Юнь» на модель генерации песен «Цинь Юэ».
Безопасность ИИ:
Линия защиты от неизвестного
Важно участие нескольких сторон.
Технологии и приложения искусственного интеллекта указывают на потенциально огромные промышленные изменения и социальные последствия, и теперь эти изменения не за горами. Размышление о социальном влиянии технологий и максимально возможное вмешательство в развитие технологий с точки зрения науки и технологической этики являются для нас основным средством борьбы с неопределенностью. В области больших языковых моделей вопрос согласования ценностей оказался в центре внимания промышленности, научных кругов и политиков. В области музыки с искусственным интеллектом в центре обсуждения также оказались вопросы, связанные с авторским правом на музыку и выживанием ее создателей.
на языке、Зрение、аудиомодельполе,Также существуют связанные с этим споры об авторских правах.。В основном это касается двух ключевых вопросов: ① этап обучения модели, вопрос соблюдения авторских прав на обучающие данные; ② этап создания контента, вопрос защиты авторских прав на продукты, созданные ИИ;
На этапе обучения модели ИИ необходимо использовать массивные данные для предварительного обучения. Если обучающие данные содержат произведения, защищенные авторским правом, защищенные законом об авторском праве, они должны соответствовать правилам «добросовестного использования» закона об авторских правах или получить разрешение владельца авторских прав.
По этому поводу такие продукты, как ChatGPT и Stable Diffusion, а также стоящие за ними компании сталкиваются с судебными исками со стороны владельцев авторских прав или исполнителей, таких как The New York Times, и дела все еще продолжаются. С одной стороны, поощрение творчества посредством защиты авторских прав является источником жизненной силы долгосрочного развития индустрии контента, с другой стороны, потенциальные возможности и проблемы, связанные с новыми технологиями, заставляют индустрию ускоряться; Эти два требования должны быть сбалансированными и взаимовыгодными. В настоящее время в мире нет явного прогресса по этому вопросу. По мере развития технологических продуктов компании, занимающиеся искусственным интеллектом, и правообладатели активно стремятся к переговорам, получению разрешений на лицензирование и распределению доходов. Это важное направление в будущем.
на этапе генерации,AIЗащищен ли созданный контент авторским правом?Кому принадлежат авторские права?? В настоящее время в большинстве стран законы об авторском праве не признают субъектов, кроме людей. Однако с развитием генеративного ИИ законодательство и судебная система в различных странах активно изучают соответствующие методы защиты. Важной причиной является то, что люди по-прежнему играют очень важную роль в создании ИИ.кChatGPTНапример,Человеческие существа3вмешательство или создание отражено в каждой ссылке:①Идет обучение модели“Обучение с искусственным подкреплением обратной связи”связь、②Творческие вопросы, задаваемые пользователями во время использования、③Настройка и оптимизация после генерации контента. Примечание. См. «Ежегодный отчет Чжи Дэ II за 2023 год».
В конце 2023 года в Интернет-суде Пекина было завершено первое в Китае дело об авторских правах «ИИ Вэнь Шэн Ту», что привело к революционным исследованиям. Понимание судебного мышления этого дела поможет нам понять суть и направление проблемы.
Первое дело об авторских правах на "AI Vincentian Pictures" в стране: (см. Новости Народного суда)
Юристы отрасли также отметили, что,Данное решение применимо только к самому делу.,Его нельзя использовать в качестве справочного материала для подобных случаев.。«Авторские права» на контент, созданный искусственным интеллектом, остаются спорными.Более распространенная операционная идея состоит в том, чтобы:Творчество не обязательно предполагает участие людей. Необходимо оценивать степень участия людей. И в разных областях, таких как язык, зрение, аудио и т. д., существуют разные способы определения степени участия.
Обе задачи имеют высокую сложность,Поиск взаимовыгодного решения все равно займет время. но мы можем видеть,за однимкпоследовательная логика ценностей:Законодательная цель Закона об авторском праве состоит в том, чтобы «поощрять творчество и распространение» путем защиты «оригинальных интеллектуальных инвестиций» людей.AIТехнологии могут повысить производительность、Огромный потенциал для содействия развитию контент-индустрии,Но не в ущерб творчеству человека. Мы надеемся, что, анализируя, ограничивая и используя,Пусть это положительно поспособствует процветанию творчества.
Будут ли люди-творцы заменены ИИ? — еще одна горячая тема для обсуждения. Не только музыка с искусственным интеллектом,Когда появляются большие модельные технологии и даже каждый виток технологической революции,,Люди испытывают такое же беспокойство。Однако исторические результаты показывают, что новые технологии определенно устранят некоторые низкоуровневые рабочие места, но не заменят человека в целом. А поскольку рабочие места низкого уровня ликвидируются, люди вынуждены создавать рабочие места, которые лучше отражают их собственную ценность.Отсюда и эта шутка:Это не тот, кто тебя устранилAI,Но люди, которые могут использовать ИИ.
Что касается музыкальной индустрии искусственного интеллекта, предыдущие суждения о Suno также в целом показывают, что: из-за переизбытка музыкального контента, если вы хотите получить признание на рынке, вам часто необходимо достичь чрезвычайно высокого уровня или руководствоваться сильной рекламой. , на что ИИ-музыка не способна. Высококачественные произведения содержат в себе уникальную индивидуальность, опыт и эмоции людей-исполнителей, чего нет в музыке AI. Однако низкоуровневые работы, такие как консервированная музыка, постепенно должны быть переданы ИИ.
в то же время,Быстрая музыка с искусственным интеллектом может вдохновить музыкантов,Инструменты искусственного интеллекта могут решать нетворческие задачи в рабочих процессах музыкантов. так,Лучшая перспектива – не конкурировать с,Но стойAIна плечах。Известный музыкант и продюсер Чэнь Шанни однажды ясно выразился: создателей должно волновать не то, «будут ли нас заменить», а «что еще мы можем сделать».Вернуться к человеческому агентству。Для развития музыканта,Технические специалисты также дали несколько дружеских советов:
Дружеский совет технологов музыкантам:
У Бинь:Я думаю, тебе стоит послушать это еще раз,Играйте больше. Потому что эту тенденцию невозможно остановить,Даже если ты не обнимаешь,Большинство музыкантов также приняли бы,В конце концов, я был вынужден,Лучше было бы сделать это раньше. Чтобы понять, что может легко сделать ИИ,Чего делать нельзя. Есть некоторые вещи, которые ИИ просто не может делать хорошо,Именно тогда музыканты могут проявить свои сильные стороны.
Лю Сяогуан:Упрощенный музыкальный рабочий процесс в определенной степени станет новым способом производства музыки.,Рекомендуется знать музыкантам,И сотрудничать с ИИ. Также верьте, что ИИ станет все более и более управляемым.,Позвольте музыкантам реализовать те творения, которые они хотят. Но песни без IP,Постепенно создание ИИ должно стать невозможным.,Музыкантам необходимо уделять все больше внимания своим IP-атрибутам.,Создайте свое собственное эксклюзивное выражение.
Ли Фейфей (первый профессор кафедры Sequoia в Стэнфордском университете и бывший главный научный сотрудник отдела искусственного интеллекта и машинного обучения в Google Cloud) однажды отметил, что высокая стоимость обучения искусственному интеллекту исключает академические круги и становится прерогативой коммерческих компаний.В отчете Стэнфордского университета говорится,В 2022 году технологическая отрасль представила 32 ключевые модели машинного обучения.,В академических кругах их всего трое. Это приводит к проблеме: быстрое развитие технологий коммерческого использования.,Общественная ценность и технологии решения социальных рисков существенно отстают.
Хотя эту проблему трудно полностью решить, когда голос сомнения становится громче, это также приведет к усилению защитных мер в государственном секторе и будет стимулировать больший самоанализ и внедрение мер безопасности со стороны коммерческих компаний.
Технологии, промышленность, научные круги, третьи стороны и т. д. имеют разные ценностные ориентации и профессиональные возможности. Такое участие с разных точек зрения с большей вероятностью позволит новым технологиям развиваться в направлении, соответствующем человеческим ценностям.в музыкеполе,Существует также множество точек зрения между художниками, промышленностью и технологиями. Однако из-за высокого технического порога и художественного порога,,Между этими двумя группами людей существует большой информационный разрыв.
Чжао Вэйфэн отметил, что в лаборатории Тяньцинь более 80% персонала научно-исследовательской группы должны обладать определенной музыкальной грамотностью, особенно символический маршрут требует более глубоких музыкальных знаний. На маршруте аудиомодели также необходимо сотрудничать с профессиональной музыкальной командой для оценки контента, созданного ИИ. Такое взаимодействие может сделать музыку AI более соответствующей стандартам исполнителя.
Профессиональное суждение — это лишь самая базовая форма участия. Такой вид диалога и сотрудничества с разных точек зрения может также помочь решить более важные проблемы.Например,Чэнь Шанни однажды выдвинул острое замечание.,Я думаю, что сегодня уникальной музыки становится все меньше и меньше. Поскольку цифровая музыка,Музыку постоянно классифицируют,Упростите управление и слушайте быстрее. Но если что-то с личными характеристиками не относится к категории электроники или хип-хопа,,Так что же это такое? Скорость его потока уменьшится. Музыка AI похожа,Это приводит к тому, что различные технические индикаторы стремятся к среднему значению.,Но красота не такая.
В качестве другого примера У Бинь высказал свое суждение о верхнем пределе музыкального уровня ИИ с точки зрения технических принципов: контент, но если мы обсудим AGI, включающий другой технический путь: обучение с подкреплением; Это позволяет ИИ самостоятельно исследовать среду методом проб и ошибок, и теоретически возможно преодолеть узкое место существующего человеческого контента.
Нам нужен эстетический опыт, гуманистическая забота и рациональные вопрошающие голоса художников, а также надежные выводы технических практиков, исходя из основополагающих принципов, а также промышленности, научных кругов и т. д. через различные точки зрения, используя рациональность. Мы должны использовать духовное и техническая мощь, позволяющая исправлять ошибки технологических изменений и направлять здоровое развитие области искусственного интеллекта.