От 0 до 1: первая в Китае музыкальная модель SOTA с искусственным интеллектом
От 0 до 1: первая в Китае музыкальная модель SOTA с искусственным интеллектом
Хьюго однажды сказал: «Есть три ключа, которые откроют сокровищницу человеческой мудрости.,то есть цифры、письмо、примечание. "

Музыка уже давно стала для человека лучшим средством выражения своих эмоций.

Но создание музыки — это нечто с высоким порогом, потому что создание музыки — это не шоу одного человека, а процесс сотрудничества всей команды. От текста и композиции до аранжировки, сведения и записи песни — каждый аспект требует усилий профессиональных музыкантов и сопровождается большими затратами.

Но представьте, что произойдет, если однажды мы сможем создавать песни одним щелчком пальца?

Подобные предположения будут постепенно бродить в 2023 году, когда большая модель станет популярной:

В 2023 году Интернет охватило увлечение каверами, возглавляемое «исполнителями искусственного интеллекта». Многие суперзвезды китайской музыки, такие как Стефани Сан, Исон Чан и Джей Джей Линь, имеют своих собственных дублеров с искусственным интеллектом, а различные онлайн-платформы стали платформой для «искусственного интеллекта». концерты-возвращение певца» на сайте. За всем этим стоит применение технологии генерации музыки So-vits Svc AI. Эта технология может точно имитировать уникальный тембр целевого певца путем анализа небольшого количества аудиоклипов. Хотя все еще существуют пробелы в определении индивидуальных характеристик пения, техники пения и личного стиля певца, она может почти обеспечить восстановление тембра 1:1. , также вдохновил волну создания национальной музыки.

С марта этого года, с выходом Suno V3 и Udio, это увлечение созданием музыки возобновилось. На этот раз мы можем не только сделать кавер на песню определенного певца, но и получить две полные песни продолжительностью около двух минут, введя несколько слов и музыкальный стиль. Эта прорывная технологическая инновация рассматривается в отрасли как действительно понизившая порог создания музыки, позволяя большему количеству людей участвовать в создании музыки.

Всего за год, от So-vits Svc до MuseNet от OpenAI, MusicLM от Google, MusicGen от Meta, SunoV3 и Udio, технологии больших моделей продолжают менять сферу создания музыки.

Видно, что от «исполнителя искусственного интеллекта», который клонирует звуки, до Suno, генерирующего целые песни, технология создания музыки с использованием искусственного интеллекта совершает непрерывный скачок. К сожалению, этим продуктам еще далеко до создания качественных и разнообразных песен. Особенно в области китайских песен никогда не существовало крупной модели создания музыки с использованием искусственного интеллекта, которая соответствовала бы китайской музыкальной эстетике.

Прям приезжать вчера,Куньлунь Ванвэй выпускает самую большую в мире Открытый исходный кодMOE big Модель "Tiangong 3.0",И на его основе мы создали единственную общедоступную систему в Китае.AIмузыка Генерировать большие Модель「ТяньгунSkyMusic」。Вот этотмузыкабольшой Модельчеловеческим голосом&BGMкачество звука、естественность вокала、Разборчивость произношения и т. д.производительностьаспект,к6.65Общий балл превышаетSuno V3 становится первым музыкальным AIGC в Китае SOTA(state of the арт, лучшая в своей области) модель.

Общая оценка Tiangong SkyMusic превзошла оценку Suno V3.

Так как же Tiangong SkyMusic стал первой в Китае музыкальной моделью AIGC SOTA? Каков реальный опыт? Давайте посмотрим на это вместе.

1. Первая в Китае музыкальная модель AIGC SOTA

Откройте приложение Tiangong, щелкните раздел музыки, введите название и текст песни, выберите песню, на которую вы хотите сослаться, и нажмите «Создать музыку», чтобы получить созданную вами песню. Это упрощенный и эффективный процесс создания музыки «Tiangong SkyMusic».

Возможность создания эталонной музыки также является изюминкой «Tiangong SkyMusic». Пользователи могут загружать свои любимые песни в качестве шаблонов или выбирать подходящие эталонные треки из огромной базы данных «Tiangong SkyMusic», и система будет генерировать новые произведения с похожими стилями и похожими голосами. Эта функция значительно снижает технический порог создания музыки, позволяя даже обычным пользователям, не имеющим профессиональной музыкальной грамотности, участвовать в создании музыки и получать удовольствие от создания музыки.

Используя "Tiangong SkyMusic", мы записали две песни "Riding the Crane" совершенно разных стилей:

Тогда введите знакомый английский детский стишок «Маленькая звездочка» и адаптируйте его в рок-стиле и лирическом мужском варианте. Его тоже можно расценивать как неповторимое воспоминание о детстве:

В ходе создания мы обнаружили, что «Tiangong SkyMusic» охватывает множество жанров, таких как рэп, фолк, фанк, древний стиль и электронная музыка. На следующем этапе команда также планирует позволить пользователям создавать песни на основе напеваемых мелодий. В то же время, по сравнению с аналогичными зарубежными продуктами, такими как SunoV3, песни, созданные «Tiangong SkyMusic», лучше звучат по деликатности и узнаваемости китайского вокала, а также могут использовать такие приемы, как вибрато, пение, мужские и женские дуэты и автоматическая гармония.

Давайте еще раз сыграем в «Я завтра не пойду на работу», чтобы отпраздновать наступающую пятницу.

Эта песня также прекрасно демонстрирует основное преимущество «Tiangong SkyMusic» по сравнению с Suno — способность генерировать песни на диалекте, что позволяет пользователям свободно петь песни на сычуаньском, кантонском, пекинском диалекте и других диалектах, что значительно расширяет возможности пользователя. пространство для создания музыки.

Почему появилась такая отличная модель генерации музыки с помощью искусственного интеллекта? Причина в том, что обработка музыкальных данных сложнее, чем обработка изображений и видеоданных. Как долгосрочная техническая форма, музыка содержит десятки тысяч тесно связанных точек выборки в секунду. Эта присущая ей сложность делает ее одной из самых сложных модальностей. Кроме того, музыка объединяет несколько уровней информации, таких как тексты песен, вокал и мелодии, и каждый слой содержит большое количество информации. Это означает, что при обработке музыки мы должны не только строить точную модель временного ряда, но и всесторонне учитывать. форма звуковых волн, частотные характеристики, структура ритма и многие другие факторы.

Однако с непрерывным развитием технологии больших моделей ИИ были обнаружены две эффективные стратегии для управления сложной природой музыки, которые также представляют собой два основных технических пути для больших моделей генерации музыки ИИ: маршрут генерации символической музыки и генерация музыкального звука для больших моделей. маршрут.

Символический путь создания музыки заключается в переобучении модели путем маркировки большого количества данных о музыкальных партитурах. Этот путь широко изучается в научных кругах, но в конечном итоге он генерирует музыкальные партитуры и преобразует их в воспроизводимую музыку с помощью других программ или инструментов. и фактический эффект не является неудовлетворительным.

Маршрут создания музыкального аудио для большой модели охватывает сквозное интегрированное создание музыкальных элементов, таких как инструменты, вокал, мелодия, громкость и ноты, а конечным продуктом является звуковой аудиофайл. Но цена — это огромные инвестиции в ресурсы НИОКР и зависимость от крупномасштабных наборов обучающих данных. Даже гигантам отрасли, таким как Google и OpenAI, еще предстоит добиться серьезных прорывов.

Кроме того, моделирование реалистичности вокального пения с помощью ИИ также является важной темой исследований. Однако в прошлом музыкальные технологии искусственного интеллекта в основном были сосредоточены на создании фоновой музыки (BGM) без вокального пения, и эффективных решений для вокального пения в области песен не было.

Когда проект «Tiangong SkyMusic» был впервые создан, Куньлунь Ванвэй столкнулся с двумя трудными выборами. В конце концов, команда исследований и разработок единогласно решила выбрать путь генерации музыкального звука для больших моделей и заняться вокальным пением. Это означает, что Kunlun Wanwei официально выйдет на две нейтральные территории в области технологии создания музыки с помощью искусственного интеллекта, практически не имея открытого исходного кода. Трудность можно себе представить.

Принципиальная схема технологии Tiangong SkyMusic

После многих экспериментов и исследований группа исследований и разработок осознала глубокую совместимость структуры DiT и большой модели генерации музыки с помощью искусственного интеллекта и вложила значительные средства в это направление. Наконец, они независимо разработали модельную архитектуру, подобную Sora, подходящую для области музыкального аудио. восполнение пробелов в отрасли Технические маршруты и технические пробелы в области вокального пения. Эта архитектура содержит три основных модуля — кодировщик, DiT (диффузионный трансформатор) и декодер. Среди них Крупномасштабный Трансформатор отвечает за сочинение музыки, изучение контекстных зависимостей Музыкальных Патчей и в то же время обеспечивает управляемость музыкой. Диффузный Трансформатор отвечает за пение, позволяя восстанавливать Музыкальные Патчи в высококачественный звук; через ЛДМ.

В то же время, чтобы обучить «Tiangong SkyMusic», Куньлунь Ванвэй на сегодняшний день собрал самый большой в мире набор музыкальных данных, включающий более 20 миллионов сэмплов песен, что гарантирует, что «Tiangong SkyMusic» точно контролируется и широко применим в музыкальном стиле. .

Таким образом, «Tiangong SkyMusic» снижает порог входа в создание музыки, так что для создания музыки больше не существует профессиональных барьеров. Это действительно сократило расстояние между созданием музыки и широкой публикой и подтолкнуло индустрию AIGC вперед. В то же время Kunlun Technology также активно раскрыла техническую схематическую схему «Tiangong SkyMusic», предоставив эталонный пример для глобального сообщества открытого исходного кода и разработчиков, а также способствуя совместному созданию и совместному использованию глобальной технологической экосистемы AIGC.

2. Модель Тяньгун 3.0, способная мыслить независимо

Успех «Tiangong SkyMusic» неотделим от стоящей за ним технической базы «Tiangong 3.0». Фан Хан, председатель и генеральный директор Kunlun Wanwei, сказал: «Большая текстовая модель является прочной основой всех AIGC. Все социальные, игровые и музыкальные модели должны поддерживаться большой текстовой моделью». это модель GPT, GLM. Модель по-прежнему остается моделью Baichuan, обе из которых используют комбинацию большой модели основного текста и большой модели профессионального подразделения.

«Tiangong 3.0», выпущенный Kunlun Technology, имеет до 400 миллиардов параметров, а его производительность превышает 314 миллиардов параметров большой модели MoE Grok1 (xAI). На сегодняшний день это крупнейшая большая модель MoE с открытым исходным кодом в мире. это также крупнейшая технология искусственного интеллекта в рамках Kunlun Technology. Краеугольный камень модели приложения.

Tiangong 3.0 становится крупнейшей в мире моделью MoE с открытым исходным кодом

По сравнению с предыдущим поколением, «Tiangong 3.0» имеет удивительные улучшения в производительности в таких областях, как понимание семантики модели, логическое рассуждение, универсальность, обобщение, знание неопределенностей и возможности обучения. Его технические знания увеличились более чем на 20%. рассуждение/кодирование/литературные и творческие способности увеличились более чем на 30%.

В то же время, будучи большой мультимодальной моделью, «Tiangong 3.0» объединяет такие функции, как поиск ИИ, написание ИИ, чтение длинного текста ИИ, генерация изображений ИИ и генерация музыки ИИ. При оценке авторитетной оценки MMBench-CN четыре производительности: «Tiangong 3.0», AR (рассуждение по атрибутам), RR (реляционное рассуждение), FP-C (детализированное восприятие между экземплярами) и CP (грубое рассуждение). восприятие) были равными. Заняв первое место, общий общий балл превзошел GPT-4V, заняв первое место среди мультимодальных больших моделей в мире.

Мультимодальная производительность Tiangong 3.0 превосходит GPT-4V

Благодаря всестороннему улучшению производительности и возможностей, «Тяньгун 3.0» также овладел важнейшей способностью независимого мышления. Это позволяет предоставить пользователям беспрецедентный опыт работы с приложениями искусственного интеллекта в нескольких раундах поиска и комплексном вызове инструментов, рисовании диаграмм, режиме исследования, режиме улучшения, модификации и расширении изображения, а также многих других возможностях.

«Тяньгун 3.0» обладает сильными логическими способностями:

«Тяньгун 3.0» также может лучше понимать и обрабатывать сложную семантическую информацию в запросах на естественном языке пользователей, включая метафоры, многозначность и т. д. Например, в недавнем хите «Чэнду Дисней» мы спросили модель Tiangong, которая может не только точно объяснить этот популярный интернет-мем. Они также помогут нам спланировать маршрут или оставить отзыв недавним туристам, задавая вопросы.

Когда сталкиваются со сложными требованиями, такими как промышленные исследования, обзоры продуктов, анализ информации, создание изображений, рисование диаграмм и т. д., «Tiangong 3.0» может одновременно отображать несколько возможностей и управлять моделью для выполнения задачи.

Как показано на рисунке выше, во время выполнения задачи «запросить ВВП на душу населения в Южной Африке в 2023 году и преобразовать его в гистограмму» «Tiangong 3.0» взял на себя инициативу по вызову функции поиска, а затем вызвал инструмент Python для рисования. гистограмму и, наконец, интерпретируемую и сводную информацию, дающую правильный ответ и всесторонний анализ:

«Tiangong 3.0» сначала глубоко понимает потребности пользователей посредством семантического понимания, затем разбивает сложные задачи на подразделенные связи с помощью возможностей логического рассуждения и, наконец, разрабатывает подразделенные связи посредством независимого планирования, вызова и объединения внешних инструментов и информации с различными моделями для точного и эффективного. выполнить такие сложные требования.

Возможности создания контента всегда были сильной стороной серии больших моделей «Tiangong» На основе больших моделей «Tiangong 2.0» «Tiangong 3.0» претерпела комплексное обновление возможностей создания контента. AI Он обладает мощными возможностями создания контента, такими как генерация музыки, голос AI, диалоги AI и создание двумерных комиксов AI. Благодаря специальному обучению агента он реализовал способность генерировать изображения в реальном времени на основе текстовых требований во время реальных разговоров. -временной анализ контента и построение диаграмм на основе требований к тексту.

Пусть «Тяньгун 3.0» проанализирует, какая машина лучше, Xiaomi SU7 или NIO ET5:

Видно, что при сложных требованиях сравнения продуктов, подобных приведенным выше, «Tiangong 3.0» может выполнять анализ контента в реальном времени и строить диаграммы на основе требований, чтобы сделать результаты более понятными.

3. Постскриптум

Благодаря выпуску «Tiangong 3.0» и «Tiangong SkyMusic» мы видим, что стратегия Kunlun Wanwei «Все в AGI и AIGC» — это не просто теоретический лозунг, а настоящее руководство по технологическому прогрессу Kunlun Wanwei и каждому аспекту. бизнес-модель. Опираясь на технический краеугольный камень «Большой модели Тяньгун», Куньлунь Ванвэй спланировал шесть основных бизнес-матриц ИИ, включая большие модели ИИ, поиск ИИ, музыку ИИ, социальные сети ИИ, игры ИИ и видеоролики ИИ, и стремится интегрировать эти шесть основных Бизнес-матрицы AI. Большой раздел для создания интегрированной платформы AI UGC.

«Куньлунь Ванвэй считает, что следующее поколение гигантов искусственного интеллекта должно быть C-end плюс бесплатным, потому что все успешные компании в эпоху Интернета и в эпоху мобильного Интернета принимают модель бесплатного плюс C-end, а в эпоху искусственного интеллекта мы также твердо верю в эту логику», — сказал Фан Хань.

Поскольку большие модели требуют ресурсов вывода каждый раз, когда они предоставляют услуги, для реализации модели бесплатного toC Фан Хань резюмировал три пути для отрасли: «Первый — снизить стоимость вывода до уровня ниже рекламной ценности, создаваемой пользователями посредством непрерывного оптимизация. Второе — реализовать рассуждения на конечной стороне с помощью мобильных телефонов с искусственным интеллектом и распределить затраты на рассуждения на терминальное оборудование. Третье — создать платформу AI UGC, на которой 1% пользователей создают контент, а 99% пользователей потребляют контент».

Эти три пути не противоречат друг другу, а принадлежат разным этапам отрасли. Например, Фан Хань пришел к выводу, что до того, как аппаратное обеспечение терминалов ИИ получит широкую популяризацию, внедрение платформы AI UGC быстро сформирует замкнутый бизнес-цикл, но финалом крупных моделей должен стать ИИ терминала.

Будь то «Tiangong SkyMusic» или другие основные направления деятельности в области искусственного интеллекта, все они следуют этой бизнес-логике. То есть, используя технологию искусственного интеллекта, снизить порог создания и продолжить расширять группу создателей контента, тем самым увеличивая объем производства и богатство персонализированного контента, тем самым удовлетворяя потребительский спрос общественности на высококачественный контент и формируя положительную отдачу. по инвестиционному циклу.

В то же время Kunlun Wanwei также будет использовать технологию искусственного интеллекта, чтобы разрушить традиционные барьеры в создании контента, позволяя различным культурным и языковым группам легко передавать свои истории и эмоции на этой платформе AI UGC, а также способствовать реализации культурного равенства в глобальном масштабе. .

В процессе продвижения создания платформы AI UGC Куньлунь Ванвэй придерживается сочетания технологических инноваций и инноваций бизнес-моделей и активно исследует пути роста, подходящие для текущих и будущих рынков. Куньлунь Ванвэй полностью привержен принципам «Все в AGI и AIGC», стремясь создать экосистему контента искусственного интеллекта с сильной инклюзивностью, широким участием и выдающимися инновационными возможностями в глобальном масштабе, ведя отрасль в новую эру.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose