С момента выпуска ChatGPT в мире технологий прошла волна конкуренции за большие модели. Данные стали новым фактором производства, вычислительная мощность стала новым основным источником энергии, а большие модели стали новым производственным инструментом. Преобразование от «+ИИ» к «ИИ+» во всех сферах жизни стало неудержимым. По мере того, как количество параметров модели увеличивается с сотен миллиардов до триллионов, возможности модели становятся более обобщенными, а требования больших моделей к базовой вычислительной мощности еще больше возрастают. Кластер Wanka стал стандартной конфигурацией в этом раунде гонки вооружений в области инфраструктуры крупных моделей.
Кластер Wanka поможет сократить время обучения при больших тренировках,Обеспечьте быструю итерацию возможностей Модели.,и своевременно реагировать на рыночные тенденции. Однако,Как добиться эффективного обучения в кластере Ванка,И сохранить стабильность тренировочного процесса в течение длительного времени,Это общее Модель Обучение масштабируется до десятков тысяч изображенийGPUДвойная задача, с которой сталкивается карта。В этом техническом документе предлагаются основные принципы проектирования кластера из супер-10 000 карт, а также ключевые проблемы и решения в различных областях, таких как вычисления, хранение, сеть, платформа и поддержка компьютерного зала.
Предыстория и проблемы
С момента запуска ChatGPT большие модели вступили в период быстрого развития. Хотя развитие технологии искусственного интеллекта привело к масштабным обновлениям отрасли, оно также привело к увеличению спроса на огромные объемы вычислительной мощности и энергии. Большие модели потребляют много вычислительной мощности, пространства, воды и электроэнергии, а требования к проектированию интеллектуальных вычислительных средств нового поколения становятся все более строгими. Новые технологии, связанные с интеллектуальными вычислительными центрами, будут и дальше подниматься на новые высоты. Будь то операторы связи, ведущие интернет-компании, крупные компании, занимающиеся исследованиями и разработками в области искусственного интеллекта, или стартапы в области искусственного интеллекта, все они ускоряют свои технологические прорывы и промышленные инновации в области искусственного интеллекта посредством самостоятельного создания или использования кластеров Wanka. Поскольку строительство кластера Ванка продолжает углубляться, мы предвидим, что эта тенденция окажет глубокое влияние на развитие всей индустрии интеллектуальных вычислений.
В настоящее время создание кластера Wanka все еще находится в зачаточном состоянии, в основном опираясь на графические процессоры NVIDIA и вспомогательное оборудование. Продукты NVIDIA, ведущего мирового поставщика графических процессоров, имеют большие преимущества при обучении больших моделей. Благодаря политической поддержке и развитию приложений отечественные ИИ-чипы добились большого прогресса за последние два года, но все еще существуют определенные пробелы в общей производительности и экологической конструкции. Создание технологически продвинутого кластера Wanka на основе внутренней экосистемы по-прежнему сталкивается со многими проблемами, связанными с чрезвычайной эффективностью использования вычислительной мощности, массовой обработкой данных, сверхкрупномасштабными межсетевыми соединениями, а также высоким энергопотреблением и проектированием компьютерных залов с высокой плотностью размещения.
Принципы проектирования и общая архитектура
В рамках пути развития, сочетающего большие вычислительные мощности с большими данными для создания больших моделей, построение кластера Wanka — это не просто объединение вычислительных мощностей. Для работы с такой же эффективностью, как «суперкомпьютер», требуются десятки тысяч графических карт. Общий дизайн кластера супер-10 000-ка должен соответствовать пяти принципам проектирования: настаивать на создании максимальной вычислительной мощности кластера, настаивать на создании системы совместной настройки, настаивать на достижении долгосрочного стабильного и надежного обучения, настаивать на обеспечении гибкости вычислительная мощность и настаивание на содействии экологически чистому и низкоуглеродному развитию.
Общая архитектура кластера Wanka состоит из четырех уровней и одного домена (рис. 1). Четыре уровня — это компьютерные помещения, инфраструктура, интеллектуальная вычислительная платформа и поддержка приложений. Первый домен — это домен интеллектуальной вычислительной деятельности, эксплуатации и обслуживания.
Новый дизайн общей архитектуры интеллектуальных вычислений для более чем 10 000 кластеров карт
Ключевые технологии
Кластерные энергоэффективные вычислительные технологии:С большим Модель Естественный язык из сотен миллиардов параметров Модель Мультимодальность к триллионам параметров Модель Обновление и эволюция,Ванке срочно необходимо всесторонне улучшить свои базовые вычислительные возможности. Конкретно,Включая расширенные возможности одного чипа, Улучшение вычислительных возможностей супернода、на основе DPU(Данные Processing Unit) реализует интеграцию нескольких вычислительных возможностей и обеспечивает максимальный коэффициент энергоэффективности вычислительной мощности. Эти систематические улучшения будут совместно поддерживать крупномасштабные задачи обучения моделей и вывода, а также удовлетворять быстрорастущие потребности бизнеса.
Высокопроизводительная конвергентная технология хранения данных:Чтобы добиться эффективного использования места хранения、данныеэффективный поток,И поддержите масштабное расширение кластера интеллектуальных вычислений.,Кластер Ванка должен внедрить технологию многопротокольного слияния и автоматического иерархического хранения.,Повышение эффективности обработки интеллектуальных вычислений,Помогите кластеру Ванка поддержать обучение сотен миллиардов или даже триллионов людей.
Технология крупномасштабной межмашинной сети высокой надежности:Ванкакластерсетьвключить параметрылапшасеть、данныелапшасеть、Деловая сеть、управлятьлапшасеть。Деловая сеть、управлятьлапшасеть Обычно используют традиционныеTCPспособ развертывания,Сеть параметров поверхности используется для расчета обмена параметрами между узлами.,Требуются возможности высокой пропускной способности без потерь. Сеть лиц данных используется вычислительными узлами для доступа к узлам хранения.,Существует также спрос на сети без потерь с высокой пропускной способностью. Кластер Ванка предъявляет самые высокие требования к параметрам поверхностной сети.,В основном отражается в четырех аспектах: крупномасштабный,Нулевая потеря пакетов,Высокая пропускная способность,Высокая надежность.
Высокоотказоустойчивая и высокопроизводительная платформенная технология:Производительность интеллектуальных вычислительных платформ обычно не может увеличиваться линейно с увеличением вычислительной мощности.,Вместо этого будет износ,Следовательно, крупномасштабное обучение также требует эффективного планирования вычислительной мощности для максимизации производительности вычислительной платформы. И это зависит не только от оптимизации алгоритмов и фреймворков.,Также необходима эффективная платформа планирования вычислительной мощности.,Достижение оптимального планирования вычислительной мощности на основе характеристик оборудования и характеристик вычислительной нагрузки кластера вычислительной мощности.,Обеспечить надежность кластера и эффективность вычислений. В ответ на вышеуказанные проблемы,В качестве точек входа в отрасли в основном используются обучение возобновлению работы с точками останова, оптимизация параллельных вычислений, интеллектуальная эксплуатация и обслуживание и т. д.,Создайте отказоустойчивую и высокопроизводительную интеллектуальную вычислительную платформу.
Новый дизайн компьютерного зала интеллектуального вычислительного центра:лапша Развитие интеллектуальных вычислительных мощностей с высокой плотностью и энергопотреблением.,Для новых интеллектуальных вычислительных центров, использующих более 10 000 карт,,Необходимо обеспечить безопасную, стабильную и надежную работу интеллектуального вычислительного оборудования.,Он обладает характеристиками эффективного охлаждения, эластичного расширения, быстрого развертывания, экологичности и низкого содержания углерода и т. д.,И реализовать интеллектуальное управление эксплуатацией и техническим обслуживанием.
прогноз на будущее
С постоянным расширением масштаба данных, постоянным расширением возможностей кластеров и все более широким применением больших моделей выдвигаются более высокие требования к обновлению новых интеллектуальных вычислительных баз. Глядя в будущее, мы призываем к технологическим прорывам в таких областях, как суперузлы, межкластерное обучение и программные платформы, чтобы расширить возможности интеллектуальной вычислительной инфраструктуры. В то же время мы продолжаем изучать интеграцию областей передовых технологий, таких как интеграция хранения и вычислений, фотонные чипы и интеллектуальные вычислительные центры, чтобы заложить основу для следующей информационной революции.