Технический документ о новой интеллектуальной вычислительной технологии для кластеров с числом карт более 10 000
Технический документ о новой интеллектуальной вычислительной технологии для кластеров с числом карт более 10 000

С момента выпуска ChatGPT в мире технологий прошла волна конкуренции за большие модели. Данные стали новым фактором производства, вычислительная мощность стала новым основным источником энергии, а большие модели стали новым производственным инструментом. Преобразование от «+ИИ» к «ИИ+» во всех сферах жизни стало неудержимым. По мере того, как количество параметров модели увеличивается с сотен миллиардов до триллионов, возможности модели становятся более обобщенными, а требования больших моделей к базовой вычислительной мощности еще больше возрастают. Кластер Wanka стал стандартной конфигурацией в этом раунде гонки вооружений в области инфраструктуры крупных моделей.

Кластер Wanka поможет сократить время обучения при больших тренировках,Обеспечьте быструю итерацию возможностей Модели.,и своевременно реагировать на рыночные тенденции. Однако,Как добиться эффективного обучения в кластере Ванка,И сохранить стабильность тренировочного процесса в течение длительного времени,Это общее Модель Обучение масштабируется до десятков тысяч изображенийGPUДвойная задача, с которой сталкивается карта。В этом техническом документе предлагаются основные принципы проектирования кластера из супер-10 000 карт, а также ключевые проблемы и решения в различных областях, таких как вычисления, хранение, сеть, платформа и поддержка компьютерного зала.

Предыстория и проблемы

С момента запуска ChatGPT большие модели вступили в период быстрого развития. Хотя развитие технологии искусственного интеллекта привело к масштабным обновлениям отрасли, оно также привело к увеличению спроса на огромные объемы вычислительной мощности и энергии. Большие модели потребляют много вычислительной мощности, пространства, воды и электроэнергии, а требования к проектированию интеллектуальных вычислительных средств нового поколения становятся все более строгими. Новые технологии, связанные с интеллектуальными вычислительными центрами, будут и дальше подниматься на новые высоты. Будь то операторы связи, ведущие интернет-компании, крупные компании, занимающиеся исследованиями и разработками в области искусственного интеллекта, или стартапы в области искусственного интеллекта, все они ускоряют свои технологические прорывы и промышленные инновации в области искусственного интеллекта посредством самостоятельного создания или использования кластеров Wanka. Поскольку строительство кластера Ванка продолжает углубляться, мы предвидим, что эта тенденция окажет глубокое влияние на развитие всей индустрии интеллектуальных вычислений.

В настоящее время создание кластера Wanka все еще находится в зачаточном состоянии, в основном опираясь на графические процессоры NVIDIA и вспомогательное оборудование. Продукты NVIDIA, ведущего мирового поставщика графических процессоров, имеют большие преимущества при обучении больших моделей. Благодаря политической поддержке и развитию приложений отечественные ИИ-чипы добились большого прогресса за последние два года, но все еще существуют определенные пробелы в общей производительности и экологической конструкции. Создание технологически продвинутого кластера Wanka на основе внутренней экосистемы по-прежнему сталкивается со многими проблемами, связанными с чрезвычайной эффективностью использования вычислительной мощности, массовой обработкой данных, сверхкрупномасштабными межсетевыми соединениями, а также высоким энергопотреблением и проектированием компьютерных залов с высокой плотностью размещения.

Принципы проектирования и общая архитектура

В рамках пути развития, сочетающего большие вычислительные мощности с большими данными для создания больших моделей, построение кластера Wanka — это не просто объединение вычислительных мощностей. Для работы с такой же эффективностью, как «суперкомпьютер», требуются десятки тысяч графических карт. Общий дизайн кластера супер-10 000-ка должен соответствовать пяти принципам проектирования: настаивать на создании максимальной вычислительной мощности кластера, настаивать на создании системы совместной настройки, настаивать на достижении долгосрочного стабильного и надежного обучения, настаивать на обеспечении гибкости вычислительная мощность и настаивание на содействии экологически чистому и низкоуглеродному развитию.

Общая архитектура кластера Wanka состоит из четырех уровней и одного домена (рис. 1). Четыре уровня — это компьютерные помещения, инфраструктура, интеллектуальная вычислительная платформа и поддержка приложений. Первый домен — это домен интеллектуальной вычислительной деятельности, эксплуатации и обслуживания.

Новый дизайн общей архитектуры интеллектуальных вычислений для более чем 10 000 кластеров карт

Ключевые технологии

Кластерные энергоэффективные вычислительные технологии:С большим Модель Естественный язык из сотен миллиардов параметров Модель Мультимодальность к триллионам параметров Модель Обновление и эволюция,Ванке срочно необходимо всесторонне улучшить свои базовые вычислительные возможности. Конкретно,Включая расширенные возможности одного чипа, Улучшение вычислительных возможностей супернода、на основе DPU(Данные Processing Unit) реализует интеграцию нескольких вычислительных возможностей и обеспечивает максимальный коэффициент энергоэффективности вычислительной мощности. Эти систематические улучшения будут совместно поддерживать крупномасштабные задачи обучения моделей и вывода, а также удовлетворять быстрорастущие потребности бизнеса.

Высокопроизводительная конвергентная технология хранения данных:Чтобы добиться эффективного использования места хранения、данныеэффективный поток,И поддержите масштабное расширение кластера интеллектуальных вычислений.,Кластер Ванка должен внедрить технологию многопротокольного слияния и автоматического иерархического хранения.,Повышение эффективности обработки интеллектуальных вычислений,Помогите кластеру Ванка поддержать обучение сотен миллиардов или даже триллионов людей.

Технология крупномасштабной межмашинной сети высокой надежности:Ванкакластерсетьвключить параметрылапшасеть、данныелапшасеть、Деловая сеть、управлятьлапшасеть。Деловая сеть、управлятьлапшасеть Обычно используют традиционныеTCPспособ развертывания,Сеть параметров поверхности используется для расчета обмена параметрами между узлами.,Требуются возможности высокой пропускной способности без потерь. Сеть лиц данных используется вычислительными узлами для доступа к узлам хранения.,Существует также спрос на сети без потерь с высокой пропускной способностью. Кластер Ванка предъявляет самые высокие требования к параметрам поверхностной сети.,В основном отражается в четырех аспектах: крупномасштабный,Нулевая потеря пакетов,Высокая пропускная способность,Высокая надежность.

Высокоотказоустойчивая и высокопроизводительная платформенная технология:Производительность интеллектуальных вычислительных платформ обычно не может увеличиваться линейно с увеличением вычислительной мощности.,Вместо этого будет износ,Следовательно, крупномасштабное обучение также требует эффективного планирования вычислительной мощности для максимизации производительности вычислительной платформы. И это зависит не только от оптимизации алгоритмов и фреймворков.,Также необходима эффективная платформа планирования вычислительной мощности.,Достижение оптимального планирования вычислительной мощности на основе характеристик оборудования и характеристик вычислительной нагрузки кластера вычислительной мощности.,Обеспечить надежность кластера и эффективность вычислений. В ответ на вышеуказанные проблемы,В качестве точек входа в отрасли в основном используются обучение возобновлению работы с точками останова, оптимизация параллельных вычислений, интеллектуальная эксплуатация и обслуживание и т. д.,Создайте отказоустойчивую и высокопроизводительную интеллектуальную вычислительную платформу.

Новый дизайн компьютерного зала интеллектуального вычислительного центра:лапша Развитие интеллектуальных вычислительных мощностей с высокой плотностью и энергопотреблением.,Для новых интеллектуальных вычислительных центров, использующих более 10 000 карт,,Необходимо обеспечить безопасную, стабильную и надежную работу интеллектуального вычислительного оборудования.,Он обладает характеристиками эффективного охлаждения, эластичного расширения, быстрого развертывания, экологичности и низкого содержания углерода и т. д.,И реализовать интеллектуальное управление эксплуатацией и техническим обслуживанием.

прогноз на будущее

С постоянным расширением масштаба данных, постоянным расширением возможностей кластеров и все более широким применением больших моделей выдвигаются более высокие требования к обновлению новых интеллектуальных вычислительных баз. Глядя в будущее, мы призываем к технологическим прорывам в таких областях, как суперузлы, межкластерное обучение и программные платформы, чтобы расширить возможности интеллектуальной вычислительной инфраструктуры. В то же время мы продолжаем изучать интеграцию областей передовых технологий, таких как интеграция хранения и вычислений, фотонные чипы и интеллектуальные вычислительные центры, чтобы заложить основу для следующей информационной революции.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose