Кто-то сравнил производительность самых мощных на сегодняшний день графических процессоров A6000 и 3090. Пользователи сети заявили: они даже не могут себе этого позволить.
Кто-то сравнил производительность самых мощных на сегодняшний день графических процессоров A6000 и 3090. Пользователи сети заявили: они даже не могут себе этого позволить.

Отчет о сердце машины

Монтажер: Зенан

Пришло время состязания видеокарт, которое люди любят видеть.

Хотя большинство графических процессоров, которые люди сегодня используют для обучения глубокому обучению, производятся Nvidia, ее продукты часто затрудняют принятие решения при покупке.

В декабре прошлого года Nvidia обновила свою линейку видеокарт с профессиональным ускорением графики до архитектуры Ampere, из которых наиболее высокопроизводительная RTX A6000 привлекает наибольшее внимание.

Что касается базовых характеристик, A6000 основан на полном ядре графического процессора GA102 со встроенными 10752 ядрами CUDA и тензорным ядром третьего поколения с производительностью с плавающей запятой одинарной точности, достигающей 38,7 терафлопс. Объем видеопамяти достигает 48 ГБ, тип — GDDR6 (16 Гбит/с, GDDR6X не используется из-за низкой однокристальной емкости) и поддерживает проверку ECC.

A6000 использует традиционную конструкцию вентилятора с турбонаддувом и прямым обдувом и может построить систему с двумя картами и 96 ГБ видеопамяти. Он имеет слот PCIe 4.0 x16, обеспечивает 4 интерфейса DP 1.4 (без HDMI) и имеет номинальное энергопотребление. 300 Вт. Цена этой видеокарты составляет 5500 долларов США (около 36 000 юаней).

Флагманская потребительская видеокарта RTX 3090, выпущенная ранее, вдвое мощнее предыдущего поколения с точки зрения производительности и энергоэффективности. Когда она впервые поступила в продажу, было трудно найти одну карту из-за таких проблем, как ограниченность. мощности по производству чипов.

Будучи самой мощной видеокартой на данный момент в глазах геймеров и специалистов по глубокому обучению, 3090 имеет 10 496 ядер CUDA и производительность операций с плавающей запятой FP32, составляющую 35,6 терафлопс. Объем видеопамяти составляет 24 ГБ, а материал — самый дорогой GDDR6X. Он также поддерживает HDMI 2.1, может достигать высокой частоты обновления 4K или игр 8K, а номинальное энергопотребление составляет 350 Вт. Цена RTX 3090 составляет 1500 долларов США (публичная версия Национального банка стоит 11 999 юаней).

Lambda, которая рассмотрела эти две видеокарты, — это компания, которая создает серверы глубокого обучения. Они предоставляют специальные компьютеры для обучения искусственному интеллекту и часто публикуют обзоры оборудования для глубокого обучения. В этом обзоре эти лучшие графические процессоры сравниваются по скорости обучения моделей в среде глубокого обучения PyTorch.

A6000 против 3090, это дуэль двух сильнейших видеокарт в линейке продуктов Nvidia. Конечно, вы в лаборатории глубокого обучения хотите знать, какая из них лучше. Но, честно говоря, моей первой реакцией, когда я увидел это название, было то, что я не могу себе этого позволить:

Слушать тебя — все равно, что слушать тебя, но я все еще не могу себе этого позволить.

Судя по результатам оценки, трата в три раза больше денег на RTX A6000 не даст вам особого преимущества в задачах глубокого обучения:

  • использовать PyTorch Классификация обучающих изображенийсверточная нейронная сетьчас,существовать 32-bit Точнее, одна штука. RTX A6000 Скорость RTX 3090 из 0.92 раз; если использовать смешанную точность. 1.01 раз.
  • использовать PyTorch Язык обучения Модель transformer час,существовать 32-bit Точнее, одна штука. RTX A6000 Скорость RTX 3090 из 1.34 раз точность смешивания также высока; 1.34 раз.
  • существуют при параллельном подключении нескольких карт,использовать PyTorch Классификация обучающих изображенийсверточная нейронная сеть,существовать 32-bit Если быть точным, восемь долларов. RTX A6000 Скоростьвосемь юаней RTX 3090 из 1.13 раз; если использовать смешанную точность. 1.14 раз.
  • использовать PyTorch рамка Язык обучения Модель transformer,существовать 32-bit Если быть точным, восемь долларов. RTX A6000 Скоростьвосемь юаней RTX 3090 из 1.36 раз; если использовать смешанную точность. 1.33 раз.

Поэтому, похоже, если вы хотите продемонстрировать возможности A6000 в задачах глубокого обучения, вам нужно купить еще несколько графических процессоров.

Сравнение возможностей 3090 и A6000 при обучении сверточной нейронной сети PyTorch

Как показано на рисунке, 32-битное обучение модели изображения при использовании одного RTX A6000 происходит немного медленнее, чем при использовании одного RTX 3090. Но поскольку скорость связи между графическими процессорами выше, чем больше видеокарт у A6000, тем очевиднее преимущество. Результаты тестов модели зрения усреднены на SSD, ResNet-50 и Mask RCNN.

Сравнение возможностей 3090 и A6000 при обучении языковых моделей на фреймворке PyTorch

В отличие от модели изображения, RTX A6000 стабильно был более чем в 1,3 раза быстрее, чем RTX 3090 для протестированной языковой модели. Это может быть связано с более высокими требованиями к памяти языковых моделей. По сравнению с RTX 3090, RTX A6000 имеет более медленную, но большую память. Результаты тестирования языковой модели являются средними для базовой версии Transformer-XL и большой версии Transformer-XL.

Обратите внимание, что здесь при параллельном подключении графических процессоров вместо SLI используется NVLink. Однако, согласно механизму самого оборудования, потеря производительности будет больше при использовании SLI, поэтому нет смысла использовать последний.

Lambda открыла код для этой оценки: https://github.com/lambdal/deeplearning-benchmark.

На этом этапе вы сможете найти свой вариант графического процессора. В будущем компания также планирует использовать тот же контент, что и в этом тесте, для изучения возможностей глубокого обучения 3080Ti.

Справочное содержание:

https://lambdalabs.com/blog/nvidia-rtx-a6000-vs-rtx-3090-benchmarks/

Применение инструмента разработки диалогового искусственного интеллекта NVIDIA NeMo

Набор инструментов NeMo с открытым исходным кодом — это набор инструментов диалогового искусственного интеллекта, который объединяет автоматическое распознавание речи (ASR), обработку естественного языка (NLP) и синтез речи (TTS), что позволяет разработчикам легко и быстро использовать его «из коробки», а также легко и просто с помощью всего лишь несколько строк кода. Выполните соответствующие задачи в диалоговых сценариях ИИ.

Начиная с 12 августа,Эксперты NVIDIA привезутТри прямых эфираделиться,Через теоретическую интерпретацию и практическую демонстрацию,покажи какиспользовать NeMo быстрый Завершить быстроЗадача классификации текста、быстрый Быстрая сборкаИнтеллектуальная система вопросов и ответов.、构建智能Разговорный бот

Живая ссылка:https://jmq.h5.xeknow.com/s/how4w(Нажмите, чтобы прочитать исходный текст напрямую)

Метод регистрации:Войдите в комнату прямой трансляции——Нажмите внизу в мобильной версии「Смотреть в прямом эфире」、Нажмите «Узнать сейчас» на ПК — после заполнения регистрационной формы вы сможете войти в комнату прямой трансляции для просмотра.

Группа общения и вопросов и ответов:Отсканируйте QR-код на странице сведений о комнате прямой трансляции, чтобы присоединиться.。

© THE END 

Пожалуйста, свяжитесь с этим общедоступным аккаунтом, чтобы получить разрешение на перепечатку.

Публикуйте статьи или ищите освещение: content@jiqizhixin.com

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose