Подробное введение в продукты NVIDIA Jetson
Подробное введение в продукты NVIDIA Jetson

Эта статья составлена ​​на основе лекции NVIDIA 2024 GTC.

Теперь давайте более подробно рассмотрим нашу платформу Jetson. Это наши модули Jetson Orin, и у нас есть семь различных модулей, охватывающих весь диапазон от начального уровня до высокой производительности. Самое приятное то, что в отличие от предыдущих решений мы впервые используем архитектуру SOC (система на кристалле) во всей линейке нашей продукции. От начального уровня до высокопроизводительного — все они основаны на одной и той же архитектуре, что также делает продукт более масштабируемым и позволяет легко перемещать его с одного модуля на другой.

Так что же входит в эту архитектуру? Orin SOC содержит графический процессор Ampere и процессор Arm A78, а некоторые модули также содержат специальные ускорители. У нас есть ускорители глубокого обучения, программируемые ускорители зрения, синтезаторы видеоизображений. Не волнуйтесь, на следующих слайдах я подробно расскажу, что делают эти ускорители.

Также есть два разных форм-фактора. Если вы посмотрите на верхнюю часть этого слайда, у нас есть больший размер 100x87 мм, а также модули размером с кредитную карту. Более того, модули от Orin nano до Orin NX имеют форм-фактор и совместимы по выводам, а это означает, что вы можете использовать несущую плату для поддержки любого из четырех модулей. Аналогично, модели AGX Orin и AGX Orin Industrial также имеют форм-фактор и совместимы по выводам, поэтому вы можете использовать одну несущую плату для поддержки всех четырех модулей.

Что касается различий, то они оба основаны на одной и той же архитектуре SOC. Однако они имеют разный состав с точки зрения количества ядер графического процессора, количества ядер ЦП, некоторых ускорителей и ввода-вывода. Таким образом, меньший SoDIMM имеет специальный ввод-вывод, о котором я расскажу на нескольких слайдах, а AGX Orin имеет десять гигабитных Ethernet, до 22 линий PCIe и некоторые другие вводы-выводы, о которых я расскажу ниже.

Так как же решить, какой модуль подходит для вашего приложения? Это действительно зависит от некоторых ключевых вопросов. Jetson предназначен для объединения и агрегирования датчиков. Во-первых, какой тип датчика вы подключаете к устройству? Во-вторых, какова ваша рабочая нагрузка? Вы пытаетесь запустить какой-нибудь генеративный ИИ? Вы пытаетесь заняться компьютерным зрением? То, что вы планируете развернуть на устройстве, может фактически определять ваши вычислительные потребности. Таким образом, в зависимости от размера вашей рабочей нагрузки, от диапазона производительности Orin nano от 20 до 40 TOPS до максимальной производительности AGX Orin в 275 TOPS, любое из этих устройств может удовлетворить ваши потребности.

Еще нас часто спрашивают, каковы ваши требования к размеру и мощности, поэтому у нас также есть много различных модулей, чтобы вы могли найти решение, соответствующее вашим требованиям. Вы увидите, что у Orin nano бюджет мощности составляет от 10 до 15 Вт, а у AGX Orin — до 60 Вт. Например, у вас может быть приложение для дронов, где энергопотребление очень важно, тогда вам могут быть полезны Orin nano или Orin NX с учетом энергопотребления, веса и размера. Для AGX Orin, для которого требуются более крупные генеративные модели искусственного интеллекта, доступны дополнительные вычислительные ресурсы. Еще я хочу подчеркнуть, что у нас не только есть эти различные модули, но мы также проводим множество оптимизаций производительности программного обеспечения. Для тех, кто не знаком, у нас есть так называемая mlperf — организация по стандартизации, которая проводит набор тестов машинного обучения. Начиная с предыдущего поколения Jetson AGX Xavier и заканчивая последним поколением Jetson Orin, мы не только оптимизированы с точки зрения вычислений, но и лидируем в области моделей, и мы можем выполнять все наши модели машинного обучения на Jetson.

Так что же конкретно включает в себя серия Jetson AGX Orin? Модуль Jetson AGX Orin имеет форм-фактор 100x87 мм. Я хочу отметить одну вещь: на этой диаграмме показан SOC модуля вместе с некоторыми другими компонентами, но не TTP, поэтому вы можете видеть, что происходит внутри модуля. Однако наши модули AGX Orin на самом деле оснащены так называемой пластиной теплопередачи. Это позволяет очень легко разрабатывать тепловые решения, поскольку большая часть тепловых требований удовлетворяется этим TTP. В нижней части модуля можно увидеть 699-контактный разъем. Таким образом, вы по сути подключаете этот модуль к несущей плате, которая в нашем комплекте разработки фактически включает в себя несущую плату, модуль и радиатор, так что вы можете сразу начать его использовать. Что еще находится внутри модуля? Итак, выше мы упоминали, что в Orin стоит графический процессор Ampere, в AGX Orin он имеет до 2048 ядер и до 64 тензорных ядер. Что касается процессора, то количество ядер в серии Orin колеблется от 8 до 12, а также есть несколько ускорителей. Существует программируемый ускоритель машинного зрения, который можно использовать для запуска алгоритмов компьютерного зрения. Существует ускоритель глубокого обучения, позволяющий запускать алгоритмы глубокого обучения на графическом процессоре, освобождая графический процессор и процессор для более ресурсоемких задач. Если посмотреть на мультимедийный комплекс, то там есть и ускоритель оптического потока, который снимает нагрузку с оптического потока и некоторых требований к стереоскопическому параллаксу, и AJPEG, и кодер и декодер, в зависимости от ваших требований к кодированию и декодированию тех или иных потоков камеры. На этом слайде много всего, но я хочу выделить все модули, чтобы вы точно знали, что включено в архитектуру.

Еще я хочу поговорить о том, что у Орина общая память. Итак, вы можете увидеть структуру контроллера памяти: все процессоры и графические процессоры используют одну и ту же архитектуру. Теперь в серой области внизу слайда вы можете увидеть все различные операции ввода-вывода: со стороны высокоскоростного ввода-вывода мы поддерживаем PC IE, у нас также есть 10 Gigabit Ethernet, у нас также есть поддержка USB 3.2 A и со стороны дисплея есть HDMI и DP, до 16 каналов CSI и множество входов/выходов датчиков, таких как I2C, CAN, GPIO и т. д.

Каковы внутренние отличия модуля Orin NX от AGX Orin? Основные различия заключаются в архитектуре, количестве ядер графического процессора, количестве ядер процессора и ускорителей. Поэтому модуль Orin NX оснащен ускорителями глубокого обучения и зрения, а модуль Orin Nano — нет. С точки зрения ввода-вывода, поскольку Orin Nano выпускается в форм-факторе SoDIMM с 260 контактами, существует несколько различных подсчетов линий PCIe, а также других вводов-выводов, которые вы можете увидеть здесь. Таким образом, он продолжит поддерживать PCIe, сенсорный ввод-вывод, USB, ACSI и т. д. Самое приятное то, что Orin Nano и Orin NX имеют форм-фактор и совместимы по выводам, что означает, что вы можете использовать одну несущую плату для поддержки всех из них.

Итак, о каких ускорителях я упоминал ранее? Здесь вы можете видеть, что у нас есть ускоритель глубокого обучения, который представляет собой ускоритель с фиксированной функцией, который можно использовать для выполнения некоторых рабочих нагрузок глубокого обучения, и у нас есть различная документация о том, какие уровни можно переносить в этот ускоритель глубокого обучения. Это идеально подходит для случаи использования, которые требуют большого количества искусственного интеллекта и хотят разгрузить его, чтобы у графического процессора было больше вычислительных ресурсов. Аналогичным образом можно использовать программируемые ускорители зрения, и в правой части слайда я рассмотрю пример, показывающий, как мы можем использовать некоторые ускорители для такой разгрузки. Итак, этот PVA — это блоки двунаправленной векторной обработки, которые могут поддерживать некоторые алгоритмы компьютерного зрения, а также есть синтезатор видеоизображений для некоторых функций обработки изображений. Интернет-провайдер также был показан на предыдущей диаграмме. Так каков пример использования этих ускорителей? На самом деле это пример, взятый из наших микросервисов Metropolis, о которых я упоминал ранее, которые представляют собой набор API-интерфейсов, которые мы помогаем оптимизировать различные конвейеры визуального ИИ. Итак, здесь мы берем очень ресурсоемкое приложение и распределяем его по графическому процессору, центральному процессору и ускорителям. Итак, если вы посмотрите здесь, поскольку мы распределили это приложение по разным процессорам, вы освободите графический процессор и центральный процессор, которые используются только на 50 % на AGX и на 30 % на Orin NX. %, на 60 % используется процессор. Таким образом, это дает вам большую свободу действий для запуска других приложений, а также запуска приложения визуального ИИ на некоторых ускорителях. Так что же именно здесь происходит? В основном было запущено шестнадцать каналов модели обнаружения человека, а также осуществлялось сложное отслеживание объектов. Таким образом, его выход — четыре потока, а вход — 1080p30. Итак, вы можете видеть, что если вы используете эти ускорители, вы фактически можете разгрузить часть вычислений, освободив графический процессор и центральный процессор.

Давайте поговорим еще немного о генеративном искусственном интеллекте и о том, как мы можем довести его до совершенства. Здесь вы можете увидеть нашу NVIDIA AGX Orin и некоторые из различных моделей генеративного ИИ, работающих на AGX Orin. Как правило, генеративные модели ИИ известны своим большим размером и потребностью в большом объеме памяти. Но благодаря оптимизации, которую мы можем провести, мы фактически можем запускать эти модели на периферии, что действительно является уникальным ценным предложением нашего решения. Здесь вы можете увидеть большую языковую модель: используя обычный Llama2 7B, мы смогли достичь 43 токенов в секунду. Аналогично, для некоторых моделей визуального языка нам удалось достичь 42 на Llama2 7B, а затем 22 на 13B. Переходя к некоторым моделям Vision Transformer, есть такие, как Vision Transformer, а также Mobile Sam, Efficient VIT и так далее. Мы можем достичь очень высокой пропускной способности, вы можете видеть, что эффективное количество кадров в секунду в VIT составляет 277, для сравнения: обычно 30 кадров в секунду — это частота кадров в реальном времени, поэтому мы можем достичь реального времени. на этих моделях частота кадров, у некоторых даже выше. Кроме того, с точки зрения стабильной диффузии, с точки зрения количества изображений в секунду, мы также смогли добиться отличной производительности.

С какими проблемами сталкиваются люди и как Jetson их решает? Во-первых, модель сложно адаптировать. Мы видим, что не все обладают сильным опытом глубокого обучения, поэтому возможность поддерживать различные типы моделей, а также настраивать и оптимизировать их очень важна, и именно на этом мы сосредоточены на создании этой программно-определяемой платформы.

Мы поддерживаем различные типы моделей и фреймворков, включая модели Transformer, что очень редко встречается среди периферийных платформ. Другая проблема заключается в том, что иногда у людей есть потребности в разных вертикалях. Мы много говорим об этих приложениях, таких как IVA, а также о робототехнике. На уровне приложений существуют разные потребности, помимо простого выполнения базовых вычислений, и у нас есть решения для этого, будь то наш Isaac Perceptor или Isaac ROS, или видение. сторона, у нас есть микросервисы Metropolis. Используя наше решение, вы можете запускать полноценные сквозные конвейеры.

Еще один момент, который мы только что затронули, заключается в том, что наш комплект разработки позволяет вам не выполнять последовательный цикл разработки. Вы можете развиваться параллельно. Ваши команды по программному и аппаратному обеспечению могут работать вместе над разработкой решений.

Другой вопрос: как начать работу после завершения разработки? Именно здесь в игру вступает наша партнерская экосистема. Они предлагают несущие платы, комплексные системы, а также датчики и камеры, а также проводят обширные разработки с помощью Jetson, чтобы ускорить ваш выход на рынок. Наконец, настройте ресурсы для проектирования оборудования. Иногда, если вы посмотрите на всю встраиваемую систему, вы увидите, что архитектура питания и архитектура памяти отнимают много времени с точки зрения разработки. Но он также занимает много места на доске. Поскольку у нас уникальная модульная архитектура, она устраняет эту сложность. Вам не нужно беспокоиться о памяти и о конструкции блока питания. Все, что вам нужно сделать, это использовать этот модуль Plug-and-Play, чтобы легко разработать свое решение.

Jetson — это программно-определяемая платформа. Мы стремимся предоставить вам не только оборудование, но и комплексное решение. Итак, вы увидите внизу этого слайда, что мы показываем наше оборудование, а поверх него у нас есть программное обеспечение нашей платформы, которое включает в себя вашу базовую операционную систему Linux, а также средства безопасности и некоторые системные службы. Кроме того, у нас есть стек искусственного интеллекта, и вы можете использовать множество других функций NVIDIA, которые теперь могут выполняться на периферии. Итак, что бы вы ни делали, теперь вы можете запускать это и на грани. Кроме того, у вас есть свои отраслевые потребности, будь то Metropolis в интеллектуальной видеоаналитике или Isaac в робототехнике. У нас есть различные API, которые помогут ускорить вашу разработку.

Проект GROOT — это универсальная базовая модель, предназначенная для роботов-гуманоидов следующего поколения. Как мы говорили вначале, мы видим значительный рост спроса на человекоподобных роботов. Таким образом, требуется больше вычислительной мощности и более специализированное программное обеспечение, и вы можете обучать робота-гуманоида с точки зрения текста и речи, а также общего движения, выполняя действия перед роботом. Вы можете использовать одну из этих генеративных моделей искусственного интеллекта для обучения своего бота. Итак, у нас есть Джетсон Тор,

Jetson Thor обеспечивает производительность в 8 раз выше, чем Jetson Orin, до 800 терафлопс. Как это возможно? Это связано с тем, что у нас есть новая архитектура графического процессора следующего поколения, основанная на Blackwell и включающая в себя движок Transformer. Мы увеличили его не только с точки зрения графического процессора, но и с точки зрения процессора: производительность процессора была улучшена почти в 2,6 раза. Что касается памяти, мы удвоили объем DRAM, и теперь он составляет 128 ГБ. А затем, с точки зрения пропускной способности ввода-вывода, мы действительно видим изменения в необходимости найти баланс между памятью, вычислениями и вводом-выводом, поэтому теперь с Jetson Thor мы увеличили вычислительные возможности, поэтому, очевидно, I/O также необходимо увеличить /О. Таким образом, мы обеспечим в 10 раз большую пропускную способность ввода-вывода, чем сегодня, до 4x25Gb Ethernet.

Что касается нашей дорожной карты, наши компоненты модулей Orin являются коммерческими модулями. У них семилетний жизненный цикл, поэтому они не будут доступны до 2030 года. Наши промышленные модули имеют десятилетний жизненный цикл, поэтому будут доступны до 2033 года. Вы можете увидеть AGX Thor, который будет доступен в 2025 году. Я хотел бы отметить, что другие наши модули, такие как Jetson AGX Xavier TX2 и nano, будут по-прежнему доступны на протяжении всего жизненного цикла продукта. Но для любого нового дизайна мы настоятельно рекомендуем вам рассмотреть наш Jetson Orin, поскольку все программные решения, о которых я упоминал ранее, мы продолжим добавлять и улучшать их и сосредоточимся на Jetson Orin.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose