Эта статья составлена на основе лекции NVIDIA 2024 GTC.
Теперь давайте более подробно рассмотрим нашу платформу Jetson. Это наши модули Jetson Orin, и у нас есть семь различных модулей, охватывающих весь диапазон от начального уровня до высокой производительности. Самое приятное то, что в отличие от предыдущих решений мы впервые используем архитектуру SOC (система на кристалле) во всей линейке нашей продукции. От начального уровня до высокопроизводительного — все они основаны на одной и той же архитектуре, что также делает продукт более масштабируемым и позволяет легко перемещать его с одного модуля на другой.
Так что же входит в эту архитектуру? Orin SOC содержит графический процессор Ampere и процессор Arm A78, а некоторые модули также содержат специальные ускорители. У нас есть ускорители глубокого обучения, программируемые ускорители зрения, синтезаторы видеоизображений. Не волнуйтесь, на следующих слайдах я подробно расскажу, что делают эти ускорители.
Также есть два разных форм-фактора. Если вы посмотрите на верхнюю часть этого слайда, у нас есть больший размер 100x87 мм, а также модули размером с кредитную карту. Более того, модули от Orin nano до Orin NX имеют форм-фактор и совместимы по выводам, а это означает, что вы можете использовать несущую плату для поддержки любого из четырех модулей. Аналогично, модели AGX Orin и AGX Orin Industrial также имеют форм-фактор и совместимы по выводам, поэтому вы можете использовать одну несущую плату для поддержки всех четырех модулей.
Что касается различий, то они оба основаны на одной и той же архитектуре SOC. Однако они имеют разный состав с точки зрения количества ядер графического процессора, количества ядер ЦП, некоторых ускорителей и ввода-вывода. Таким образом, меньший SoDIMM имеет специальный ввод-вывод, о котором я расскажу на нескольких слайдах, а AGX Orin имеет десять гигабитных Ethernet, до 22 линий PCIe и некоторые другие вводы-выводы, о которых я расскажу ниже.
Так как же решить, какой модуль подходит для вашего приложения? Это действительно зависит от некоторых ключевых вопросов. Jetson предназначен для объединения и агрегирования датчиков. Во-первых, какой тип датчика вы подключаете к устройству? Во-вторых, какова ваша рабочая нагрузка? Вы пытаетесь запустить какой-нибудь генеративный ИИ? Вы пытаетесь заняться компьютерным зрением? То, что вы планируете развернуть на устройстве, может фактически определять ваши вычислительные потребности. Таким образом, в зависимости от размера вашей рабочей нагрузки, от диапазона производительности Orin nano от 20 до 40 TOPS до максимальной производительности AGX Orin в 275 TOPS, любое из этих устройств может удовлетворить ваши потребности.
Еще нас часто спрашивают, каковы ваши требования к размеру и мощности, поэтому у нас также есть много различных модулей, чтобы вы могли найти решение, соответствующее вашим требованиям. Вы увидите, что у Orin nano бюджет мощности составляет от 10 до 15 Вт, а у AGX Orin — до 60 Вт. Например, у вас может быть приложение для дронов, где энергопотребление очень важно, тогда вам могут быть полезны Orin nano или Orin NX с учетом энергопотребления, веса и размера. Для AGX Orin, для которого требуются более крупные генеративные модели искусственного интеллекта, доступны дополнительные вычислительные ресурсы. Еще я хочу подчеркнуть, что у нас не только есть эти различные модули, но мы также проводим множество оптимизаций производительности программного обеспечения. Для тех, кто не знаком, у нас есть так называемая mlperf — организация по стандартизации, которая проводит набор тестов машинного обучения. Начиная с предыдущего поколения Jetson AGX Xavier и заканчивая последним поколением Jetson Orin, мы не только оптимизированы с точки зрения вычислений, но и лидируем в области моделей, и мы можем выполнять все наши модели машинного обучения на Jetson.
Так что же конкретно включает в себя серия Jetson AGX Orin? Модуль Jetson AGX Orin имеет форм-фактор 100x87 мм. Я хочу отметить одну вещь: на этой диаграмме показан SOC модуля вместе с некоторыми другими компонентами, но не TTP, поэтому вы можете видеть, что происходит внутри модуля. Однако наши модули AGX Orin на самом деле оснащены так называемой пластиной теплопередачи. Это позволяет очень легко разрабатывать тепловые решения, поскольку большая часть тепловых требований удовлетворяется этим TTP. В нижней части модуля можно увидеть 699-контактный разъем. Таким образом, вы по сути подключаете этот модуль к несущей плате, которая в нашем комплекте разработки фактически включает в себя несущую плату, модуль и радиатор, так что вы можете сразу начать его использовать. Что еще находится внутри модуля? Итак, выше мы упоминали, что в Orin стоит графический процессор Ampere, в AGX Orin он имеет до 2048 ядер и до 64 тензорных ядер. Что касается процессора, то количество ядер в серии Orin колеблется от 8 до 12, а также есть несколько ускорителей. Существует программируемый ускоритель машинного зрения, который можно использовать для запуска алгоритмов компьютерного зрения. Существует ускоритель глубокого обучения, позволяющий запускать алгоритмы глубокого обучения на графическом процессоре, освобождая графический процессор и процессор для более ресурсоемких задач. Если посмотреть на мультимедийный комплекс, то там есть и ускоритель оптического потока, который снимает нагрузку с оптического потока и некоторых требований к стереоскопическому параллаксу, и AJPEG, и кодер и декодер, в зависимости от ваших требований к кодированию и декодированию тех или иных потоков камеры. На этом слайде много всего, но я хочу выделить все модули, чтобы вы точно знали, что включено в архитектуру.
Еще я хочу поговорить о том, что у Орина общая память. Итак, вы можете увидеть структуру контроллера памяти: все процессоры и графические процессоры используют одну и ту же архитектуру. Теперь в серой области внизу слайда вы можете увидеть все различные операции ввода-вывода: со стороны высокоскоростного ввода-вывода мы поддерживаем PC IE, у нас также есть 10 Gigabit Ethernet, у нас также есть поддержка USB 3.2 A и со стороны дисплея есть HDMI и DP, до 16 каналов CSI и множество входов/выходов датчиков, таких как I2C, CAN, GPIO и т. д.
Каковы внутренние отличия модуля Orin NX от AGX Orin? Основные различия заключаются в архитектуре, количестве ядер графического процессора, количестве ядер процессора и ускорителей. Поэтому модуль Orin NX оснащен ускорителями глубокого обучения и зрения, а модуль Orin Nano — нет. С точки зрения ввода-вывода, поскольку Orin Nano выпускается в форм-факторе SoDIMM с 260 контактами, существует несколько различных подсчетов линий PCIe, а также других вводов-выводов, которые вы можете увидеть здесь. Таким образом, он продолжит поддерживать PCIe, сенсорный ввод-вывод, USB, ACSI и т. д. Самое приятное то, что Orin Nano и Orin NX имеют форм-фактор и совместимы по выводам, что означает, что вы можете использовать одну несущую плату для поддержки всех из них.
Итак, о каких ускорителях я упоминал ранее? Здесь вы можете видеть, что у нас есть ускоритель глубокого обучения, который представляет собой ускоритель с фиксированной функцией, который можно использовать для выполнения некоторых рабочих нагрузок глубокого обучения, и у нас есть различная документация о том, какие уровни можно переносить в этот ускоритель глубокого обучения. Это идеально подходит для случаи использования, которые требуют большого количества искусственного интеллекта и хотят разгрузить его, чтобы у графического процессора было больше вычислительных ресурсов. Аналогичным образом можно использовать программируемые ускорители зрения, и в правой части слайда я рассмотрю пример, показывающий, как мы можем использовать некоторые ускорители для такой разгрузки. Итак, этот PVA — это блоки двунаправленной векторной обработки, которые могут поддерживать некоторые алгоритмы компьютерного зрения, а также есть синтезатор видеоизображений для некоторых функций обработки изображений. Интернет-провайдер также был показан на предыдущей диаграмме. Так каков пример использования этих ускорителей? На самом деле это пример, взятый из наших микросервисов Metropolis, о которых я упоминал ранее, которые представляют собой набор API-интерфейсов, которые мы помогаем оптимизировать различные конвейеры визуального ИИ. Итак, здесь мы берем очень ресурсоемкое приложение и распределяем его по графическому процессору, центральному процессору и ускорителям. Итак, если вы посмотрите здесь, поскольку мы распределили это приложение по разным процессорам, вы освободите графический процессор и центральный процессор, которые используются только на 50 % на AGX и на 30 % на Orin NX. %, на 60 % используется процессор. Таким образом, это дает вам большую свободу действий для запуска других приложений, а также запуска приложения визуального ИИ на некоторых ускорителях. Так что же именно здесь происходит? В основном было запущено шестнадцать каналов модели обнаружения человека, а также осуществлялось сложное отслеживание объектов. Таким образом, его выход — четыре потока, а вход — 1080p30. Итак, вы можете видеть, что если вы используете эти ускорители, вы фактически можете разгрузить часть вычислений, освободив графический процессор и центральный процессор.
Давайте поговорим еще немного о генеративном искусственном интеллекте и о том, как мы можем довести его до совершенства. Здесь вы можете увидеть нашу NVIDIA AGX Orin и некоторые из различных моделей генеративного ИИ, работающих на AGX Orin. Как правило, генеративные модели ИИ известны своим большим размером и потребностью в большом объеме памяти. Но благодаря оптимизации, которую мы можем провести, мы фактически можем запускать эти модели на периферии, что действительно является уникальным ценным предложением нашего решения. Здесь вы можете увидеть большую языковую модель: используя обычный Llama2 7B, мы смогли достичь 43 токенов в секунду. Аналогично, для некоторых моделей визуального языка нам удалось достичь 42 на Llama2 7B, а затем 22 на 13B. Переходя к некоторым моделям Vision Transformer, есть такие, как Vision Transformer, а также Mobile Sam, Efficient VIT и так далее. Мы можем достичь очень высокой пропускной способности, вы можете видеть, что эффективное количество кадров в секунду в VIT составляет 277, для сравнения: обычно 30 кадров в секунду — это частота кадров в реальном времени, поэтому мы можем достичь реального времени. на этих моделях частота кадров, у некоторых даже выше. Кроме того, с точки зрения стабильной диффузии, с точки зрения количества изображений в секунду, мы также смогли добиться отличной производительности.
С какими проблемами сталкиваются люди и как Jetson их решает? Во-первых, модель сложно адаптировать. Мы видим, что не все обладают сильным опытом глубокого обучения, поэтому возможность поддерживать различные типы моделей, а также настраивать и оптимизировать их очень важна, и именно на этом мы сосредоточены на создании этой программно-определяемой платформы.
Мы поддерживаем различные типы моделей и фреймворков, включая модели Transformer, что очень редко встречается среди периферийных платформ. Другая проблема заключается в том, что иногда у людей есть потребности в разных вертикалях. Мы много говорим об этих приложениях, таких как IVA, а также о робототехнике. На уровне приложений существуют разные потребности, помимо простого выполнения базовых вычислений, и у нас есть решения для этого, будь то наш Isaac Perceptor или Isaac ROS, или видение. сторона, у нас есть микросервисы Metropolis. Используя наше решение, вы можете запускать полноценные сквозные конвейеры.
Еще один момент, который мы только что затронули, заключается в том, что наш комплект разработки позволяет вам не выполнять последовательный цикл разработки. Вы можете развиваться параллельно. Ваши команды по программному и аппаратному обеспечению могут работать вместе над разработкой решений.
Другой вопрос: как начать работу после завершения разработки? Именно здесь в игру вступает наша партнерская экосистема. Они предлагают несущие платы, комплексные системы, а также датчики и камеры, а также проводят обширные разработки с помощью Jetson, чтобы ускорить ваш выход на рынок. Наконец, настройте ресурсы для проектирования оборудования. Иногда, если вы посмотрите на всю встраиваемую систему, вы увидите, что архитектура питания и архитектура памяти отнимают много времени с точки зрения разработки. Но он также занимает много места на доске. Поскольку у нас уникальная модульная архитектура, она устраняет эту сложность. Вам не нужно беспокоиться о памяти и о конструкции блока питания. Все, что вам нужно сделать, это использовать этот модуль Plug-and-Play, чтобы легко разработать свое решение.
Jetson — это программно-определяемая платформа. Мы стремимся предоставить вам не только оборудование, но и комплексное решение. Итак, вы увидите внизу этого слайда, что мы показываем наше оборудование, а поверх него у нас есть программное обеспечение нашей платформы, которое включает в себя вашу базовую операционную систему Linux, а также средства безопасности и некоторые системные службы. Кроме того, у нас есть стек искусственного интеллекта, и вы можете использовать множество других функций NVIDIA, которые теперь могут выполняться на периферии. Итак, что бы вы ни делали, теперь вы можете запускать это и на грани. Кроме того, у вас есть свои отраслевые потребности, будь то Metropolis в интеллектуальной видеоаналитике или Isaac в робототехнике. У нас есть различные API, которые помогут ускорить вашу разработку.
Проект GROOT — это универсальная базовая модель, предназначенная для роботов-гуманоидов следующего поколения. Как мы говорили вначале, мы видим значительный рост спроса на человекоподобных роботов. Таким образом, требуется больше вычислительной мощности и более специализированное программное обеспечение, и вы можете обучать робота-гуманоида с точки зрения текста и речи, а также общего движения, выполняя действия перед роботом. Вы можете использовать одну из этих генеративных моделей искусственного интеллекта для обучения своего бота. Итак, у нас есть Джетсон Тор,
Jetson Thor обеспечивает производительность в 8 раз выше, чем Jetson Orin, до 800 терафлопс. Как это возможно? Это связано с тем, что у нас есть новая архитектура графического процессора следующего поколения, основанная на Blackwell и включающая в себя движок Transformer. Мы увеличили его не только с точки зрения графического процессора, но и с точки зрения процессора: производительность процессора была улучшена почти в 2,6 раза. Что касается памяти, мы удвоили объем DRAM, и теперь он составляет 128 ГБ. А затем, с точки зрения пропускной способности ввода-вывода, мы действительно видим изменения в необходимости найти баланс между памятью, вычислениями и вводом-выводом, поэтому теперь с Jetson Thor мы увеличили вычислительные возможности, поэтому, очевидно, I/O также необходимо увеличить /О. Таким образом, мы обеспечим в 10 раз большую пропускную способность ввода-вывода, чем сегодня, до 4x25Gb Ethernet.
Что касается нашей дорожной карты, наши компоненты модулей Orin являются коммерческими модулями. У них семилетний жизненный цикл, поэтому они не будут доступны до 2030 года. Наши промышленные модули имеют десятилетний жизненный цикл, поэтому будут доступны до 2033 года. Вы можете увидеть AGX Thor, который будет доступен в 2025 году. Я хотел бы отметить, что другие наши модули, такие как Jetson AGX Xavier TX2 и nano, будут по-прежнему доступны на протяжении всего жизненного цикла продукта. Но для любого нового дизайна мы настоятельно рекомендуем вам рассмотреть наш Jetson Orin, поскольку все программные решения, о которых я упоминал ранее, мы продолжим добавлять и улучшать их и сосредоточимся на Jetson Orin.