Ссылка на UCX
Официальный сайт: https://openucx.org/
Официальная документация: https://openucx.readthedocs.io/en/master/
Проектная документация и конструкторские идеи (транспортный уровень Например): https://github.com/openucx/ucx/wiki/UCT-Design
Домашняя страница проекта: https://github.com/openucx/ucx
посмотрите демо-версию SC'19 на встрече UCX, чтобы узнать о UCX и его последних разработках из дополнительной информации: https://www.youtube.com/watch?v=H2d1CkGXJ64
речь: https://ucfconsortium.org/presentations/
Ссылка на видео: https://www.youtube.com/watch?v=Yv9nW0Qyjys&t=2713s
UCF Unified Communication Framework структура унифицированных коммуникаций, https://ucfconsortium.org/, структура унифицированных коммуникаций - Сотрудничество между промышленностью, лабораториями и научными кругами для создания коммуникационных инфраструктур производственного уровня и открытых стандартов для высокопроизводительных приложений, ориентированных на данные. Об Университете Центральной Флориды, Структура открытой коммуникации является важным стимулом для совместного проектирования и предоставляет возможности для инноваций и разработки гетерогенных элементов совместной обработки. Гетерогенные элементы совместной обработки могут работать совместно и бесперебойно, тем самым обеспечивая экзафлопсные вычисления и другие вычислительные возможности. . Многоядерная обработка Архитектура, настройка FPGA Появление элементов обработки, взаимосвязанного интеллекта и хранения данных — это лишь некоторые из ключевых технологий, которые полагаются на способность эффективно общаться в таких рамках для реализации потенциала своих возможностей.
речь: https://ucfconsortium.org/presentations/
блог: https://ucfconsortium.org/blogs/
Домашняя страница проекта: https://github.com/openucx/ucx/wiki, Основные компоненты: https://github.com/openucx/ucx/wiki/Infrastructure-and-Tools, Высотный дизайн: https://github.com/openucx/ucx/wiki/High-Level-design
Компоненты Введение
Component | Role | Description |
---|---|---|
UCP | Protocol | выполнитьпередовойабстрактный,Напримерсопоставление тегов, поток, согласование и установление соединения, многолучевое распространениеа Также Обработка различных типов памяти. |
UCT | Transport | Реализация низкоуровневой семантики связи, такой как активные сообщения, удаленный доступ к памяти и атомарные операции. |
UCS | Services | Коллекция часто используемых структур данных, алгоритмов и системных утилит. |
UCM | Memory | Перехватывает события выделения и освобождения памяти, которые используются кэшем регистрации памяти. |
Nvidia MLX и еще 5 громких имен автор проекта Введение
Джеффри Янг (Технологический институт Джорджии), Йосси Итигин (NVIDIA), Мэтью Бейкер (Национальная лаборатория Ок-Риджа), Оскар Эрнандес (NVIDIA/Mellanox)
oscar hernandez on behalf of gilad shainer ucf
миссия-ИИ, GPU, DPU, Двухточечная связь, машинное обучение
Пример пользователя
Один ко многим, обмен рабочим_адресом по внешней сети
server:
client
действовать
http://openshmem.org/workshops/ort2022/
UCF 2022семинар на OpenSHMEM Встреча принята ORT 2022 подчинение. С авторами свяжутся индивидуально и спросят, подходит ли им это.
OpenSHMEM Семинар является ежегодным мероприятием, посвященным использованию OpenSHMEM Интерфейсы программирования и связанные с ними технологии способствуют развитию параллельного программирования. Это обсуждается и демонстрируется с OpenSHMEM Главное место для последних разработок, технологий, инструментов, тенденций, последних исследовательских идей и результатов, связанных с их применением. На семинаре основное внимание будет уделено на OpenSHMEM и сопутствующие технологии, являющиеся частью его экосистемы, такие как PGAS Языки, коммуникационные платформы, опыт применения инструментов. Мы также сосредоточимся на фокусе по расширению модели программирования для улучшения программируемости использования ускоряться и интеллектуальных сетевых систем из, а Также повысить эффективность межсетевых соединений за счет расширения. Хотя это специфическое OpenSHMEM семинар,
“OpenSHMEM и сопутствующие технологии» будет 2022 Год 9 луна 20 Солнцестояние 22 День в UCF 2022семинар состоявшихся в течение периода.
Протокол заседания будет опубликован в LNCS Springer тома и будет рецензироваться проектным комитетом. Все авторы должны сначала представить 250 слово абстрактное, чтобы зарегистрировать свою статью. После принятия тезисов авторам предлагается представить либо полный текст, либо краткую статью. Мы принимаем полные статьи объемом 12–15 страниц и короткие статьи объемом 6–8 страниц. Полный текст предпочтителен. Статья должна быть отформатирована в одну колонку. Пожалуйста, используйте LaTeX и Word Шаблон диссертации ( https://www.springer.com/gp/authors-editors/conference-proceedings/conference-proceedings-guidelines ). Авторские права должны быть переданы Springer. Авторам будут предоставлены формы авторских прав, чтобы пользователи могли самостоятельно архивировать их.
Тезисы и статьи необходимо загружать сюда: https ://easychair.org/conferences/?conf=openshmem2022 。
Домашняя страница Конференц-звонки раз в две недели Руководство для участников Проверка стиля кода UCF Collectives WG
Код UCX состоит из 3 частей:
поддерживать API Все пункты описаны в описании, и никаких особых знаний об оборудовании не требуется. Он попытается объединить различные аппаратные механизмы передачи. инфекции, чтобы обеспечить максимальную производительность «из коробки». Он может моделировать оборудование, которое не подключено напрямую, например привод с односторонним движением. Кроме того, он не будет поддерживать аппаратную настройку общего программного протокола, такого как обсуждение. тегови Универсальный Новости событий。ПодробнееПожалуйста, нажмите здесь
Обеспечивает прямой доступ к аппаратным функциям.,Логика принятия решений не требуется,Логика принятия решений отдает предпочтение одному аппаратному механизму перед другим. из-за аппаратных ограничений,Определенные функции не могут быть защищены поддержкой. Открыть в интерфейсе функциясуществовать. ПодробнееинформацияСмотрите здесь。
Универсальный Служить、структура данных、Средства отладки и др. из коллекции.
What | Где уровень | Why |
---|---|---|
Сопоставление тегов Сопоставление тегов | High level | Software protocol |
Эмуляция RMA/AMO, удаленный доступ к памяти/атомная память. | High level | Software protocol |
Фрагментация | High level | Software protocol |
Ожидающая очередь, блокирующая очередь | High level | Stateful |
Multi-transport/channel/rail многолучевое распространение/многотранспортный уровень/многоряд | High level | OOB optimization |
Выберите встроенное/bcopy/zcopy (необязательное встроенное/буферное копирование/нулевое копирование). | High level | optimization logic |
Надежность (например, UD) надежная датаграмма | Low level | Transport specific |
Владение буфером DMA Владение буфером DMA | Low level | Transport specific |
Кэш регистрации памяти Кэш регистрации памяти | Low level | Transport dependent |
См. также:
UCX — лучшая коммуникационная библиотека на свете
Artemy-Mellanox оставить эту страницу 2022 Год 1 луна 5 день · 7 редакций
Домашняя страница Конференц-звонки раз в две недели Руководство для участников Проверка стиля кода UCF Collectives WG
UCX — лучшая коммуникационная библиотека на свете
миссия: • Сотрудничество между промышленностью, лабораториями и научными кругами для создания системы коммуникации на уровне производства. Открытый стандарт для высокопроизводительных приложений, ориентированных на данные. проект • UCX – унифицированные коммуникации X – www.openucx.org • SparkUCX – www.sparkucx.org • Открыть РДМА член правления • Jeff Kuehn,UCF Президент (Лос-Аламосская национальная лаборатория) • Gilad Shainer,UCF Президент (Мелланокс Technologies) • Pavel Shamis,UCF Финансовый супервайзер (отдел) • Brad Benton,член правления (AMD) • Duncan Poole,член правления (Nvidia) • Pavan Balaji,член правления(Аргоннская национальная лаборатория) • Sameh Sharkawi,член правления (IBM) • Dhabaleswar K. (DK) Panda,член руководство (Университет штата Огайо) • Steve Poole,член управление (программное решение с открытым исходным кодом)
Основные функции: https://github.com/ssbandjl/ucx/blob/master/docs/source/ucx_features.rst
Keyword | Description | |
---|---|---|
ACK | Acknowledge | Подтверждение, подтверждение после получения сообщения |
AM | Active Message | |
AMO | Atomic Memory Operation | атом Памятьдействовать |
ANL | Argonne National Laboratory | Аргоннская национальная лаборатория |
AZP | Azure Pipeline | |
bcopy | Buffered copy | |
Bistro | Binary Instrumentation | |
BTL | Open MPI’s Byte Transfer Layer | |
CM | Connection Manager | |
CMA | Linux Kernel Cross Memory Attach | |
CQ | Completion Queue (InfiniBand) | |
CQE | Completion Queue Entry (InfiniBand) | |
csmock | static analysis tools | |
CUDA | Compute Unified Device Architecture (NVIDIA) | |
DC | Dynamically Connected transport (Mellanox/Nvidia InfiniBand) | |
DPM | Direct Packet Mode | |
EP | EndPoint | |
FC | Flow Control | |
FD | File Descriptor | |
GDR | GPUDirect RDMA | |
gtest | Google Test | |
HPC | High Performance Computing | |
HWTM | HardWare Tag Matching | |
IB | InfiniBand | |
iface | Interaface | |
IPC | Inter Process Communication | |
JUCX | Java API over UCP | |
KLM | A new sophisticated way of creating memory regions (Mellanox) | |
KNEM | Inria’s Kernel module for process to process zero copy (https://knem.gitlabpages.inria.fr) | |
LDPM | Legacy DPM | |
LLNL | Lawrence Livermore National Laboratory | |
madvise | give advice about use of memory. See madvise(2) | |
MD | Memory Domain | |
MEMH | Memory Handle | |
MLX | Mellanox Technologies | |
mlx5 | Mellanox-5 generation of Mellanox device driver | |
MM | Memory Mapper | |
MP-XRQ | Multi-Packet XRQ | |
MPI | Message Passing INterface | |
MPICH | ANL MPI Implementation | |
MTT | The MPI Testing Tool | |
NAK | Negative Acknowledge | |
NB | Non blocking operations | |
NBI | Non blocking implicit | |
NBX | Non blocking extended | |
ODP | OnDemand Paging | |
OFA | OpenFabrics Alliance | |
OMPI | OpenMPI | |
OOB | Out of band / Out of box | |
OOO | Out of Order | |
OPA | Omni-Path Architecture | |
Open MPI | A MPI Implementation | |
ORNL | Oak Ridge National Laboratory | |
PCIe | PCI Express | |
PFN | Physical Frame Number | |
PGAS | Partitioned Global Address Space | |
POSIX | Portable operating system interface | |
ppn | processes per node | |
PR | Pull Request | |
QP | Queue Pair (InfiniBand) | |
RC | Reliable Connection (InfiniBand) | |
rcache | Registration Cache | |
RDMA | Remote Direct Memory Access | |
REQ | Request | |
rkey | Remote KEY | |
RMA | Remote Memory Access | |
RNDV | Rendezvous protocol | |
RnR | Receiver Not Ready | |
RoCE | RDMA over Converged Ethernet | |
ROCm | Radeon Open Compute platform (AMD) | |
RTE | Run Time Environment | |
RX | Receive | |
skb | Socket Buffer | |
SM | Shared Memory | |
SM | Subnet Manager (InfiniBand) | |
SockCM | Socket Connection Manager | |
SRQ | Shared Receive Queue | |
SysV | UNIX System V | |
TL | Transport Layer | |
TLS | Transpot LayerS | |
TM | Tag Matching | |
TX | Transmit | |
UC | Unreliable Connection (InfiniBand) | |
UCC | Unified Collective Communications | |
UCD | Unified Communication Datatypes | |
UCF | Unified Communication Framework | |
UCM | Unified Communication Memory | |
UCP | Unified Communication Protocols Higher level API | |
UCS | Unified Communication Service Common utilities | |
UCT | Unified Communication Transport Lower level API | |
UCX | Unified Communication X | |
UD | Unreliable Datagram (InfiniBand) | |
uGNI | user level generic network interface (Cray) | |
UMR | User mode memory registration | |
VPI | Virtual Protocol Interconnect | |
WFE | Wait for event | |
WIP-DNM | Work-in-Progress-Do-Not-Merge | |
WQ | Work Queue (InfiniBand) | |
WQE | Work Queue Elements (pronounce WOOKIE) | |
WR | Work Request | |
XPMEM | XPMEM Linux kernel module originally developed by SGI implementing cross process memory mapping with zero copy | |
XRC | eXtended Reliable Connection (InfiniBand) | |
XRCD | XRC Domains | |
XRQ | Mellanox Shared Receive Queue | |
Zcopy | Zero Copy |
UCX Это инфраструктура (интерфейс библиотеки), которая обеспечивает эффективные и относительно простые способы создания широкого спектра способов использования. HPC Протокол: MPI Сопоставление тегов, RMA действовать、встречапротокол、поток、фрагменты、Удаленное управление Atom и многое другое.
пожалуйста, присоединяйтесь к намизсписок рассылки:https://elist.ornl.gov/mailman/listinfo/ucx-group или в github начальствонестиплатитьвопрос:https://github.com/openucx/ucx/issues
UCP выполнить RMA put/get、приноситьсопоставление теговизотправка/получение, Новости события, атом действуют. В ближайшем будущем мы планируем добавить к обычно используемому коллективному действоватьизподдержание.
Не будет. ГАЗНЕТ подвергается воздействию для PGAS Расширенное управление программированием API, обеспечивающий симметрию память Функция и создание существующей среды выполнения. Эти функции выходят за рамки UCX диапазон проектиз. Напротив, ГАСНЕТ можно использовать UCX Каркас быстро и эффективно восстанавливает ГАСНЕТ,чтобы получить UCX поддерживатьизсетьтехнология。
Платформа UCX не предоставляет драйверы, а полагается на драйверы, предоставленные поставщиком. В настоящее время мы используем: OFA VERB, Cray’s UGNI, NVIDIA CUDA.
UCX — это платформа связи промежуточного программного обеспечения, основанная на драйверах устройств, таких как RDMA, CUDA и ROCM. РДМА иобойтидействоватьсистемаизсетьоборудованиев целомиспользовать UCX поддерживатьиз RDMA основной Linux ребеноксистема Приходитьвыполнитьоборудованиеводитель.может быть основано на сообществеизпроситьи Вклад добавлен вдругойсетьабстрактныйизподдерживать。
UCX Не драйвер пользовательского уровня. Обычно драйверы предназначены для предоставления детального доступа к функциям, зависящим от сетевой архитектуры. UCX абстрактный Понятно各добрый驱动программа之间изразница,ииспользоватьпрограммное обеспечениепротоколнаполнять Понятнонекоторый Нетдлявседействоватьнести供аппаратное обеспечениесортподдерживатьиз Архитектураизпустой。
UCX Обнаруживает существующие машины сборки и соответственно включает/отключает различные машины сборки. Если существуют, не удается найти сборку при запуске UCX Некоторые модули будут автоматически отключены.
UCX не зависит от внешних сред выполнения.
ucx_perftest
(на основе UCX изприложение/эталон)Можети Доступно для удаленногоucx_perftest
запускатьиз Ссылка на внешнюю среду выполнения,Но это необязательная конфигурация,только используется в средах, не обеспечивающих прямой доступ к вычислительным узлам. Эта опция отключена по умолчанию.
UCX из определенных переменных средысерединаполучатьпараметр,Эти параметры начинаются с префиксаUCX_
。
Важные советы:Воля UCX Установка переменных среды в значения, отличные от значений по умолчанию, может привести к неопределенному поведению. Переменные среды в основном используются опытными пользователями или для UCX Конкретные настройки или обходные пути, рекомендованные сообществом.
ucx_info -c
ucx_info -cf
UCX существовать середина Найти файл конфигурации{prefix}/etc/ucx/ucx.conf
,Чтосередина{prefix}
это конфигурация времени компиляциииз Префикс установки。Это позволяет настраивать различные параметры.。Переменные среды имеют приоритет над серединаопределениеизценитьucx.conf
。файл Можетиспользоватьсоздавать。ucx_info -Cf
чтобы использовать UCX Библиотека разработки для создания приложений UCX поддерживатьна основе pkg-config инструментальная информационная подсистема. Например, вот как pkg-config Объединено на основе Makefile строится:
program: program.c $(CC) program.c $(shell pkg-config --cflags --libs ucx)
когда и статично UCX Ссылка на Библиотеку, пользователь должен явно перечислить все необходимые исходные данные. инфекционный модуль. Например, для толькоподдерживать cma и knem Для переноса пользователю необходимо использовать:
program: program.c $(CC) -static program.c $(shell pkg-config --cflags --libs --static ucx-cma ucx-knem ucx)
В настоящее время с pkg-config можно использовать следующие транспортные модули:
Имя пакета | Транспорт предоставлен Служить |
---|---|
ucx-cma | Общая память с использованием Linux Cross-Memory Attach |
ucx-knem | Общая память с использованием высокопроизводительной внутриузловой связи MPI |
ucx-xpmem | Общая память с использованием XPMEM |
ucx-ib | Сетевая передача на базе Infiniband |
ucx-rdmacm | Менеджер соединений на основе RDMACM |
TCP、базовыйобщая память-передача инфекции встроены в UCT середина,Нетнуждатьсядополнительныйизкомпилироватьдействовать。
ucx-ib Сумкануждатьсяlibnl
и изстатический Библиотекаnumactl
,как из Зависимостиrdma-core
。большоймногочислоLinuxДистрибутивпо умолчанию Нетнести供这些статический Библиотека,Так что нуждайтесь в сборке и установке их вручную. Их можно скачать с:
Библиотека | https://www.infradead.org/~tgr/libnl | (существовать3.2.25Версияначальствотест) |
---|---|---|
число | https://github.com/numactl/numactl | (существовать2.0.14Версияначальствотест) |
По умолчанию UCX Попробуйте использовать на компьютере все доступное оборудование и сравнить их по характеристикам производительности (пропускная способность, задержка, NUMA). местоположение и т. д.), чтобы выбрать лучшее устройство. Настройки будут ограничивать UCXтолькоUCX_NET_DEVICES=<dev1>,<dev2>,...
использовать указанное устройство. Например:
UCX_NET_DEVICES=eth2
- использоватьEthernetоборудование eth2 руководить TCP розетка передачи инфекции。UCX_NET_DEVICES=mlx5_2:1
- использовать RDMA оборудование mlx5_2, порт 1Бег покажет UCX Можетиспользоватьизсистемана Все доступнооборудование。ucx_info -d
По умолчанию UCX Попробуйте использовать все доступные передачи. инфекции и выбирать лучшую передачу на основе производительности и масштаба инфекции(какоцениватьиз Количество конечных точек, переданныхucp_init() API). Например:
Можетпроходитьустановить ограничениеиспользоватьизпередача инфекцииUCX_TLS=<tl1>,<tl2>,...
。 ^
в начале Волясписокстать отказомсписок。Можетпроходитьгенерация командтекущиймашинаустройствоначальствоUCXподдерживатьизвсепередача инфекцииизсписок。ucx_info -d
Важные советы существование Отдельные случаи, ограничения передачи инфекция может вызвать неожиданное и неопределенное поведение:
Помимо встроенных транспортов, можно использовать псевдонимы, задающие несколько транспортов.
all | use all the available transports. |
---|---|
sm or shm | Все передачи общей памяти |
ugni | ugni_rdma and ugni_udt. |
rc | RC (=надежное соединение), по возможности используются «ускоренные» транспорты. |
ud | UD (=ненадежная датаграмма), если возможно, используется «ускоренное». Ненадежное соединение, по возможности используйте ускорение. |
dc | DC — масштабируемый транспорт динамического соединения с разгрузкой Mellanox Масштабируемый транспорт динамического соединения с разгрузкой Mellanox |
rc_x | То же, что и «rc», но с использованием только ускоренного транспорта. Аналогично надежному соединению, но только с использованием ускоренного транспорта. |
rc_v | То же, что и «rc», но с использованием только транспорта на основе глаголов. Аналогично надежному соединению, но только с использованием транспорта с глаголами rdma. |
ud_x | Same as "ud", but using accelerated transports only |
ud_v | Same as "ud", but using Verbs-based transports only |
cuda | CUDA (NVIDIA GPU) memory support: cuda_copy, cuda_ipc, gdr_copy |
rocm | ROCm (AMD GPU) memory support: rocm_copy, rocm_ipc, rocm_gdr |
tcp | TCP over SOCK_STREAM sockets |
self | Шлейфовый транспорт для связи в рамках одного процесса, локальная петлевая связь. |
Например:
UCX_TLS=rc
Волявыбирать RC、UD руководитьгид,ии предпочитаюускорятьсяпередача инфекцииUCX_TLS=rc,cuda
Волявыбирать RC а также Cuda передача памяти инфекцииUCX_TLS=^rc
Волявыбиратьудалять RC Все доступно за пределами передачи инфекцииВажные советы
UCX_TLS=^ud
Волявыбиратьудалять UD Все доступные переводы, кроме . Однако У.Д. 仍Может用于гидпрограмма。ТолькоUCX_TLS=^ud,ud:aux
Полностью отключитьUD。
Да.
По умолчанию UCX выберу 2 Лучше всего разделить большое количество сообщений между треками. Например, существовать 100MB сообщение, первое 50MB Будут отправлены на первое оборудование и второе 50MB Будет отправлено на вторую станцию оборудование. Если скорости сетей оборудования неодинаковы, то сегментация будет пропорциональна их соотношению скоростей.
В зависимости от оптимальной скорости сети PCI Пропускная способность NUMA местоположение, чтобы выбрать устройство для использования.
даиз,проходитьнастраиватьUCX_MAX_RNDV_RAILS=<num-rails>
. в настоящий моментбольшинствомногоподдерживать 4 индивидуальный.
даиз,UCX_MAX_RNDV_RAILS=1
Каждый Каждый процесс будет основан на NUMA Местоположение использует одно сетевое устройство.
даиз,проходитьнастраиватьUCX_NET_DEVICES=<dev>
в ответиспользоватьизодинокийоборудование。
Да.
когдасуществовать Infiniband Структурно настроенная, адаптивная маршрутизация, это нажмет SL(IB Служитьслой)давать возможность。настраиватьUCX_IB_SL=<sl-num>
Воляделать UCX существоватьна заданном уровне из Служить и эксплуатировать адаптивную маршрутизация。
настраиватьUCX_IB_SL=<sl-num>
Воляделать UCX существование протекает на заданном уровне из Служить.
настраиватьUCX_IB_TRAFFIC_CLASS=<num>
.
настраиватьUCX_IB_GID_INDEX=<num>
Воляделать UCX существовать RoCE Используйте указанный GID индекс。система Заказshow_gids
Воля Распечатать Все доступно地址及Чтоиндекс。
UCX протоколдействовать Может Использовать графический процессор указатель памяти,Точно так же, как сипользовать указатель памяти хоста. Например,перешел киз“buffer”параметрucp_tag_send_nb()
Можетдапамять хостаили GPU Память.
в настоящий момент UCX проходить Cuda Библиотекаподдерживать NVIDIA GPU,проходить ROCm Библиотекаподдерживать AMD GPU。
в настоящий момент,только UCX отмеченный API, поток API и Новости событий API полностьюподдерживать GPU Память API удаленного доступа к памяти, включая атомарные операции, является неполным для памяти графического процессора, и планируется обеспечить полную поддержку в будущей версии.
интерфейс прикладного программирования | Уровень памяти графического процессора |
---|---|
Этикетка(ucp_tag_send_XX/ucp_tag_recv_XX) | все изподдерживать |
поток(ucp_stream_send/ucp_stream_recv_XX) | все изподдерживать |
Сообщения об активности (ucp_am_send_XX/ucp_am_recv_data_XX) | все изподдерживать |
Удаленный доступ к памяти (ucp_put_XX/ucp_get_XX) | частьподдерживать |
атомдействовать (ucp_atomic_XX) | частьподдерживать |
для Понятносуществовать GPU поддерживать Беги под UCX, вам нужно распределение GPU приложение памяти (например, поддерживать Cuda из MPI OSU эталонтест),иинуждаться Использовать графический процессор поддерживатькомпилировать УКХ. Затем вы можете запустить приложение как обычно (например, используя MPI), и всякий раз, когда GPU память перешла к UCX Когда это будет использоваться графический процессор-direct руководитьнолькопироватьдействовать,или ВОЗВоляданныекопироватьприезжать主машина Память или изпамять хостакопироватьданные。
Уведомление Когда явно указано UCX_TLS , необходимо также указать cuda/rocm из GPU Память поддерживает иное GPU Память Воляне может быть признан。Например:
UCX_TLS=rc,cuda
илиUCX_TLS=dc,rocm
UCX Возможно, указатель не был обнаружен как GPU памяти и попробуйте загрузить его из CPU получить к нему доступ. если UCX еще нет Использовать графический процессор Поддержкаруководить скомпилировано или не удалось загрузить из-за отсутствия пути к библиотеке или несоответствия версии. CUDA или ROCm модуль, это может произойти. Пожалуйста, запустите или проверьте UCX GPU поддерживать。ucx_info -d | grep cuda``ucx_info -d | grep rocm
существуют в некоторых случаях,Кэш внутренней памяти может ошибочно определить память графического процессора как память хоста,что приводит к недействительномуиздоступ к памяти。Можетпроходитьнастраивать Отключить этот кешUCX_MEMTYPE_CACHE=n
。
Приложение загружает cuda Бинарный файл, бинарный файл предназначен для установки из cuda Версия обновлена из Версия скомпилирована и взята из UCX из Cuda API Неисправность была обнаружена путем вызова асинхронного. Чтобы решить проблему, установите обновление из cuda Версияилииспользовать nvcc неуместно -arch варианты компиляции cuda двоичный файл. Видеть https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#virtual-architecture-feature-list Понятноразвязать-arch
перешел к nvcc неуместно Параметры。
Да.Для больших сообщений UCX Вы можете использовать протокол рандеву для использования нулевой копии. RDMA передача инфекции GPU Память.этонуждаться Загрузка связана GPU добрый тип из драйвера одноранговой памяти, или (из UCX v1.14.0 Старт) система на dmabuf поддерживать。
Уведомление:существуют в некоторых случаях,если RDMA сетьоборудованиеи GPU Нетсуществоватьтакой же NUMA На узле эта передача с нулевым копированием инфекция менее эффективна.
Уведомление:текущий UCX предположения кода dmabuf поддерживатьсуществовать Все доступно GPU оборудование унифицировано из.
UCX_LOG_LEVEL=info
Распечататьсвязанныйпередача инфекциииоборудованиеизбазовыйинформация: $ mpirun -x UCX_LOG_LEVEL=info -np 2 --map-by node osu_bw D D [1645203303.393917] [host1:42:0] UCX_PROTO_INFO=y
подробныйинформация:
$ mpirun -x UCX_PROTO_ENABLE=y -x UCX_PROTO_INFO=y -np 2 --map-by node osu_bw D блог: https://logread.cn | https://blog.csdn.net/ssbandjl | https://cloud.tencent.com/developer/user/5060293/articles
weixin: ssbandjl
Публичная учетная запись: Cloud Native Cloud