UEC: Альянс Супер Эфириума
UET: Транспортный протокол Ultra Ethernet
Задержка хвоста: Задержка хвоста
Сети приобретают все большее значение для эффективного и экономичного обучения моделей ИИ. Большие языковые модели (LLM) (такие как GPT-3, Chinchilla и PALM) и рекомендательные системы (такие как DLRM и DHEN) обучаются на кластерах из тысяч графических процессоров. Обучение состоит из частых этапов вычислений и связи, причем начало следующего этапа обучения зависит от завершения этапа связи во всем наборе графических процессоров. Последнее поступившее сообщение определяет ход работы всех графических процессоров. Эта задержка хвоста, измеряемая как время прибытия последнего сообщения на этапе связи, является ключевым индикатором производительности системы. Количество параметров, записей таблицы внедрения и количество слов в контекстных буферах продолжают увеличиваться для больших моделей. Например, в 2020 году самым современным был GPT-3 с 175 миллиардами параметров. Недавно было объявлено, что модель GPT-4 имеет примерно один триллион параметров, в то время как DLRM имеет триллионы параметров и, как ожидается, будет расти. Эти все более крупные модели требуют все более крупных кластеров для обучения и доставки более крупных сообщений в сеть. Когда производительность сети низкая, эти дорогостоящие кластеры не могут быть полностью использованы. Сеть, соединяющая эти вычислительные ресурсы, должна быть максимально эффективной и экономичной. Рабочие места в области высокопроизводительных вычислений (HPC) одинаково требовательны, а потребности HPC и искусственного интеллекта все больше сближаются с точки зрения масштаба и эффективного использования распределенных вычислительных ресурсов. Хотя рабочие нагрузки искусственного интеллекта зачастую чрезвычайно требовательны к полосе пропускания, HPC также включает в себя рабочие нагрузки, более чувствительные к задержкам.
Сегодня многие крупные кластеры, в том числе очень крупные развертывания графических процессоров для обучения ИИ, уже работают в IP-сетях на базе Ethernet и пользуются его многочисленными преимуществами:
● Обширная экосистема совместимых Ethernet-коммутаторов, сетевых карт, кабелей, трансиверов, волоконно-оптических кабелей, средств управления и программного обеспечения различных производителей, состоящая из множества игроков.
● Проверенная масштабируемость для адресации и маршрутизации IP-сетей, поддержка сетей в масштабе стойки, здания и центра обработки данных.
● Коллекция инструментов для тестирования, измерения, развертывания и эффективной эксплуатации сетей Ethernet.
● Проверенный опыт снижения затрат за счет конкурентных экосистем и эффекта масштаба.
● Стандарты IEEE Ethernet быстро и регулярно развиваются на нескольких физических и оптических уровнях.
Мы ожидаем, что эти преимущества станут обязательными, и в будущем Ethernet будет все больше доминировать в рабочих нагрузках искусственного интеллекта и высокопроизводительных вычислений любого размера.
Даже с учетом возможности использования Преимущества Ethernet также может и должен быть улучшен. Сеть должна продолжать развиваться, чтобы лучше обеспечивать эту беспрецедентную производительность и соответствовать увеличению масштаба и пропускной способности сети в будущем. Самое главное, что сеть должна поддерживать доставку сообщений ко всем конечным точкам параметров как можно быстрее, без длительных задержек даже для нескольких конечных точек. «хвостовую» следует свести к минимуму задержка”
Для достижения низкой задержки в хвосте спецификация UEC обеспечивает значительные улучшения за счет удовлетворения следующих ключевых сетевых требований для приложений следующего поколения:
Этот последний пункт добавляет дополнительный вес ко всем предыдущим пунктам. Высокопроизводительные системы практически не допускают ошибок, и это усугубляется в более крупных сетях. По мере роста систем детерминизм и предсказуемость становятся все более трудными, поэтому необходимы новые методы для достижения общей стабильности. В следующих разделах мы подробно рассмотрим эти требования как мотивацию для решений, предлагаемых Super Ethernet Alliance, и покажем, почему доступные в настоящее время технологии имеют недостатки, которые необходимо устранить. Мы стремимся обеспечить более простой и эффективный удаленный прямой доступ к памяти (RDMA) и межсоединения для этих будущих рабочих нагрузок.
Традиционные сети Ethernet основаны на связующих деревьях, что обеспечивает единый путь от A до B и позволяет избежать петель в сети. Затем появилась многопутевая технология — такие методы, как многопутевое управление с равной стоимостью (ECMP), при котором сеть пытается использовать как можно больше каналов между партнерами по связи. ECMP обычно использует «хеширование потока» для отправки всего трафика для данного потока уровня 4 по одному пути, одновременно сопоставляя разные потоки с разными путями. Однако это по-прежнему ограничивает потоки с высокой пропускной способностью одним маршрутом. Кроме того, производительность сети снижается, когда технология многопутевого доступа распределяет слишком много потоков по одному сетевому пути, и для достижения оптимальной производительности необходимо тщательно управлять балансировкой нагрузки. Следующий этап развития технологии заключается в том, чтобы каждый поток использовал все пути к месту назначения одновременно (метод, называемый «распылением пакетов»), что приведет к более сбалансированному использованию всех сетевых путей.
Строгий порядок пакетов, используемый старыми технологиями (например, требуемый Verbs API), ограничивает эффективность, поскольку предотвращает передачу неупорядоченных пакетных данных непосредственно из сети в буфер приложения (т. е. в его конечное местоположение в памяти хоста). . Это ограничение, наряду с функцией восстановления потерянных пакетов GoBack-N (которая требует повторной передачи до N пакетов для обработки одного потерянного пакета), приводит к недостаточному использованию доступных каналов и увеличению задержки хвоста, что недостаточно для удовлетворения потребностей крупномасштабных приложений искусственного интеллекта. . В идеале все ссылки используются, а порядок обеспечивается только тогда, когда этого требует рабочая нагрузка ИИ.
Большая часть межакселераторного взаимодействия в рабочих нагрузках ИИ является частью «коллективных» коммуникационных операций, основными типами которых являются All-Reduce и All-to-All. Ключом к тому, чтобы сделать это быстро, является быстрая пакетная передача из A в B, где приложение ИИ просто хочет знать, когда последняя часть данного сообщения прибыла в пункт назначения. Гибкая сортировка позволяет сделать это эффективно. Он также реализует преимущества распыления пакетов в коллективных операциях с интенсивным использованием полосы пропускания, поскольку пакеты не нужно переупорядочивать перед доставкой приложению. Поддержка современных API, которые смягчают требования к упорядочиванию пакетов там, где это необходимо для приложения, имеет решающее значение для уменьшения задержки хвоста.
Перегрузка сети может возникнуть в трех местах:
● Исходящая ссылка от отправителя к первому коммутатору.
● Связь между первым переключателем и последним переключателем.
● Последняя связь между последним переключателем и приемником.
Для AI и HPC перегрузка исходящего канала от отправителя в первую очередь контролируется алгоритмом планирования на отправляющем хосте, который контролирует весь исходящий трафик. Описанное выше многопутевое распыление пакетов минимизирует количество горячих точек и перегрузок между первым и последним коммутатором за счет равномерного распределения нагрузки на все пути. Последняя форма перегрузки, «Incast», возникает на последнем канале связи с получателем, когда несколько отправителей одновременно отправляют трафик в один и тот же пункт назначения; это может служить частью упомянутой выше связи «Все ко всем». В последние десятилетия было предложено множество предложений по решению проблемы перегрузок (например, DCQCN, DTCCP, SWIFT, Timely). Однако ни один текущий алгоритм не может удовлетворить все требования к транспортному протоколу, оптимизированному для искусственного интеллекта, в том числе:
● В высокоскоростной сети с малым временем прохождения туда и обратно существующая производительность трафика может быть быстро увеличена до скорости линии без ухудшения существующей производительности трафика, и путь не будет иметь препятствий.
● Перегрузка на пути внутри структуры управления и на последнем узле до пункта назначения.
● Контролируйте incast, справедливо распределяя конечный канал без дорогостоящих потерь пакетов, повторных передач или увеличения задержки хвоста.
● По мере изменения структуры трафика, развития вычислительных узлов, увеличения скорости соединения и развития сетевого оборудования никакие корректировки и настройки не требуются. Алгоритмы управления перегрузкой для будущих рабочих нагрузок ИИ должны быть разработаны так, чтобы поддерживать эти требования и работать с многопутевой инъекцией пакетов.
Эти оптимизированные алгоритмы контроля перегрузки становятся возможными благодаря новым схемам сквозной телеметрии. Информация о перегрузках из сети может информировать участников о местоположении и причине перегрузки. Сокращение пути сигнализации о перегрузке и предоставление большего количества информации конечным точкам обеспечивает более оперативное управление перегрузкой. Независимо от того, планирует ли отправитель или получатель передачу, современные коммутаторы могут облегчить оперативное управление перегрузкой, быстро передавая точную информацию о перегрузке планировщику или кардиостимулятору, тем самым улучшая оперативность и точность алгоритма управления перегрузкой. В результате уменьшаются перегрузки, уменьшаются потери пакетов и уменьшаются очереди, и все это для уменьшения задержки хвоста.
Поскольку размер моделей ИИ, разнообразие моделей связи и разнообразие вычислительных методов продолжают расти, пришло время вернуться к транспортным средствам и API, используемым в ядре большинства сетей ИИ. В целом, удаленный прямой доступ к памяти (RDMA) — это очень успешная технология, которая позволяет центральному процессору, графическому процессору, TPU или другому ускорителю передавать данные непосредственно из памяти отправителя в память получателя. Такой подход с нулевым копированием снижает задержку и позволяет избежать накладных расходов операционной системы. По этой причине сетевая технология с поддержкой RDMA является важным компонентом современных усилий по обучению искусственному интеллекту.
RDMA over Converged Ethernet (RoCE) был создан, чтобы обеспечить возможность работы транспортного протокола RDMA IBTA (InfiniBand™ Trade Association) через IP и Ethernet. Базовый протокол, выраженный через Verbs API, был задуман в конце прошлого века и впервые стандартизирован IBTA много лет назад. Теперь он показал свою устарелость в современном требовательном сетевом трафике искусственного интеллекта, см. [Data Center Ethernet и удаленный прямой доступ к памяти: проблемы гипермасштабирования, Hoefler et al., Computers, июль 2023 г.]. Проблема заключается не в общих принципах RDMA обхода ОС и нулевом копировании или использовании Ethernet, а в текущих службах транспортных протоколов, используемых как RoCE, так и InfiniBand. На момент написания этой статьи один ускоритель может объединять несколько терабайт сетевого ввода-вывода, а сетевые карты PCIe вскоре будут обеспечивать скорость 800 гигабит в секунду и выше — на порядки быстрее, чем первоначально предполагалось RDMA. Будущие более требовательные и быстрые сети будут еще больше проверять статус-кво и требовать новых решений.
обычно RoCE и DCQCN Используется в комбинации в качестве алгоритма управления перегрузкой, чтобы избежать перегрузки каналов в сети при попытке быстрого увеличения их скорости. Однако DCQCN Для повышения производительности требуется тщательная ручная настройка. DCQCN Настройка чувствительна к задержке, скорости и возможностям буферизации базовой сети, а также к характеру рабочей нагрузки, передаваемой через нее. питание Интернета TCP/IP Одним из больших успехов набора протоколов является то, что TCP Никаких настроек сети не требуется и «просто работает». будущее AI Сеть нуждается в чем-то вроде TCP Готовый транспортный протокол, который одинаково хорошо работает с любой сетью центра обработки данных. Как мы все знаем, хотя InfiniBand и RoCE используется в RDMA Транспорт может обрабатывать потерянные пакеты, но он очень неэффективен. Потерянные или неупорядоченные пакеты могут вызвать восстановление «Go-Back-N», при котором полученные пакеты передаются повторно, что приводит к снижению «пропускной способности» и неэффективности. сетевые операторы часто работают в сети «без потерь» RDMA, чтобы избежать такого поведения. Если настроено использование приоритетного управления потоком при возникновении перегрузки. (PFC) из ресивераприезжать Отправитель генерирует противодавление шаг за шагом.,Тогда Ethernet может быть без потерь. поэтому,Передача пакетов не задерживается на предыдущем прыжке,Вместо этого он будет отброшен. но,Когда это противодавление распространяется в сети,будет производить«Дерево перегрузок» и блокировка начала линии;Обе ситуации могут привести к серьезным массовымпроизводительностьотклонить。Хотя большой и без потерь RoCE Сети могут быть успешно развернуты, но они требуют тщательной настройки, эксплуатации и мониторинга, чтобы они работали хорошо и не вызывали подобных эффектов. Не все сетевые операторы обладают таким уровнем инвестиций и опыта, что может привести к дорогостоящим затратам. ТШО. Необходим транспортный протокол, который не полагается на структуры без потерь. Кроме того, Ро ЦЭ и InfiniBand использовал API (глагол) предназначен для более современного использования, чем AI и HPC рабочие места, а также будущие ускорители с интегрированными сетями потребуют гораздо меньшего масштаба (как с точки зрения пропускной способности, так и количества одноранговых узлов). Режим передачи RC (надежное соединение) не подходит для реализации высокоскоростной эффективной аппаратной разгрузки, поскольку высокоскоростная аппаратная разгрузка требует уменьшения состояний быстрого пути. Несмотря на то, что были предприняты собственнические попытки решить RC ограничения, но ни один из них не получил широкого признания и не полностью учитывает присущие им процессы от процесса к процессу. (P" ) Ограничения, вызванные проблемами масштабируемости. Хотя RC Реализации масштабируются скромно, но они увеличивают стоимость и сложность конечных точек, что для будущего масштабирования. AI Работать с этим было бременем; требовалось новое решение. Наконец, А.И. Приложения передают большие объемы данных. Как уже говорилось выше, традиционные RoCE Передача этих данных в виде небольших пакетов трафика должна быть тщательно сбалансирована, чтобы предотвратить перегрузку любого отдельного канала. ИИ Рабочие нагрузки часто не могут продолжаться до тех пор, пока весь трафик не будет успешно доставлен, и даже один перегруженный канал может заблокировать все вычисления. Улучшенная технология балансировки нагрузки для улучшения AI Производительность имеет значение
超级以太网联盟из成员认为是时候重新开始并用Передача через супер Ethernet заменяет традиционные RoCE протоколПонятно,Передача через супер Ethernet — это современный протокол передачи, предназначенный для обеспечения AI и HPC Производительность, необходимая вашему приложению, при сохранении Ethernet/IP Преимущества экосистемы. TCP/IP Успех Ethernet преподал нам два основных урока: транспортная передача должна обеспечивать восстановление потерь, и структурам без потерь очень сложно работать, не вызывая блокировку начала линии и распространение перегрузки. ОДК Передача следует этим принципам,построен наАлгоритм распределенной маршрутизациии Надежность на основе конечных точеки Помимо зрелых путей для контроля перегрузок。 UEC Транспортные протоколы выходят за рамки статус-кво, обеспечивая:
● Разработан с самого начала, чтобы быть в IP и Открытость, работающая по Ethernetпротоколспецификация
● Многолучевая, пакетная передача, в полной мере использующая AI сеть,Не вызовет перегрузку или блокировку начала линии.,Нет необходимости в централизованном алгоритме балансировки нагрузки и контроллере маршрутизации.
● Механизм управления Incast для управления включением на конечном канале к целевому хосту при минимизации потерь.
● Эффективный алгоритм управления скоростью позволяет быстро увеличить скорость передачи до линейной скорости, не вызывая потери производительности конкурирующих потоков.
● для передачи пакетов вне очереди API,Возможность последовательного завершения сообщений,Максимизируйте параллелизм в вашем приложении,и минимизировать задержку сообщений
● Масштабируемость для будущих сетей, поддержка 1 000 000 (1 млрд: миллион) конечных точек.
● Производительность и оптимальное использование сети без ориентации на рабочую сеть загрузить Настроить параметры алгоритма перегрузки
● Разработан для обеспечения скорости передачи данных на обычном оборудовании в сетях Ethernet 800G, 1,6T и будущих более быстрых сетях Ethernet.
UEC Спецификация выйдет за рамки транспортного уровня и определит стандартный семантический уровень, улучшенные механизмы доставки с малой задержкой и согласованные AI и HPC API и пропуск UEC Транспортные протоколы реализуют эти API стандартная поддержка нескольких поставщиков.
AI Обучение и выводы обычно происходят на хостинге, который требует изоляции от работы. Кроме того, ИИ Модели становятся все более чувствительными и ценными бизнес-активами. Признавая это, ОДК Передачи разработаны с учетом обеспечения безопасности и могут быть зашифрованы и проверены. AI Весь сетевой трафик, передаваемый между вычислительными конечными точками в ходе обучения или задания вывода. UEC Протокол передачи использует проверенные базовые технологии для достижения эффективного управления сеансами, аутентификации и конфиденциальности. IPSec и PSP Современный метод шифрования Total. По мере роста количества рабочих мест необходимо поддерживать шифрование без раздувания состояния сеанса в интерфейсе хоста. С этой целью УЭТ Применяется новый механизм управления ключами, позволяющий эффективно распределять ключи между десятками тысяч вычислительных узлов, участвующих в работе. оно направлено на AI Высокая скорость и эффективная реализация в масштабе, необходимом для обучения и вывода. Размещено в большой сети Ethernet HPC Рабочие места имеют схожие характеристики и требуют аналогичных механизмов безопасности.
за исключением AI Обеспечивая улучшенную сеть за пределами, UEC Также разрабатываются технологии для поддержки будущих высокопроизводительных вычислений. (HPC) требования к сети. Взглянув в будущее, ИИ и HPC израбочая Ожидается, что требования к нагрузке будут все больше перекрываться. Поэтому мы ожидаем UEC Транспортный протокол может удовлетворить AI и HPC требования сети к домашнему заданию. Понимая различную чувствительность пропускной способности и задержек, UEC В спецификации будут представлены два файла конфигурации — один для AI оптимизирован, еще один для HPC 进行Понятнооптимизация。вместе Увеличение скорости и масштабирования, традиционные методы, основанные только на сквозных повторных попытках, для чувствительных к задержкам рабочих задач. Нагрузка становится все более обременительной. Доказано, что локальная обработка ошибок на канальном уровне масштабируется. HPC сети (например, используется экзафлопсная система) все) очень ценно. ОДК Спецификация обеспечивает эту функциональность для Ethernet.
AI Системы обычно развертываются в сетевой топологии с несколькими путями от отправителя к получателю. Эффективное использование всех полос этой дорогой дороги одновременно имеет решающее значение. Для этого используется пакетное опрыскивание Гибкая. Алгоритм управления перегрузкой сортировкииоптимизации для достижения масштабируемого и эффективного удаленного доступа к памяти. Кроме того, новая Сквозная телеметрия, масштабируемая безопасность AI оптимизация API Для будущего интенсива AI Уникальные коммуникационные потребности вычислений имеют решающее значение для оптимизации сети. UEC Соглашение также направлено на поддержку современных HPC рабочая нагрузки, используя тот же механизм передачи, описанный выше, сохраняя при этом широкое использование API, например MPI и PGAS。UEC Член-основатель
включая многие из сегодняшних крупнейших AI и HPC Поставщики и операторы сети. ОДК Эта инициатива использует опыт своих членов для создания и управления этими компаниями. Предстоящие UEC Проект спецификации будет доступен для использования в качестве AI и HPC Функциональная основа Интернета. ОДК Разрабатываемые технологии будут иметь долгосрочное воздействие, улучшая будущие требовательные AI и HPC Производительность приложения, простота использования и стоимость. Для получения дополнительной информации посетите www.ultraethernet.org。
Об Альянсе Super Ethernet Альянс Super Ethernet объединяет компании для сотрудничества в масштабах всей отрасли по вопросам совместимости и создания полной архитектуры стека связи на основе Ethernet, которая наилучшим образом соответствует быстро развивающимся AI/HPC рабочая нагрузку и обеспечивают лучшую в своем классе функциональность, производительность и совместимость. TCO А также удобство для разработчиков и конечных пользователей.
ОДК — это группа компаний United Development Foundation Projects LLC, дочерней компании Linux Foundation. В число учредителей входят AMD, Arista, Broadcom, Cisco, Eviden (подразделение Atos), HPE, Intel, Meta, Microsoft. Для получения дополнительной информации посетите сайт ultraethernet.org.
Официальный сайт УЭК: https://ultraethernet.org/
Спецификация ОДК 1.0: 23.07.12-UEC-1.0-Overview-FINAL-WITH-LOGO.pdf