На конференции OFC в этом году было проведено множество докладов и семинаров, посвященных спросу на оптическое соединение в условиях бума искусственного интеллекта и машинного обучения. Вот краткое изложение соответствующей информации для вашей справки.
Производительность вычислительных чипов увеличивается примерно в 3,3 раза каждые два года, пропускная способность чипов HBM увеличивается в 1,4 раза каждые два года, а пропускная способность межсоединений (PCIe, IB, NVLink и т. д.) увеличивается в 1,4 раза каждые два года, как показано в рисунок ниже. Видно, что существует большая разница в скорости развития вычислительной производительности и пропускной способности Интернета. 3,3/1,4=2,4, количество межсоединений необходимо увеличить в 2,4 раза, чтобы компенсировать разницу в скорости разработки между ними.
В то же время благодаря AIGC спрос на вычислительные мощности ИИ вырос в геометрической прогрессии, удваиваясь каждые 2–3 месяца и увеличиваясь более чем в 100 раз за два года, как показано на рисунке ниже.
(Изображение взято с https://www.nature.com/articles/s41586-021-04362-w)
По простым расчетам, увеличение вычислительной мощности в 100 раз требует увеличения производительности вычислительных чипов в 3,3 раза, поэтому количество вычислительных чипов необходимо увеличить более чем в 30 раз. Учитывая предыдущую разницу в 2,4 раза, общее количество межсоединений необходимо увеличивать более чем в 70 раз каждые два года. Как решить эту проблему? С одной стороны, это увеличивает пропускную способность оптического модуля. Тенденция его развития заключается в удвоении пропускной способности каждые четыре года, включая увеличение скорости одного канала, увеличение количества каналов и использование большего количества длин волн. С другой стороны, увеличение общего количества оптических модулей и улучшение плотности полосы пропускания портов ввода-вывода позволяет разместить больше интерфейсов в ограниченном пространстве.
Глядя на другой набор данных, пропускная способность соединения между графическим процессором и памятью составляет 5 ТБ/с, а пропускная способность электрического соединения между графическими процессорами составляет 900 ГБ/с, но пропускная способность оптического модуля составляет 400 Гбит/с, что составляет 100-кратную разницу. . Как эффективно передавать большие объемы данных с компьютерных чипов, стало главным приоритетом. Технология оптического ввода-вывода стала одним из важных технических направлений.
Для микросхемы Switch, предполагая, что размер кристалла составляет 32 мм * 32 мм, можно оценить соответствующую плотность полосы пропускания при различных полосах пропускания, как показано в таблице ниже. Соответствующая плотность полосы пропускания при полосе пропускания 51,2T/102,4T/204,8T составляет 0,4/0,8/1,6 Тбит/с/мм соответственно.
В то же время можно рассчитать плотность полосы пропускания ввода-вывода решения для упаковки CPO. Если используется одна длина волны, лазерный чип DFB поддерживает 4 канала, расстояние между каналами оптического порта составляет 127 мкм, скорость одного канала — 200 Гбит/с, а соответствующая плотность полосы пропускания — около 0,7 Тбит/с/мм. Путем введения нескольких длин волн, увеличения мощности лазера и оптимизации потерь в канале можно еще больше увеличить плотность полосы пропускания, чтобы удовлетворить потребность в увеличенной полосе пропускания электрических чипов.
Что касается применения CPO в кластерах ИИ, разногласия в основном касаются таких вопросов, как надежность, ремонтопригодность и тестируемость CPO. В большинстве выпускаемых в настоящее время решений продуктов CPO оптический механизм вставлен в подложку в виде гнезда. Перед упаковкой оптические двигатели сначала проверяются, а те оптические двигатели, характеристики которых соответствуют требованиям, отбираются для повышения производительности. Кроме того, продукты CPO требуют углубленного сотрудничества с компаниями-производителями чипов ASIC, поэтому в настоящее время продукты CPO в основном запускаются самими компаниями-коммутаторами или тесно с ними связаны, включая Broadcom, Marvell, Cisco и т. д.
В кластере AI новую сетевую архитектуру можно внедрить через оптический коммутатор OCS (коммутатор оптических цепей), как показано на рисунке ниже. Оптические переключатели можно использовать для подключения плат графического процессора для гибкого переключения топологии сети, а также для соединения аппаратных ресурсов между различными стойками для формирования новой вычислительной сети и повышения эффективности использования оборудования. При развертывании большого количества графических процессоров в кластерах ИИ необходимо добиться высокоэффективного соединения сигналов между графическими процессорами и увеличить вычислительную мощность за счет масштабирования соединения. В противном случае соединение будет сильно ограничивать производительность системы и не сможет эффективно работать. использовать вычислительную мощность кластера графического процессора.
В связи с быстрым развитием кластеров искусственного интеллекта оптическое соединение породило новые требования и проблемы, но основные требования вполне очевидны — низкое энергопотребление, высокая пропускная способность и соединение сигналов с малой задержкой. Кто сможет воспользоваться этой возможностью и проложить путь? Давайте подождем и посмотрим!
Если в статье есть ошибки или неточности,Я надеюсь, что вы все это укажете,Каждый может оставить сообщение для обсуждения. На данный момент все три группы Вичата заполнены.,Сяодуя открыла новую дискуссионную группу Вичат 4,Друзья, которым нужны технические обсуждения или бизнес-консалтинг, могут напрямую добавить мой профиль.Вичатphoton_walker。