Известный производитель видеоускорителей Nvidia представил первое готовое решение для высокопроизводительных вычислений и разработки искусственного интеллекта на базе собственной платформы еще в 2016 году.
Первая модель суперкомпьютера Nvidia DGX базировались на поколении Pascal — Volta. С тех пор свет увидели HPC-серверы еще двух поколений: Ampere и Hopper, в следующем году ожидается выпуск моделей поколения Blackwell.
Как GPU-чипы стали применять для сложных вычислений
Долгое время видеоускорители использовались по своему прямому назначению — для ускорения работы с графикой и сопутствующих вычислений.
В конце 2000-х годов выяснилось, что GPU за счет своей многоядерной структуры и реализации параллельных вычислений гораздо лучше подходят для решения задач по глубокому обучению нейросетей. В это же время графические ускорители начали активно использовать и для майнинга криптовалют. С этим, кстати, связан резкий рост стоимости видеоускорителей во всем мире. Но вернемся к ИИ.
Компания Nvidia не осталась в стороне от новых веяний и начала разработку суперкомпьютеров для решения задач по глубокому обучения ИИ.
DGX-серверы объединяют в единое целое высокопроизводительные GPU-процессоры, серверные CPU, сетевые карты с большой пропускной способностью, накопители информации, а также ряд других компонентов.
Первое поколение Nvidia DGX
Первая модель Nvidia DGX-1 была анонсирована 6 апреля 2016 года. Сервер включал в себя 8 профессиональных карт расширения NVIDIA Tesla P100 / V100 на базе архитектур Pascal или Volta.
Производительность модели на базе микроархитектуры Pascal достигала 170 терафлопс обработки данных половинной точности, на базе Volta — до 1 000 терафлопс.
Уже через год был представлен Nvidia DGX-1 второго поколения. Этот сервер имел два ЦПУ Intel Xeon E5, 512 Гб ОЗУ DDR4, восемь GPU NVIDIA Tesla P100/V100 с общим объемом HBM2 памяти 128 ГБ, две 10-гигабитные сетевые карты и четыре SSD-диска по 2 Тб.
Nvidia DGX-2 с 16 ускорителями Tesla V100 вышел в марте 2018 году и смог достичь производительности в 2 петафлопса.
От Ampere до Blackwell
В мае 2020 года Nvidia анонсировала новое поколение суперкомпьютеров и рабочих станций на базе микроархитектуры Ampere — DGX A100 Server и DGX Station A100. К примеру, DGX A100 Server имел уже два 64-ядерных AMD EPYC, 2 Тб ОЗУ, восемь GPU A100 с общим объемом HBM2e памяти 320 или 640 Гб, до 10 200-гигабитных Ethernet-коммутаторов, шесть NVIDIA NVSwitch с пропускной способностью 4,8 Тб/с, а также высокоскоростное хранилище на 30 Тб (NVMe SSD Gen4).
Сервер Nvidia DGX H100 Server (поколение Hopper) появился весной 2022 года и он был еще быстрее. Затем вышел суперкомпьютер для корпоративных заказчиков — Nvidia DGX GH200 AI Supercomputer.
Весной 2025 года ожидаются серверы и рабочие станции на основе архитектуры Blackwell — HGX B100 и B200. На данный момент точные характеристики этих моделей еще неизвестны.
Что такое HGX и MGX
Кроме готовых решений DGX, Nvidia выпускает HGX-серверы, позволяя партнером создавать решения под запросы клиентов. Nvidia MGX — новая модульная платформа, где клиенты могут сами собирать серверы в нужной конфигурации.