NVIDIA DGX B200 총정리 — Blackwell 8기 탑재, H100 대비 훈련 3배·추론 15배, AI 팩토리의 새 기준
AI 모델의 규모가 수조 개의 파라미터로 확장되는 시대, 이를 학습하고 서빙할 인프라 없이는 아무것도 시작할 수 없습니다. OpenAI가 GPT-5.3-Codex를 NVIDIA GB200 NVL72 시스템에서 학습·서빙했고, 주요 클라우드 사업자들이 Blackwell 기반 인프라를 경쟁적으로 확충하는 현재, 그 핵심에 있는 것이 바로 NVIDIA DGX B200입니다.
DGX B200이란 무엇인가
NVIDIA DGX B200은 8개의 NVIDIA Blackwell GPU를 5세대 NVLink로 상호 연결한 통합 AI 플랫폼입니다. NVIDIA 공식 페이지에 따르면, 데이터 준비부터 훈련, 파인튜닝, 추론에 이르는 AI 파이프라인의 모든 단계를 단일 시스템에서 처리할 수 있도록 설계되었습니다. 이전 세대 시스템인 DGX H100 대비 훈련 성능 3배, 추론 성능 최대 15배를 제공한다고 NVIDIA는 밝히고 있습니다.
Blackwell B200 GPU: 단일 칩 사양
DGX B200의 핵심인 개별 B200 GPU는 NVIDIA의 Blackwell 아키텍처를 기반으로 합니다. TSMC의 커스텀 4NP 프로세스로 제조되며, 두 개의 레티클 한계 다이(die)를 하나의 통합 GPU로 연결한 혁신적인 듀얼 칩렛 설계를 채택했습니다. 주요 사양은 다음과 같습니다.
트랜지스터: 2,080억 개(H100의 800억 개 대비 약 2.6배). 메모리: GPU당 180GB HBM3e(일부 구성에서 192GB로 표기), 메모리 대역폭 약 8TB/s. 연산 성능: FP8 기준 약 9 PFLOPS(희소), FP4 기준 약 18 PFLOPS(희소). 새로운 기능: FP4 Tensor 코어가 최초 도입되어, FP8 대비 추론 처리량을 사실상 2배로 늘릴 수 있습니다. 또한 2세대 Transformer 엔진이 탑재되어 LLM 추론에 최적화되었습니다.
DGX B200 시스템 사양
8개의 B200 GPU가 하나의 DGX 시스템에 탑재되면 다음과 같은 총합 사양을 갖게 됩니다.
| 항목 | 사양 |
|---|---|
| GPU | 8× NVIDIA Blackwell GPU |
| GPU 메모리 | 총 1,440GB HBM3e, 64TB/s 대역폭 |
| 성능 (FP4 Tensor) | 144 PFLOPS(희소) | 72 PFLOPS(밀집) |
| 성능 (FP8 Tensor) | 72 PFLOPS(희소) | 36 PFLOPS(밀집) |
| NVLink 대역폭 | 총 14.4TB/s (5세대 NVLink, NVSwitch 2개) |
| CPU | Intel Xeon Platinum 8570 × 2 (총 112코어) |
| 시스템 메모리 | 2TB DDR5 (최대 4TB 확장) |
| 네트워킹 | 최대 400Gb/s InfiniBand/이더넷 (ConnectX-7 × 8), BlueField-3 DPU × 2 |
| 스토리지 | OS: 2× 1.9TB NVMe M.2 / 내부: 8× 3.84TB NVMe U.2 |
| 전력 소비 | 최대 14.3kW |
| 크기 | 10U, 444mm(H) × 482mm(W) × 897mm(D) |
DGX H100 대비 무엇이 달라졌나
NVIDIA 공식 수치 기준, DGX B200은 DGX H100 대비 훈련 처리량 약 3배, 추론 처리량 최대 15배를 제공합니다. MLPerf 벤치마크 제출 결과에서도 B200 기반 시스템이 H100 시스템 대비 최대 2.2배 높은 훈련 성능(피크 기준 2.27배)을 기록했다는 보고가 있습니다. 실제 사용자 테스트에서는 특정 컴퓨터 비전 작업에서 최대 57% 더 빠른 훈련 처리량이 관찰되었습니다.
이러한 성능 도약의 핵심 요인은 크게 세 가지입니다. 첫째, 트랜지스터 수가 800억에서 2,080억으로 2.6배 증가한 Blackwell 아키텍처 자체의 연산 밀도 향상. 둘째, GPU당 메모리가 80GB(H100)에서 180GB로 2.25배 늘어나고 대역폭이 HBM3에서 HBM3e로 세대 전환된 점. 셋째, FP4 정밀도의 도입으로 추론 시 사실상 2배의 처리량을 확보한 것입니다.
누가 사용하는가: Blackwell 생태계
NVIDIA가 2024년 3월 GTC에서 Blackwell 아키텍처를 발표했을 때, AWS, Google, Meta, Microsoft, OpenAI, Oracle, Tesla, xAI 등 주요 기업들이 Blackwell 채택을 예고했습니다. 실제로 OpenAI는 GPT-5.3-Codex를 GB200 NVL72(B200 GPU 기반 슈퍼칩)에서 학습하고 서빙했다고 밝혔으며, 주요 클라우드 사업자들이 B200 기반 인스턴스를 경쟁적으로 제공하고 있습니다.
DGX B200이 대상으로 하는 워크로드는 거대 언어 모델(LLM), 추천 시스템, 챗봇, 과학 시뮬레이션 등 대규모 AI 작업 전반입니다. 특히 수조 개 파라미터 규모의 모델을 실시간으로 추론해야 하는 엔터프라이즈 환경에서 핵심 인프라로 자리잡고 있습니다.
가격과 이용 방법
NVIDIA는 DGX B200의 공식 소매 가격을 직접 공개하지 않지만, 업계 보도와 리셀러 가격을 종합하면 DGX B200 1대(8× B200) 가격은 약 $400,000~$515,000 수준으로 알려져 있습니다. 개별 B200 GPU는 약 $30,000~$50,000 범위로 보고됩니다. 현재 대기자 명단(waitlist)이 운영되고 있으며, NVIDIA에 직접 연락하여 2025~2026년 우선 배송을 신청할 수 있습니다.
직접 구매가 어려운 경우, 주요 클라우드 제공업체를 통해 B200을 임대할 수 있습니다. 2026년 2월 기준 클라우드 가격은 제공업체에 따라 GPU당 시간당 약 $2.25~$5.00 수준(온디맨드 기준)이며, 평균은 약 $4.70/hr 정도입니다.
소프트웨어 생태계
DGX B200에는 NVIDIA AI Enterprise(최적화된 AI 소프트웨어 스위트), NVIDIA Mission Control(NVIDIA Run:ai 기술 기반의 AI 데이터센터 운영·조정 플랫폼), 그리고 DGX OS(Ubuntu 기반)가 번들로 제공됩니다. 또한 DGX 고객은 NVIDIA Deep Learning Institute(DLI)의 전용 기술 교육과 3년간의 비즈니스 표준 하드웨어·소프트웨어 지원을 받을 수 있습니다.
더 큰 규모가 필요한 경우, 여러 DGX B200을 결합하여 DGX SuperPOD를 구성할 수 있습니다. DGX SuperPOD는 가장 까다로운 AI 학습·추론 워크로드를 처리할 수 있는 턴키 AI 데이터센터 인프라 솔루션으로, 확장 가능한 성능을 제공합니다.
자주 묻는 질문 (FAQ)
Q1: DGX B200과 GB200 NVL72는 무엇이 다른가요?
A: DGX B200은 8개의 B200 GPU를 Intel Xeon CPU와 조합한 시스템입니다. GB200은 2개의 B200 GPU를 1개의 ARM 기반 Grace CPU와 NVLink로 직접 연결한 "슈퍼칩"이며, NVL72는 이 GB200 슈퍼칩 36개(B200 GPU 72개)를 하나의 NVLink 도메인으로 묶은 대규모 시스템입니다. OpenAI의 GPT-5.3-Codex가 학습된 것이 바로 이 GB200 NVL72입니다.
Q2: B200과 후속 모델 B300은 어떤 관계인가요?
A: B300은 B200의 개선 버전으로, 같은 Blackwell 아키텍처 기반이지만 GPU당 메모리가 288GB로 늘어나고 FP4 성능도 향상되었습니다. B300 SXM6 262GB GPU는 2025년 11월부터 일부 클라우드에서 배포가 시작된 것으로 보고되고 있습니다.
Q3: 기존 H100/H200을 쓰고 있는데, B200으로 전환해야 하나요?
A: 워크로드에 따라 다릅니다. LLM 추론이 핵심이라면 FP4 도입과 최대 15배 추론 성능 향상은 매력적입니다. 훈련 위주라면 3배 향상과 2.25배 늘어난 메모리가 모델 규모 확장에 도움이 됩니다. 다만 DGX B200 시스템 가격이 $400K 이상이고 전력도 14.3kW로 높으므로, 현재 워크로드의 병목이 어디인지, 클라우드 임대 대비 자체 구매의 TCO가 유리한지를 먼저 분석하는 것이 권장됩니다.
- GPU: 8× Blackwell (GPU당 2,080억 트랜지스터, 듀얼 칩렛)
- 메모리: 총 1,440GB HBM3e, 64TB/s 대역폭
- 성능: FP4 144 PFLOPS(희소), FP8 72 PFLOPS(희소)
- DGX H100 대비: 훈련 3배, 추론 최대 15배 (NVIDIA 공식)
- 연결: 5세대 NVLink 14.4TB/s, 400Gb/s InfiniBand/이더넷
- 가격: 시스템 약 $400K~$515K, 클라우드 약 $2.25~$5.00/GPU/hr
댓글
댓글 쓰기