NVIDIA가 호평을 받는 다양한 GPU 시리즈를 통해 병렬 컴퓨팅 분야에서 최고의 자리를 지키고 있다는 것은 부인할 수 없는 사실입니다. 그러나 AMD의 Instinct AI 가속기가 한 대가 아닌 두 대의 가장 최신의 상당한 슈퍼컴퓨터(Frontier 및 El Capitan)에 통합되고 커뮤니티 내에서 오픈 소스 ROCm 플랫폼의 수용이 증가함에 따라 NVIDIA는 마침내 가장 강력한 적을 만난 것으로 보입니다.

AMD의 Instinct AI 가속기는 인공 지능 워크로드에 탁월한 성능을 제공하도록 설계된 전문 프로세서입니다. 이러한 장치는 딥 뉴럴 네트워크 가속기(DNNA) 및 AI 전용 처리 유닛(APU)과 같은 최첨단 기술을 활용하여 훈련 및 추론 작업에서 탁월한 효율성을 제공합니다. AI 작업에 일반적으로 사용되는 엔비디아의 텐서 GPU와 비교했을 때, AMD의 Instinct 가속기는 고급 메모리 지원, 향상된 확장성 및 최적화된 소프트웨어 통합을 포함해 더욱 다양한 기능을 제공합니다. 또한, AMD의 Instinct 가속기는 다른 Radeon 그래픽 카드와 짝을 이루어 원시 컴퓨팅 성능과 특수 그래픽 기능의 균형을 맞추는 매우 효과적인 하이브리드 렌더링 시스템을 구성할 수 있습니다.

AMD Instinct 프로세서란?

AMD Instinct 프로세서 제품군은 고성능 컴퓨팅(HPC) 및 인공 지능(AI) 가속화 처리 환경에서 사용하도록 특별히 설계되었습니다. 이러한 프로세서는 하드웨어 및 소프트웨어 발전을 통해 특별히 최적화되어 복잡한 AI 훈련 및 기타 까다로운 계산 작업을 처리하는 데 탁월하므로 일반 소비자용 그래픽 처리 장치(GPU)와는 다릅니다.

고성능 컴퓨팅의 중요한 순간은 최초의 엑사스케일 슈퍼컴퓨터의 원동력으로 AMD의 Instinct 시리즈 그래픽 처리 장치(GPU)를 채용함으로써 이루어졌으며, 이는 배정밀도 계산에서 초당 1.1 EFLOPs(초당 지수 연산)를 실행하는 놀라운 능력을 갖추고 있습니다. 이 뛰어난 컴퓨터는 종양학 치료, 재생 에너지, 환경 보존 분야의 획기적인 연구에 활용되고 있습니다.

Instinct 프로세서가 AI 및 HPC를 가속화하는 방법

가장 눈에 띄는 메인스트림 서버 및 슈퍼컴퓨터에서 엑사스케일 처리 능력을 달성하기 위해, AMD의 Instinct 가속기는 몇 가지 기술적 개선 및 발전을 거쳐야 했습니다.

AMD Instinct GPU 아키텍처에 통합된 몇 가지 최첨단 기술에 대해 설명해 드리겠습니다.

컴퓨팅 DNA(CDNA)

이미지 크레딧: Pascal Liebart/ AMDLibrary

MI100을 시작으로 한 최신 AMD Instinct 가속 카드는 회사의 CDNA 아키텍처를 활용합니다.

이 글도 확인해 보세요:  첫 헤드폰 구매를 위한 초보자 가이드

CDNA는 매트릭스 코어 기술을 통해 제공되는 병렬 처리, 메모리 계층 구조 및 최적화된 컴퓨팅 성능과 같은 고급 기능에 중점을 두고 있습니다. 이러한 다목적 접근 방식을 통해 대규모 엑사스케일 시스템뿐만 아니라 개별 서버에서 실행되는 HPC 및 AI/ML을 포함한 소규모 애플리케이션을 모두 지원할 수 있습니다.

AMD의 매트릭스 코어 기술은 혼합 정밀도 연산을 지원함으로써 인공 지능(AI) 학습의 향상을 촉진했습니다. 이 혁신적인 기능을 통해 Instinct GPU는 다양한 수준의 정밀도로 행렬 연산을 수행할 수 있어 보다 효율적인 처리가 가능합니다.

FP64, FP32, FP16, BF16, INTFP 등 여러 가지 계산 정밀도 형식이 널리 활용되고 있습니다. 정밀도는 각 형식에 할당된 수치로 표시되며, 숫자가 높을수록 계산 정확도가 높아집니다. 배정밀도란 64비트에서 연산하는 것을 의미하며, 단정밀도는 32비트에서 연산하는 것을 의미합니다. 마찬가지로 16비트 연산은 반정밀을 의미하며, 비트 값이 낮을수록 정확도가 떨어집니다.

딥러닝 모델 학습에서 추론 시 행렬 연산에 반정밀도 또는 1/4정밀도 컴퓨팅 기능을 활용하면 계산 요구량을 크게 줄일 수 있어 보다 효율적인 AI 학습이 가능합니다.

고대역폭 메모리(HBM)

이미지 크레딧:Jason De Vos/ AMDLibrary

모든 AMD Instinct AI 가속기는 최대 880개의 매트릭스 코어를 자랑합니다. 각 매트릭스 코어 프로세서가 반정밀도 연산에 해당하는 383 TFLOPs를 수행할 수 있다는 점을 감안할 때, 빠른 액세스 메모리가 필수적입니다. 따라서, 최신 AMD Instinct 모델에는 모두 고대역폭 메모리(HBM)가 탑재되어 있으며, 이는 기존 DDR4 또는 DDR5 DRAM과 달리 높은 데이터 전송률 성능을 제공합니다.

HBM은 3차원(3D) 적층형 아키텍처를 활용하는 색다른 메모리 기술을 채용하고 있으며, 이는 DRAM 주사위를 수직으로 적층된 구성으로 배치하여 기존 메모리 설계에서 벗어난 것입니다. 이러한 배열을 통해 수직 축뿐만 아니라 수평면을 가로질러 여러 층의 DRAM 주사위를 쌓을 수 있으므로 ‘3D 스태킹’이라는 이름이 붙었습니다.

3D 스태킹 기술을 활용하면 고대역폭 메모리(HBM) 모듈은 모듈당 수백 기가바이트에 이르는 물리적 메모리 용량을 자랑하는 반면, 동적 랜덤 액세스 메모리(DRR5)는 모듈당 최대 수십 기가바이트로 제한됩니다. HBM은 용량이 더 클 뿐만 아니라 기존의 더블 데이터 레이트(DDR) 메모리에 비해 데이터 전송 속도와 전력 소비량 측면에서 우수한 성능을 제공합니다.

이 글도 확인해 보세요:  ChatGPT를 사용하여 팟캐스트 스크립트를 작성해봤더니? 결과는 이렇습니다.

인피니티 패브릭

인스팅트 GPU에는 CPU와 GPU 간의 효율적인 통신을 위한 혁신적인 인터커넥트 시스템 역할을 하는 AMD의 인피니티 패브릭 기술이 탑재되어 있습니다.

Infinity Fabric을 활용함으로써 상호 연결 토폴로지는 기존의 버스 기반 아키텍처에서 초당 최대 수백 기가바이트의 데이터 전송 속도를 지원하는 메시 네트워크로 진화했습니다.

인피니티 패브릭은 복잡한 상호 연결 네트워크 외에도 각 개별 다이에 통합된 센서 기술을 사용하여 작동 주파수, 데이터 전송 속도 및 기타 조정 가능한 특성을 조절하여 전체 성능을 극대화하고 지연 시간을 줄입니다.

ROCm 개발 플랫폼

NVIDIA에서 개발한 CUDA(컴퓨팅 통합 장치 아키텍처)는 인공 지능(AI) 모델 훈련용 플랫폼으로 널리 인기를 얻고 있습니다. 그러나 호환성이 NVIDIA 그래픽 처리 장치(GPU)로 제한되어 있어 고성능 컴퓨팅(HPC) 및 AI GPU 가속 시장에서 다른 경쟁업체에게 큰 장애가 되고 있으며, 그 결과 해당 영역에서 NVIDIA의 시장 점유율이 압도적으로 높습니다.

AMD는 고성능 컴퓨팅(HPC) 및 인공 지능(AI) 시장에서의 입지를 확대하기 위해 자체 플랫폼인 ROCm(Radeon Open Compute)을 개발했습니다. 이 오픈 소스 소프트웨어 솔루션은 AMD의 Instinct GPU가 AI 가속 장치로 작동할 수 있도록 합니다.

ROCm은 Instinct 시리즈 GPU의 내구성을 보장하는 데 중요한 역할을 합니다. 개발 도구, 컴파일러, 커널 드라이버, 다양한 라이브러리와 같은 필수 구성 요소와 TensorFlow 및 PyTorch와 같은 인기 있는 AI 프레임워크에 대한 액세스를 제공하여 개발자와 연구자가 혁신과 발전을 위해 선호하는 AI 프로그래밍 언어를 활용할 수 있도록 합니다.

Instinct AI 가속기는 Radeon GPU AI 가속기와 어떻게 비교되나요?

AMD Instinct 그래픽 처리 장치(GPU) 라인업은 기업 시장을 위해 특별히 설계된 반면, Radeon GPU는 일반 소비자용으로 설계되었습니다.두 제품 모두 서로 다른 아키텍처 설계를 활용하며, Instinct GPU는 AMD의 컴퓨팅 더블 데이터 레이트 5세대(CDNA) 아키텍처, 고대역폭 메모리(HBM) 및 Infinity 패브릭 상호 연결을 사용합니다. 반면, 라데온 GPU는 AMD의 RDNA 아키텍처, DDR6 메모리, 인피니티 캐시를 사용합니다.

Radeon 시리즈 AI 가속기는 다른 AI 가속기에 비해 덜 강력한 것으로 간주될 수 있지만, 컴퓨팅 유닛당 하나 또는 두 개의 AI 가속기 코어만 통합되어 있어 여전히 매우 강력합니다. 예를 들어, 가장 최근의 Radeon RX7900 XT GPU는 컴퓨팅 유닛당 2개의 코어로 구성되어 있어 반정밀도 계산을 사용할 때 103 TFLOPs의 인상적인 최대 성능과 단정밀도 계산을 사용할 때 52 TFLOPs의 성능을 제공할 수 있습니다.

이 글도 확인해 보세요:  향후 30년간 우리 삶의 방식을 바꿀 10가지 현실적인 예측

NVIDIA의 Instinct 시리즈 GPU는 대규모 언어 모델(LLM) 및 고성능 컴퓨팅 애플리케이션에 더 적합한 반면, AMD의 Radeon AI 가속기는 추론을 통해 사전 학습된 모델을 개선하고 계산적으로 까다로운 그래픽 연산을 처리하는 데 적합합니다.

AMD Instinct 대 NVIDIA Tensor

TrendForce 설문조사에 따르면 , NVIDA는 서버 GPU에서 80%의 시장 점유율을 차지하고 있는 반면, AMD는 20%에 불과합니다. NVIDIA가 이처럼 압도적인 성공을 거둘 수 있었던 이유는 GPU 설계 및 조립을 전문으로 하는 회사이기 때문입니다. 이를 통해 다른 제품과 비교할 수 없는 훨씬 더 우수한 성능의 GPU를 설계할 수 있습니다.

AMD의 공식 웹사이트 의 사양 NVIDIA의 자체 데이터시트 :

GPU 모델 FP64 (TFLOPs) FP32 (TFLOPs) FP16 (TFLOPs) INT8 (TFLOPs)
AMD Instinct MI250X 30.0 60.0 1000 2000
NVIDIA H100SXMS 47.9 95.7 383.2 383

표에 제시된 성능 벤치마크 결과는 AMD MI250X가 배정밀도 및 반정밀도 컴퓨팅 작업에서 탁월한 반면, NVIDIA H100SXMS는 반정밀도 및 1/4정도 매트릭스 작업에서 우수함을 나타냅니다.따라서 AMD MI250X는 고성능 컴퓨팅 애플리케이션에 더 적합하며, NVIDIA H100SXMS는 인공 지능 학습 및 추론 작업에 가장 적합합니다.

AMD 인스팅트 프로세서의 미래

AMD에서 최근 출시한 MI250X는 주로 고성능 컴퓨팅(HPC)을 위한 것이지만, 곧 출시될 MI300은 인공 지능(AI) 교육에 더 적합할 것으로 예상됩니다. 곧 출시될 이 AI 가속기의 주목할 만한 특징은 단일 패키지 내에 그래픽 처리 장치(GPU)와 중앙 처리 장치(CPU)가 통합되어 있어 고급 CNDA3 통합 메모리 APU 아키텍처를 활용할 수 있다는 점입니다. 이 설계는 GPU와 CPU가 모두 공유 메모리 풀에 액세스할 수 있도록 하여 운영 효율성을 높이고 비용을 절감합니다.

현재 AMD는 MI300 및 ROCm 기술의 현재 상태로는 AI 가속기 시장에서 엔비디아에 비해 강력한 상대가 되지 못하지만, 향후 이러한 제품이 출시되면 이 시장에서 AMD가 상당한 이득을 얻을 수 있을 것으로 보입니다.

By 박준영

업계에서 7년간 경력을 쌓은 숙련된 iOS 개발자인 박준영님은 원활하고 매끄러운 사용자 경험을 만드는 데 전념하고 있습니다. 애플(Apple) 생태계에 능숙한 준영님은 획기적인 솔루션을 통해 지속적으로 기술 혁신의 한계를 뛰어넘고 있습니다. 소프트웨어 엔지니어링에 대한 탄탄한 지식과 세심한 접근 방식은 독자에게 실용적이면서도 세련된 콘텐츠를 제공하는 데 기여합니다.