NVIDIA 그래픽 처리 장치(GPU)의 진화는 게임 기능을 넘어 다양한 영역, 특히 인공 지능과 머신 러닝에서 탁월한 능력을 입증하면서 그 영역을 확장해 왔습니다. 이는 주로 최신 NVIDIA GPU의 유비쿼터스 기능인 CUDA 및 Tensor 코어의 통합에 기인합니다.
앞서 언급한 구성 요소는 인공 지능(AI) 및 머신 러닝(ML) 영역에서의 구현과 관련하여 상당한 주목을 받고 있습니다. 그러나 이러한 구성 요소가 수행하는 특정 기능에 대한 포괄적인 이해는 부족합니다. 또한 AI와 ML 모두 이러한 코어를 활용한다는 사실은 일반적으로 인정되지만, 두 기술 간의 차이점에 대해서는 모호한 부분이 남아 있습니다.
CUDA 코어란 무엇이며 어떤 용도로 사용되나요?
CUDA라는 용어는 컴퓨팅 통합 장치 아키텍처를 의미하지만, 이 명명법은 그래픽 처리 장치(GPU) 내 통합과 관련하여 실질적인 통찰력을 제공하지는 않습니다. 이 특정 명칭은 2014년 맥스웰(Maxwell) 아키텍처에서 엔비디아 GPU 제품군에 통합되었으며, 병렬 방식으로 연산을 실행하는 데 중점을 두고 있습니다.
GPU는 기능 면에서 중앙 처리 장치(CPU)와 유사하게 작동하지만 암호화 해싱, 물리 시뮬레이션, 데이터 과학 및 게임 개발 영역 내 특정 작업과 같은 특정 작업을 실행할 때 향상된 성능을 발휘합니다.
이미지 출처: 엔비디아
CUDA 코어의 활용은 개인용 컴퓨터의 게임 및 수치 계산 능력에 큰 영향을 미칠 수 있습니다. 중앙 처리 장치(CPU)에도 여러 개의 코어가 포함될 수 있지만, NVIDIA 그래픽 처리 장치(GPU)에 있는 방대한 수의 CUDA 코어는 수학적 연산을 매우 빠르게 처리할 수 있게 해줍니다. 또한 이러한 연산은 CUDA 코어에 의해 동시에 실행되므로 기존 프로세서에 비해 훨씬 더 빠른 결과를 얻을 수 있습니다.
CUDA 코어는 기존 중앙처리장치(CPU)에 비해 수치 연산에 유리할 수 있지만, 이러한 작업을 위해 설계된 것이 아니므로 완전한 솔루션으로 간주할 수 없습니다. 주요 기능이 그래픽 처리에 맞춰져 있어 게임 성능 측면에서 NVIDIA 그래픽 처리 장치(GPU)의 기능을 향상시키기 때문입니다.
텐서 코어란 무엇이며 어떤 용도로 사용되나요?
인공 지능 및 머신 러닝 애플리케이션에서 GPU를 활용함에 따라 Nvidia는 2017년부터 데이터센터 그래픽 처리 장치용 볼타 아키텍처에 Tensor 코어를 통합했습니다.
결과적으로 소비자 그래픽 처리 장치에 RT 코어와 DL 코어를 통합하는 것은 RTX 20 시리즈 GPU에서 선보인 Nvidia Turing 아키텍처의 출현과 함께 이루어졌습니다. GTX 16 시리즈 카드도 튜링 아키텍처에 뿌리를 두고 있지만 레이 트레이싱 및 텐서 연산 기능이 부족하다는 점에 유의해야 합니다.
딥 러닝에서 텐서 코어의 활용도는 CUDA 코어가 단일 연산을 수행하는 것과 비교할 때 클럭의 각 사이클 동안 여러 연산을 실행할 수 있기 때문에 CUDA 코어의 활용도를 뛰어넘습니다. 그 결과 효율성이 향상되고 처리 능력이 향상됩니다. 본질적으로 텐서 코어의 주요 기능은 행렬 곱셈 속도를 향상시키는 것입니다.
CUDA 코어의 활용을 통한 계산 효율성의 향상은 정확도의 감소라는 대가를 치르게 됩니다. 그러나 머신 러닝 모델 학습에 있어 텐서 코어를 사용하면 속도와 전체 비용 측면에서 상당한 이점을 얻을 수 있으므로 대부분의 경우 정확도 감소는 감수할 수 있는 수준입니다.
텐서 코어와 쿠다 코어는 GPU 성능에 어떤 영향을 미치나요?
이쯤 되면 CUDA 코어와 Tensor 코어가 비슷한 워크로드를 처리할 수 있지만, 각각 그래픽 렌더링과 수학적 연산을 목적으로 설계된 특수 코어라는 것을 알 수 있을 것입니다
GPU의 연산 리소스 할당은 의도된 사용자에 따라 다르므로 코어 수가 다양해집니다. 예를 들어, 게임용으로 설계된 엔비디아의 최신 하이엔드 그래픽 처리 장치인 RTX 4090은 텐서 코어에 비해 상당한 수의 CUDA 코어를 자랑합니다. 구체적으로 RTX 4090은 16,384개의 CUDA 코어를 탑재하고 있으며 텐서 코어는 512개에 불과합니다.
RTX 4090과 동일한 아키텍처 기반을 공유하는 데이터센터용으로 설계된 Nvidia L40 GPU는 18,176개의 CUDA 코어와 568개의 Tensor 코어를 자랑합니다. 코어 수의 차이는 비교적 크지 않지만, 이 차이는 각각의 성능에 상당한 영향을 미칠 수 있습니다.
가상 처리 능력을 기준으로 볼 때, L40은 90.52테라플롭스(TF)의 FP16 및 FP32 성능과 1,414기가플롭스(GF)의 FP64 성능을 자랑합니다.이는 RTX 4090과 비교했을 때 각각 82.58 TF와 1,290 GF에 불과한 FP16 및 FP32 성능과 1,290 GF에 불과한 FP64 성능에 비해 성능이 크게 향상되었음을 나타냅니다.
GPU 수치 성능 메트릭에 익숙하지 않은 개인은 앞서 언급한 수치 성능 데이터가 별 의미가 없다고 생각할 수 있습니다. 그럼에도 불구하고 이러한 통계는 인공 지능 및 머신 러닝 애플리케이션에 중요한 수학적 연산을 실행하는 측면에서 Nvidia L40이 RTX 4090을 능가한다는 것을 나타냅니다.
NVIDIA GeForce RTX 4080의 낮은 전력 소비를 고려하면 오버클럭된 AMD Radeon RX 470 XT의 성능 향상은 훨씬 더 칭찬할 만합니다.
이 두 그래픽 처리 장치(GPU)는 모두 게임과 머신 러닝 작업을 모두 효율적으로 실행할 수 있습니다. 하지만 그래픽적으로 까다로운 게임을 실행하는 데는 NVIDIA RTX 4090이 더 능숙하고 복잡한 머신 러닝 연산을 처리하는 데는 AMD Radeon Instinct MI60 L40이 더 적합합니다.
CUDA 코어 대 텐서 코어: 어느 것이 더 중요할까요?
게임용이든 데이터센터 랙에 배치하든 그래픽 처리 장치(GPU)를 구입하는 목적에 관계없이 두 코어 모두 동일한 중요성을 갖습니다. 엔비디아의 소비자 지향 게이밍 GPU에는 여러 가지 인공 지능 기능, 특히 텐서 코어를 포함하는 딥 러닝 슈퍼 샘플링(DLSS)이 통합되어 있습니다.
데이터 센터에서 사용하도록 설계된 GPU에는 일반적으로 주로 함께 작동하는 CUDA 및 텐서 코어가 장착되어 있습니다. 따라서 어떤 GPU를 선택하든 두 가지 유형의 코어를 모두 사용할 수 있습니다. 특정 유형의 프로세싱 코어에 집착하기보다는 GPU의 전반적인 성능, 특히 타겟 사용자층에 대한 적합성에 집중하는 것이 좋습니다.
CUDA 코어는 그래픽 처리 작업 처리에 최적화된 반면, 텐서 코어는 수학 연산에 탁월합니다. 두 유형의 코어는 어느 정도 협업하고 상호 교환적으로 활용할 수 있지만, 각각 고유한 전문 영역을 유지하여 그 존재를 정당화합니다.
다양한 그래픽 처리 장치(GPU)의 활용은 각기 다른 애플리케이션에 맞춰져 있습니다. RTX 4090은 어떤 비디오 게임도 쉽게 정복할 수 있을 만큼 성능이 뛰어나지만, RTX 4060은 1080p 게임 성능을 처리하는 데 한계가 있습니다.GPU를 게임용이 아닌 연산이나 인공 지능 모델 트레이닝용으로 사용할 계획이 있는 경우, A100 또는 L40과 같은 A 시리즈 데이터센터 GPU를 선택하는 것이 이상적입니다.
GPU 코어의 중요성
GPU 코어 수가 증가하면 다양한 작업을 처리할 수 있는 전용 리소스를 더 유연하게 할당할 수 있으므로 전반적인 성능 향상으로 이어질 수 있습니다. 그러나 단순히 코어 수가 가장 많은 GPU를 구입하는 것이 항상 최적의 솔루션은 아닙니다. 자신의 요구 사항을 철저히 평가하고 GPU의 전반적인 기능을 검토한 후 이러한 요소를 바탕으로 정보에 입각한 선택을 하는 것이 중요합니다.