엔비디아 DGX 스파크 정보와 리뷰(언박싱, 성능비교, 활용전망)

솔직히 처음 박스를 받았을 때 "이게 슈퍼컴퓨터 맞아?"라는 말이 절로 나왔습니다. 맥미니보다 조금 크고 금빛으로 도금된 묵직한 금속 덩어리 하나. 가격은 미국 기준 3,999달러, 국내 예판가로는 750만 원. 엔비디아가 AI 개발자를 위해 데이터 센터를 책상 위로 압축해 놓은 제품, DGX 스파크를 두 달 가까이 직접 써본 경험을 솔직하게 풀어보겠습니다.



언박싱: 슈퍼컴퓨터라고 하기엔 너무 작은데요

제가 직접 포장을 뜯으면서 느낀 첫 번째 감정은 당황스러움이었습니다. 큼지막한 외부 박스에 비해 실제 본체는 생각보다 훨씬 작았거든요. 처음엔 제품 위에 붙어 있는 금속 외장재가 완충용 스티로폼인 줄 알고 떼어내려 했을 정도입니다. 알고 보니 일체형 바디였고, 전체적으로 수세미처럼 질감이 있는 금도금 마감이 적용되어 있었습니다.

구성품은 본체, 파워 어댑터, 파워 코드, 퀵스타트 가이드로 단촐합니다. 파워 어댑터가 외장형이라는 점은 조금 의외였는데, 최대 소비 전력이 240W로 슈퍼컴퓨터치고는 상당히 낮은 수준입니다. 포트는 USB-C 타입 4개, HDMI 1개, 이더넷 1개, 그리고 여러 대의 스파크를 묶어 쓸 때 사용하는 전용 연결 단자로 구성되어 있습니다.

스펙의 핵심은 GB Grace Blackwell 슈퍼칩(Superchip)입니다. 슈퍼칩이란 CPU, GPU, 메모리를 하나의 칩에 통합한 구조를 뜻하는데, 애플 실리콘과 비슷한 개념이라고 보면 됩니다. 덕분에 CPU와 GPU가 메모리를 공유하면서 데이터 이동 없이 빠르게 연산할 수 있습니다. 탑재된 메모리는 128GB LPDDR5X입니다. LPDDR5X란 저전력 설계에 최적화된 모바일 계열 메모리 규격으로, 일반 그래픽카드에 쓰이는 GDDR 메모리와는 설계 목적이 다릅니다. 전력 효율은 뛰어나지만 메모리 대역폭(Memory Bandwidth), 즉 데이터를 주고받는 속도는 273GB/s로, 같은 급의 워크스테이션 GPU인 RTX 6000 대비 약 6.5배 낮습니다. 이 차이가 나중에 실제 사용에서 어떻게 드러나는지는 아래에서 이야기하겠습니다.

무게는 약 1.2kg으로, 들어보면 작은 크기에 비해 묵직한 밀도감이 느껴집니다. 패키지 퀄리티나 마감은 상당히 고급스럽고, RTX 5090의 출고가 대비 두 배 수준이라는 가격이 아깝지 않다는 인상을 주는 첫인상이었습니다.

성능 비교: 20B와 120B, 완전히 다른 이야기

이 제품을 받고 한 두 달 동안 여러 실험을 해봤는데, 가장 인상 깊었던 건 LLM(Large Language Model) 성능 비교 결과였습니다. LLM이란 대규모 텍스트 데이터를 학습한 대형 언어 모델로, 챗GPT나 제미나이 같은 AI가 이 방식으로 만들어집니다. 저희는 오픈AI의 오픈소스 모델인 GPT-OS를 기준으로 두 가지 크기의 모델을 테스트했습니다.

비교 상대는 저희 스튜디오에 있는 RTX 5090 192GB 구성의 PC였습니다. 스펙 자체만 보면 비교 PC쪽이 더 우세한 상황이었는데, 결과는 모델 크기에 따라 완전히 달라졌습니다.

  1. 20B 모델(가벼운 버전, 권장 메모리 16GB): 답변 시작 시간은 스파크 0.25초 vs 비교 PC 0.11초. 비교 PC가 약 두 배 빠른 첫 응답을 보였고, 초당 토큰 수(Token/s, AI가 글자를 생성하는 속도)도 비교 PC가 약 네 배 높게 나왔습니다.
  2. 120B 모델(고성능 버전, 권장 메모리 80GB): 답변 시작 시간은 스파크 0.25초 vs 비교 PC 0.49초. 이번엔 스파크가 두 배 빠르게 첫 응답을 냈고, 초당 토큰 수도 스파크가 약 세 배 이상 높게 나왔습니다.

이 역전 현상의 원인은 그래픽카드의 VRAM(Video RAM) 용량입니다. VRAM이란 그래픽카드가 AI 연산에 사용하는 전용 메모리로, 이 공간에 모델 전체가 올라가야 빠르게 작동합니다. RTX 5090의 VRAM은 32GB인데, 120B 모델을 한 번에 올리기엔 턱없이 부족합니다. 결국 모델 일부를 시스템 메모리에 분산해서 처리하다 보니 속도가 크게 떨어진 것입니다. 반면 스파크는 128GB 통합 메모리 덕분에 120B 모델을 통째로 올려서 처리할 수 있었던 겁니다. 제가 이 결과를 보고 나서야 "아, 이 제품의 핵심이 바로 이 메모리 구조구나"라고 제대로 이해하게 됐습니다.

운영체제는 DGX 스파크 OS라는 리눅스 기반 전용 OS가 탑재되어 있고, DGX 대시보드에서 실시간 메모리와 GPU 사용량을 확인할 수 있습니다. 특히 플레이북(Playbook)이라는 초보자 가이드가 내장되어 있어서, AI를 처음 다루는 저도 Ollama(로컬에서 LLM을 실행하는 도구)를 15분 안에 설치하고 실행해볼 수 있었습니다. 이 점은 예상 밖으로 편리한 부분이었습니다.

엔비디아 공식 발표에 따르면 DGX 스파크는 최대 200GB/s의 NVLink-C2C 인터커넥트 대역폭을 지원해 여러 대를 묶어 쓸 때도 고속 통신이 가능합니다(출처: NVIDIA 공식 제품 페이지). 또한 AI 전문 매체 The Next Platform의 분석에 따르면 DGX 스파크 계열 장비는 클라우드 임대 비용 절감 측면에서 중장기적으로 비용 효율이 높다는 평가를 받고 있습니다(출처: The Next Platform).

활용 전망: 이 장비를 써야 하는 사람은 따로 있습니다

두 달 동안 파인튜닝(Fine-tuning)에도 도전해봤습니다. 파인튜닝이란 이미 학습된 AI 모델을 특정 목적에 맞게 추가 학습시켜 미세하게 조정하는 작업을 뜻합니다. 플레이북에 나온 PyTorch 라이브러리를 활용해서 저희만의 데이터셋으로 모델을 학습시켜 보려 했는데, 솔직히 말하면 실패했습니다. 모델이 이상한 답변만 반복하는 과적합(Overfitting) 현상이 발생했는데, 과적합이란 학습 데이터에 지나치게 맞춰져서 새로운 질문에 엉뚱한 답을 내놓는 현상입니다. AI 초보인 저 수준에서는 해결하기 어려운 문제였습니다.

그 외에도 메타의 SAM3 모델을 이용해 영상에서 특정 인물만 마스킹하는 작업, AI 음성 복제, 이미지 생성(이미지 한 장에 34GB 메모리 소모), 카메라 앵글 변환, Whisper 기반 AI 자막 생성 등을 모두 인터넷 연결 없이 로컬에서 돌릴 수 있었습니다. 이 부분은 보안이 중요한 환경에서 쓰는 팀이라면 상당히 매력적인 기능입니다. 클라우드에 데이터를 올리지 않아도 되니까요.

다만 한 가지 분명히 말씀드리고 싶은 건, 이 제품이 일반 사용자를 위한 장비는 아니라는 점입니다. 써보니 다음과 같은 사람들에게 실질적인 가치가 있다는 생각이 들었습니다.

  1. 로컬에서 LLM이나 비전 모델을 실험하는 AI 개발자 및 연구자
  2. 클라우드 서버 임대 비용이 부담되기 시작한 스타트업이나 영세 팀
  3. 데이터 외부 유출이 허용되지 않는 보안 민감 업무 환경
  4. 여러 대형 모델을 동시에 메모리에 올려놓고 비교 실험해야 하는 연구자

반면 AI 개발 경험이 없는 일반 사용자라면, 750만 원을 내고 이 장비를 구매해도 활용할 수 있는 기능의 10%도 끌어내기 어려울 것입니다. 제가 두 달 동안 배우면서 써봤는데도 아직 제대로 활용하고 있다는 느낌이 들지 않을 정도니까요.

결국 DGX 스파크는 "비싼가요?"라는 질문에 답하기 어려운 제품입니다. 개인 PC로 보면 분명 비쌉니다. 하지만 클라우드 GPU 임대 비용을 매월 지불하면서 데이터 보안 문제와 씨름하는 팀이라면, 오히려 중장기적으로 합리적인 선택이 될 수 있습니다. 앞으로 더 저렴한 후속 모델이나 소프트웨어 생태계가 확장된다면 접근성이 훨씬 넓어질 것으로 보입니다. 저도 이 장비를 계속 써보면서 파인튜닝 실패 원인을 찾아낼 생각입니다. AI를 모른다고 포기하기엔, 이 금빛 덩어리가 너무 궁금하거든요.

댓글 쓰기

다음 이전