-대규모 AI 훈련 패러다임 변화…칩 효율성 경쟁 본격화
5일(현지 시각) 블룸버그 통신과 ML커먼즈벤치마크 결과에 따르면, 엔비디아의 최신 블랙웰(Blackwell) 칩은 대규모 언어 모델(LLM) 학습 성능에서 전 세대 대비 두 배 이상 속도 개선을 입증했다.
▲압도적 성능으로 효율성 극대화
이번 ML커먼즈 벤치마크는 메타의 오픈소스 모델인 라마(Llama) 3.1 405B를 사용하여 칩 성능을 처음으로 측정했다.
라마 3.1 405B는 수조 개의 매개변수를 포함할 만큼 복잡한 모델로, 칩의 성능을 가늠하는 데 중요한 기준이 된다.
데이터에 따르면, 엔비디아의 블랙웰 칩은 이전 세대인 호퍼(Hopper) 칩보다 단일 칩 기준 두 배 이상 빠른 속도를 기록했다.
특히 가장 빠른 결과는 블랙웰 칩 2,496개를 사용해 불과 27분 만에 훈련 테스트를 완료한 것으로, 이는 이전 세대 칩 대비 세 배 이상 빠른 시간이다.
▲칩 효율 경쟁 심화…엔비디아-AMD-중국 ‘3파전’
AI 훈련 성능은 칩 효율성에 직결되며, 이는 기업의 인프라 투자 비용과 직결된다.
엔비디아는 대규모 칩 클러스터에서 최고 수준 성능 확보하고 있다.
AMD는 후발주자로 MLCommons에 데이터 제출했지만, 성능 격차가 여전히 존재한다.
중국 딥시크는 미국보다 훨씬 적은 칩으로 경쟁력 있는 챗봇 훈련 가능하다고 주장하고 있다. 칩 수 절감 전략으로 차별화 시도하는 것으로 보인다.
▲'더 작고 효율적인' AI 훈련 시스템의 부상
엔비디아와 협력하는 코어위브(CoreWeave)의 체탄 카푸르 CPO는 기자회견에서 AI 업계의 AI 학습 인프라의 패러다임 전환을 언급했다.
기존에는 10만 개 이상의 칩을 하나로 묶는 거대한 시스템을 구축하려는 경향이 있었지만, 이제는 개별 AI 훈련 작업을 위해 더 작은 칩 그룹을 서브시스템(subsystem)으로 연결하는 추세가 나타나고 있다는 것이다.
이는 거대 모델 훈련에서 발생하는 자원 낭비·비용 부담을 줄이고, 분산 처리 효율성을 높이는 방향으로 업계가 이동하고 있음을 시사한다.
카푸르 CPO는 이러한 방법론이 수조 개의 매개변수를 가진 모델의 훈련 시간을 지속적으로 단축할 수 있다고 강조했다.
엔비디아의 블랙웰 칩은 AI 훈련 속도 혁신을 보여주며 시장 지배력을 더욱 공고히 할 전망이다.
그러나 칩 효율성·전력 비용 경쟁이 본격화되면서 AMD, 중국 딥시크 등 경쟁자들도 대체 전략으로 맞서고 있다.
결국 AI 인프라 경쟁은 '속도와 비용 효율의 균형'을 누가 먼저 최적화하느냐에 달려 있는 것으로 보인다.
블랙웰 칩의 뛰어난 성능과 결합된 이러한 새로운 접근 방식은 AI 훈련의 효율성을 극대화











![[금융진단] 미 증시, 지정학 완화·빅테크 반등에 상승](https://images.jkn.co.kr/data/images/full/982892/image.jpg?w=288&h=168&l=50&t=40)

