펌) - ChatGPT 시대의 GPU 시장
ChatGPT가 공개된 지 4개월 가량의 기간이 흘렀습니다. 1천만명이 훌쩍 넘는 일일 순 사용자 (DAU: Daily Active Users)를 보이면서도 안정적인 서비스를 하는 모습이 대단한데요, 심지어 제공하는 모델이 GPT-3.5와 GPT-4의 LLM이라는 점에서 엔지니어링 기술의 극한을 보는 느낌입니다.
저는 AI 가속기, 쉽게 말해서 GPU 시장에서는 추론용 칩셋의 중요도가 점차 높아질 거라 생각했습니다. 추론용 칩셋은 범용성은 다소 떨어지더라도 가격 또는 성능에서 NVIDIA와 같은 범용 칩셋에 비해 강점을 가질거라 생각했고요. 그런데 ChatGPT가 나오고 발전하는 모습 (GPT-4 공개)을 보니, 추론용 칩셋 시장의 방향성에도 적지 않은 변화가 발생할 것이라는 생각이 들었습니다.
우선, 기존의 추론용 칩셋이 갖는 강점은 속도 또는 가격입니다. 범용 칩셋의 기준점을 NVIDIA로 보면, NVIDIA보다 싸고 빠르게 추론할 수 있다는 것을 강점으로 내세운 곳이 많습니다. 그러나 공학은 늘 트레이드 오프를 고려해야 하죠. 추론용 칩셋에서 잃는 것은 쉬운 사용성입니다. 쉽게 말해서 추론용 칩셋에 맞게 모델과 그 모델을 서비스하는 구조를 바꿔야 한다는 말입니다. 일상생활에 빗대어 설명하면, 전통적인 범용 물류 시스템인 택배 대신 로켓배송과 같은 독자적인 물류 시스템을 직접 만들어야 한다고 볼 수 있습니다. NVIDIA를 이용한 AI 모델 서빙 (ChatGPT와 같은 AI 모델을 서비스로 제공하는 과정을 ‘서빙’이라고 합니다.)이 범용 물류 시스템인 택배에 해당하고, 추론용 칩셋을 이용한 AI 모델 서빙이 독자 물류 시스템인 로켓배송에 해당합니다. 쿠팡이 로켓배송을 구축하느라 어려움을 겪은 것 처럼, 추론용 칩셋을 이용한 AI 모델 서빙도 상당한 어려움이 있습니다.
추론용 칩셋 전용 AI 모델 서빙 파이프라인을 구축하기는 매우 어려운 일입니다. 하지만 이 어려운 과정을 겪고 나면, 저렴하거나 매우 빠르게 추론할 수 있는 장점을 얻을 수 있었습니다. 나름의 수지타산이 맞았습니다. 맞았습니다만…
ChatGPT와 같은 LLM (Large Language Model) 환경에서는 기존의 추론용 칩셋이 아마도 기대한 만큼 잘 동작하지 않을 것 같습니다. ChatGPT만 보더라도 GPT-3.5에서 GPT-4로 업그레이드가 되었는데요, 모델의 구조에서 적지 않은 변화가 있었던 만큼 대부분의 추론용 칩셋에서 이 변화를 커버할 수 있을지 의문입니다.
NVIDIA는 고유의 범용성으로 인해 이정도의 변화에는 충분히 대응이 가능합니다. InfiniBand 또는 NVLink가 적용된 시스템에서는 클러스터 규모가 LLM을 커버할 수 있다면 모델도 당연히 동작합니다. 구형 시스템이라면 속도가 문제되긴 하겠지만 동작은 가능합니다.
AI 모델은 변화가 빠릅니다. 변화하며 발전하는 폭도 상당히 크고요. ChatGPT를 통해 GPT-3.5와 GPT-4 차이를 느껴 보면 GPT-3.5는 더 이상 사용하고 싶지 않은 정도입니다. 만약 특정 추론용 칩셋이 GPT-3.5는 커버할 수 있지만 GPT-4를 커버할 수 없다면 어떻게 해야할까요? 새 칩셋을 구입해야 합니다. GPT-3.5를 계속 쓸 수는 없으니까요. 새로 구입한다면 NVIDIA를 구입하실 건가요, 아니면 추론용 칩셋을 구입하실 건가요? 조심스럽게 NVIDIA에 한 표를 던집니다. 추론용 칩셋의 논리적 수명이 생각보다 짧다는 것을 확인했기 때문에 범용성 높은 NVIDIA를 선택할 기업이 많을 거라 생각합니다.
.
추론용 칩셋에는 또다른 한계도 있습니다. 앞서 말씀드린 내용은 ChatGPT와 같은 LLM 모델이 추론용 칩셋에서 구동이 가능할 것이라고 전제한 이야기입니다. GPT-3.5의 경우 700GB 가량의 GPU 메모리를 요구한다고 알려져 있는데, 추론용 칩셋에서 이정도 규모의 메모리를 효율적으로 사용할 수 있을지 잘 모르겠습니다. NVIDIA는 NVLink를 통해 여러 GPU를 묶어 사용할 수 있도록 구성해 두었는데, 한계가 많긴 합니다만 대부분의 추론용 칩셋보다는 상황이 좋습니다.
LLM과 같은 거대한 모델의 세상에서는 여러 GPU를 하나처럼 묶어 사용하는 기술이 중요합니다. NVIDIA는 InfiniBand를 시작으로 NVLink를 통해 이러한 기술을 발전시켜 오고 있는데요, 여전히 이 부분이 바틀넥으로 작용합니다. 묶을 수 있는 GPU에 한계가 뚜렷합니다. 만약 추론용 칩셋이 니치 마켓을 뚫는다면, 여러 GPU를 하나처럼 묶어 쓰는 인터페이스를 타겟으로 하면 수요가 있지 않을까 생각도 들고요. (물론 기술 스택 상 GPU가 먼저 나와야 묶어 쓰는 인터페이스도 효율적으로 디자인이 가능할거라, 호락호락한 시장은 아닐 것 같습니다.)
아무튼, ChatGPT를 보니, AI 모델 학습 시장보다도 역시 추론 시장이 크다는 것은 느낄 수 있었습니다. 다만 현재로서는 NVIDIA의 입지가 공고하고 심지어 NVIDIA가 삼성파운드리를 벗어나 TSMC로 옮겨가며 기술 격차를 더욱 벌려 나가고 있다고 보여서, 추론 시장의 큰 몫을 차지하게 될 거대 모델 영역에서 추론 전용 칩셋의 마켓 쉐어를 쉽게 높이기는 어려워 보입니다.
.
현 시점을 아이폰이 나오던 초기 스마트폰 시장같다고 말씀하시는 분이 많이 계십니다. 저도 그렇게 생각이 들고요.
아이폰이 나오던 초기 시장에는 아이디어를 하드웨어가 따라가지 못했습니다. 하드웨어가 바틀넥인 시절이었죠. 지금을 Generative AI 시대라고 한다면, 이 시대의 초입인 현재도 아이디어를 하드웨어가 뒷받침해 주지 못한다는 생각이 듭니다.
모든 AI 모델이 LLM처럼 거대할 필요는 없겠지만, 한편으로는 범용성이 있는 모델이 점차 효율화되어가며 작은 특수목적용 모델의 시장을 잠식해 나갈 것 같습니다. 지식은 얇음으로 시작해서 발전해 가며 두꺼움이 되고, 재차 발전하며 다시 얇음으로 나아가니까요. 지금은 한없이 두꺼워지는 발전의 초입 단계라는 생각이 듭니다.
Eat or be eaten. 요즈음의 AI 시장을 보니 이 말이 떠오르네요.
카테고리 없음
ChatGPT가 공개된 지 4개월 가량의 기간이 흘렀습니다. 1천만명이 훌쩍 넘는 일일 순 사용자
반응형
320x100