미국이 대중국 반도체 기술 견제를 하기 위해 두번째로 꺼내든 카드가 NVIDIA와 AMD의 GPU 대중 수출을 통제하겠다는 것이다. 미국이 NVIDIA의 GPU 중에서도 콕 짚어 언급한 것은 A100 암페어 혹은 그 이상급의 대용량 AI가속기다. 2020년에 발표된 이 GPU는 일반 유저보다는 대용량 서버용 가속기로 볼 수 있다. 특히 HPC 전용 AI 연산기로 보는 것이 타당할 정도로 트랜지스터 집적도가 높으며 (542억개/826mm^2), 그만큼 전력 소모량과 쿨링 로드도 크다.
이런 GPU가 필요한 곳은 주로 자율주행차용 AI 엔진이나 거대 NLP 처리 및 합성, 그리고 군사 기술쪽이다. 자율주행차나 언어생성 AI에 비해 군사용 AI 적용은 상대적으로 덜 알려져 있는데, 사실 AI가 나오기 이전부터 군사적으로 수집된 대용량 데이터를 본격적으로 처리하여 활용하고자 하는 부분부터 적용되고 있다. 최근에는 군용 고도 암호화 대용량 통신 데이터의 분류, 수집, 재암호화, 해킹 등으로도 활용되고 있으며, 데이터 처리 용량이 커질수록 특히나 사이버 보안쪽과 신무기 시뮬레이션 등으로 점차 용도가 고도화되고 있기도 하다.
NVIDIA가 2010년대 들어 GPU, 특히 GPGPU (general purpose GPU) 시장의 절대강자가 된 까닭은 N사가 개발한 CUDA라는 전용 API가 있었기 때문이다. CUDA는 이미 N사의 GPU를 이용하여 머신러닝을 활용하는 모든 개발자나 연구자들에게는 필수재가 된지 오래인데, 로우레벨에서든, 그냥 API 레벨에서든 범용적으로 기능을 최적화할 수 있다. CUDA가 출시된 시점에서는 머신러닝보다는 말그대로 대용량 그래픽의 실시간 처리를 가속하는 용도로 활용되었지만, 2010년대 중반 이후부터는 그래픽 처리 용도보다 딥러닝 학습 및 데이터 처리 용도의 수요가 더 증가하고 있다. 잘 알려져 있다시피 GPU 코어 자체는 CPU core와 1:1로 비교했을 때, ALU 연산 능력 자체는 한참 떨어진다. 단순히 클럭수만 비교해도 2-3배 차이다. 그렇지만 GPU가 CPU에 비해 인공지능용 가속기로서 더 적합한 까닭은 수천개의 코어에 데이터를 분산하여 병렬계산을 할 수 있기 때문이다. 단순한 작업이라면 병렬 계산이 큰 의미가 없겠으나, 대용량 데이터라면 병렬 계산이 매우 큰 효과를 낼 수 있다.
예전에 GPU에 대한 글을 쓸 때도 언급한 부분이지만 (https://www.facebook.com/sjoonkwon/posts/pfbid0v2oTG8F3t4ZTWQztS3vesJdUENoFGWZgL4U441SuPeEErsw6xkjc8X57WAWKMcWol) GPU가 병렬계산, 특히 행렬 혹은 텐서형 데이터의 병렬계산에 특화된 까닭은 GPU에 분산된 각각의 core에서 동시에 비슷한 계산을 하고, 그것을 한꺼번에 모아서 출력할 수 있는 칩의 설계 때문이다. 예를 들어 GPU로 행렬곱셈 연산을 하려면 각 행렬의 성분을 가리키는 인덱스를 GPU 코어에 각각 분배해두기만 하면 된다. 그러면 각 코어는 분배받은 곱하기 연산만 하고, 그 결과를 메모리에 모아서 더하기 연산만 추가로 하면 된다. 그렇지만 CPU로 ALU 방식으로 행렬 곱셈을 하려면 행렬 각 성분끼리의 곱셈을 차례차례 해야 한다. 따라서 사전에 어떻게 분배하고 모을 것이냐의 순서만 잘 정해두면 단순한 곱셈/덧셈의 반복 연산은 GPU가 CPU에 비해 훨씬 빠를 것이다.
서버용 AI 가속기가 아니더라도, 일반 개발자용 GPU (3080급 정도)와 인텔의 코어 i9급 CPU를 1:1로 비교할 경우, 컨볼루션형 학습 속도를 비교해 보면 대략 15~20배 정도 차이난다. 전성비로 따지면 20-30배 정도 차이난다. 전성비를 고려하지 않더라도, 15배 이상의 차이는 예를 들면 이런 것이다. 어떤 NN을 테스트하고자 할 때 처음부터 거대한 NN을 테스트하지는 않고 조금씩 최적화할텐데, 그 '실험' 한 번에 GPU가 10시간 걸린다고 생각해 보자. 그러면 같은 작업을 CPU로 한다면 150시간-200시간 정도 걸리는 것이다. GPU로 하루에 2번 테스트할 수 있던 실험을 CPU로는 8-9일에 한 번 정도 밖에 못 하는 셈이다. 당연히 최적화의 속도는 그만큼 벌어지며 성능 개선 속도도 벌어질 수 밖에 없다.
문제는 이 CUDA가 NVIDIA의 GPU에서'만' 돌아간다는 것이다. 즉, CUDA API를 활용하여 개발하고자 하는 사람들은 어쩔 수 없이 N사의 GPU를 구매해야 한다는 것이고, 이는 지금까지 거의 10년 가까운 세월 동안 N사의 AI 가속기 시장 독주를 만들어준 원동력이 되기도 했다. 그렇지만 이에 대항하는 대항마가 없는 것은 아니다. 예를 들어 OpenCL이 있다. 이것은 애시당초 애플이 자사가 설계한 칩의 그래픽 가속을 위해 2008년에 처음 개발한 툴인데, 2014년부터는 그냥 오픈소스로 풀어버렸고, 이제는 관리하지도 않는다. 대신 크로노스 그룹이 이를 이어 받아, 범용으로 (즉, 제조사나 OS 상관없이, 심지어 FPGA 칩에서도 돌아가게..) 만드는 작업을 계속 해오고 있는데, CUDA 진영에 비해서는 여전히 커뮤니티가 작고 아무래도 공유되는 리소스가 적은 것이 사실이나, 일단 AI 가속 혹은 학습 성능만 놓고 보면 이제는 큰 차이가 안 나고 있다. (작업에 따라 다르지만 CUDA 기반이 같은 하드웨어 성능 기반으로 작업할 때 대략 10-30% 정도 더 높은 성능이 나온다.) 즉, AI 가속 용도나 대용량 텐서형 데이터 연산 용도라면 이제는 N사의 GPU를 쓰지 않아도 되는 길이 열리긴 한 것이다.
물론 여전히 N사의 GPU+CUDA 조합은 AI 가속기 분야에서는 가장 선두에 있고, 이는 일반 유저용도이든, 대용량 서버 혹은 HPC 용도이든 마찬가지다. 그렇지만 EUV 제어 카드와는 달리, 우회할 수 있는 통로가 존재한다는 것이 차이점이고, 이는 그렇지 않아도 AI에 대한 투자를 미국보다 훨씬 강화하고 있는 중국입장에서는 당연히 선택할 수 밖에 없는 옵션이 된다.
하지만 1차 카드였던 EUV 공정 기술 견제와 비교해 보면, 2차 카드의 실효성이 얼마나 오래 갈 수 있을지는 좀 따져봐야 한다. 물론 미국 역시 이러한 옵션을 알고 있기 때문에 N사 제품 외에도 AMD의 GPU 역시 수출 규제 품목에 올려놓고는 있는데, 중국이 슬슬 자국 기술로 GPU를 만들고 있다는 것까지는 제대로 모니터링하고 있는지 모르겠다. 중국 칩메이커들은 GPU를 넘어 흔히 이야기하는 NLP 전용 특화 NPU나 TPU까지도 설계하고 만들고 있다. 예를 들어 최근 발표된 중국 립파이브의 RISC-V 프로세서인 BN2 같은 경우, 850MHz 로 작동하는 GPU 코어, 1.4GHz로 작동하는 4TOPS짜리 NPU를 장착하고 있다. 여기에 범용으로 같이 활용할 수 있는 DSP까지 집적했기 때문에 용도가 다양해지는데, N사의 GPU에 비견할 바는 못 되지만, 일단 설계와 생산이 가능하다는 점에서는 중국이 자국한 GPU+NPU+VPU까지 가는 경로를 확보했다고 볼 수 있다. 중국의 바이런이 발표한 BR100급 GPU의 경우, TSMC 7nm + 2.5D CoWos 패키징 공정을 합쳐서 만들었는데, 트랜지스터 집적도는 770억개/1074mm^2으로서 칩의 하드웨어 수준만 놓고 본다면 앞서 언급한 A100 암페어급 이상이다. (집적도 자체는 하위 호환이라 GPU 자체의 크기는 A100 보다 큼) 바이런의 자체 테스트 결과만 참고한다면, A100 암페어보다 평균 2.6배 정도 이상의 성능을 내는 것으로 보이는데, 이 칩에서는 당연히 OpenCL이 돌아간다. 물론 실제 시장에서 개발자들이 API, SDK를 다뤄보면서 테스트해봐야 그 성능의 실제 여부를 판별할 수 있겠지만, 어쨌든 겉보기 스펙만 놓고 보면 중국산 GPU가 NVIDIA 없이도 중국이 버틸 수 있는 받침대가 되어가고 있는 것으로 보인다. 이외에도 중국에는 룽손이나 이노실리콘, 자오신 같은 칩메이커들이 GPU 개발에 열을 올리고 있는데, 이는 중국 정부의 반도체굴기 정책 및 AI 산업 육성 정책과 맞물리면서 개발비용에 상관 없이, 그리고 세계 시장용으로 진출에 상관 없이 계속 제품이 나오고 있는 상황이다.
중국이 자국산 GPU를 활용하여 자국 수요의 일부를 감당할 수 있을 수는 있겠으나, 아마 아쉬워하는 부분이 있다면 그것은 군사용일 가능성이 크다. 미국이 대중국 규제 2탄으로서 A100 암페어 혹은 그 이후 세대의 가속기 같은 대용량 GPU를 특정한 까닭도 전반적인 중국의 AI 기술 경쟁력 강화기조를 견제하기 위한 목적과 함께, 군용으로 활용되는 가능성을 조금이라도 줄여보고자 하는 의도가 있을 것으로 풀이된다. 실제로 중국은 여전히 대용량 서버용 GPU에 대해서는 아직까지는 미국 제품을 더 많이 쓰고 있고, 그만큼 의존도가 높다. 미국이 아마도 주목했던 부분은 중국 인민 해방군이 최근까지도 N사는 물론, AMD, 인텔에서 GPU를 대량으로 구매해 왔다는 것이다. 일반 기업용 대용량데이터와는 달리 군용 데이터는 암호화-비암호화, 식별 구분, 페이크 데이터 분리 등의 추가 작업에 시간이 많이 소모되고, 특히 진위 여부 판별 정확도가 매우 중요하며, 다양한 종류의 통신데이터 처리 역시 중요한데, 이 부분에 대해 여전히 자국산 GPU로 커버하지 못 하는 부분이 있다고 판단하고 있을 것으로 보이며, 미국이 제어하고자 하는 부분도 그러한 연산에 더 특화된 미국산 GPU로 생각된다.
미국이 꺼낸 2차 카드가 작동할지 여부는 중국산 GPU가 얼마나 그간의 미국산 GPU 작업을 대체할 수 있을지 여부, 그리고 차세대 GPU를 제조하기 위한 7 나노 이하급 공정 활용 여부, OpenCL 기반의 라이브러리 확대와 커뮤니티 확대 여부, 암호화된 복잡도가 높은 데이터 처리 특화 NPU, TPU 집적도 개선 여부 등에 달려 있을 것인데, 결국 미국이 GPU에 대한 제재를 높일수록 오히려 중국인 자신들이 부족하다 판단하는 부분에 대해 더욱 연구개발 비중을 높일 가능성이 높다. 그와 더불어 세계에서 가장 큰 시장으로 성장하던 중국 GPU 시장이 N, A, I 사에게 문호가 닫히면서 이들 기업의 수익성 악화가 동반되어 차세대 제품 개발 속도에 차질이 생길 수 있다. 미국이 다양한 경로로 중국의 반도체 굴기, 그리고 그와 맞물린 AI 굴기와 군사 전용 채널을 막으려 하지만, 공정 기술 제어와는 달리, GPU 쪽은 우회로가 많고 그만큼 새어나갈 수 있는 구멍이 많아서 제재가 얼마나 실효성이 있을지, 오히려 그것이 중국에게 채찍이 아닌 당근이 되는 것은 아닌지 냉철하게 살펴봐야 한다.
N사는 코로나 특수 이후, 가상화폐 채굴 수요와 대형 AI 가속기 전용 서버 시장 성장이 둔화되면서 수익성이 그렇지 않아도 악화되고 있으며, 소비자용 AIX 시장 성장이 생각보다 더디기 때문에 새로운 시장 확보도 쉽지 않은 상황이다. 이 상황을 중국 시장 확대로 극복할 수 있었으나, 이제 이마저도 쉽지 않게 되었다.
CUDA로 지배해 온 AI 가속기 API 플랫폼 역시 중국 업체들의 난입으로 OpenCL 진영이 성장하면 지배력이 악화될 수 있고, 이는 N사와 경쟁하던 A나 I사 입장에서는 오히려 반기는 상황이 될 수도 있다.
기술의 독점은 영원할 것 같지만 사실 생각보다 유효기간이 짧아질 수 있고, 언제는 상황이 역전될 수 있는데, 미국의 카드 꺼내는 순서와 범위가 어디까지 계획되고 있을지 모르겠지만, 다음 수순이 아마도 설계 쪽 (EDA)가 된다면, 이는 오히려 더 중국에게 EDA마저도 독립할 수 있는 동기를 부여하게 되어 ecosystem 전반에 걸쳐 중국의 GVC 분리 동인을 주게 될 가능성도 높다.
반도체 시장 변화가 매일매일이 다르고, 중국 업체들의 데이터도 어디까지 믿어야 할지 의문이지만, 결국 이 싸움도 오래 버티는 쪽이 지지 않는 방향으로 갈 것 같다는 생각이 든다.
https://m.blog.naver.com/dpfwl1009/222864962769
'경제 뉴스' 카테고리의 다른 글
대한민국 은행은 안전한가? 중국처럼 뱅크런 위기는 없을까? (5) | 2022.09.04 |
---|---|
Ai가 그린그림, 미술대회 1등 (5) | 2022.09.03 |
펌글)국내 주요 벤처캐피탈 20곳을 운용자산순으로 정리 (3) | 2022.09.03 |
단백질 보충제 꼭 필요할까? WHO가 말하는 하루 권장량은? (5) | 2022.09.02 |
중국떠나는 기업들. (5) | 2022.09.02 |