본문 바로가기

chatgpt 기술탐구

최근 제프리 힌튼의 인터뷰는 너무 무서웠습니다.

반응형

와 이분글 진짜 클라스가 장난아니네요
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

펌) 확률적 앵무새도, 카멜레온도 아니다? 그 이상의 무엇.

최근 몇 개의 인터뷰 영상을 보면서 저도 생각을 좀 가다듬게 되는 부분이 있었습니다. "요즘의 자기 회귀형 거대 언어 모델의 능력을 너무 저평가 하고 있었나?"란 생각을 해보며 인식을 달리 하게 되네요.

일단 결론 부터 이야기 하면 최근 제프리 힌튼의 인터뷰는 너무 무서웠습니다. 여태 본 영상 중 최고로 으시시했던 것 같아요. 비슷한 이야기를 일리야 서츠키버도 자세히 했고, 빌 게이츠도, 샘 올트만도 조금씩 언급했던 기억이 납니다.


먼저 2023년 3월 25일 힌튼의 인터뷰 영상 'AI의 영향력과 잠재력' 부분입니다. 백색나무님이 올린 자막 본을 기준으로 시간을 표시합니다. CBS의 Silva-Braga가 인터뷰를 마무리하는 쪽으로 가며 화두를 전환하는데 힌튼이 무언가 아쉬워(안타까워?) 하며 한 가지만 더 말하고 싶다고 하면서 다음의 이야기를 시작합니다. (한글 자막 영상 기준 33분 9초 즈음)

----
제프리: 한 가지 더 이야기 해도 될까요?

실바: 네, 말씀해 보세요.

제프리: 몇몇 사람들은 이런 거대 언어 모델이 단지 자동완성 기능의 연장이 아니냐 말합니다.

실바: 음, 어느 정도는 자동완성이라 할 수 있지 않나요? 우린 LLM이 다음 단어를 예측하는 것일 뿐이라는 이야기를 들었어요. 그렇게 간단한 건 아닌가요?

제프리: 맞아요, 모델들이 그냥 다음 단어를 예측하는 건 맞습니다. 그래서 자동완성이라는 건 틀린 말은 아닙니다.

하지만, 우리가 다음 단어를 정확하게 예측하기 위해선 지금까지 말한 내용에 대해 얼마나 이해해야 할까요? 그리고 기본적으로 언어를 구사하기 위해서는 이전의 내용을 이해해야하기 때문에, 우리도 '자동 완성'이라 할 수 있어요.

ChatGPT 만큼은 아니어도 우린 앞 문장들을 통해 다음 단어를 예측할 수 있어요.

실바: 그렇죠.

제프리: 하지만 그렇게 예측할 수 있으려면 문장들을 이해해야 하죠. 번역에서 예를 들어보자면... 캐나다인에게 익숙한 예를 들어볼게요.

실바: 좋아요.

제프리: '트로피가 가방에 안들어간다. 왜냐하면 이게 너무 커서'라는 문장이 있다고 해봅시다. 이 문장을 프랑스어로 번역해 봅시다. '트로피가 가방에 안들어간다. 왜냐하면 이게 너무 커서'라고 하면 우리는 '이게'를 트로피라고 인식합니다.

실바: 그렇습니다.

제프리: 프랑스어 문법에서는 트로피는 특정 성별이 있으므로 어떤 대명사를 사용해야 하는지 알 수 있어요. 이번에는 '트로피가 가방에 들어가지 않아. "이게" 너무 작아서'라는 문장이 있다고 합시다.

이번에는 '이게'가 가방을 의미한다는 걸 알 수 있죠. 트로피와 가방은 대명사로 받을 때 다른 성별을 씁니다. (트로피는 남성 명사, 가방은 여성 명사)

그래서 이 문장을 프랑스어로 번역할 때에는, '이게 너무 커서 안들어간다'일 때 '이게'는 트로피라는 걸 이해해야 하고, '이게 너무 작아서 안들어간다' 일 때 '이게'는 가방이라는 걸 이해해야 합니다.

이건 문장 안에서의 공간적 관계, 어떤 단어가 어디에 포함되는지를 이해해야 한다는 걸 의미합니다.

그러니까 기계 번역을 하거나 그 대명사를 예측하려면 문장에서 무엇이 말해지고 있는 지를 이해해야 하죠. 단순히 단어들의 나열로 처리하는 것만으로는 충분치 않습니다.

실바: 네 그렇군요. 말씀을 들으면 흥미로우면서도 걱정스러운 생각이 떠오르는데요.

(하략)
----

* 제프리 힌튼 인터뷰 원본: https://www.youtube.com/watch?v=qpoRO378qRY
* 제프리 힌튼 인터뷰 한글 자막: https://youtu.be/IvUw9um4Bv8?t=1989 (33분 9초 즈음)  


이게 도대체 무슨 이야기인지 알려면 일리야 서츠키버의 보충 설명이 조금 더 도움이 됩니다. (한글 자막 영상 기준 5분 52초 즈음)

----
드와키쉬: 모델의 다음 토큰 예측은 인간의 퍼포먼스를 능가하지 않을까요?

일리야: 다음 토큰 예측이 인간의 퍼포먼스를 뛰어넘을 수 없다는 주장에 대해 저는 반대 의견을 가지고 있습니다.

표면적으로는 불가능해 보이죠. 사람이 하는 걸 따라하고 예측하는 것을 배운다면 단순히 사람을 복제할 뿐이란 걸 의미하니까요.

하지만, 여기에는 반론이 있습니다. 만약 기본 신경망이 충분히 똑똑하다면, 물어보기만 하면 됩니다. "지혜와 능력이 뛰어난 사람이라면 이 상황에서 어떻게 할까요"라면서 말이죠.

그런 사람이 존재하지 않을 수도 있지만, 신경망은 마치 '그러한 사람'이 있는 것처럼 상상해(외삽해) 어떻게 행동할 지 추론해 대답해 줄 수 있습니다.

이해하시나요?

드와키쉬: 네, 하지만 그런 사람이 뭘 할지에 대한 통찰력은 어디에서 얻을 수 있을까요?

일리야: 보통, 사람들의 데이터로부터 얻을 수 있습니다.

다음 토큰을 잘 예측한다... 이게 뭘 의미하는 걸까요?

이건 실제로 생각하는 것 보다 훨씬 더 깊은 질문입니다. 다음 토큰을 잘 예측한다는 것은 '이해하는 것'을 의미합니다. 근본적인 현실을 말이죠. 그 이해가 토큰의 생성으로 이어집니다.

이건 단순한 통계가 아닙니다. 통계인건 사실이지만 그 통계를 이루는 것은 무엇입니까? 이러한 통계를 압축하려면, 이 통계 세트를 생성하는 '세계에 대해 이해'해야 합니다.

그럼 당신은 이렇게 말하겠죠. "좋아요, 사람들이 있습니다." 사람들, 그들의 행동을 만들어내는 것은 무엇인가요? 그들은 생각, 감정이 있고 아이디어가 있어 그들만의 방식으로 일합니다. 이 모든 것은 다음 토큰 예측에서 추론할 수 있습니다.

이런 식으로 다음 토큰을 예측하는 능력이 충분하다면, 상당히 정확한 수준에서 다음과 같은 질문에 답할 수 있다고 생각합니다.

"이런 특성, 저런 특성을 가진 사람이라면 뭘 할 것 같아?"와 같은 질문에 답할 수 있는 것이죠.

그런 특성을 가진 사람은 존재하지 않을 수 있지만, 다음 토큰을 예측하는 능력이 충분하다면 그런 사람이 어떻게 행동할지 예측할 수 있을 것입니다. 이렇게 상상 속의, 우리보다 훨씬 더 뛰어난 정신 능력을 지닌 가상의 인물을 '만들어서' 말이에요.

(중략, 33분 45초 즈음)

일리야: 그리고 모델이 커지면서 이러한 특성이 나타나면 정말 멋질 것입니다.

드와키쉬: 미리 예측할 수 있는 방법은 없나요? 파라미터 수가 어느 쯤 되면 어떤 특성이 생겨날지 예측할 수는 없나요?

일리야: 특정 기능에 대해선 예측하는 것이 가능하다고 생각합니다. 하지만 지금 당장은 쉽지 않으며, 아직 정밀한 수준의 예측은 할 수 없습니다. 그러나 이러한 예측을 더 잘 해내는 것은 매우 중요합니다. 이에 관심이 있는 누구나 이를 위한 연구 아이디어가 있다면 그건 가치있는 기여가 될 것입니다.

드와키쉬: 스케일링 법칙에 대해 얼마나 진지하게 받아들이시나요? "모든 추론을 얻으려면 이 만큼 더 큰 단위로 모델을 확장해야 한다" 처럼 말하는 논문들이 있죠. 이걸 진지하게 받아들이시나요. 아니면 어느 시점에서 무너질 이론이라 생각하나요?

일리야: 글쎄요. 문제는 스케일링 법칙이 다음 단어 예측 정확도의 로그에 어떤 일이 일어나는지를 말해준다는 것입니다. 다음 단어를 예측하는 것과 추론 능력을 연결짓는 것은 별개의 문제입니다.

예측력과 추론 능력은 분명히 연관이 있긴 하지만 굉장히 복잡합니다. 또 우린 단위 노력 당 더 많은 추론을 얻어낼 수 있는 '다른 요소'를 발견할 수도 있어요.

예를 들어... 추론 토큰에 대해 언급하셨는데, 그 토큰들이 추론 능력을 키울 수 있습니다. 추론 토큰은 아마 도움이 되는 뭔가가 있을 겁니다.

드와키쉬: 사람들을 고용해 토큰을 생성하게 할 계획인가요? 아니면 이미 존재하는 것으로부터 토큰을 얻을 건가요?

일리야: 모델을 가르치는 걸 사람에게 의존하는 것, 특히 모델이 잘 행동하고 거짓된 것을 만들지 않게 하는 것은 굉장히 현명한 일이라고 생각합니다.
----
앞 부분의 내용과 뒷 부분의 내용이 서로 배치되는 부분이 있다고도 보이는데, 이 맥락에서 '이해'와 '추론'이 어떤 의미인지는 조금 더 생각해 봐야겠어요. 여기서 더 이어지는 내용으로 계속 회자되던 모델이 학습할 토큰이 완전히 소진되는 것에 대한 일리야의 의견도 나옵니다.


제가 일리야의 의견을 변호해야 할 필요는 없지만 다른 내용을 찾아본 것도 언급해 둡니다. Eye On AI 버젼( https://www.youtube.com/watch?v=SjhIlw3Iffs )입니다.

----
크레이그: 얀르쿤의 Joint Embedding 예측 아키텍처에 대한 연구와 그의 견해에 관해 이야기 나누고 싶습니다. 그분이 제기한 주장은 대규모 언어 모델에서 빠져 있는 것은 비언어적인 기본 세계 모델이라는 것입니다. 이는 언어 모델이 참조할 수 있는 것이지만 아직 구축되지 않은 것입니다. 이에 대한 일리야의 생각을 묻고 싶어요, 이러한 것을 탐구해 본 적이 있는지요?

일리야: 그래서 저는 그 제안을 검토해 보았는데, 여러 가지 아이디어들이 있고 다양한 언어로 표현되어 있습니다. 또한 현재의 패러다임과는 약간의 차이점이 있긴 하지만, 제 생각에는 그다지 중요한 차이점은 아닌 것 같습니다. 그리고 이에 대해 좀 더 설명하고 싶습니다. 첫 번째 주장은 시스템이 텍스트만으로 세상에 대해 알지 않고 다양한 형태의 이해를 갖는 것이 바람직하다는 것입니다. 그리고 저의 코멘트는 다음과 같습니다. 실제로 다양한 형태의 이해는 바람직하다고 생각합니다. 왜냐하면 세상에 대해 더 많이 배우고, 사람들에 대해 더 많이 배우고, 그들의 상황에 대해서도 더 많이 배울 수 있기 때문입니다.
그래서 시스템은 해결해야 할 작업과 사람들이 원하는 것을 더 잘 이해할 수 있습니다. 우리는 그것에 대한 상당한 작업을 수행했습니다. 특히 두 개의 주요 신경망인 클립(CLIP)과 달리(DALL-E)를 통해 이러한 멀티 모달 방향으로 나아갑니다. 그러나 동시에, 시각적인 세계나 비디오로 세상을 이해하지 못하면 일이 제대로 되지 않는 이원론적인 상황이라고는 생각하지는 않습니다.
그 이유를 제시하고 싶습니다. 일부는 이미지와 다이어그램 등으로 더 쉽게 배울 수 있다고 생각합니다. 하지만 제 주장은 오직 텍스트만으로도 그것들을 배울 수 있다는 것이며, 단지 더 느리게 배울 뿐이라는 겁니다. 예를 들어 설명해 보겠습니다. 색상이라는 개념을 생각해보세요. 분명히 텍스트만으로는 색상 개념을 배울 수 없다고 생각할 것입니다. 그러나 임베딩을 볼 때는 작은 우회로를 통해서 임베딩 개념을 설명해야 합니다.

모든 신경망은 단어, 문장, 개념을 표현, 임베딩, 고차원 벡터를 통해 나타냅니다. 그리고 우리가 할 수 있는 일 중 하나는 이러한 고차원 벡터를 살펴보고 이 개념이나 저 개념이 어떻게 비슷한지 확인하는 것입니다. 따라서 우리는 색상의 임베딩을 살펴볼 수 있습니다. 색상의 임베딩은 정확하게 맞습니다. 그것은 자주색이 빨간색보다 파란색과 더 비슷하다는 것을 알고 있습니다. 그리고 자주색이 빨간색보다 주황색과 더 비슷하다는 것을 알고 있습니다. 이 모든 것들을 그저 텍스트에서 알 수 있습니다. 어떻게 가능할까요? 여러분은 시각을 가지고 있습니다. 색상 간의 차이는 눈에 띄게 드러납니다. 즉시 인식할 수 있지만, 텍스트의 경우 시간이 좀 더 걸립니다. 어쩌면 당신이 얘기하는 법을 알고 이미 문법, 단어, 구문을 이해하고 있는 상태에서 훨씬 나중에야 이 색상들을 이해하기 시작한다고 말할 수 있습니다. 그래서 제가 말하고자 하는 것은 멀티 모달이 반드시 필요한 것은 아니지만, 분명 유용하다는 점입니다. 저는 이것이 추구할 가치가 있는 좋은 방향이라고 생각합니다. 그저 그것이 필수적이라고 생각하지 않을 뿐입니다.
----


GTC 대담 버젼입니다. (중국어 자막이 있는 영상: https://www.youtube.com/watch?v=goOa0biX6Tc )

(37분 즈음)

일리야: 따라서 멀티 모달리티에는 두 가지 측면이 있으며, 두 가지 이유가 흥미롭습니다. 첫 번째 이유는 약간 겸손합니다. 첫 번째 이유는 멀티모달리티가 유용하기 때문입니다. 세상은 매우 시각적이기 때문에 신경망이 시각을 보는 것이 특히 유용합니다. 인간은 매우 시각적인 동물입니다. 인간 피질의 시각 코어 중 3분의 1이 시각에 전념하고 있다고 합니다. 따라서 시각이 없으면 신경망의 유용성은 여전히 상당하지만 그다지 크지 않습니다. 따라서 이것은 매우 단순한 유용성 논증입니다. 단순히 보는 것이 유용하고 GPT 4는 꽤 잘 볼 수 있습니다. 두 번째 이유는 텍스트로부터 학습하는 것 외에도 이미지로부터 학습함으로써 세상에 대해 더 많은 것을 배울 수 있다는 것입니다. 이 또한 강력한 주장이지만 생각만큼 명확하지는 않습니다. 예를 들어, 예를 들기 전에 인간은 평생 동안 약 10억 개의 단어를 듣게 된다는 일반적인 이야기를 해보겠습니다. 10억 단어에 불과합니다.

​젠슨: 대단하네요. 그렇게 많지 않아요.

일리야: 많지 않아요. 그러니 경쟁해야죠.

젠슨: 내 머릿속에 되뇌이는 말도 포함되나요?

일리야: 20억개라고 치죠. 무슨 말인지 아시겠죠? 네, 10억 초는 30년입니다. 그래서 우리는 1초에 몇 단어도 보지 못하고 절반은 잠을 자고 있다는 것을 알 수 있습니다. 따라서 20억 개의 단어는 우리 인생 전체에서 경계하는(vigilant) 총량과 같습니다. 따라서 가능한 한 많은 정보를 얻는 것이 매우 중요하며, 시각을 통해 더 많은 것을 배울 수 있습니다. 신경망도 같은 논리를 적용하지만, 신경망은 수많은 단어를 통해 학습할 수 있다는 점이 다릅니다. 따라서 수십억 개의 단어로 이루어진 텍스트로는 세상에 대해 배우기 어려운 것들이 수조 개의 단어를 통해서는 더 쉬워질 수 있습니다. 예를 들어 보겠습니다. 색상을 생각해 보세요. 색을 이해하려면 반드시 눈으로 봐야 합니다. 하지만 평생 광자를 한 번도 본 적이 없는 신경망은 텍스트만 볼 수 있습니다. 이 신경망에게 어떤 색이 서로 더 유사한지 물어보면 빨간색이 파란색보다 주황색과 더 유사하다는 것을 알 수 있습니다. 파란색이 노란색보다 보라색과 더 유사하다는 것을 알 수 있습니다. 어떻게 이런 일이 일어날까요? 한 가지 해답은 세상에 대한 정보, 심지어 시각적 정보도 텍스트를 통해 천천히 새어 들어온다는 것입니다. 하지만 빠르지는 않지만 천천히, 그러나 많은 텍스트가 있으면 여전히 많은 것을 배울 수 있습니다. 물론 시각을 추가하고 시각을 통해 세상에 대해 배우면 텍스트에 담지 못한 것들을 추가로 배울 수 있습니다. 그러나 저는 그것이 이분법이라고 말하지 않습니다. 텍스트만으로는 배울 수 없는 것들이 있습니다. 저는 교환율이 더 많다고 생각합니다. 특히 학습하고자 하는 것이 인간과 같고 10억 단어 또는 1억 단어에서 학습하고자 한다면 당연히 다른 정보원이 훨씬 더 중요해집니다.

(중략)


* 젠슨 황은 멀티 모달리티를 강조하기 위해서였지만, 일리야의 생각은 프리트레이닝 할 때의 더 많은 데이터를 활용하는 오토 리그레시브 방식의 학습 + 강화 학습이 더 중요하고 멀티 모달리티는 그 걸 좀 더 풍요롭게 한다는 뉘앙스로 이야기 합니다.

또 인상에 남은 부분이 있는데, 추리 소설에 빗대어 이야기 하는 부분으로 '추론' 맥락입니다.)


(27분 30초 즈음)

일리야: 따라서 GPT 4는 매우 다양한 측면에서 Chat GPT보다 상당히 개선된 버전입니다. 저희는 6개월 전에서 8개월 전, 정확히 기억은 나지 않지만 그 사이에 GPT 4를 훈련시켰습니다. Chad GPT와 GPT 4의 가장 큰 차이점은 아마도 가장 중요한 차이점은 GPT 4 위에 구축된 기반이 다음 단어를 더 정확하게 예측한다는 것입니다. 신경망이 텍스트의 다음 단어를 더 잘 예측할수록 더 많이 이해할 수 있기 때문에 이것은 정말 중요합니다. 이 주장은 이제 많은 사람들에게 받아들여지고 있지만, 여전히 직관적이지 않거나 그 이유에 대해 완전히 직관적이지 않을 수 있습니다. 그래서 저는 조금 우회하여 다음 단어를 더 정확하게 예측하면 더 많은 이해, 즉 진정한 이해로 이어지는 이유를 명확하게 설명할 수 있는 비유를 들어보려고 합니다. 예를 들어 보겠습니다. 추리 소설을 읽었다고 가정해 봅시다. 복잡한 줄거리, 스토리라인, 다양한 등장인물, 많은 사건, 미스터리, 단서 같은 것들이 있습니다. 불분명합니다. 그런 다음 책의 마지막 페이지에서 탐정이 모든 단서를 수집하고 모든 사람을 모아 범인의 정체를 밝힐 것이라고 말합니다. 그리고 그 사람의 이름은 그 단어를 예측하라고 하면, 그 단어를 정확히 예측합니다.

젠슨: 맙소사.

일리야: 단어들을 점점 더 잘 예측함으로써 텍스트에 대한 이해도가 계속 높아집니다. GPT 4는 다음 단어를 더 잘 예측합니다.

젠슨: 사람들은 딥러닝이 추론으로 이어지지 않는다고, 딥러닝이 추론으로 이어지지 않는다고 말합니다. 하지만 그 자리에 있던 모든 요원들의 강점과 약점, 의도와 맥락을 모두 파악하고 다음 단어, 즉 범인이 누구인지 예측하려면 어느 정도의 추론, 즉 상당한 수준의 추론이 필요합니다. 어떻게 추론을 학습할 수 있으며, 추론을 학습했다면 어떻게 작동할까요? 제가 질문하려고 했던 것 중 하나는 ChatGPT와 GPT 4 사이에 치러진 모든 테스트 중 GPT-3 또는 ChatGPT가 이미 매우 잘하는 테스트가 있다는 것입니다. GPT-3나 ChatGPT가 잘하지 못하는 테스트도 있었고, GPT-4가 훨씬 더 잘하는 테스트도 있었고, 둘 다 잘하지 못하는 테스트도 있었습니다. 하지만 저는 이 테스트가 정말 좋았습니다. 그리고 그 중 일부는 추론과 관련이 있습니다. 미적분에서는 문제를 합리적인 단계로 나누어 풀지 못한 것 같지만, 어떤 영역에서는 추론 능력을 발휘한 것 같습니다. 다음 단어를 예측할 때 추론을 배우는 영역도 마찬가지일까요? 그리고 현재 GPT 4의 한계는 무엇이며 추론 능력을 더욱 향상시킬 수 있을까요?

일리야: 추론은 아주 잘 정의된 개념은 아니지만, 어쨌든 추론을 정의해볼 수 있는데, 추론을 통해 조금 더 깊이 생각하고 더 나은 답을 얻을 수 있는 경우입니다. 예를 들어, 신경망에 큰 소리로 생각하도록(think out loud - Chain of Thought를 의미) 요청함으로써 해결할 수 있는데 일종의 한계가 있을 수 있다고 말하고 싶습니다. 이것은 추론에 매우 효과적인 것으로 입증되었지만 기본 신경망이 얼마나 멀리 갈지는 지켜봐야 할 것 같습니다. 아직 그 잠재력을 완전히 활용하지 못했다고 생각합니다. 물론 신경망의 추론 능력이 더 높아지기를 바라지만, 아직은 신경망의 다른 기능에 비해 추론 능력이 그 수준에 미치지 못하고 있는 것은 분명합니다. 현재와 같은 비즈니스를 유지하면 신경망의 추론 능력이 향상될 가능성이 상당히 높다고 생각합니다. 이 가능성을 완전히 배제할 수는 없습니다.

젠슨: 네, 정말 멋진 점 중 하나는 ChatGPT에게 질문을 할 때 질문에 답하기 전에 먼저 알고 있는 지식을 알려준 다음 질문에 답하는 것입니다. 일반적으로 누군가가 질문에 답할 때, 질문에 답하기 전에 자신이 알고 있는 기초 지식이나 가정에 대해 먼저 알려주면 답변에 대한 신뢰도가 훨씬 높아집니다. 또한 추론을 시연하는 동안 어느 정도의 추론을 보여주고 있는 것이죠. 그래서 ChatGPT에는 이러한 기능이 내재되어 있는 것 같습니다.

일리야: 어느 정도는 그렇습니다. 현재 일어나고 있는 일에 대해 생각할 수 있는 한 가지 방법은 이러한 신경망이 이러한 기능을 많이 가지고 있지만 신뢰성이 그다지 높지 않다는 것입니다. 사실, 신뢰성은 현재 이러한 신경망이 유용하고 진정으로 유용해지는 데 가장 큰 장애물이라고 할 수 있습니다. 때때로 이러한 신경망이 약간의 환각을 일으키거나 사람이 예상하지 못한 실수를 저지르는 경우가 있습니다. 이런 종류의 불안정성 때문에 신경망의 유용성이 크게 떨어집니다. 하지만 현재 우리가 가지고 있는 아이디어와 몇 가지 야심찬 연구 계획을 조금 더 연구하면 더 높은 신뢰도를 달성할 수 있고, 이는 정말 유용할 것이라고 생각합니다. 이를 통해 우리는 매우 정확한 가드 레일을 가질 수 있습니다. 그리고 확실하지 않은 부분에 대해서는 설명을 요청하거나, 알면서도 모를 때 모른다고 말할 수도 있고, 매우 안정적으로 그렇게 할 수 있게 될 것입니다. 그래서 저는 이것이 실제로 병목 현상 중 일부라고 말하고 싶습니다. 따라서 특정 기능을 발휘하는지 여부가 아니라 정확히 얼마나 신뢰할 수 있는지가 더 중요합니다.

젠슨: 사실성 및 사실성 환각에 대해 말하자면, 비디오 중 하나에서 위키피디아 페이지로 연결되는 데모를 보았습니다. 검색 기능, 즉 GPT 4가 사실적인 곳에서 정보를 검색하여 응답을 보강할 수 있는 기능이 포함되었나요?

일리야: 그래서 현재 출시 된 GPT 4에는 검색 기능이 내장되어 있지 않습니다. 그건 그렇고, 우리가 말하지 않았지만 여러분에게 물어볼 수있는 이미지를 소비 할 수있는 정말 좋은 다음 단어 예측기입니다. 데이터와 다양한 강화 학습 변형을 통해 특정 방식으로 작동하도록 미세 조정할 수 있는 이미지로서도 정말 좋습니다. 액세스 권한이 있는 사람 중 일부는 GPT 4에 몇 가지 쿼리를 요청한 다음 컨텍스트 내에서 결과를 채울 수 있다고 해도 놀랄 일이 아닐 것입니다. 요컨대, GPT 4가 내장 검색 기능을 지원하지는 않지만 검색 기능을 통해 더 나아질 것이라는 것은 전적으로 맞습니다.

(이 GTC 행사 다음 날 OpenAI는 이러한 이슈를 다루는 ChatGPT 플러그인을 발표합니다. https://www.facebook.com/1099336960/posts/10228562290137773 )
----

* 일리야 서츠키버 인터뷰 원본: https://www.youtube.com/watch?v=Yf1o0TQzry8
* 일리야 서츠키버 인터뷰 한글 자막: https://youtu.be/SGCFeIbpGlU?t=352 (5분 52초 즈음)
* 더 루나 소사이어티의 상세 정보, 트랜스크립트: https://www.dwarkeshpatel.com/p/ilya-sutskever#details
* 관련 글 - 일리야 서츠키버, 젠슨 황과의 대담: AI의 현재와 미래 비젼: https://www.facebook.com/seungjoon.choi/posts/10228553985370159
* 관련 글- 일리야 서츠키버에 관한 예습: https://www.facebook.com/seungjoon.choi/posts/10228551028336235


비슷한 이야기를 빌 게이츠가 마이크로소프트의 CTO 케빈 스캇과의 대담에서도 합니다. (13분 20초 즈음 부터)
----
(모델이 하는 방식은) 통계적이라서 절대로 X를 못한다고 하는 사람들이 있는데, 이는 완전히 넌센스입니다.
----
빌 게이츠는 작년 여름 OpenAI 팀과의 회동에서 자신이 낸 AP bio 문제를 한 달 만에 해결해 오는 것을 보고 인식을 수정했다 합니다.

* 빌 게이츠와 케빈 스캇의 대담: https://youtu.be/bHb_eG46v2c?t=804
* 관련 글 - 인공 지능 시대가 시작되었습니다: https://www.facebook.com/seungjoon.choi/posts/10228549967069704


역시 샘 올트만 인터뷰의 14분 30초 즈음에도 관련 있는 이야기가 나옵니다. (13분 47초 즈음)
----
정의하기에 따라서는, 일종의 추론을 할 수 있습니다.
----

* 렉스 프리드만의 샘 올트만 인터뷰 원본: https://youtu.be/L_Guz73e6fw?t=827
* 렉스 프리드만의 샘 올트만 인터뷰 한글 자막(축약본): https://www.youtube.com/watch?v=oDdXicdY_5Q
* 관련 글 1 - 샘 올트만 인터뷰 초반 부: https://www.facebook.com/seungjoon.choi/posts/10228574300558026
* 관련 글 2 - 샘 올트만 인터뷰 결론 부(이 모든 것이 지수 곡선의 일부): https://www.facebook.com/seungjoon.choi/posts/10228581063167087
* 관련 글 3 - 샘 올트만 인터뷰, 인-컨텍스트 러닝 중의 조직 관점: https://www.facebook.com/seungjoon.choi/posts/10228583472627322


개인적인 감상으로는 제프리 힌튼의 가장 최근 인터뷰와 일리야 서츠키버의 가장 최근 인터뷰는 2회 이상 볼만하다고 느꼈습니다. 인용한 부분 외에도 곰곰히 생각할 것이 많이 있었어요.


진작 번역해 두고 자료를 좀 더 취합하려고 아직 공유하지 못한,

"거대 언어 모델의 창발 능력"(동명의 논문이 있지만, 이건 AssemblyAI의 블로그 포스팅입니다) 번역 글 http://bit.ly/3Ffx1Tq 과 Quanta 매거진의 "대규모 AI 모델에서 나타나는 예측할 수 없는 능력" ( https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/ ) 등의 이야기도 연결되는데, 그건 따로 포스팅을 써서 정리하려고 합니다. 일단 한 가지를 인용해 보면,
----
이게 다 무슨 뜻인가요?

지금까지 창발의 개념과 거대 언어 모델에서 창발성이 어떻게 나타나는지 등에 대해 이야기했습니다. 하지만 이 모든 것이 무엇을 의미할까요? 여기서 우리는 어디로 가야 할까요?

요컨대, 현재로서는 불분명합니다. 대규모 언어 모델의 새로운 능력에 대해 염두에 두어야 할 몇 가지 중요한 사항이 있습니다.

1. 어떤 규모로 나타날지는 알 수 없습니다.
2. 실제로 등장하기 전까지는 능력의 수준을 알 수 없습니다.
3. 우리는 잠재적 능력의 랜드스케이프를 알지 못합니다.

다단계 추론 같은 단순한 것이 창발 능력의 중요한 설명 요인이라 할지라도, 그 존재 자체는 여전히 중요합니다. 궁극적으로, 인간이 실제로 관심 있는 작업을 완료하는 데 다단계 추론이 필요하다면, 그리고 그런 작업이 상당수 있다면, 창발 능력에 대한 단순한 설명이 무엇인지는 별로 중요하지 않습니다. 큰 모델의 확장이 실제 세계의 응용 프로그램에서 실제로 성능을 향상시킬 수 있다는 단순한 관찰만으로도 충분합니다.
----

정도가 있겠네요. 한 가지 더 중요한 체크할 지점은 GTC 때 일리야 서츠키버가 2017년 OpenAI의 Unsupervised sentiment neuron ( https://openai.com/research/unsupervised-sentiment-neuron )을 짚어준 부분입니다. 알렉 래드포드에게 크레딧을 돌리면서요. OpenAI는 2017년의 이 발견을 무척 중요하게 생겼던 것이고, 당시 이미 이러한 함의를 깨우쳤던 것 같아요.


최근이 이러한 인터뷰들을 보면서 같은 부분이 반복해서 등장하는 것을 보고... 저도 모델의 다음 토큰을 예측하는 능력을 좀 더 무겁게 받아들이게 됐습니다. 아직 자기 회귀 모델에 불과한 단계에서도 확률적 앵무새는 물론 확률적 카멜레온을 훨씬 넘어서는 무엇인가인 듯 해요.

다만 기능이 다음 토큰을 예측하는 것에 한정되어 있어서 그렇지 더 많은 것을 할 수 있는 잠재력이 있던 거였어요.

GTC 인터뷰 때 젠슨황의 질문에 일리야는 인간이 평생 소모하는 단어 또는 토큰이 약 10억 개라고 말했습니다. 자기 안에서 되뇌이는 것 포함해서 2 Billion, 즉 20억 개라고 쳐도, 친칠라급 모델이 학습에 소모하는 토큰은 1.2 Trillion 이라고 합니다. 그러면 850배거든요. 인간이 100년 산다 치고, 850배면 8만 5천년입니다. 그러면 얼추 네안데르탈인 정도(약 10만년)에서 부터 살아온 셈이죠. 물론 굉장히 비효율적으로 학습을 한 경우겠지만요.

게다가 힌튼의 인터뷰에 등장하듯이... 인간은 언어와 글을 통해서만 소통할 수 있지만, 이 모델들, 실리콘을 기반으로 하는 것은 기본적으로 다 같은 튜링 머신이라(힌튼이 직접 튜링 머신을 언급하진 않았어요) 그냥 서로 호환이 됩니다. 웨이트가 호환이 되죠. 그리고 병렬 처리 능력을 가지고 있고요.

데미스 하사비스가 작년 인터뷰( https://www.youtube.com/watch?v=Gfr50f6ZBvo )에서, 그리고 이번에 일리야 서츠키버 인터뷰에서도 딱히 다른 컴퓨터 아키텍쳐가 필요하지 않고 그냥 폰 노이만 방식의 아키텍쳐나 현재의 GPU 아키텍쳐를 가지고도 얼마든지 더 나아갈 수 있다는 말의 함의가 무시무시하네요.


일단 이 정도 더 탐색할 자료를 대강 정리해 두고 제프리 힌튼과 일리야 서츠키버의 최근 인터뷰는 한번 씩 더 보고 그 다음 볼 것들( https://www.facebook.com/seungjoon.choi/posts/10228606116073394 )로 향해 볼까 합니다.

물론 이 와중에도 3월 달 만큼은 아니지만 큰 의미를 가진 뉴스들이 나오고 있죠. HuggingGPT( https://arxiv.org/abs/2303.17580 ) 나 AutoGPT( https://github.com/Torantulino/Auto-GPT ) 같은 것들 말이에요.

하지만 그 근간에 Auto-regressive 방식의 거대 언어 모델에 관한 인식을 달리 해야 할 필요가 있다는 느낌을 강하게 받았던 지난 주말이었습니다.

* 물론 이러한 인류 탑 티어 인간들의 의견 또한 편향된 의견일 수 있습니다. 그래서 다른 의견( https://www.facebook.com/seungjoon.choi/posts/10228617341074012 )들도 탐색하며 잘 읽어내야 합니다. 결국 읽기와 생성은 동치니까요. 이러한 모델들도 프리트레이닝 과정에서 어마어마하게 지난한 읽기 부터 시작하죠.

* 2018년 튜링 상 공동 수상 후, 제프리 힌튼 - 요슈아 벤지오 - 얀 르쿤의 입장은 서로 조금씩 달라지는 추세인가 봅니다. https://twitter.com/soundboy/status/1641789276445630465

* 인터뷰에서 일리야 서츠키버와 제프리 힌튼이 공교롭게도 같은 말을 하는 부분이 하나 더 있었는데, 자기들 공헌이 없더라도 수년 정도의 차이일 뿐이지 시대의 흐름이 결국 이렇게 됐을 거라는 발언이 있었습니다. 퍼스널 컴퓨터의 발명, 인터넷, 게임, GPU, GPU로 할 수 있는 일이 차근 차근 맞아떨어져 왔기 때문에... 결국 이렇게 될 수 밖에 없을 거란 이야긴데요. 이 흐름 하나만 정리해도 매우 흥미로운 이야기가 될 것 같아요.


320x100