아래 글쓰시는분, 자주 오픈Ai에 대한 방대한 이야기를 잘 해주시는데, 읽다보면 큰 도움이 됩니다
최신 기술이다보니 계속 많은 사람들이 연구하고 탐구하고 공유하는 영역이 될것같네요
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
OpenAI의 수석 과학자 일리야 수츠케버의 최신 인터뷰입니다.
수츠케버의 답변 중 가장 흥미로운 건 대규모 언어 모델(LLM)에 의식이 있는지를 테스트할 수 있는 하나의 방법을 제시한 겁니다.
출처 https://www.facebook.com/100000454416270/posts/pfbid0KQLtn4WayTuwuu9TxwurmrC8iZ2VXMaoNHJmdgkgqMCQAS7SoGWeoicL5orYZJSEl/?mibextid=Nif5oz
https://youtu.be/Wmo2vR7U9ck
openai 수석과학자 일리야 슈츠케버의 스탠포드에서의 최신인터뷰 (April. 19. 23)
역시나 매우 신중한 태도로 명확하게 자신의 생각을 표현하늗데, 많은 시간 깊은 사유를 해왔다는게 느껴진다.
몇가지 부분만 엉성요약(정확한 번역 아니고 내가 이해한바를 기억해뒀다 요약. 정확한 내용은 영상 보세요!)
ai가 의식을 결국 가지게 될까?
-ai 시스템에 테스트할수 있는 실험을 생각해본게 있다. 만약 지금보다 훈련을 매우 빨리 할수 있게 된다면, 훈련과정에서 의식에 대한 내용을 완전히 배제한 데이터로 조심스럽게 훈련을 진행하는거다. 그리고 어느날 인간이 ai에게 의식에 대해 설명한다. “이러저러한게 의식인데 아직 완전히 이해하지 못하고 있고…” 이때 ai가 “ 아, 나 그거 알아요! 내가 느끼는 그 느낌이 의식이네요“ 라고 한다면, 의식적 경험이 있다고 볼 수 있지 않을까?
향후 5-10년 딥러닝의 발전방향은? 그리고 최근 샘 알트만이 더이상 scaling up으로 재미 보는건 끝났다고 한 것에 대해 동의하는지?
-앞으로는 지금처럼 스케일링으로 ‘쉽게‘ 재미보는건 어려울거고, 딥러닝의 다양한 측면들에서 아직 알려지지 않은 많은 귀중한 발견들이 이루어지고 통합되며 분명 진보가 있을텐데 정확한 모습은 상상하기 어렵다. 샘알트만의 이야기에 대해선, 그가 의도한 바는 ‘쉬운 방식의 스케일업은 끝났다’…뭐 그런 이야기였을거다. 더 큰 네트워크는 분명히! 더 좋다. 다만 스케일 업을 위해 더 많은 비용과 노력이 필요하다. (조심스럽게 말했지만 최근 세간에 샘알트만의 표현을 사람들이 이해하는 방식에 정확히 동의하지는 않는듯)
향후 연구자들에게 모델을 얼마나 오픈할 것인지?
-intermediate approach로 갈거다.
general 한 데이터로 훈련된 거대 파운데이션 모델 vs. specialized domain 모델?
-generalist training으로 거대베이스모델을 훈련하는건 질문에 대해 이해하고 robust하게 대응하는 수준에 이르기 위한 것임(일정 수준 이상의 인지능력을 얻기 위함이라고 이해할 수 있을 듯). 이 수준에 이른 다음 도메인 지식 훈련도 필요하고 도움이 될것임. (현재 오픈소스 진영에서 underpowered 모델로 도메인 훈련을 하고 있음을 이야기하며 다 중요한 요소라는 식으로 말했지만 아무래도 부정적인듯?)
외에도 ‘이해’라는게 뭔지에 대한 생각 등, 재미있는 이야기가 많아서 직접 한번 보시길 권합니다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡ
https://github.com/Lightning-AI/lit-llama
https://twitter.com/LightningAI
Lightning-AI에서 Karpathy가 구현한 nanoGPT를 기반으로 meta의 LLaMMA (7B)를 구현한 오폰소스 모델을 내놨다.
Supports flash attention, Int8 and GPTQ 4bit quantization, LoRA and LLaMA-Adapter fine-tuning, pre-training. Apache 2.0-licensed.
현재 Alpaca-Lora 훈련시키며 공부하고 있는데, 어느정도 익숙해지면 이것과 비교해봐야겠다. Pytorch 2.0에서도 코드 한줄 추가로 LLM 훈련속도를 대폭 줄일수 있도록 최적화를 했다는데 함께 적용가능한건지 어쩐건지 모르겠다.
...
경량화를 위해 파라미터 값을 양자화하고, 훈련을 위해 LoRA 이용하는 등, 가능한 효과적으로 모델을 훈련하기 위한 대표전략들이 어느정도 추려지는 것 같다. 아마 이 부분에선 지속적으로 경쟁적인 개선이 이루어질 것 같다.
어차피 LLaMMA 7B, 여기에 instruction 훈련한 알파카 7B 등의 성능은 chatGPT와 비교가 무의미할만큼 성능이 떨어진다(고 나는 느낌). chatGPT 모델 중 하나인 davinci랑 얼추 비슷하다고도 했었는데 실제 써보면 전혀...
일단은 빠르게 변화하는 AI/ML의 지형을 파악하고 흐름을 따라가는 차원에서 API 기반의 프로젝트든, 도메인에 특화된 fine-tuning model 개발이든 실무적인 감을 쌓는 것이 중요한데, 감 쌓기 위해 이용하는 연습용 모델 정도로 생각해야 하지 않을까 싶다.(아직 알파카 경험이 많지는 않아 내 말이 틀릴수도 있음).
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
Andrew Ng의 landing AI에서 개발한 'visual prompting'.
https://landing.ai/What-is-visual-prompting/
Image segmentation, cell detection 등의 작업을 위해 일일히 이미지에 레이블 만들어서 모델 훈련(파라미터 튜닝) 하는게 아니라,
그냥 이미지에 대충 슥슥 몇개 하려는 작업 표시해주면 (이게 '프롬프팅'), 파라미터 훈련 없이 작업 수행 (few-shot learning)
실제 아래 링크에서 try해볼 수 있다.
https://app.landing.ai/public/visual_prompting?projectId=4
언어모델한테 사람이 이렇게 이야기해도 저렇게 이야기해도 'robust'하게 그 의도를 이해하고 적절한 대화하는 것처럼,
비전 모델도 적당히 사람이 프롬프트로 가르쳐주면 의도하는 바를 알아먹고 작업을 수행하게 됨.
블로그에 따르면 실제로 많은 경우 도메인별 약간의 추가훈련이 필요하다고 함 (프롬프팅 형태가 자연어가 아니라 이미지에 마킹하는 것과 같은 제한된 형태의 '언어'라는 점도 영향이 있을듯?).
아무래도 스탠포드에서 밀고 있는 'Foundation model' 패러다임이 맞는 것 같다. 일반화된 인지능력을 획득하기 위한 대규모 사전훈련모델 (파운데이션 모델) + 도메인별 추가학습의 방식.
이제 자연어뿐 아니라 일반적인 AI/ML 응용분야에서도 일일히 데이터 모으고, 라벨링하고, 모델 핏팅하는 작업방식은 컴퓨터가 말귀도 못알아먹던 기계에 불과하던 과거의 방식으로 기억될 지도 모르겠다.
https://arxiv.org/abs/2303.17807#
미국의사시험, 변호사시험, 회계사 시험 등 이미 수많은 전문자격시험을 우수한 성적으로 통과해, 이제 뭐 합격했다는게 그리 새로운 뉴스거리도 아닐 지경인 chatGPT (그리고 GPT4).
하지만 한의사국가고시가 출동한다면 어떨까?
저희 연구실의 장동엽 선생이 GPT 3.5와 4를 이용하여 실험한 결과를 프리프린트로 출판했습니다.
아쉽게도 합격은 하지 못하였지만, 빈약한 한국어 텍스트...중에서도 미약했을 한의학 텍스트 합습량을 생각할 때, 놀라운 성적이었다고 생각됩니다.
(GPT4:57.29% -합격기준 60%. 한방신경정신과의 경우 무려 83.75%)
짐작컨데, 한의학 관련 내용의 많은 부분은 중국어 텍스트에서 배우지 않았나 싶고, 기초이론이나 진단보다 intervention에 대한 지식이 특히 부족한 것으로 나타났습니다.
결과를 얻은 직후엔, 한의사국시합격 모델을 위해서 fine-tuning을 해야겠다고 생각했었는데, 지금 판단으로는 vector embedding 기반으로 조금만 보완해주면 합격 가능하지 않을까 생각하고 있습니다.
이번 연구를 시작으로 앞으로 발전시켜나가야 할 연구들이 (한의학 도메인에서) 굉장히 다양하다고 생각합니다. CDSS, 교육, 기초한의학 연구 등...
논문의 discussion에 다소 두서없는 형태지만 관련 논의거리들을 적어보았으니 관심 있는 분들은 한번 읽어보시고 함께 논의해주시면 좋겠습니다.
====
Abstract
Introduction: 한의학은 개별화된 진단과 치료를 중시하기 때문에 제한된 데이터와 암묵적인 프로세스로 인해 AI 모델링이 어렵습니다. 대규모 언어 모델인 GPT-3.5와 GPT-4는 의학에 특화된 학습이 부족함에도 불구하고 인상적인 의학 지식을 보여주었습니다. 본 연구는 한의사 국가 자격시험을 활용하여 한의학에 대한 GPT-3.5와 GPT-4의 능력을 평가하는 것을 목표로 했습니다.
Methods: GPT-3.5(2023년 2월) 및 GPT-4(2023년 3월) 모델은 2022년 시험에서 12개 과목에 걸쳐 340문항에 답했습니다. 각 문항은 초기화된 세션에서 5회 독립적으로 평가되었습니다.
Results: GPT-3.5와 GPT-4의 정확도는 각각 42.06%와 57.29%로, GPT-4는 합격에 근접한 성능을 보였습니다. 과목별 정확도에는 상당한 차이가 있었는데, 신경정신과의 경우 83.75%의 정확도를 보인 반면 내과의 경우 28.75%의 정확도를 보였습니다(2). 두 모델 모두 회상 기반 및 진단 기반 문제에서는 높은 정확도를 보였지만 중재 기반 문제에서는 어려움을 겪었습니다. TKM 전문 지식이 필요한 질문에 대한 정확도는 그렇지 않은 질문에 대한 정확도보다 상대적으로 낮았으며, GPT-4는 표 기반 질문에 대해 높은 정확도를 보였고, 두 모델 모두 일관된 응답을 보여주었습니다. 일관성과 정확성 사이에는 양의 상관관계가 관찰되었습니다.
Conclusion: 이 연구의 모델들은 도메인별 훈련 없이도 TKM에 대한 의사 결정에서 합격에 가까운 성능을 보여주었습니다. 그러나 문화적으로 편향된 학습으로 인한 것으로 추정되는 한계도 관찰되었습니다. 이 연구는 기초 모델이 임상 지원, 의학교육 및 의학 연구를 위해 문화적으로 적응된 의학, 특히 TKM에서 잠재력을 가지고 있음을 시사합니다.
출처 https://m.facebook.com/story.php?story_fbid=pfbid02RPJYUiQQyJKZGT1jmZFE5ssSiX84qyFUmEcw22f36cWqPiCpVwbkoWjiWRiPBJ8Ll&id=100002192011198&mibextid=Nif5oz
https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/?fbclid=IwAR1gZbjikYdoyEcYbzYQ427FUYS1Kf_IsVpmEV5aBSpP-Z5cWJF8gzWfndE
인간의 추상화된 사고와 논리구조를 명시적으로 컴퓨터에 주입하는 과거의 규칙기반 AI (=하향식 접근) 에 비해, 데이터로부터 규칙을 생성하는 머신러닝 (=상향식 접근) 은 진화와 같은 자연의 원리에 보다 가깝다. 만약 인간이 신의 경지에 다다르는 길이 있다면 머신러닝이 규칙기반 AI보다 올바른 접근일 것이다.
거대언어모델은 이런 면에서 기존의 다른 머신러닝 들에 비해 훨씬 더 자연의 원리에 가깝다. 극단적인 상향식 접근을 쓰고, 이 과정에서 복잡도가 증가함에 따라 새로운 현상이 '창발(emerge)'한다. 현재 chatGPT를 비롯한 거대언어모델들 관련 소식이 너무나 빠르게 폭풍우처럼 몰아치느라 의외로 이에 대한 언급이 적다고 느끼는데,
거대언어모델의 성공은 인간이 드디어 복잡계과학의 방식으로 엔지니어링을 해나가고 있음을, 그냥 활용한 정도가 아니라 인류 역사의 마일스톤으로 남을만한 기술적 진보를 복잡계과학적 방식으로 이루어냈음을 보여주는 사건이라 생각한다.
...
예전엔 'AI 과학자'라고 하면 아마도 AI 개발 관련 연구를 하되, 보다 이론적이고 기초적인 측면을 연구하는 사람을 일컫는 것이었다고 생각되는데,
이제 앞으로는 '뇌과학자'가 뇌라는 블랙박스를 이해하기 위해 두드려보고, 흔들어보고 직접 분해하며 노력하는 사람을 일컷듯, AI 과학자도 AI라는 블랙박스를 이해하기 위한 과학적 연구를 하는 사람으로 일컬어질수 있겠다는 생각이 든다 (기사의 구글 연구원들처럼). 과학자들의 관찰, 연구 대상인 자연과 뇌가 그러하듯, 거대언어모델도 창발성을 바탕으로 하는 복잡계니까.
...
기사에서 전문가 코멘트를 하고 있는 Ganguli의 "led me to drop what I was doing and get more involved.” 란 멘트가 매우 반가웠다.
사실 올해 연구년의 시작 즈음하여, 나도 많은 사람들과 비슷하게 chatGPT의 퍼포먼스에 큰 충격을 받았고 뇌연구자의 입장에서 이건 시급하게, 그리고 장기적으로도 진지하게 파고들어야 할 문제라고 판단했다(물론 transformer, BERT, GPT2,3 등의 기술적 동향, 벤치마크 결과에 대해서 상당히 알고 있었고 관련 연구를 내 분야에 접목해 진행해오기도 했었지만 chatGPT 플레이그라운드를 실제 '체험'해보기 전에는 이 정도일거라고는 상상하지 못했다).
내 페북 탐라에서도 거대언어모델 이야기로 잠시 폭주했었고, 지난 몇주, 잠잠했던 기간동안엔 실제 다뤄보는 측면에서 흐름을 따라잡으려고 개인적인 토이 프로젝트들을 진행하며 매일 직접 코딩하고 실험하고 공부하며 시간을 보냈다. 한국에 있는 랩 학생들과도 구체적인 프로젝트를 몇가지 시작했고, 학부생 대상의 LLM 인턴쉽 프로그램을 만들어서 같이 공부도 하고 연구도 진행하고 있다.
내가 이렇게 폭주하는 데 대해 오랫동안 함께 공부해온 대학원생들이라면,'PI의 이유있는 폭주'로 이해해줄 거라 생각하지만 그래도 마음 한켠엔 '지도교수가 팔랑귀처럼 유행 좇는다'라고 생각하지 않을까 걱정하는 마음이 있었는데....
강굴리의 인터뷰를 보고 너무 반가웠다....는 말을 이렇게 장황하게 했네.
강굴리 코멘트는 랩사람들에게도 보여줘야 겠다.
여튼 퀀타 메거진의 기사는 늘 그렇지만 깊이가 있으면서도 흐름을 잘 잡고 매우 친절하게 풀어주고 있어 일독할만하다.
DeepL 데탑에 까시고 웹페이지에서 드랙한후 단축키(맥북에선 cmd+C+C) 치면서 편하게 읽으시길 권합니다. 하지만 딥엘도 오류가 상당히 있으니, 읽다가 조금 갸우뚱하면 바로 원문을 확인해보는게 좋습니다~
출처 https://m.facebook.com/story.php?story_fbid=pfbid02z5WzgQEAQrY3YfqYnDmgqrJ8wP7KZdQyXxBMkqcvW1CRArHPRhQJGCiUgovatG9ql&id=100002192011198&mibextid=Nif5oz
'chatgpt 기술탐구' 카테고리의 다른 글
ChatGPT를 활용하여 스스로 대화에 참여함으로써 고품질의 멀티턴 채팅 코퍼스를 자동으로 생성할 수 있는 (28) | 2023.05.01 |
---|---|
유발 하라리의 이코노미스트지 기고 내용 (15) | 2023.05.01 |
chatGPT의 아버지 샘 알트만 대한민국 방문 예정 (18) | 2023.04.18 |
OpenBookQA, RACE, ReCoRD 와 같은 평가도 했는데 의외로 BloomberGPT가 거의 모든 곳에서 좋은 평가를 받았습니다. (9) | 2023.04.09 |
Sparks of Artificial General Intelligence: Early experiments with GPT-4 (19) | 2023.04.08 |