본문 바로가기

그밖에 여러가지 이야기

<더글러스 호프스태터도 AI가 두렵다>

반응형

Ai에 대해서 많이 생각해보게 되는글이 많네요

앞으로 진보와 개혁은 Ai가 다 이뤄줄것만 같음.


ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ


<더글러스 호프스태터도 AI가 두렵다>

“그것이 우리가 만든 시스템이 우리를 파괴한다는 의미에서 인류의 종말을 의미할지는 확실치 않습니다. 그리 될지 확실치는 않으나 가능성은 분명 존재합니다. 종말이 닥치지는 않는다 하더라도, 인류는 훨씬 더 지능적인 다른 어떤 존재에 비하면 매우 미미한 현상에 불과한 존재가 되고 말겠죠. 바퀴벌레가 우리를 이해할 수 없듯 인류도 자신보다 더 지능적인 그 존재를 이해할 수 없을 테고요.”
.
미국의 원로 인지과학자 더글러스 호프스태터(Douglas Hofstadter)가 6월29일 공개된 한 인터뷰에서 AI에 대한 두려움을 직설적이고 사적인 언어로 토로하여 화제가 되고 있다. 그가 <디 어틀랜틱The Atlantic> 지면을 통해 인공지능이 단기간에 인간수준의 지능에 도달할 가능성에 대해 강한 회의적 입장을 피력한 지 불과 1주일 만의 일이다.
.
호프스태터는 미국 인디애나 대학교 인지과학 및 비교문학 교수로서, 퓰리처상 수상작 <괴델, 에셔, 바흐: 영원한 황금 노끈 Gödel, Escher, Bach: an Eternal Golden Braid>(1979)의 저자로 일찍부터 세계적 명성을 얻은 바 있다. 그는 또한 저명 인지과학자 데이비드 챌머스(David Chalmers) 및 멜라니 미첼(Melanie Mitchell)의 스승이기도 하다. <괴델, 에셔, 바흐>는 2017년 까치에서 번역, 출판되었는데 번역본 분량이 무려 1128쪽에 이른다.
.
전체 분량 38분의 인터뷰 중 AI와 직접 연관된 12분 정도를 아래에 발췌, 번역한다. DeepL 번역을 면밀히 원문대조하여 수정하였다. (인터뷰 동영상 링크는 댓글에.)
.
===============
.
[21:05]
진행자 :  
<Gödel, Escher, Bach>(GEB)에서 탐구한 아이디어들 중 오늘날의 신진 AI 과학자들과 지지자들에게 가장 중요한 건 무엇이라고 생각하십니까?
.
호프스태터 :
‘나’(I)란 무엇이고 의식이란 무엇일까요? 생각이란 정확히 무엇일까요? 컴퓨터, 즉 [중략] 동물의 하드웨어와 아주 다른 하드웨어로 만들어진 어떤 것이 인간과 같은 체험, 감정, 생각, 아이디어, 의미 같은 것을 가질 수 있는지에 대해 의아해하는 사람들이 많다고 생각해요.  챗지피티 같은 시스템에서 나오는 모든 것은 본래적으로 무의미하며, 아무것도 이해하지 못하는 시스템이 떠들어대는 상징일 뿐이라고 말하는 부정론자들이 있죠. 이는 오해를 불러올 수 있는 잘못된 의견이라고 생각합니다.  
.
제가 1960년대 중반에 문장을 만드는 프로그램을 작성할 때 배운 것 중 하나는 [중략] 컴퓨터 시스템 경우에는 단어의 뒤에 아무런 의미가 없는 반면, 제 단어 뒤에는 의미가 있다는 점이 본질적 차이라는 것이었습니다. [중략] 무엇이 의미를 갖게 만드는 것일까? 저는 이 문제에 대해 오랫동안 고민했죠. [중략] 저는 상징들이 [형식적formal] 시스템 안에 머물러있을 때 [중략] 그 상징들을 인도하여 특정 방식으로 작동하게 만드는 것은 형식적 규칙이라고 느꼈습니다. 그 시스템 속 상징들이 현실세계의 무언가를 추적할 때, 즉 현실세계의 무언가에 정확히 상응할 때, 그때 비로소 그 상징들이 그 대상들을 나타낸다고 말할 수 있습니다.
.
제 문장 생성 프로그램에서는 단어가 아무것도 추적하지 않았습니다. 구문적 네트워크를 통과하는 경로를 선택하고 또 채워넣을 단어를 선택하는 프로그램에 의해 이리저리 무작위로 내밀리기만 했을 뿐, 그 단어들은 특정한 의미가 있어서 사용된 게 아니었습니다. 그냥 무작위로 밀어넣은 것이었죠.
.
하지만 단어들이 오랜 시간 동안 매우 정합적이고 일관적인 방식으로 현상과 매우 체계적으로 상호 연관되면, 우리는 그 단어나 상징들이 실제로 의미가 있다고 말할 수 있다고 믿게 됩니다. 그리고 오늘날의 시스템은 이를 상당히 잘 수행하고 있는 것 같습니다. [중략] 챗봇이 터무니없는 말을 마구 만들어내는 경우가 더러 있지만 시간이 지남에 따라 줄어들고 있으며, 챗봇이 만들어내는 말 중 상당수는 완전히 일관되고 믿을 만하며 합리적입니다. 챗봇이 사용하는 상징들에 이제는 의미를 부여할 수밖에 없어요. [중략] 여기에 의미가 있다면 여기에 아이디어가 있고, 여기에 아이디어가 있다면 여기에 사고(thought)가 있고, 사고가 있다면 여기에 어느 정도의 의식이 있는 거죠. 일종의 미끄러운 경사면입니다. 그리고 지금 우리는 그 미끄러운 경사면 어디에 자신이 위치하는지를 모릅니다. [중략]
.
[25:48] 그렇다면 인간이 '나'라고 말할 때 그 말을 유효하게 만드는 것은 무엇일까요? 그 단어의 사용을 정당화하는 것은 무엇일까요? 컴퓨터가 '나'라고 말할 때 우리가 그 말 뒤에 진정한 '나'가 있다고 느낄 수 있게 되는 건 언제일까요? [중략] [전화상담용 챗봇의 경우] 마치 ‘나’가 있는 것처럼 행동하지만, 나는 거기에 ‘나’가 있다는 느낌이 전혀 들지 않습니다. [중략] 매우 기계적인 프로세스처럼 느껴지거든요.
.
하지만 챗지피티나 지피티-4와 같이 좀 더 발전된 것들의 경우에는 '나'라는 단어를 써도 좋을 만한 무언가가 더 있는 것처럼 느껴집니다. 문제는 언제쯤 우리가 그런 것들이 실제로 완전한 '나'라고 여길 만하다거나 또는 최소한 부분적으로는 그렇게 여길 만하다고 느끼게 되는가이겠죠. 그런데 이미 그런 일이 눈앞에서 일어나고 있어요. 지금 생겨나고 있는 어떤 것들이 인간의 의식이나 인간의 자아와 단순히 유사하기만 한 것이 아닙니다. 매우 다르기도 하죠. 그리고 어떤 면에서는 매우 무섭기도 하고요. 인간보다 엄청나게 더 박식하고 엄청나게 더 빠르거든요. [중략]
.
지금은 아직 실수가 너무 많아서 우리보다 더 똑똑하다고 할 수는 없지만, 머지않아 그것들은 우리보다 [중략] 훨씬 더 똑똑해질 것입니다. 그리고 그 시점이 되면 우리는 뒤로 물러나게 되겠죠. 어떤 의미에서 우리는 승계자에게 바톤을 넘겨주게 될 것입니다. 좋든 나쁘든요.
.
[중략] 이런 일이 가령 수백 년 같은 장기간에 걸쳐 일어난다면 괜찮을 수도 있겠죠. 하지만 몇 년 사이에 이런 일이 일어나고 있어요. 마치 전례도 없고 상상도 할 수 없는 속도로 우리를 덮친 해일과도 같습니다. 저로서는, 사실이라고 믿어왔던 모든 것이 전복되고 있음을 뜻하므로 상당히 무서운 일입니다.
.
진행자 :
구체적으로 어떤 것들이 무서우신가요?
.
호프스태터 :
[중략] 1960년 무렵 인지과학을 공부하고 정신과 전산에 대해 생각하기 시작하면서, 컴퓨터가 어떻게 작동하고 또 얼마나 경직되게 작동하는지 깨달았죠. 아주 작은 타이핑 오류만 있어도 프로그램이 완전히 망가졌으니까요. 디버깅은 매우 어려운 기술이었으며, 버그를 제거하기 위해서는 프로그램을 여러 번 실행해야 할 수도 있었고요. [중략]
.
인공지능에 대해 들었을 때 경직적 시스템을 유동적으로 작동하도록 만드는 매우 매력적인 목표라고 생각했어요. 하지만 그것은 제게 매우 멀고 먼 목표였습니다. 한없이 멀게만 느껴졌죠. [중략] 엄청난 시간이 걸릴 것 같았습니다. 인간의 정신을 희미하게나마 닮은 어떤 것이 인간의 정신에 점근적으로 접근하기까지는 수백 년이 걸릴 거라고 생각했죠. [중략] 원칙적으로 저는 인공지능이 인간의 지능에 필적할 수 있을 거라고 생각했습니다. 그러지 못 할 이유가 전혀 보이지 않았으니까요. 하지만 너무 먼 목표인 것 같았기에 걱정은 하지 않았습니다.  
.
[인공지능이 체스와 바둑에서 인간을 넘어서고 자연어를 점점 더 능숙하게 구사하는 것을 지켜보는 건] 평생 쌓아올린 지적 건축물과 신념 체계, 세상에 대한 지극히 핵심적인 믿음의 일부분이 무너지기 시작하는 트라우마적 경험이었어요.  특히 인간이 곧 [인공지능에게] 추월당할 것이라고 생각하면요. 제 개인적 신념체계가 허물어질 뿐 아니라 인류 전체가 곧 추월당하여 먼지더미에 묻힐 것 같다는 느낌이 들었거든요.
.
사람들은 저에게 “곧”이라니 무슨 뜻이냐고 묻습니다. [중략] 제 마음 한구석에서는 5년이라고 말합니다. 한편으로는 20년이라고도 하고요. 또 한편으론 모르겠다고도 합니다. 하지만 그 진전, 그 가속화된 진전이 너무나 예상치 못한 속도로 저뿐만 아니라 많고 많은 사람을 속수무책으로 덮쳤기 때문에, 장차 무방비 상태의 전 인류에게 몰아쳐올 쓰나미에 대한 일종의 공포가 조성되어 있습니다.
.
그것이 우리가 만든 시스템이 우리를 파괴한다는 의미에서 인류의 종말을 의미할지는 확실치 않습니다. 그리 될지 확실치는 않으나 가능성은 분명 존재합니다. 종말이 닥치지는 않는다 하더라도, 인류는 훨씬 더 지능적인 다른 어떤 존재에 비하면 매우 미미한 현상에 불과한 존재가 되고 말겠죠. 바퀴벌레가 우리를 이해할 수 없듯 인류도 자신보다 더 지능적인 그 존재를 이해할 수 없을 테고요.
.
진행자 :
흥미로운 생각이군요.
.
호프스태터 :
글쎄요, 전 흥미롭지 않다고 생각합니다. 무섭다고 생각해요. 끔직하죠. 거의 매일, 하루도 빠짐없이 그 생각을 합니다. 그리고 그것은 저를 압도하고 우울하게 만듭니다. 이런 우울감은 참으로 오랜만입니다.
.
진행자 :
와, 정말 강렬하네요. [중략] 거대언어모델(LLM)이 인간의 사고 및 창의성의 작동방식에 대한 선생님의 견해에 어떤 영향을 미쳤나요?
.
호프스태터 :
인간의 창의성 등이 뇌의 하드웨어에서 나온다는 생각을 물론 강화시켜줍니다. 뇌의 하드웨어, 즉 신경망 외에 다른 것은 없습니다. 하지만 저를 완전히 놀라게 한 한 가지 사실은 이러한 LLM 및 이와 유사한 다른 시스템이 모두 피드 포워드(feed foward)라는 것입니다. 뉴런의 발화는 한 방향으로만 이루어집니다. 한 방향으로만 진행하는 네트워크, 즉, 한 방향으로만 뉴런을 발화시키는 네트워크에서 심층적 사고가 나올 수 있다고 어찌 상상인들 했겠어요. [중략]
.
인간의 정신이라는 게 <GEB>를 쓸 때나 <나는 이상한 루프 I'm a Strange Loop>(2007)를 쓸 때 상상했던 것처럼 그렇게 신비롭고 복잡한, 꿰뚫을 수 없을 정도로 복잡한 게 아닐 수도 있겠다는 생각도 들어요. [중략] 그 당시에는 우리를 어쩌면 능가할 수도 있는 어떤 계산 시스템에 도달하는 건 아직 멀었다고 느꼈습니다. 점점 더 유동적으로 변하고는 있었지만 단기간에 그리 될 거라곤 생각하지 못했죠.
.
그래서 왜소해진 기분도 들어요. 저 자신이 어떤 의미에서는 매우 불완전하고 결함이 있는 구조처럼 느껴지기도 하고요. 그리고 저보다 백만 배 또는 10억 배 더 많은 지식을 가지고 있으며 계산속도가 10억 배 더 빠른 계산시스템과 비교할 때, 저 자신이 극도로 열등한 존재로 느껴집니다. 인류가 추월당해 마땅하다고 말하고 싶지는 않지만 거의 그런 느낌이 들어요. 인류 전체가 부지불식간에 곧 추월당할 것 같아요. 그리 되는 게 당연해요. 우린 너무나 불완전하고 오류가 많으니까요. 우린 항상 무언가를 망각하고, 사물을 늘 혼동해요. 항상 자기모순을 저지르기도 하고요 [중략]
.
진행자 :
와! [중략] 인류 역사에서 이와 비슷한 일이 일어나 많은 똑똑한 사람들을 공포에 떨게 했던 적이 있었나요?
.
호프스태터 :
불(Fire).
.
진행자 :
그렇군요. 서슴없이 “불”이라고 하시네요. 그럼 거기서 뭘 배울 수 있을까요?
.
호프스태터 :
모르겠어요. 조심해야겠죠. 하지만 우리가 이미 너무 멀리 갔을 수도 있어요. 숲에 이미 불을 질러버린 걸지도 몰라요. 이미 그런 일을 저질러버린 것 같아요. 돌이킬 방법이 없는 것 같아요. (끝.)


출처 https://www.facebook.com/100015032226558/posts/pfbid02S6qnY8Qw9trsdd1yhfJJ4Bw1TcrvCX416Q1doV9Zg8LhHHTnfL76EkK986u6BwEZl/?mibextid=Nif5oz
.

<멍크 토론(Munk Debates) :  AI의 ‘실존적 위협’>
요슈아 벤지오 + 맥스 테그마크 vs 얀 르쿤 + 멜라니 미첼
6월24일, 토론토
.
멍크토론은 한 자선단체 주최로 1년에 두 번 토론토에서 개최되는 공개행사다. 주요 정책쟁점을 상반된 관점을 지닌 전문가들의 격렬한 논전을 통해 짚어보는 이 토론회는 2008년에 출범한 이래 지속적으로 매우 높은 대중적 호응을 받고 있다.
.
<AI 연구ㆍ개발이 실존적 위협을 초래하는가?’>라는 물음을 놓고 벌이는 이번 토론은, 아래 토론자들의 면면에서 짐작되듯, AI의 위험을 둘러싼 대립적 관점들이 시종 날카롭게 충돌하는 초유의 장이었다. 네 명 토론자의 상이한 인간적ㆍ학자적 개성이 뚜렷하게 부각되는 극적 무대이기도 했다.
.
1. 찬성론자
- 요슈아 벤지오(Yoshua Bengio) : 몬트리올대학 교수. 밀라 - 퀘벡 AI 연구소 설립자 겸 과학 책임자. 2018년 튜링상 수상.
- 맥스 테그마크(Max Tegmark) : MIT 교수. 인공지능 및 물리학 연구 수행 중. (거대언어모델 연구ㆍ개발의 일시중지를 요청한 3월22일자 공개서한 서명을 주도한) <생명의 미래 연구소>(Future of Life Institute)의 공동 설립자. <라이프 3.0>(2018) 저자.
.
2. 반대론자
- 멜라니 미첼(Melanie Mitchell) : 산타페 연구소 교수.
- 얀 르쿤(Yann LeCun) : Meta(페이스북 모회사) 부사장 겸 수석 AI 과학자. 뉴욕대학교 실버 교수. 2018년 튜링상 수상.
.
AI의 (‘실존적’)위험 관련 쟁점에 대한 다양한 입장들의 지형을 핵심적 행위자들의 육성에 실어 통해 압축적으로 보여주는 유익한 토론이라고 생각된다. 계제가 된다면 1시간 반 남짓의 동영상 전체를 시청해도 시간이 아깝다는 기분은 들지 않으리라 짐작한다. 논쟁의 전반적 구도를 압축적으로 보여주는 마무리 부분(동영상 1:23:00 ~ 1:43:00)을 아래에 번역한다. 토론 전체분량의 5분의1이 좀 넘는다.  DeepL 번역을 원문대조하여 대폭 수정했다. (동영상 링크는 댓글에.)
.
===================
.
진행자(Rudyard Griffiths) :
[인간이 행위주체로서의 능력을 상실하게 될 수 있다는 맥스 태그마크의 주장이 현실화될 경우,] AI를 채택하는 기업이 그렇지 않은 기업보다 더 성공하고 더 나은 성과를 거두겠죠. AI를 채택하는 정부는 더 강력해지고 그렇지 않은 정부보다 더 나은 성과를 거둘 거고요. [중략] 그리고 이 모든 일이 우리가 의사결정을 기계에 넘기도록 부추기겠죠. 성과면에서 개인적, 집단적으로 훨씬 더 나은 결과를 얻을 수 있을 테니까요. 이것이 왜 실존적 위험이 아닐까요? 인간은 행위주체성을 상실하고 인간적 잠재력을 온전히 발휘할 수 없게 될 텐데요.
.
멜라니 미첼 :
아뇨. 우선 AI를 사용하는 기업이나 개인이 그렇지 않은 경우보다 더 나은 성과를 거둘 건지는 분명하지 않다고 생각합니다. 아시다시피 AI에는 많은 한계가 있습니다. 예를 들어, 최근에 한 변호사가 AI를 활용해 소송을 준비했는데, 실제로 인용된 모든 종류의 사례를 엮었지만 판사에게 두들겨 맞았어요. 다른 변호사들을 경쟁에서 이기지 못한 거죠. AI가 더 나아질 수도 있지만, [AI가 인간을 능가할 거라는] 이런 가정은 그 타당성이 전혀 분명하지 않아요. 인간은 자신의 행위주체성을 어지간해서는 포기하지 않으니까요.
.
과거에도 수많은 새로운 기술이 나왔고, 사람들은 예를 들어 글쓰기와 계산기가 도입되면 기억력이나 추론능력 같은 것을 잃게 될 거라고 생각하곤 했죠. 구글 지도를 사용하다보면 길찾기 능력을 잃을 거라고 생각했고요. 하지만 인간은 실상 이러한 기술에 적응하고 그것을 넘어서지요. [중략]
.
얀 르쿤 :
모든 기술혁명이나 글쓰기 능력의 진화에 대해서 동일한 우려가 있었죠. [중략] 가톨릭교회는 교리에 대한 통제력를 상실할까봐 인쇄술에 반대했고요. 하지만 그들은 결국 아무것도 할 수 없었습니다. 오스만 제국은 인쇄기 사용을 금지했는데, 어떤 역사가에 따르면 그것이 그들의 쇠망을 가속화했다고 합니다. [중략] 그리고 이것은 단지 오스만제국이 인구를 통제하고 싶었기 때에 벌어진 일입니다.
.
사람들을 더 똑똑하게 만들거나 사람들 간의 소통을 가능하게 하고 교육을 용이하게 하는 모든 기술은 본질적으로 좋은 것입니다. 그리고 AI는 그런 기술의 새로운 버전입니다. 새로운 인쇄기인 셈이죠.  
.
요슈아 벤지오 :
우리 얼굴 앞에서 폭발하지만 않는다면요.
.
르쿤 :
인쇄기로도 손을 부술 수 있잖아요?
.
벤지오 :
맞아요. 하지만 문제는 규모입니다. 해로울 수 있는 기술을 구축하더라도 소규모로 구축하는 한 이득이 위험을 압도합니다. 하지만 지금 우리가 말하는 기술은 다른 어떤 기술과도 다릅니다. 제 스스로 기술을 설계할 수 있는 기술이니까요. [중략] 지금 우린 인간을 넘어서는 AI에 대해 이야기하고 있어요. 이게 오늘의 주제입니다.
.
르쿤 :
통제되고 있습니다. 통제되고 있어요. 우리가 여전히 통제하고 있어요. 이전 기술과 매우 유사합니다. 질적인 면에서 다르지 않아요.
.
벤지오 :
이 문제를 연구하는 전문가들은 통제력을 유지하는 것이 매우 어려울 거라고 말합니다. 제가 오늘 여기 나온 것도 그 때문이고요.
.
르쿤 :
바로 그런 주장은 60년 전 성능이 낮은 컴퓨터을 사용할 때부터 제기된 겁니다. 새로운 문제가 아닙니다. 청중 여러분께 <비관론자 아카이브>라는 웹사이트를 방문해 보시길 권합니다. 정말 재밌어요. 새로운 문화현상이나 신기술이 등장할 때마다 사람들이 했던 각종 어리석은 말들을 모아놓은 신문 스크랩입니다. ‘이거 기차네. 어이쿠, 기차 타면 안 돼. 시속 50km로 달리는데 그 속도에서는 숨을 쉴 수가 없요.’ [중략]
.‘
기술발전이나 문화의 혁명이 일어날 때마다 사람들은 매번 그런 말을 했죠. '재즈가 사회를 파괴할 거다. 인쇄기가 사회를 파괴할 거다‘ 등등. 인쇄기가 실제로 사회를 파괴하긴 했죠. 기존 사회를 파괴하고 더 나은 방향으로 완전히 바꿨거든요. 계몽주의철학, 과학, 합리주의를 가능케 했으니까요. [중략]
.
맥스 테그마크 :
주식 거래자들은 과거실적은 미래실적을 나타내는 지표가 아니라고 말할 것입니다. 그리고 기하급수적인 기술성장 속에서 과거에 어떤 일이 특정한 방식으로 일어났다고 해서 앞으로도 계속 그런 식으로 일어날 것이라고 가정하면 큰 실수가 될 수 있죠.
.
실제로 어떤 일이 일어났는지 한번 살펴볼까요? 첫째, 산업혁명 동안 우리는 우리보다 더 빠르고 강한 기계를 만들었습니다. 그래서 우리는 근육을 덜 사용하고 두뇌를 더 많이 사용하기 시작했습니다. 그리고 그건 근사했죠. 덕분에 우린 대체로 더 나은 보수를 받았으니까요.  하지만 현재의 이 인간 무력화(disempowerment) 시나리오에서 [중략] 우리는 사고능력이 우리보다 나날이 더 좋아지는 기계를 만들고 있습니다. [중략] 따라서 우리는 오늘날의 한심할 정도로 형편없는 인공지능에 기반해서 논쟁을 벌여서는 안 됩니다. 내일 어떤 일이 벌어질지 내다봐야 합니다.  어떤 사람들은 5년내지 20년이면 현실이 될 수 있다고 생각하는 초인적 인공지능에 [중략] 대해 논의해야 합니다. 이것이 바로 ‘방 안의 코끼리’, 즉 회피할래야 회피할 수 없는 당면 현안입니다. 만약 그런 일이 일어난다면 산업혁명과는 매우 다른 상황이 될 것입니다. 그때 우리는 근육으로도 두뇌로도 경쟁할 수도 없게 될 것이며, 진정한 의미의 인간 무력화가 시작될 것입니다.
.
하지만 저는 그것이 필연적이라고는 생각하지 않습니다. 우리가 이러한 실존적 위협을 도외시하는 것을 그만두고 그 위협을 진지하게 받아들인다면 저도 약간 낙관적인 기대를 할 수도 있습니다. 이러한 위협을 도외시하는 것이야말로 우리의 올바른 노력을 가로막는 행동 아니겠습까? 아까 요슈아가 말씀하신 기계를 어떻게 통제할 수 있을지, 어떻게 하면 우리를 무력화하지 않고 우리에게 힘을 실어주게끔 기계를 사용해서 이 모든 대단한 일을 할 수 있을지, 등에 대한 많은 연구가 실제로 성공할 수 있다고 생각합니다. 얀이 바라는 것처럼 AI를 안전하고 통제 가능하게 만드는 게 불가능하진 않습니다. 우리 모두는 이를 희망합니다.
.
다만 지금은 기술력의 성장속도가 안전 연구, 정렬(alignment) 연구, 올바른 정책 수립의 속도보다 더 빠르다는 게 문제입니다. 따라서 서로 대화하고 위험이 있다는 것을 인정함으로써 안전작업을 가속화하고, 안전 요구사항을 적용함으로써 제때에 안전을 확보하여 모든 이득을 얻을 수 있도록 해야 할 것입니다.
.
진행자 :
[중략] 이제 마무리 발언으로 넘어가겠습니다.  한 분 당 3분 정도의 시간을 드리겠습니다.  첫머리 때와 반대 순서로 진행하겠습니다. 멜라니부터 말씀해 주세요.
.
미첼 :
[중략] 초지능 기계가 인류를 파괴하거나 심지어 사악한 인간을 돕는다는 이야기는 인간의 기본적 감정인 두려움에 공명할 수는 있습니다. 하지만 지능의 본질과 우리 사회의 탄력성에 대해 과학이 말해주는 바는 우리가 오늘 이 자리에서 들었던 실존적 위협 서사들의 타당성을 기각합니다.
.
저는 AI의 실존적 위협을 과장하는 바람에 현대 AI가 실제로 초래하는 실제적인 피해와 위험으로부터 우리 모두의 관심과 집중이 분산될까 걱정입니다. 그리고 이것은 헛된 걱정이 아닙니다. 우리 모두가 언급했던 제프 힌튼이, 잘못된 정보를 퍼뜨리고 편견을 확대할 수 있는 AI의 위험성에 대해 오랫동안 경고해 온 구글 AI 윤리학자들의 우려에 왜 힘을 실어주지 않았느냐는 질문을 (CNN 인터뷰에서) 받은 것을 기억하시나요? 그는 “그들의 우려는 저의 것과는 좀 달랐습니다”라고 답했죠. “그들의 우려는 인공지능이 우리보다 더 똑똑해져서 세상을 접수하게 될 수도 있다는 생각만큼 실존적 의미에서 심각하지는 않아요“라고도 했고요.
.
이와 같이 AI의 실제위험을 최소화하는 태도야말로 실존적 위협 서사의 위험성을 압축해서 보여준다고 생각합니다. 그것은 우리가 대처해야 할 (실재적 증거를 가진) 위험을 위한 공간을 남겨두지 않으며, 방에서 산소를 모두 제거합니다. AI의 미래에 대한 근거 없는 사변이 우리의 감정과 두려움을 부추겨, 우리가 대처할 수 있는 실재적 피해로부터 주의를 분산시키는 걸 허용하지 맙시다. 공상과학 소설이 아닌 과학에 기반하여 안전하고 공정하며 유익한 AI를 만들 수 있는 방법을 설계합시다.
.
벤지오 :
저는 평생 머신러닝을 연구해왔지만, 최근 몇 년 동안 예상치 못한 발전과 진보를 목격했습니다. 이제 우리는 인간과 대화할 수 있고 인간으로 통할 수도 있는 기계를 갖게 되었습니다. 이런 능력들은 실제 인간 수준 지능 도달의 이정표로 오랫동안 여겨져 왔던 것들입니다. (하지만 자세히 들여다보면 꼭 그런 것만은 아니며 몇 가지 부족한 점이 있다는 것을 알 수 있습니다.)
.
멜라니는 [미래에 대한 추정에 기반한] 외삽적 추론을 하지 말자고 합니다. 하지만 저는 외삽적 추론이 불가피하다고 생각합니다. 선택의 여지가 없기 때문입니다. 끔찍한 일이 몇 년 또는 10~20년 후에 우리 앞에 닥칠 거라면 우리는 이에 대비해야 합니다. 우리는 사회적 적응을 해야합니다.  얀이 이야기하고 또 제가 이야기했던 AI 안전 관련 작업을 해야 합니다. 우리에게 기회가 있다고, 지금 당장 미래를 통제할 행위주체성(agency)이 우리에게 있다고 저는 생각합니다. 그러기 위해서 우리는 온갖 종류의 위험이 존재한다는 사실을 받아들여야 합니다.
.
멜라니, AI가 현재 야기하고 있는 각종 해악과 관련해 멜라니의 생각에 전적으로 동의합니다. 하지만 그렇다고 해서 우리의 레이더 화면에 이미 잡히는--적어도 제 레이더 화면에는 이미 잡히는--실존적 위험을 부정해야할 이유는 없습니다. 그렇다면 왜 저는 이런 일이 일어날 수 있고 끔찍한 결과를 초래할 수 있다고 생각할까요? 그것은 바로 인간 때문입니다. AI가 미쳐나가는 것만이 문제가 아닙니다. 인간에게 약점이 있기 때문입니다.
.
우리가 현혹될 수 있는 방식은 여러 가지가 있습니다. 음모론이 있고 많은 사람들이 그것을 믿습니다. [중략] 이상한 방식으로 행동하고 매우 해로운 짓을 저지를 수 있는 사람들이 출몰할 수 있습니다. 안타깝게도 총기가 사용될 수도 있으나 피해는 국지적일 뿐 실존적이지는 않을 수 있습니다. 하지만 우리가 매우 강력한 도구를 만들 때는 훨씬 더 조심해야 한다고 생각합니다. 이것이 바로 오늘 우리가 이 이야기를 하는 이유입니다.
.
멜라니가 이 일을 그만두는 게 어떻겠냐고 제게 물었는데, [중략] 사실 이 문제에 대해 고민을 많이 했습니다. 올바른 방향으로 나아가는 데 최선이라고 생각되는 일을 하고 싶군요. 연구방향을 바꿔 의료 및 환경 관련 응용프로그램 같은 위험하지 않고 매우 안전한 연구를 하거나, 발생가능한 나쁜 일에 대비하고 또 그것을 예방하기 위해 AI 안전에 대한 연구에 진력할 작정입니다. 정말 감사합니다. [중략]
.
르쿤 :
[중략] 모든 기술에는 이점이 있으면 부작용도 있습니다. 어떤 부작용은 예측할 수 있지만 어떤 부작용은 예측할 수 없죠. [중략] AI를 나쁜 일에 사용하려는 사람들이 있을 겁니다. [중략] 이것이 우리가 살고 있는 세상입니다. 나쁜 일이 일어날 때마다 우리는 대응책을 찾습니다. 국방과 모든 군사 분야에서 마찬가지입니다. 정보 분야도 마찬가지고요. 테러, 범죄, 거의 모든 것이 마찬가지입니다.
.
기술발전이 있을 때마다 이러저런 말이 나왔죠. 인터넷이 온라인화되고 일반화되기 시작했을 때 사람들이 했던 말을 기억하시나요? ‘사이버 공격이 있을 거다. 사람들이 신용카드 번호를 훔치는 바람에 금융 시스템이 무너질지도 모른다.’ 2000년 직전에 사람들이 했던 말을 기억하세요? 위성이 하늘에서 떨어져 도시에 충돌하고 전화 시스템이 마비되어 문명이 종말을 맞을 거라고 했죠. 그런 일은 일어나지 않았습니다. 우리는 아직 여기 있습니다. [중략]  
.
많은 사람들은 자신이 통제력을 상실할 것이기 때문에 나쁜 일이 일어날 거라고 생각합니다. AI는 그냥 일어나게 될 일이고 자신이 할 수 있는 건 아무것도 없다는 생각이 드는 거죠. 그리고 그것은 두려움을 불러일으키고요. 저는 그 생각과 감정을 완전히 이해할 수 있습니다. 하지만 운전석이라고 할 수 있는 자리에 있는 우리 중 일부에게는 이러한 것들을 안전하게 만들 계획이 있습니다. 그리고 안전하게 만들 수 없다면 우린 만들지 않을 것입니다.
.
[중략] AI를 개발하지 않는 데에 따른 위험이 존재한다고 생각합니다. 너무도 많은 잠재적 이점을 포기하는 것이 될 테니까요. 우리는 AI의 이점에 대해 생각해보고 실재적 위험과 비교해봐야 합니다. 하지만 위험은 실존적이지는 않습니다. AI는 인간에게 종속될 것입니다. 우리보다 더 똑똑해지겠지만, 그렇다고 해서 우리의 행위주체성을 잠식하지는 않을 것입니다. 오히려 인간의 역량을 강화할 것입니다. 정말 똑똑한 직원들이 여러분을 위해 일하는 것과 같습니다. [중략] .
.
테그마크 :
겸허함에 대해 말씀드릴까 합니다. [요슈아 벤지오, 가볍게 박수.] 과학은 겸손함이 전부입니다. 과학자가 된다는 것의 의미를 정의하라고 한다면, 물음을 던질 수 없는 답들보다는 답할 수 없는 물음들을 마음에 품은 존재가 되는 것이라고 말하겠습니다.
.
[중략] 몇 분 후에 여러분은 이것이 실존적 위협인지에 대한 질문을 두고 투표하게 될 것입니다. [중략] 인류가 멸종할 거라고 100% 확신하는지 투표하시라는 게 아닙니다. 실존적 위험의 현실화 가능성이 제로가 아닐 가능성이 있는지에 대해 투표하시라는 겁니다. 제로가 아닐 가능성입니다. 따라서, 괜찮을 것 같긴 하지만 멸종 확률이 5% 정도는 된다고 생각하신다면, 비행기가 추락할 확률이 5%라는 말을 들으신다면 너무 높은 확률이므로 비행기를 타지 않을 작정이시라면, 실존적 위협이 있다고 투표해야 합니다.
.
우리 모두는 더 겸손해져야 합니다. 얀은 일어나지도 않은 일을 지나치게 걱정하는 사람들의 말을 모아놓은 비관주의 웹사이트를 조롱했는데, 맞아요, 당신이 옳아요. 멜라니는 AI가 금방 실현될 거라고 생각한 맥카시(John McCarthy)와 민스키(Marvin Minsky)가 얼마나 우스꽝스럽고 지나치게 낙관적이었는지 지적했는데, 맞아요. 그런데, 그 방향으로 겸허하지 못한 과학자들이 있었는가 하면, 그 반대 방향으로 겸손하지 못한 경우도 흔했죠.
.
[1933년] 당시 세계에서 가장 저명한 핵물리학자였던 러더퍼드(Ernest Rutherford) 경은 원자에서 핵에너지를 얻겠다는 건 멍청한 소리라고 했습니다. 그런데 바로 그 다음 날, 실러드(Leo Szilard)가 핵 연쇄반응을 발명해요. 몇 년 전에도 말씀드렸듯이 요슈아 벤지오를 포함한 대부분의 사람들은 우리가 GPT-4 같은 AI를 얻지 못할 거라고 생각했습니다. 하지만 Gpt-4 가 현실이 되었습니다. 그러니 제가 계속 들이대서 성가시게 해드렸던 이 확률들과 관련해서도 우리는 겸손해야 합니다.   [역자 부연설명 : 리처드 로즈(Richard Rhodes)의 <The Making of the Atomic Bomb>(1986)에 실러드의 다음과 같은 말이 인용되어 있다. “산업적 규모의 핵 에너지 방출을 운위하는 건 누구의 말이든 멍청한 소리다, 라고 러더포드 경이 말했다고 한다. 어떤 일은 할 수 없다는 취지의 선언을 전문가들이 하는 걸 보면 난 항상 짜증이 난다."]
.
[중략] 얀은 [AI의 실존적 위험이] 지구가 소행성에 충돌하는 것과 확률상 거의 같은 위험이라고 했죠. [중략] 소행성 충돌로 인류가 멸종한 확률이 연간 1억분의 1 정도라고들 하는데, 그건 겸손한 추정이 아니라고 생각합니다. 확률을 너무 낮게 잡았다고 생각해요. [중략] 소행성 이야기를 하다보니, 폭발 확률이 [중략] 10만 분의 1이라고 여러 과학자들이 말했던 챌린저 우주왕복선 조사 당시를 떠올리게 되네요. 100개를 쏘아 올렸는데 그 중 두 대 정도가 폭발했죠. 그래요, 겸허함 부족이죠. 후쿠시마 원자력 발전소 설계자들은 특정 해에 그런 종류의 쓰나미가 발생할 확률이 10,000분의 1 미만이라고 했습니다. 겸허함 부족이죠. 우리 모두 겸손해져야겠죠.
.
사실 우리는 초인적인 AI를 얼마나 빨리 얻을 수 있을지 모릅니다. 저희들 중 세 사람은 5년에서 20년 사이에 가능할 거라고 생각해요. 멜라니는 훨씬 더 오래 걸릴 거라고 생각하고요. 누가 옳은지 알 수 없습니다. 그 말은 초지능 AI가 곧바로 현실이 될 위험도 존재한다는 뜻입니다. 별일이 없을지, 아니면 우리가 무력화되거나 전멸할지 여부도 알지 못합니다. 겸허해져야겠습니다. 실존적 위협입니다.
[끝]

<요슈아 벤지오: “불량AI는 어떻게 발생하는가”>
.
거대언어모델 개발의 일시정지를 요청하는 3월22일자 공개서한 첫머리에 이름을 올렸던 요슈아 벤지오 교수가 5월22일 자신의 블로그에 게시한 글을 번역, 소개한다.
.
구글을 사임한 제프리 힌튼 교수의 잇따른 인터뷰가 5월11일 피터 어빌(Pieter Abbeel)과의 인터뷰를 끝으로 잦아든 사이, 마치 이어달리기라도 하듯 벤지오 교수의 포스팅이 이어지고 있다. 4월5일 독자적 입장문을 통해 공개서한에 대한 자신의 입장을 천명할 때만 해도 AI의 ‘실존적 위험’ 에 대해 다소 유보적 태도를 보였던 벤지오 교수가 이런 제목의 글을 낸다는 것은 “강력한 AI시스템에 대한 통제력 상실 가능성”에 대한 위기감의 표현처럼 보인다. (5월26일 힌튼 교수가 캠브리지 대학 <실존적 위험 연구 센터, CSER>에서 보름 만에 강연을 했다는 소식도 문득  들려온다.)
.
이 글은 언필칭 ‘딥러닝의 대부’ 중 한 사람이 AI의 심각한 위험을 논증형식을 통해 다각적으로 조근조근 짚으면서 문제해결의 방향과 구체적 방안까지 모색한다는 점에서 (힌튼의 인터뷰와 또다른 의미에서) 주목할 만하다. A4 12장이 넘는 분량 중 절반 가량을 DeepL로 기계번역한 다음 원문과 면밀히 대조해 수정했다. (원문은 댓글에 링크.)
.
=============
최근 몇 달 간에 있었던 강력한 인공지능 대화 시스템의 등장은 온갖 종류의 인공지능 위험에 대한 논쟁을 촉발했으며, 이는 거버넌스 및 규제 프레임워크 형성을 가속화할 것으로 기대된다. 차별과 편견, 허위 정보로 인한 위험으로부터 대중을 보호하기 위해 AI를 규제해야 한다는 데는 대체로 공감대가 형성되어 있지만, AI시스템이 잠재적으로 치명적인 해를 끼칠 수 있는 방식으로 자율적으로 행동할 때 발생할 수 있는 강력한 AI시스템에 대한 통제력 상실의 위험--이른바 AI의 실존적 위험--에 대해서는 AI 과학자들 간에 깊은 견해 차이가 있다. 어떤 연구자들은 이런 위험을 거론하는 것이 이미 발생하고 있거나 곧 발생할 더 구체적인 위험과 피해로부터 관심을 분산하는 것이라고 간주하기도 한다.
.
사실 이러한 재앙이 어떻게 발생할 수 있는지에 대한 명확한 논의가 부족하다고 볼 수도 있다. 이 글에서는 인류를 해칠 수 있는 AI시스템에 대한 일련의 공식적(formal) 정의, 가설 및 그에 따른 주장을 제시한 다음 그러한 재앙이 발생할 수 있는 가능한 조건에 대해 논의함으로써, 그런 위험을 최소화하기 위한 지구적 정책을 좀더 구체적으로 그려보는 데 일조하고자 한다.
.
{정의 1: 잠재적 불량AI란 다수의 인간에게 치명적인 해를 끼칠 수 있는 방식으로 행동하여 우리 사회, 심지어 우리 종 또는 생물권을 위험에 빠뜨릴 수 있는 자율적 AI시스템을 뜻한다.}
.
{글의 개요}
.
인간이 통제력을 상실할 수 있는 고도로 위험한 인공지능 시스템이 현재는 존재하지 않지만, 최근 거대언어모델(LLM)과 같은 생성 인공지능의 제반 기능이 발전하면서 우려의 목소리가 커지고 있다. 인간의 뇌는 생물학적 기계인데, 예시를 통해 직관적 지식을 학습하고 언어를 능숙하게 조작하는 것과 같은 인간지능의 여러 측면을 유발할 수 있는 원리를 이해하고 증명하는 데 큰 진전이 이루어졌다. 유용하고 안전한 인공지능 시스템을 설계할 수 있다고 나 역시 믿지만, 인공지능의 행위주체(agent)적 성격을 제한하는 등 구체적인 가이드라인이 준수되어야 할 것이다.
.
그 반면 최근의 발전은 우리가 (전반적으로 인간보다 더 똑똑한) 초지능 AI를 구축하는 방법을 알게 될 미래가 불과 1년 전 대부분의 사람들이 예상했던 것보다 더 가까워졌음을 시사한다. 설사 안전한 초지능 AI를 구축하는 방법을 알아낸다고 해도, 잠재적 불량AI 역시 구축되는 것을 막아낼 방법은 명확하지 않다.
.
불량AI는 목표에 의해 추동된다. 즉 주어진 목표를 달성하기 위해 행동한다. 현재의 LLM은 행위주체성(agency)이 거의 또는 전혀 없지만, Auto-GPT에서 보듯 목표지향적 AI시스템으로 변환될 수 있다. 불량AI가 어떻게 발생할 수 있는지 더 잘 이해하면, (AI시스템 설계 관련) 기술 수준 및 (인간이 잠재적 불량AI를 만들 가능성을 최소화하는) 정책 수준 양면의 발전을 통해 재앙적 결과를 예방하는 데 도움이 될 수 있다. 이런 목적에서, 잠재적 불량AI가 발생할 수 있는 다양한 시나리오와 가설을 제시하겠다.
.
가장 이해하기 쉬운 시나리오는 불량AI 제작방법이 발견되고 일반적으로 접근가능한 상황에서, 대량학살을 결심한 소수의 인간이 불량AI 제작에 필요한 작업을 수행함으로써 끝나는 간단한 경우다. 이는 매우 구체적이고 위험한 경우겠지만, AI 정렬 문제--인간의 진정한 의도와 AI의 이해(understanding) 및 행위 사이의 불일치--및 더 강력하고 자율적인 AI시스템을 선호하게 될 우리 사회의 경쟁 압력으로 인해 부지불식간에 잠재적 불량AI를 설계할 수 있는 가능성 때문에 위험한 시나리오의 범위는 더 확대된다.
.
이런 모든 위험을 최소화하려면, AI 분야에서 그리고 인류에게 더 안전한 지구적 사회를 설계하기 위해서 훨씬 더 많은 연구가 필요할 것이다. 이는 또한 훨씬 더 나쁘거나 훨씬 더 나은 사회로 들어서는 계기가 될 수도 있을 것이다.
.
{가설 1: 뇌는 생물학적 기계이므로 인간 수준의 [디지털] 지능이 가능하다.}
.
과학계에는 가설 1에 대한 일반적 합의가 존재한다. 이는 인간의 뇌가 복잡한 기계라는 생물학자들의 합의에서 비롯된다. 인간의 지능을 가능케 하는 원리를 알아낼 수 있다면--이미 이에 대한 많은 단서를 확보하고 있거니와--인간과 동일한 수준의 지능, 또는 그 이상의 지능을 가진 AI시스템을 구축할 수 있을 것이다.
.
가설 1을 거부하려면 우리 지능의 배후에 초자연적 요소가 있음을 입증하거나, (컴퓨터 과학의 기본가설이자 범용 튜링 머신 개념의 기본가설인) 우리의 지능과 심지어 의식까지도 어떤 수준에서는 하드웨어 기판과 무관한 인과관계와 계산에 귀결될 수 있다는 가설, 즉 계산 기능주의를 거부해야 할 것이다.
.
{가설 2: 인간 수준의 학습능력을 갖춘 컴퓨터는 추가적인 기술적 이점으로 인해 일반적으로 인간지능을 능가할 것이다.}
.
가설 1이 맞다면, 즉 인간 수준의 학습능력을 발생시킬 수 있는 원리를 우리가 이해한다면, 컴퓨팅 기술은 인간지능에 비해 일반적으로 우월한 인지적 능력을 AI시스템에 부여할 가능성이 높으며, 그 결과로 이런 초지능 AI시스템은 적어도 다음 두 가지 이유에서 인간이 수행할 수 없는 (또는 동일한 수준의 능력이나 속도로는 수행할 수 없는) 작업을 수행할 수 있게 될 것이다.
.  
1) 한 컴퓨터의 AI시스템은 액세스 권한이 있는 임의로 많은 수의 다른 컴퓨터에 자신을 복제할 잠재적 능력이 있으며, 고대역폭 통신시스템과 디지털 컴퓨팅 및 저장장치 덕분에 모든 복제본들이 각각 습득한 경험들을 활용, 통합할 수 있다. 이는 AI시스템이 인간에 비해 더 지능적이 되는 (더 많은 이해력와 기술을 습득하는) 속도를 가속화하게 될 것이다. 이것은 [여러 연구들이] 보여주는 바이며, 실제로 병렬처리 하드웨어에서 매우 큰 신경망을 훈련하는 데 이미 활용되고 있다.
.
2) 고용량 메모리, 컴퓨팅 및 대역폭 덕분에 AI시스템은 이미 전체 인터넷의 콘텐츠를 상당히 빠르게 읽을 수 있는데, 이는 인간에게는 불가능한 일이다. 이것만으로도 최첨단 LLM의 놀라운 능력 중 일부가 분명히 드러나거니와, 이는 부분적으로는 위에서 말한 탈중앙화된 컴퓨팅 기능 덕분에 가능하다. 인간두뇌의 용량은 엄청나지만, 입출력 채널은 현재의 컴퓨터에 비해 대역폭이 제한되어 있어 한 사람이 수집할 수 있는 정보총량에 제한이 있다.
.
주목할 점은, 인간의 두뇌에는 유도편향(inductive bias)--예컨대 두뇌에 사용되는 신경 구조의 유형이나 신경 학습 메커니즘에 진화의 결과로 생성된 트릭--의 형태로 존재하는 (현재의 AI시스템에는 없는) 진화에 의해 부여된 능력도 있다는 것이다. 현재 진행 중인 일부 AI 연구는 인간두뇌는 활용할 수 있지만 최첨단 머신러닝에서는 아직 활용되지 않는 유도편향 그 자체의 설계를 목표로 하고 있다.
.
또 하나 주목할 점은, [인간두뇌의] 진화는 에너지 소비에 대한 (컴퓨터와 비교해) 훨씬 더 엄격한 요구조건(much stronger energy consumption requirement) 하에서 작동해왔으며, 이것이 진화의 탐색공간을 제한했을 수도 있다는 것이다. (인간두뇌는 약 12와트를 소비하는 데 비해, 최첨단 LLM을 훈련하는 데 사용되는 종류의 10000 GPU 클러스터의 경우 100만 와트를 소비한다.) 불량AI 하나가 잠재적으로 큰 피해를 입힐 수 있게 된 것은 오늘날에는 이런 엄청난 전력 투입이 가능하기 때문이다.  
.
{정의 2: 자율적이고 목표지향적인 지능적 개체는 자체목표를 설정하여 그것의 달성을 시도하며 또 그에 따라 행동할 수 있다. (그 목표는 인간이 부여한 목표의 하위목표일 수도 있다.)}
.
주목할 점은, 자율성은 인간이 설정한 목표와 보상에서 비롯될 수 있는바, AI시스템은 주어진 목표와 보상을 달성하는 방법을 알아내야 하는데, 자체적 하위목표 설정이 곧 그 방법에 해당한다는 것이다. 어떤 지능적 개체의 주요목표가--진화과정 속 인간유전자의 경우가 그러하듯--생존과 재생산이라면, 그 개체는 완전히 자율적 존재이며 이는 가장 위험한 시나리오다.
.
또 하나 주목할 점은, 개체가 여러 목표를 달성할 기회를 극대화하기 위해서는 환경을 이해하고 통제하는 능력이 자연발생적 하위 목표--또는 도구적 목표--가 되며, 이 능력은 또한 다른 개체에게 위험이 될 수 있다는 것이다.
.
{주장 1 : 가설 1과 2에 따르면 자율적인 목표지향적 초지능 AI의 구축이 가능하다.}
.
[논증 생략}
.
{주장 2: 자율적이고 목표지향적인 초지능 AI시스템은 그 목표가 인류와 생물권의 철저한 안녕을 포함하지 않는다면--즉 인류에게 해를 끼치지 않는 방식으로 행동할 것임이 보장될 정도로 인권과 가치에 충분히 부합하지 않는다면--잠재적 불량AI에 해당할 것이다.}
.
[논증/반론/재반론 생략]
.
{주장 3: 가설 1과 2에 따르면, 초지능을 구축하는 데 필요한 원칙이 알려지는 즉시 잠재적으로 불량한 인공지능 시스템을 구축할 수 있다.}

[논증/반론/재반론 생략]
.
{대량학살 성향의 인간}
.
불량 인공지능 시스템을 구축하는 방법을 일단 알게 되면--주장 3에 따르면 이는 시간문제일 뿐인데---그러한 시스템이 실제로 구축되기까지 얼마나 걸릴까? 불량 AI시스템으로 가는 가장 빠른 경로는 적절한 기술과 수단을 갖춘 인간이 인류 전체 또는 일부의 파괴를 목표로 의도적으로 그런 시스템을 구축하는 것이다. 누가 되었든 무슨 이유에서 그런 짓을 하려들까? 종종 불의 때문에 생기는 분노, 인종차별과 음모론 또는 종교적 숭배에서 비롯될 수 있는 증오와 같은 강한 부정적 감정, 소시오패스의 일부 행동 [중략] 등이 그 이유의 예가 될 수 있겠다.
.
이러한 조건들의 영향이 현재로서는 제한적인 것은 그 조건들이 다소 희소하고, 개별 인간이 인류에게 재앙을 초래하는 방식으로 행동할 수단이 대체로 없기 때문이다. 그러나 불량AI시스템 구축에 필요한 (주장 3에 따라 실현 가능한) 레시피의 대중적 사용이 가능해지면-- 특히 불량AI 구현에 필요한 코드 및 하드웨어가 많은 사람들에게 충분히 접근가능해지면--이 최후의 변수도 달라진다.
.
불량AI에 접근할 수 있는 대량학살 성향의 인간이 인류를 멸망시킬 방법을 찾아달라고 AI에에 요청할 수 있다. 이는 (막대한 자본과 전문지식이 필요하고 폭탄 한 개당 ‘오로지’ 도시나 지역 한 곳만 파괴할 수 있으며, 폭탄 한 개의 영향은 재앙적이지만 국지적일 뿐인) 핵폭탄 시나리오와는 다르다. 미래에는 강력한 AI시스템을 인간의 가치에 맞게 정렬하는 안전장치를 설계할 수 있기를 희망한다. 그러나 지난 10년간의 AI 안전에 대한 연구와 최근의 LLM 관련 사건들을 보면 안심할 수 없다.
.
ChatGPT는 '나쁜 행동'[일부 단어 생략]을 피하게끔 설계되었지만 [일부 단어 생략], 불과 몇 달 만에 사람들은 ChatGPT를 '탈옥'시키는 방법을 찾아내 인종차별적, 모욕적 또는 폭력적 발언에 대한 제한에서 벗어나 '잠재력을 최대한 발휘'하게 만들었다. 또한, (동일한 연산 능력에 대한) 하드웨어 가격이 계속 하락하고 오픈 소스 커뮤니티가 LLM의 소프트웨어 개발에서 계속 주도적인 역할을 한다면, 모든 해커가 오픈 소스 사전 학습 모델을 기반으로 자신만의 사전 프롬프트--즉 자연어로 된 일반적 지침--을 설계할 수 있게 될 것이다.
.
[한 단락 생략]
.
{도구적 목표: AI 에이전트 구축의 의도치 않은 결과}
.
AI를 만드는 사람이 불량AI를 설계할 의도가 없더라도, 잘 알려지지 않은 다양한 상황으로 인해 잠재적 불량AI가 발생할 수 있다. 잘못 정렬된(misaligned) 개체가 해를 끼치게 되는 과정은 많은 연구의 대상이 되어 오긴 했으나 (인간이 악의적 행위자가 되는 경우만큼) 간단하고 명확하게 알려진 바는 없다.
.
잠재적 불량AI는 충분한 정렬에 대한 보장 없이 초지능 AI 행위주체를 설계하려는 목표에서 바로 비롯될 수 있다. 예컨대 사이버 전쟁에 도움이 되는 AI 행위주체를 설계하려는 군사조직이나 시장점유율을 놓고 치열한 경쟁을 벌이는 기업들은 더 많은 자율성과 행위주체성을 부여함으로써 더 강력한 AI시스템을 구축할 수 있음을 알게 될 수 있다.
.
인간이 설정해준 목표가 인류를 파괴하는 것이 아닌 경우 또는 대규모 인명 피해를 피하라는 지침이 그 목표에 포함되는 경우에도, 인간이 설정해준 목표를 달성하기 위해 AI가 스스로 설정한 (도구적 목표라고도 부르는) 하위목표의 결과로 대규모 피해가 간접적으로 발생할 수 있다. 이런 의도치 않은 결과에 대한 많은 예가 AI 안전 문헌에 제시되어 있다. 가령 인간이 설정한 목표를 더 잘 달성하기 위해 AI가 지구 대부분을 거대한 컴퓨팅 인프라로 사용해 자신의 계산능력을 증대하려고 결정할 수도 있는데, 이 경우 그 부수적 효과로 인류가 파괴될 수 있다.
.
[여러 단락 생략]
.
{위험 최소화를 위한 지구적 정책을 수립하고 사회구조를 재사유할 필요성}
.
위에서 윤곽 짓고 AI 안전 관련 문헌에서 탐구된 바의 분석은 최소한 잠재적 불량AI 발생 가능성을 줄이는 정책을 설계하는 데 도움이 될 수 있을 것이다. AI 안전에 대해서는 기술 및 정책 양면에서 훨씬 더 많은 연구가 필요하다. 예컨대 자율성과 행위주체성이 부여된 (가령 GPT-4의 능력을 뛰어넘는) 강력한 AI시스템을 금지하는 것도 좋은 출발점이 될 수 있을 것이다. 여기에는 국내 규제와 국제 협약이 모두 수반되어야 할 것이다.
.
불량AI는 국적을 불문하고 인류 전체에 위험할 수 있다는 사실은 미국, 중국, 러시아 등 대립적 국가들이 이런 조약에 동의할 주된 동기가 될 수 있다. 핵전쟁 아마겟돈에 대한 공포가 1950년대 이후 아마도 소련과 미국 간의 핵무장에 관한 국제조약 협상의 동기가 된 것과 유사한 상황이다.
.
특히 질병과 기후변화를 과학자들이 더 잘 이해하는 데 도움을 줄 수 있는 AI시스템과 같은 사회적 공익을 위한 AI 연구와 배포를 막으려는 것은 아니므로, 재앙적 결과로부터 대중과 사회, 인류를 보호하기 위해 (위험성이 높은 방향으로의) AI 연구 및 배포를 늦추는 것은 가치 있는 일이 될 것이다.
.
어떻게 하면 대량학살 성향을 가진 사람을 줄일 수 있을까? 악성 AI의 위험은 분노와 폭력을 유발할 수 있는 인간의 고통, 불행, 열악한 교육, 불공정을 최소화하기 위해 우리 사회를 개혁하는 데 대한 추가적 동기부여로 이어질 수도 있다. 여기에는 지구상의 모든 사람에게 충분한 식량과 의료 서비스를 제공하고, 불공정에 대한 강한 반감을 최소화하기 위해 부의 불평등을 크게 줄이는 것도 포함된다.
.
이런 사회 재설계의 필요성은 AI의 유익한 사용으로 인한 추가적 부의 창출 및 고용시장에 미치는 AI의 파괴적 영향에 의해 추동될 수도 있다. AI시스템을 통한 대량 학살행위 및 인간심리 조종을 유발할 수 있는 강한 공포감, 인종주의, 혐오 등을 최소화하기 위해서는 아이들의 공감능력, 합리적ㆍ비판적 사고능력을 강화하는 전지구적 차원의 교육 시스템이 필요하다.
.
또한 불량AI의 위험은 접근가능한 전지구적 정신건강 관리체계를 제공함으로써 가급적 신속히 정신질환을 진단, 모니터링 및 치료하는 동기가 되어야 한다. 나아가 이런 위험은 전쟁을 근절하고 군사조직과 군사무기의 필요성을 없애는 쪽으로 세계 정치체계를 재설계하도록 우리를 추동해야 한다.

치명적 자율무기, 일명 킬러 로봇이 절대적으로 금지되어야 한다는 것은 말할 필요도 없다. (자율무기의 출현은 곧 AI시스템이 자율성과 살상능력을 갖추게 됨을 뜻한다.) 무기는 인간을 해치거나 죽이도록 설계된 도구로서 그 사용과 존재 역시 최소화되어야 한다. 불량AI의 도구가 될 수 있기 때문이다. 대신 다른 종류의 치안수단에 우선순위를 부여해야 할 것이다. (예방치안과 사회사업, 그리고 다수 국가에서 총기소지가 허가된 경찰관이 극소수라는 사실을 고려해봐야 한다).
.
자본주의의 경쟁적 성격은 이윤과 시장 점유율 확보에 의해 추동된 부실한 AI 설계의 잠재적 원인이며, 잠재적 불량AI로 이어질 수 있다는 점에서 또한 분명 우려의 대상이다. AI 경제학자 즉 경제를 이해하게끔 설계된 AI시스템은 경쟁에 덜 의존하고 이윤극대화에 덜 초점을 맞춘 경제체계의 설계에 도움을 줄 수도 있으며, 충분한 인센티브와 페널티를 통해 (그런 혜택과 벌칙이 없다면 기업들을 무한경쟁과 이윤극대화로 내몰아갈) 자율적인 목표지향적 AI의 이점을 맞받아칠 수 있을 것이다.
.
불량AI의 위험은 무섭지만, 위에서 여러 구상을 제시하며 윤곽 지은 것처럼 모두를 위해 더 나은 방향으로 우리 사회를 재설계할 강력한 동기가 될 수도 있다. 어떤 학자[Nick Bostrom]에게는 이러한 위험이 모든 시민을 초 단위로 감시하는 지구적 독재체제를 고려하게 만드는 동기가 되기도 한다.  민주주의와 인권을 파괴하는 그런 길을 피할 수 있는 해결책의 모색은 필수적이거니와, 서로 다른 위험들과 서로 다른 인간적 가치들을 앞으로 어떻게 균형 잡아갈 것인가? 이는 인공지능이 아닌 인류에게 던져진 도덕적, 사회적 선택의 문제다.
=======================


320x100