ChatGPT의 성능이 과대포장 되었다?

펌) 아래 논문을 보니 갑자기 ChatGPT의 성능이 과장되었거나, 의도된 여론(?)에 의해 과대포장되었을지도 모르겠다는 음모론이 떠오르네요. 삐딱한 시선으로 보면 Y 컴비네이션 출신이라는 뒷배도 그래보이고... 물론 아래 논문이 피어리뷰를 거친 정식 논문이 아니라는 근본적인 한계도 있지만... 암튼 심심풀이 땅콩으로 한번 보시면 좋으실 듯 싶네요.

제목: ChatGPT Survey: Performance on NLP datasets

ChatGPT의 성능과 기존 NLP 논문들과의 성능 비교 고찰 논문

2023년 3월 23일 기준으로 arXiv에서 검색해서 도출된 141개 논문 중 유사하지 않고 비교 가능한 19개 논문을 기준으로 비교. ChatGpt는 151건의 비교 중 34건(22.5%)에서만 나은 성능을 보임. 사람들이 이러한 기능을 정말 좋아함에도 불구하고 chatgpt가 요약 또는 질문 답변과 같은 텍스트 생성 작업에서 탁월하지 않다는 사실에 놀랐음.

결론: chatgpt의 성능에 약간 실망. 훌륭한 제너럴리스트 모델이지만 진정한 언어 지능과는 아직 거리가 멀다. 새로운 모델이 chatgpt보다 훨씬 더 나은 모델이 될지 예측하기는 어렵다.

"ChatGpt의 인기와 다양하고 인상적인 기능으로 인해 일부 사람들은 이것이 기존 시스템보다 언어 능력에 있어 중요한 진전이라고 믿거나, NLP 분야가 곧 생성 언어 모델에 의해 소비될 것이라고 믿거나, 심지어는 인공 지능을 예고한다고 믿기도 합니다. 이러한 주장을 테스트하기 위해 저는 다른 접근 방식, 주로 미세 조정된 소규모 모델을 사용하는 다른 접근 방식과 chatgpt를 비교하는 arXiv 사전 인쇄물을 조사했습니다. chatgpt의 성능은 예상했던 것만큼 인상적이지 않았으며, 훨씬 더 작은 모델보다 성능이 떨어지는 경우가 많았기 때문입니다.

원문: http://opensamizdat.com/posts/chatgpt_survey/

미국주식으로 은퇴하기

ChatGPT의 성능이 과대포장 되었다?

티스토리툴바