본문 바로가기

chatgpt 기술탐구

OpenBookQA, RACE, ReCoRD 와 같은 평가도 했는데 의외로 BloomberGPT가 거의 모든 곳에서 좋은 평가를 받았습니다.

반응형

펌 ㅣ BloombergGPT : A Large Language Model for Finance

[논문의 의의]
오늘 소개드릴 논문은 1주일전쯤 공개되었던 BloombergGPT 입니다. (https://arxiv.org/abs/2303.17564) 이번 발표는 크게 3가지의 의미가 있습니다.
최대 금융 정보회사에서 만든 최초의 금융 전용 GPT
모델링, 학습과정, 다양한 task 실험을 자세히 설명했고 데이터 소스의 다양성에 따른 모델영향 측정
Bloomberg에 더 종속시키고 금융 전문가들이 편하게 쓰기 위하게 만든 언어모델
마지막 부분을 쓴 이유는 Bloomberg 소스코드와 모델은 공개되지 않았고 채팅 사이트등 일반사용자은 써볼 수 없는듯 합니다.
Bloomberg 터미널에서만 써볼 수 있을듯 한데 현재까지 아래 용도로 쓰일 것으로 생각됩니다. 특히 BQL은 전문가들도 어려워하는데 자동으로 생성해준다면 Bloomber 터미널에 종속될 것 입니다.
금융 뉴스를 자동으로 생성하여 제공
SEC 등 자료 제출용 및 시장보고서 초안 작성
터미널 이용 회사들의 재무제표 등 특정 요소 검색
자연어로 BQL(Bloomberg Query Language) 자동 생성

[신뢰성있는 금융 데이터로 학습]
금융 도메인은 용어가 특수하고 전문지식이 많이 필요합니다. ChatGPT가 일정 수준까지는 거의 모든 영역에서 답변을 잘하지만 그 이상의 결과가 필요하여 블룸버그에서 최초로 금융특화 LLM을 만들었습니다. 500억개의 파라미터를 가지는 언어모델이고 데이터 소스는 자체 데이터를 조합하여 8000억개 토큰 데이터세트를 구성했습니다.


[데이터셋]
일반적인 LLM은 C4와 같은 웹 데이터를 메인으로 학습합니다. 금융분야는 틀리지 않는 답이 필요하기 때문에 신뢰할 수 있는 금융 데이터를 정리하여 학습시켰습니다. 그림과 같이 FINPILE이라고하는 금융컨텐츠와 금융외데이터를 이용했습니다. FINPILE은 의미있는 금융사이트와 금융뉴스사이트 회사자료, 회사보도자료, 블룸버그 자체뉴스로 구성되었습니다. (363B Tokens)
또한, 외부 데이터는 가장 많이 알려진 Pile, C4, Wikipedia를 학습시켰습니다. (345B Tokens) 이 부분은 뒤에 나올 금융으로부터 확장을 위한 데이터셋입니다.


[모델 평가]
모델을 공개 안해서인지 간단한 아키텍처, 토큰나이저, 계산량, 옵티마이저들을 기술을 해놓았고 AWS의 하드웨어까지 자세히 써두긴했습니다. (해당 계산량을 보고 어떤사람은 대략 30억정도 들었을 것으로 예상했습니다.) 이 부분은 추후 오프라인 학습때 좀 더 자세히 보기로하고 evaluation 위주로 보겠습니다.
모델을 평가할 때는 오픈되어있는 유명 모델들의 비슷한 사이즈 모델 3개를 이용했습니다. (EleutherAI의 GPT-NeoX,  facebook의 OPT-66b, BigSicence BLOOM 176)
BloombergGPT가 financial 관련 테스크에서 더 높은 성능을 냈습니다. 평가를 하기 위한 템플릿도 공개했는데 그림을 참고 부탁드립니다. (페이스북은 그림을 순서대로 붙일 수 없으니 불편하네요) ConvFinQA, FiQA, FPB, Headline, NER 크게 5가지 task를 수행했고 NER를 제외하고 가장 높은 점수를 얻었습니다. NER도 가장 높은 점수와 0.16점밖에 차이나지 않습니다.

* 참고
Headline :  뉴스 헤드라인에 특정 정보가 들어가있는지 판별해내는 task (ex> “금”관련 헤드라인 찾기)
NER :  미국 증권거래위원회의 신용위험평가를 위한 데이터에서 NER을 추출하는 작업
ConvFinQA : S&P 수익보고서를 기반으로 QA 수행
FiQA, FPB : 금융 관련 Sentiment task

금융관련 평가외에도 BIG-benchHard같은 일반적인 질문이나 MRC 평가때 자주 쓰이는 BoolQ, OpenBookQA, RACE, ReCoRD 와 같은 평가도 했는데 의외로 BloomberGPT가 거의 모든 곳에서 좋은 평가를 받았습니다.


[마치며]
블룸버그는 대중에게는 금융관련 뉴스만드는 곳으로 익숙하고 증권쪽에서는 블룸버그 터미널을 이용하여 정보를 많이 얻고있고 그 영향력은 매우 큽니다. AI쪽과는 관련 없어보이지만 학회 등에서 만나보면 이미 수 년 전부터 NLP에 연구를 많이 해왔습니다.
게다가 이번 논문은 ChatGPT에 인기때문에 갑자기 만든 자료가 아니라 구체적인 실험과 Biz와의 연계를 고민한 흔적이 많이 보입니다. 향후에 LLM이 어떻게 흘러가질지와 학술적 의의까지는 평가할 수 없지만 금융에서도 이런 시도를 하고 공개했다는 점에서 높이 사고 싶습니다.


출처 https://www.facebook.com/groups/TensorFlowKR/permalink/2009461786061536/?mibextid=Nif5oz

320x100