본문 바로가기
각종 생활정보

새로운 GPT-4 모델에 대한 특징 및 특성 요약정리

by 히제 2023. 3. 15.
반응형

기다리던 OpenAI의 새로운 모델, GPT-4가 공개되었습니다.

주요 내용을 아래 본문에 카테고리별로 정리해보았습니다.

 

사람의  뉴런 역할을 수행하던 매개변수가 100조개라는 이야기도 사전부터 나왔었는데, 정말로 매개변수가 100조 개일까 라는 질문에 대한 대답 또한 마지막에 적어두었습니다.

 

※ 작성 참고 사이트

GPT-4 소개 공식 페이지
GPT-4 설명 공식 블로그
GPT-4 기술 문서

 

GPT-4 기술에 대한 요약 정리

      1. 싱글Modal에서 멀티Modal 모델로 변화
        • Input Data는 텍스트와 더불어 이미지까지 가능해짐(다만 Output은 텍스트로만 받을 수 있음)
        • 텍스트와 이미지가 함께 Input으로 들어가더라도 모델 내부적으로는 그 Data들을 섞어서 받아들임 → 글과 이미지가 섞인 Input이더라 해도 text-only Input과 유사 성능을 보여줌
        • 데이터 형태의 개수는 예상보다 적었으나(텍스트, 이미지) 추후 음성이나 영상 등 다른 데이터 형태를 처리하는 것은 시간 문제
      2. GPT-3보다 개선된 성능
        • 인간이 보는 시험 or 벤치마크(=기계 성능을 테스트하는 시험)에서 GPT-3.5 뿐 아니라 경쟁사들의 LM SOTA 모델보다 우수한 성능을 보여줌
        • Advanced Reasoning 능력이 ChatGPT보다 개선되었으며 사람이 치는 시험에서 우수한 성적을 얻음(변호사 시험 상위 10%, 생물 올림피아드 상위 1% 등)
        • 이전 세대 대비 8배 가량 증가한 영단어(25,000개) 처리 가능
      3. 모델의 안전성 강조
        • GPT-4 모델 학습 자체는 22년 8월에 이미 끝냈으나, 그 이후 동안 Safety 및 Alignment 향상에 집중
        • 도메인별 50명의 전문가 피드백을 바탕으로 한 RLHF 및 RBRMs(Rule-Based Reward Models)을 활용하여 안전성 개선
        • 답변해서는 안 되는 질문(Disallowed Prompt)에 대한 답변이 GPT-3.5 대비 82% 감소, 민감하지만 답변해도 되는 질문(Allowed Prompt)은 29% 증가 : 위험한 질문은 잘 걸러내고 지나치게 보수적이었던 답변 성향은 개선
        • 사실에 입각한 응답 비율은 GPT-3.5 대비 40% 가량 증가
      4. 기술적으로 예측 가능해진 모델
        • GPT처럼 거대한 모델은 튜닝이 어렵기 때문에 GPT-4 프로젝트는 성능이 예측가능한 모델을 개발하는 것이 핵심 목표였으며, 예상치와 관측치가 꽤 일치한 수준의 성능을 보여줌
        • OpenAI 모델 성능을 평가할 수 있는 Evals를 오픈 소스로 공개 (GPT 모델 자체를 오픈 소스로 공개한 것은 아님)
      5. 다양해진 사용성과 높아진 잠재력
        • ChatGPT Plus에 탑재되었고 현재 API Waitlist를 받고 있음.
        • 듀오링고, 스트라이프, 모건스탠리 등에서 GPT-4를 활용함.
        • API에 System Message기능을 추가하여 GPT 사용자와 개발자가 모델의 behavior를 커스터마이징할 수 있게 
      6. 모델 관련 공개여부
        • 기술 보고서에서 모델 사이즈를 포함한 아키텍처, 데이터 구성, 학습 방식 등은 공개하지 않음.
        • 따라서 매개변수가 100조 개인지 여부를 정확히 알 수는 없음
반응형

댓글