728x90
반응형

참조한 사이트 : https://www.techtarget.com/searchenterpriseai/definition/GPT-3

 

What is GPT-3? Everything You Need to Know - TechTarget

GPT-3 is a large language model capable of generating realistic text. Learn how it works, its benefits and limitations, and the many ways it can be used.

www.techtarget.com

상기 사이트는 2023년 1월에 업데이트되었습니다.


GPT-3는 third-generation Generative Pre-trained Transformer 의 줄임말입니다.
신경망 아키텍처는 Transformer모델이며 선학습된(Pre-trained) 것을 활용하여 글자를 생성(Generative)해 준다는 것입니다.(역시 어순은 역순입니다.^^)
인터넷에 존재하는 데이터를 활용하여 신경망 기반으로 머신러닝모델을 만들었다고 합니다.잘아시다시피 OpenAI라는 회사/연구소를 통해 만들어졌고요. 소량의 요청/질의에 대해 상당한 출력 글자/문장을 만들어냅니다

신경망 모델은 1,750억개의 모델 파라미터를 가지고 있습니다.GPT-3 이전에는 Microsoft's의 Turing Natural Language Generation(NLG) model이 약 100억개의 모델파라미터였습니다. 2021년에는 GTP-3가 현재하는 최대 언어모델입니다.

GPT-3는 NLP(자연어처리, Natural Language Processing)를 수행하여 이해(Understanding)도 하고, 그 이해를 기반으로 생성(generation)을 수행합니다. 기사, 시, 이야기, 뉴스리포트, 대화를 생성합니다.

ChatGPT는 GPT의 변종(Variant)입니다. 인간의 대화처럼, 문제를 제기할 수 있고 실수를 받아들이고 잘못된 것을 수정/조치도 합니다. 연구기간에는 대중에게 공개하여 피드백을 모아서, 개선작업을 하고 있습니다.
또, 다른 활용 사례는 Dall-E로서, 이미지/영상을 생성하는 것입니다.이 모델은 120억개의 모델파라미터를 가집니다. 글자-이미지쌍의 데이터로 훈련되었으며 사용자의 명령어 글자 입력에 대해 이미지를 생성해냅니다.
즉 챗GPT(ChatGPT)와 Dall-E는 GPT-3(또는 그이상의 버전)을 활용하고 있습니다.

ChatGPT의 활용사례는
- 프로그램 코드 작성
- 웹페이지 모사
- 정규식 사용/이해
- 그림 그리기, 차트 만들기
- 엑셀 함수 적용
- 의료분야(health care)
입니다.

또한, 영어 표현으로는 아래와 같습니다.

  • create memes, quizzes, recipes, comic strips, blog posts and advertising copy;..... 글자 생성 범주입니다.
  • write music, jokes and social media posts;... 작성/생성 범주입니다.
  • automate conversational tasks, responding to any text that a person types into the computer with a new piece of text appropriate to the context;,.... 대화 생성 범주입니다.
  • translate text into programmatic commands;.... 프로그램 생성 범주입니다..
  • translate programmatic commands into text;... 프로그램 명령어를 생성하는 범주입니다.
  • perform sentiment analysis;.... 감정분석도 수행
  • extract information from contracts;... 계약서에서 중요 정보 추출
  • generate a hexadecimal color based on a text description;.... 글자 서술에서 엑사코드형태로 색깔 출력(?)
  • write boilerplate code;....
  • find bugs in existing code;.... 기존 소스/프로그램 코드에서 버그를 고침
  • mock up websites;... 웹페이지 초안 구성
  • generate simplified summarizations of text;.... 기사/문서 요약
  • translate between programming languages; and...
  • perform malicious prompt engineering and phishing attacks.


GPT-3가 어떻게 동작하는가?
GTP-3는 문장을 예측(Language Prediction)하는 모델입니다.
GTP이전에는 BERT와 Turning NLG가 있었습니다. BERT는 Bidirectional Encoder Representations from Transformers입니다.
일반적으로 파라미터 갯수가 문장생성의 성능을 좌우합니다.

모델 파라미터가 기존 millions 레벨에서  billion 레벨업되면서, 그 기능 및 성능도 향상되었습니다.


GPT-3의 잇점
출력하는 문장의 양이 많으므로 다른 용도의 훈련 코퍼스 생성에 활용할 수 있습니다.
시스템적으로 가벼워서 Desktop이나 smartphone에서도 수행될 수 있다.( 요청 과정? 추정 과정?)

Risks and Limitations
Limitations
- Pre-training : 일정(constantly)학습을 할 수 없습니다. Long-Term Memory가 없기 때문입니다.
- Limited input size : Transformer 아키텍처는 입력 길이에 제한이 있습니다. GTP-3는 2,048개의 tokerns로 제한됩니다.
- Slow inference time : 추론 즉 생성하는데 많은 시간이 소요됩니다.
- Lack of explainability :
Risks
- Micicry : 모사성에 의한 귄리/소유권 이슈
- Accuray :
- Bias : 기계학습에 따른 편향(Bias), 태생이 인터넷에 있는 Text데이터 기반임. 인터넷에 있는 데이터가 모두 깨끗하고 정제되었다 라고 가정하기 힘듬.


GPT-3의 역사
- Micro-soft의 투자와 배터적/독점적 소유권
GPT-3의 미래
- MS 카운터 진영의 생성 미 활동성 기대
- 상업용도의 특정 도메인 특화된 생성모델의 분야가 창출될 것임

728x90
반응형

+ Recent posts