참조한 사이트 : https://www.techtarget.com/searchenterpriseai/definition/GPT-3
상기 사이트는 2023년 1월에 업데이트되었습니다.
GPT-3는 third-generation Generative Pre-trained Transformer 의 줄임말입니다.
신경망 아키텍처는 Transformer모델이며 선학습된(Pre-trained) 것을 활용하여 글자를 생성(Generative)해 준다는 것입니다.(역시 어순은 역순입니다.^^)
인터넷에 존재하는 데이터를 활용하여 신경망 기반으로 머신러닝모델을 만들었다고 합니다.잘아시다시피 OpenAI라는 회사/연구소를 통해 만들어졌고요. 소량의 요청/질의에 대해 상당한 출력 글자/문장을 만들어냅니다
신경망 모델은 1,750억개의 모델 파라미터를 가지고 있습니다.GPT-3 이전에는 Microsoft's의 Turing Natural Language Generation(NLG) model이 약 100억개의 모델파라미터였습니다. 2021년에는 GTP-3가 현재하는 최대 언어모델입니다.
GPT-3는 NLP(자연어처리, Natural Language Processing)를 수행하여 이해(Understanding)도 하고, 그 이해를 기반으로 생성(generation)을 수행합니다. 기사, 시, 이야기, 뉴스리포트, 대화를 생성합니다.
ChatGPT는 GPT의 변종(Variant)입니다. 인간의 대화처럼, 문제를 제기할 수 있고 실수를 받아들이고 잘못된 것을 수정/조치도 합니다. 연구기간에는 대중에게 공개하여 피드백을 모아서, 개선작업을 하고 있습니다.
또, 다른 활용 사례는 Dall-E로서, 이미지/영상을 생성하는 것입니다.이 모델은 120억개의 모델파라미터를 가집니다. 글자-이미지쌍의 데이터로 훈련되었으며 사용자의 명령어 글자 입력에 대해 이미지를 생성해냅니다.
즉 챗GPT(ChatGPT)와 Dall-E는 GPT-3(또는 그이상의 버전)을 활용하고 있습니다.
ChatGPT의 활용사례는
- 프로그램 코드 작성
- 웹페이지 모사
- 정규식 사용/이해
- 그림 그리기, 차트 만들기
- 엑셀 함수 적용
- 의료분야(health care)
입니다.
또한, 영어 표현으로는 아래와 같습니다.
- create memes, quizzes, recipes, comic strips, blog posts and advertising copy;..... 글자 생성 범주입니다.
- write music, jokes and social media posts;... 작성/생성 범주입니다.
- automate conversational tasks, responding to any text that a person types into the computer with a new piece of text appropriate to the context;,.... 대화 생성 범주입니다.
- translate text into programmatic commands;.... 프로그램 생성 범주입니다..
- translate programmatic commands into text;... 프로그램 명령어를 생성하는 범주입니다.
- perform sentiment analysis;.... 감정분석도 수행
- extract information from contracts;... 계약서에서 중요 정보 추출
- generate a hexadecimal color based on a text description;.... 글자 서술에서 엑사코드형태로 색깔 출력(?)
- write boilerplate code;....
- find bugs in existing code;.... 기존 소스/프로그램 코드에서 버그를 고침
- mock up websites;... 웹페이지 초안 구성
- generate simplified summarizations of text;.... 기사/문서 요약
- translate between programming languages; and...
- perform malicious prompt engineering and phishing attacks.
GPT-3가 어떻게 동작하는가?
GTP-3는 문장을 예측(Language Prediction)하는 모델입니다.
GTP이전에는 BERT와 Turning NLG가 있었습니다. BERT는 Bidirectional Encoder Representations from Transformers입니다.
일반적으로 파라미터 갯수가 문장생성의 성능을 좌우합니다.
GPT-3의 잇점
출력하는 문장의 양이 많으므로 다른 용도의 훈련 코퍼스 생성에 활용할 수 있습니다.
시스템적으로 가벼워서 Desktop이나 smartphone에서도 수행될 수 있다.( 요청 과정? 추정 과정?)
Risks and Limitations
Limitations
- Pre-training : 일정(constantly)학습을 할 수 없습니다. Long-Term Memory가 없기 때문입니다.
- Limited input size : Transformer 아키텍처는 입력 길이에 제한이 있습니다. GTP-3는 2,048개의 tokerns로 제한됩니다.
- Slow inference time : 추론 즉 생성하는데 많은 시간이 소요됩니다.
- Lack of explainability :
Risks
- Micicry : 모사성에 의한 귄리/소유권 이슈
- Accuray :
- Bias : 기계학습에 따른 편향(Bias), 태생이 인터넷에 있는 Text데이터 기반임. 인터넷에 있는 데이터가 모두 깨끗하고 정제되었다 라고 가정하기 힘듬.
GPT-3의 역사
- Micro-soft의 투자와 배터적/독점적 소유권
GPT-3의 미래
- MS 카운터 진영의 생성 미 활동성 기대
- 상업용도의 특정 도메인 특화된 생성모델의 분야가 창출될 것임
'인공지능 머신러닝 딥러닝 신경망' 카테고리의 다른 글
서울의 하루 - 통계 정보 (0) | 2023.03.28 |
---|---|
챗-GPT3를 직접 만든다면? #2-최종 (0) | 2023.02.08 |
챗-GPT3를 직접 만든다면? #1 (0) | 2023.02.08 |
[챗봇] OpenAI의 Chat-GPT vs. Google의 챗봇( Apprentice Bard ) (0) | 2023.02.06 |
[챗봇] 오픈(공개) 소스-ChatGPT의 훈련 알고리즘 (0) | 2023.02.06 |