생성적 사전학습 변환기 2(Generative Pre-trained Transformer 2) 즉 GPT-2는 OpenAI에서 만든 인공지능이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 단문의 경우 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.
2019년 2월[2][3][4][5] OpenAI에서 만든 오픈 소스 인공 지능 대규모 언어 모델로서 GPT-2는 텍스트를 번역하고, 질문에 답하고, 구절을 요약하고,[6] 때때로 인간과 구별할 수 없지만[7] 반복될 수 있는 수준의 텍스트 출력을 생성한다. 범용 학습기이다. 이러한 작업을 수행하도록 특별히 훈련되지 않았으며 이러한 작업을 수행하는 능력은 다음 항목을 임의의 순서로 정확하게 합성하는 일반적인 능력의 확장이다. GPT-2는 OpenAI의 2018 GPT 모델("GPT-1")의 "직접 확장"으로 생성되었으며[8] 매개변수 수와 훈련 데이터 세트 크기가 모두 10배 증가했다.[5]
GPT-2는 심층 신경망, 특히 이전의 반복 및 컨볼루션 기반 아키텍처 대신 어텐션을 사용하는 변환기 모델을 구현하는[8] 사전 훈련된 생성 변환기 아키텍처를 가지고 있다.[9][10] 어텐션 메커니즘을 통해 모델은 가장 관련성이 높은 것으로 예측되는 입력 텍스트 세그먼트에 선택적으로 초점을 맞출 수 있다.[11][12] 이 모델은 병렬화를 크게 증가시키고 RNN/CNN/LSTM 기반 모델에 대한 이전 벤치마크를 능가한다.[8]
OpenAI는 2019년 11월 GPT-2 언어 모델의 전체 버전(15억 개의 매개변수 포함)을 출시했다.[13]
자연어 텍스트의 그럴듯한 구절을 생성하는 GPT-2의 능력은 일반적으로 긍정적으로 언급되었지만 특히 몇 단락보다 긴 텍스트를 생성할 때 단점도 지적되었다. 복스는 "산문이 꽤 거칠고 가끔 비평등이 있으며 기사가 길어질수록 일관성이 떨어진다"라고 말했다.[14] 더 버지는 유사하게 GPT-2 쓰기의 더 긴 샘플이 "주제에서 벗어나는" 경향이 있고 전체적인 일관성이 부족하다고 지적했다.[15] 더 레지스터는 "사람이 그것을 읽으면 잠시 후에 무언가 문제가 있음을 깨달아야 한다"라고 말하면서 "GPT-2는 정보를 추출하고 검색하는 알고리즘에 의존하는 다른 시스템과 마찬가지로 질문에 대답하지 않는다."라고 언급했다.[16]
GPT-2 배포는 리소스를 많이 사용한다. 모델의 정식 버전은 5기가바이트보다 커서 로컬에서 응용 프로그램에 포함하기 어렵고 많은 양의 RAM을 사용한다. 또한 단일 예측을 수행하면 "CPU를 100% 사용하여 몇 분 동안 점유할 수 있으며" GPU 처리를 사용하더라도 "단일 예측에는 몇 초가 걸릴 수 있다."[7] 이러한 문제를 완화하기 위해 회사 허깅 페이스는 지식 증류를 사용하여 "일부 품질 벤치마크에서 몇 점 더 낮은 점수"를 받지만 "33% 더 작고 두 배 빠른" 더 작은 모델을 생성하는 DistilGPT2를 만들었다.[7]
언론이 설명한 GPT-2의 잠재적 응용 분야에는 뉴스 기사와 같은 텍스트를 작성하는 데 인간을 돕는 것이 포함된다.[17] 정식 버전이 출시되기 전부터 GPT-2는 엔터테인먼트뿐만 아니라 다양한 애플리케이션과 서비스에 사용되었다. 2019년 6월에 r/SubSimulatorGPT2라는 이름의 하위 레딧이 생성되어 서로 다른 하위 레딧에서 훈련된 다양한 GPT-2 인스턴스가 게시물을 작성하고 서로의 댓글에 응답하여 "r/Bitcoin의 AI 의인화 주장을 관찰할 수 있는 상황을 만든다. (r/ShittyFoodPorn의 기계 학습에서 파생된 정신으로)[18] 그해 7월까지 다양한 프로그래밍 언어로 된 코드 라인을 자동 완성하기 위해 출시된 GPT-2 기반 소프트웨어 프로그램은 사용자들에게 "게임 체인저"로 묘사되었다.[19]
2019년에는 GPT-2를 사용하여 사용자 입력을 기반으로 동적 텍스트 모험을 생성하는 AI Dungeon이 출시되었다.[20] AI Dungeon은 이제 선택적인 유료 업그레이드로 GPT-3 API의 가장 큰 릴리스에 대한 액세스를 제공하며 사이트의 무료 버전은 GPT-3의 두 번째로 큰 릴리스를 사용한다.[21] AI Dungeon을 중심으로 설립된 래티튜드(Latitude)는 2021년에 시드 펀딩으로 330만 달러를 모금했다.[22] 여러 웹사이트에서 GPT-2 및 기타 변압기 모델의 다양한 인스턴스에 대한 대화형 데모를 호스팅한다.[23][24][25]
2021년 2월, 문제가 있는 십대를 위한 위기 센터는 GPT-2에서 파생된 챗봇을 사용하여 시뮬레이션된 십대와 대화할 수 있도록 함으로써 카운셀러 교육을 돕기 시작할 것이라고 발표했다.(이 사용은 순전히 내부 목적을 위한 것이며, GPT-2는 청소년들과 소통한다.)[26]
2023년 5월 9일, OpenAI는 매핑된 GPT-2 버전을 출시했다. OpenAI는 후속 모델인 GPT-4를 사용하여 GPT-2의 각 뉴런을 매핑하여 기능을 결정했다.[27]
↑Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)
↑Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)
↑Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)