Generativ aldınnan tayarlanǵan transformator 1 yaǵnıy GPT-1 (ingl. Generative Pre-Trained Transformer 1, GPT-1) − 2017 jılı Google transformator arxitekturasın oylap tapqannan keyin OpenAI-diń úlken til modelleriniń birinshisi boldı. 2018 jıl iyunda OpenAI “General Pre-trening arqalı tildi túsiniwdi jaqsılaw” atlı maqalasın shıǵardı. Olar generativ aldınnan tayarlanǵan transformatordıń ulıwma koncepciyası menen birge sol baslanǵısh modeldi engizdi.[1]
Usı waqıtqa shekem eń jaqsı jumıs isleytuǵın neyron NLP modelleri tiykarınan qol menen belgilengen maǵlıwmatlardıń úlken kóleminen baqlanatuǵın oqıtıwdı paydalanadı. Baqlanatuǵın oqıtıwǵa ǵárezlilik olardıń jaqsı túsindirilmegen maǵlıwmatlar jıynaǵın paydalanıwın shekledi, sonıń menen qatar júdá úlken modellerdi oqıtıw júdá qımbat hám waqıttı talap etedi; kóplegen tillerge (mısalı suaxili yamasa gaiti kreolı) korpus dúziw ushın qoljetimli teksttiń bolmawına baylanıslı bunday modellerdi paydalanıw arqalı awdarıw hám túsiniw qıyın. Kerisinshe, GPT-diń “yarım baqlanatuǵın” usılı eki basqıshtı qamtıdı: baslanǵısh parametrlerdi ornatıw ushın tildi modellestiriw maqseti paydalanılǵan baqlanbaytuǵın generativ “shınıǵıwǵa shekemgi” basqısh hám olar parametrler maqsetli wazıypaǵa beyimlengen.
Transformator arxitekturasın paydalanıw, itibardı kúsheytetuǵın RNN-di óz ishine alǵan aldınǵı usıllarǵa qaraǵanda, GPT modellerin qaytalanatuǵın mexanizmler arqalı erisiwge bolatuǵın strukturalıq yad penen támiyinledi; bul “hár túrli wazıypalar boyınsha isenimli jetkerip beriw ónimliligine” alıp keldi.
BookCorpus oqıw maǵlıwmatlar jıynaǵı retinde tańlandı, sebebi úziliksiz teksttiń uzaq úzindileri modelge uzaq aralıqtaǵı informaciyanı basqarıwdı úyreniwge járdemlesti. Onda hár túrli janrdaǵı 7000 nan aslam járiyalanbaǵan kórkem ádebiyatlar bar. Sol waqıtta ashıq bolǵan maǵlıwmatlar jıynaqları úlkenirek bolǵanı menen, bul uzaq kólemli strukturaǵa iye bolmadı (gáp dárejesinde “aralastırılǵan”).
BookCorpus teksti “ftfy” kitapxanası arqalı standartlanǵan punktuaciyalıq belgileri menen bos orınǵa shekem tazartıldı, sonnan keyin spaCy arqalı tokenizaciyalandı.
GPT-1 arxitekturasınıń hárqaysısı 64 ólshemli jaǵdayı bar (barlıǵı 768) on eki maskalanǵan ózin-ózi baqlaw basların paydalanatuǵın, tek on eki qabatı bar dekoderli transformatordan ibarat edi. Ápiwayı stoxastikalıq gradienttiń túsiwiniń ornına “Adam” optimallastırıw algoritmi qollanıldı; úyreniw tezligi dáslepki 2000 jańalawlar boyınsha nolden maksimum 2,5×10−4 shekem sızıqlı túrde úlkeytildi hám kosinuslar kesteniń járdemi menen 0-ge shekem kóterildi. GPT-1 117 million parametrge iye.[2]
Dál sazlaw anıq wazıypalarǵa beyimleskeni menen, onıń aldınnan tayarlıǵı joq; hár túrli tapsırmalardı orınlaw ushın onıń tiykarǵı wazıypa-agnostikalıq model arxitekturasına minimal ózgerisler islendi. Usıǵan qaramastan, GPT-1 ele de bir neshe tildi qayta islew wazıypalarında aldınǵı kórsetkishlerdi jetilistirip, bir neshe túrli tapsırmalar boyınsha wazıypalarǵa baǵdarlanǵan arxitekturası bar diskriminativ oqıtılǵan modellerden ústem boldı.
GPT-1 hár túrli maǵlıwmatlar jıynaǵındaǵı gáplerdiń jupların interpretaciyalaw hám olardıń arasındaǵı qatnastı “májbúrlew” retinde klassifikaciyalaw múmkinshiligin bahalap, tábiyiy tildi úyreniw (tekstli kirgiziw dep te ataladı) tapsırmaları boyınsha jetik ayrıqsha nátiyjelerge qaraǵanda 5,8% hám 1,5% “qarama qarsılıq” yamasa “biytárep” retinde jaqsılawǵa eristi. Bunday maǵlıwmatlar jıynaǵınıń mısallarına QNLI (Wikipedia maqalaları) hám MultiNLI (transkripciyalanǵan sóz, ataqlı kórkem ádebiyat hám húkimet esabatları, basqa derekler) kiredi; Ol sorawlarǵa juwap beriwge hám parasatlı tiykarǵa baylanıslı eki tapsırma boyınsha jetik modellerden − RACE boyınsha 5,7%-ke, orta hám joqarı mektep imtixanlarınan alınǵan jazbasha soraw-juwap juplarınıń maǵlıwmatlar jıynaǵı hám Story Cloze Testinde 8,9%-ke ozıp ketti.
GPT-1 Quora Question Pairs (QQP) maǵlıwmatlar jıynaǵın paydalanıp, eki gáptiń bir-biriniń parafrazası ekenin boljaw múmkinshiligin bahalap, semantikalıq uqsaslıq (yamasa parafrazanı anıqlaw) boyınsha jetik eń jaqsı nátiyjeli modellerdi 4,2%-ke jaqsıladı.
GPT-1 lingvistikalıq qabıllaw korpusın (CoLA) paydalanıp, tekstti klassifikaciyalaw tapsırmasında aldınǵı eń jaqsı 35,0 upay menen salıstırǵanda 45,4 upayǵa iye boldı. Aqırında, GPT-1 kóp tapsırmalardan ibarat GLUE testi boyınsha 72,8 (aldınǵı rekord penen salıstırǵanda 68,9) ulıwma upayǵa iye boldı.