Generativ aldınnan tayarlanǵan transformator 2 yaǵnıy GPT-2 (ingl. Generative Pre-Trained Transformer 2, GPT-2) − OpenAI tárepinen jaratılǵan úlken til modeli hám GPT modelleriniń tiykarǵı ekinshi seriyası. GPT-2 segiz million veb-betten ibarat maǵlıwmatlar jıynaǵında aldınnan oqıtıldı.[1] Onıń 2019 jıl fevralda bir bólimi shıǵarıldı, sonnan keyin 1,5 milliard parametrli modeli 2019 jıl 5-noyabrde tolıq shıǵarıldı.[2][3][4][5][6]
GPT-2 bul GPT-1 parametriniń “tikkeley keńeyiwi” retinde jaratıldı[7] onıń parametrleri de, oqıw maǵlıwmatlar jıynaǵınıń ólshemi de on ese artadı.[6] Bul ulıwma maqsetli oqıwshı hám onıń hár túrli tapsırmalardı orınlaw qábileti onıń keyingi elementi izbe-izlik penen anıq boljawdıń ulıwma qábiletiniń aqıbeti boldı,[1] bul oǵan tekstlerdi awdarıwǵa, tekstten tema boyınsha sorawlarǵa juwap beriwge, úzindilerdi (bóleklerdi) juwmaqlawǵa imkaniyat beredi. Úlkenirek tekstten,[8] hám geyde adamlardan ózgeshelenbeytuǵın dárejede tekst shıǵısın jaratıw, biraq uzaq bóleklerdi jaratıwda ol qaytalanatuǵın yamasa mánissiz bolıwı múmkin.[9] Onıń ornın endi ashıq derek bolmaytuǵın GPT-3 hám GPT-4 modelleri iyeledi.
GPT-2 óziniń burınǵı GPT-1 hám onıń miyrasxorları GPT-3 hám GPT-4 sıyaqlı tereń neyron tarmaqtı ámelge asıratuǵın generativ aldınnan tayarlanǵan transformator arxitekturasına iye, atap aytqanda eski qaytalanıwdıń ornına itibar beretuǵın transformator modeli,[7] konvolyuciyaǵa tiykarlanǵan arxitekturalar.[10][11] Itibar beriw mexanizmleri modelge eń aktual dep boljaǵan kiris tekstiniń segmentlerine tańlamalı túrde itibar qaratıwǵa imkaniyat beredi. Bul model parallelizaciyanı ádewir arttırıwǵa imkaniyat beredi hám RNN/CNN/LSTM tiykarındaǵı modeller ushın jetik kórsetkishlerden joqarı.[7]
Transformator arxitekturası ǵalabalıq parallelizaciyanı támiyinlegenlikten, GPT modelleriniń aldınǵı NLP (tábiyiy tildi qayta islew) modellerine qaraǵanda úlkenirek korpusta oqıtıwǵa boladı. GPT-1 modeli usıldıń ómirligin kórsetkeni menen, GPT-2 júdá úlken korpuslarda oqıtılǵan tarmaqlardıń payda bolatuǵın qásiyetlerin jáne de izertleydi. CommonCrawl, veb-tekseriw arqalı islengen hám aldın NLP sistemaların oqıtıwda paydalanılǵan úlken korpus onıń úlken kólemine baylanıslı qarastırıldı, biraq keyin qaraw nátiyjesinde túsiniksiz kontenttiń úlken kólemin anıqlaǵannan keyin qabıllanbadı.[1][12] Onıń ornına OpenAI WebText dep atalatuǵın jańa korpustı islep shıqtı; World Wide Web-ten kontentti saylap alıwdıń ornına, WebText 2017 jıl dekabr ayına shekem keminde úsh unamlı dawıs alǵan Reddit jazbaları menen baylanıstırılǵan betlerdi ǵana qırıp alıw arqalı jaratıldı. Korpus keyninen tazartıldı; HTML hújjetleri ápiwayı tekstke aylandı, qaytalanatuǵın betler óshirildi hám Wikipedia betleri óshirildi (óytkeni olardıń kóplegen basqa maǵlıwmatlar jıynaqlarında bolıwı artıqsha sáykeslendiriwdi payda etiwi múmkin).[1]
GPT-2 oqıtıw bahası saatına 256$ bolǵanı belgili bolsa da,[13][14] oqıwdı juwmaqlawǵa qansha saat ketetuǵını belgisiz; sonlıqtan oqıtıwdıń ulıwma bahasın dál bahalaw múmkin emes.[15] Degen menen, transformator arxitekturaların paydalanatuǵın salıstırmalı úlken til modelleri olardıń shıǵınların tolıǵı menen hújjetlestirgen; BERT hám XLNet ushın oqıtıw procesleri sáykesinshe 6,912$ hám 245,000$ resurslardı jumsadı.[14]
GPT-2 dáslepki ret 2019 jıl 14-fevralda járiyalandı. Djeyms Vinsenttiń 2019 jılǵı fevraldaǵı The Verge jurnalında baspadan shıqqan maqalasında “ol shıǵaratuǵın jazıw ádette adam emes ekenin ańsat anıqlawǵa boladı”, biraq ol “eń qızıqlılardıń biri bolıp qala beredi” dep aytılǵan, tillerdi generaciyalaw programmalarına taǵı da bunday mısallar keltirilgen:[16]
Oǵan jalǵan tema beriń, sonda ol jalǵan citatalar hám statistika menen birge maqalanıń qalǵan bólimin jazadı. Oǵan qısqa áńgimeniń birinshi qatarın keltiriń hám ol siziń qaharmanıńız benen ne bolatuǵının aytıp beredi. Ol hátte durıs kórsetpeni esapqa alıp, fanfik (fantastika) jaza aladı.[16]
The Guardian bul nátiyjeni “isenimli gazeta prozası” dep táriyipledi;[9] Vox xızmetkeri Kelsi Payper “Men kórgen eń ájayıp AI sistemalarınıń biri, meni jumısımnan quwıp jiberetuǵın sistema bolıwı múmkin” dedi.[17] GPT-2 iykemliligin The Verge “tásirli” dep táriyipledi; Atap aytqanda onıń tiller arasındaǵı tekstti awdarıw, uzın maqalalardı ulıwmalastırıw hám mayda shúyde sorawlarǵa juwap beriw qábileti atap ótildi.[16]
Amsterdam universiteti tárepinen ózgertilgen Tyuring testin qollanatuǵın izertlewi, keminde ayırım scenariylerde qatnasıwshılar GPT-2 arqalı jaratılǵan qosıqlardı adamlar jazǵan qosıqlardan ajırata almaytuǵının kórsetti.[18]
Aldınǵı OpenAI modelleri kópshilikke birden qoljetimli bolǵanı menen, OpenAI GPT-2 derek kodın fevral ayında járiyalaǵanda zıyanlı paydalanıw qáwipin alǵa tartıp, kópshilikke járiyalawdan bas tarttı;[9] Xabarlandırıwda tańlanǵan baspasóz quralları ushın modelge sheklewli kiriwge ruqsat etildi (yaǵnıy derek kodtıń ózin emes, kirgiziwge hám shıǵarıwǵa imkaniyat beretuǵın interfeys).[9] Jiyi keltirilgen dálillerdiń biri, islengen tekst ádette tolıǵı menen jańa bolǵanlıqtan, onı spamerler avtomatlastırılǵan filtrlerden qashıw ushın paydalana aladı; OpenAI “ónimlerge sheksiz unamlı yamasa unamsız sholıwlar jaratıw” ushın anıq sazlanǵan GPT-2 versiyasın kórsetti.[9]
Taǵı bir tiykar, GPT-2 uyatsız yamasa násilshil tekst jaratıw ushın paydalanılıwı múmkin. Djeremi Xovard sıyaqlı izertlewshiler “Tvitterdi, elektron poshtanı hám internetti aqılǵa muwapıq kontekstke sáykes proza menen toltıratuǵın texnologiya tuwralı eskertti, bul barlıq basqa sózlerdi tunshıqtıratuǵın hám filtrlew múmkin emes”.[16] Allenniń jasalma intellekt institutı GPT-2-ge juwap retinde “neyron jalǵan jańalıqlardı” anıqlaw quralın járiyaladı.
Degen menen pikir ekige bólindi. 2019 jıl fevral ayındaǵı The Verge baspasında GPT-2-niń qáwip keltiriwi asıra aytılǵan;[19] Anima Anandkumar, Caltech professorı hám Nvidia kompaniyasınıń mashinalıq oqıtıwdı izertlew boyınsha direktorı, GPT-2-niń OpenAI táriyiplegen qáwip keltiretuǵın imkaniyatları bar ekenligi tuwralı heshqanday dálil joq ekenin hám olardıń islegeni “ashıqqa qarama-qarsı” ekenin ayttı. Tolıq modeldi shıǵarıwdan bas tartıwın “zıyanlı BS” retinde táriyipleydi.[19] Gradient OpenAI-ge ashıq xat járiyalap, modeldi kópshilikke járiyalawın sorap, tekstti quraytuǵın AI alıp keletuǵın qáwipti baspa mashinasınan keletuǵın qáwip penen salıstırıp, Photoshop-tı mısal retinde “xaos potencialına qaramastan (tilekke qarsı) házirgi jámiyetti joq etpegen texnologiya” dep keltirdi:[20]
30 jıldan keyin, jámiyet Photoshop orta mektep oqıwshıları ushın ápiwayı hám óz feyillerin basqarıwǵa jetkilikli bolǵanına qaramastan, jámiyet salıstırmalı túrde zıyan kórmedi. Ne ushın? Óytkeni, barlıǵı Photoshop tuwralı biledi.[20]
OpenAI tolıq tayarlanǵan modeldi yamasa ol oqıtılǵan korpustı shıǵarmaǵanı menen, olardıń burınǵı járiyalanıwlardaǵı metodtıń táriyipi (hám tiykarǵı texnologiyanıń biypul bolıwı) GPT-2 ni basqalarǵa biypul programmalıq qural retinde kóshiriwge imkaniyat berdi, sonday replikaciyalardıń biri OpenGPT-2 2019 jıl avgust ayında OpenWebText dep atalatuǵın WebText erkin licenziyalanǵan versiyası menen birge shıǵarıldı. OpenGPT-2 ushın bultlı esaplaw shıǵınları shama menen 50 000$ dep berilgen.[21]
2019 jıl 20-avgustte OpenAI 774 million parametri bar GPT-2 yarım versiyasın shıǵardı (tolıq 1,5 milliard parametr modeliniń shama menen yarımı).[5]
GPT-2 keń tarqalǵannan keyin nadurıs paydalanılıwı múmkin degen birinshi alańlawlar orınlanbadı; The Verge “AI texnologiyası qanday da bir “infopokalipsiske” alıp keledi degen málimlemelerge gúman menen qarawǵa sebepler bar. Birinshiden, bizde az shıǵınǵa joqarı dawıs dárejesinde isenimli tekstti jarata alatuǵın baǵdarlamalar bar: ol adamlar.”[22] 2019 jıl noyabrge kelip Open AI “házirshe nadurıs paydalanıwdıń kúshli dálillerin kórmegenin” hám qırıq gigabayt maǵlıwmatlar menen oqıtılǵan 1,5 milliard parametri bar tolıq versiyası “Shekspirdiń jıynalǵan shıǵarmalarınan shama menen segiz mıń ese kóp” ekenin ayttı.[23] 2019 jıl 5-noyabrde shıǵarıldı.[2][3]
GPT-2-niń basqa eki kishirek versiyaları bar, onıń ishinde 117M parametrleriniń kishi versiyası hám 355M parametrleriniń ortasha ólshemi. Ekewin de Huggingface saytınan júklep alıwǵa boladı.[24][25]
GPT-2 tábiyiy tildegi teksttiń isenimli úzindilerin jaratıw qábileti ádette unamlı bahalanǵanı menen, onıń kemshilikleri de atap ótildi, ásirese eki abzactan uzaq tekstlerdi jaratıwda; Vox-tıń aytıwınsha “proza júdá qopal, ansa-sanda sekviturı joq, maqalalar uzınıraq bolsa, sáykesligi azayadı” dedi.[17] The Verge sol sıyaqlı GPT-2 jazıwınıń uzaǵıraq modelleri “temadan shetke shıǵıwǵa” beyim hám ulıwma úylesimlik joq ekenin atap ótti;[16] The Register saytı “onı oqıytuǵın adam biraz waqıttan keyin birnárse bolatuǵının túsiniwi kerek” dep esaplaydı hám “GPT-2 informaciyanı alıw hám alıw ushın algoritmlerge súyenetuǵın basqa sistemalar sıyaqlı sorawlarǵa juwap bermeydi” dep atap ótti[13]
GPT-2 qollanıw resurslardı kóp talap etedi; modeldiń tolıq versiyası bes gigabayttan úlken, bul programmalarǵa jergilikli túrde engiziwdi qıyınlastıradı hám operativ yadtıń úlken kólemin tutınadı. Sonıń menen bir qatarda, bir boljawlı orınlaw “100% paydalanıwda processordı bir neshe minut dawamında iyelewi múmkin”, hátte GPU procesinde de “bir boljawǵa bir neshe sekund ketiwi múmkin”. Usı máselelerdi jeńilletiw ushın Hugging Face kompaniyası DistilGPT2 jarattı, ol “ayırım sapa kórsetkishleri boyınsha bir neshe upay jıynawshı”, biraq “33% kishirek hám eki ese tez” kishirek modeldi shıǵarıw ushın bilimdi distillyaciyalaw arqalı isledi.
Tolıq versiyası shıqqanǵa shekem GPT-2 hár túrli qosımshalar menen xızmetler ushın, sonday-aq oyın-zawıq ushın paydalanıldı. 2019 jıl iyunda r/SubSimulatorGPT2 dep atalatuǵın subreddit jaratıldı, onda hár túrli subredditlerde oqıtılǵan túrli GPT-2 danaları postlar jazıp, bir-biriniń pikirlerine juwap berdi, bul “r/Bitcoin-nıń AI personifikaciyasın baqlawǵa bolatuǵın jaǵdaydı payda etti. r/ShittyFoodPorn mashinalıq oqıtıwdan alınǵan ruxı menen”;[22] sol jıldıń iyul ayında hár túrli programmalastırıw tillerindegi kod qatarların avtotoltırıw ushın shıǵarılǵan GPT-2 tiykarındaǵı programmalıq támiynattı paydalanıwshılar “oyındı ózgertiwshi” retinde táriyipledi.[26]
I2019 jılı AI Dungeon iske túsirildi, ol GPT-2 den paydalanıwshı kirgiziwi tiykarında dinamikalıq tekstli waqıyalardı jaratıw ushın paydalandı.[27] AI Dungeon endi qosımsha arqalı jańalaw retinde GPT-3 API eń úlken shıǵarılıwın ámelge asırıwdı usınadı, sayttıń biypul versiyası GPT-3-tiń 2-eń úlken versiyasın paydalanadı.[28] AI Dungeon átirapında dúzilgen Latitude kompaniyası 2021 jılı 3,3 million dollar ǵárejet jıynadı.[29] Bir neshe veb-saytlar GPT-2 hám basqa transformator modelleriniń hár túrli úlgilerin interaktiv kórsetiwlerin ótkizedi.[30][31][32]
2021 jıl fevralda mashqalası bar jas óspirimlerge arnalǵan daǵdarıs orayı GPT-2 den alınǵan chatbotlardan keńesshilerge simulyaciya etilgen jas óspirimler menen sáwbetlesiw imkaniyatın beriw arqalı oqıtıwǵa járdem beriwdi járiyaladı (bul paydalanıw tek ishki maqsetlerge arnalǵan hám bul GPT-2 jas óspirimlerdiń ózleri menen baylanısadı).[33]
2023 jıl 9-mayda OpenAI GPT-2 kartalanǵan versiyasın shıǵardı. OpenAI olardıń funkciyaların anıqlaw ushın GPT-2 hárbir neyronınıń kartasın jaratıw ushın GPT-4 miyrasxorı modelin paydalandı.[34]
GPT-2 maǵlıwmatlar jıynaǵı menen texnikasınıń keńliginiń arqasında ápiwayı tekstti shıǵarıwdan tıs hár túrli tapsırmalardı orınlawǵa uqıplı boldı, olarǵa: sorawlarǵa juwap beriw, juwmaq shıǵarıw hám hátte qalay islew kerekliginen basqa kórsetpelersiz arnawlı domenlerdegi tiller arasındaǵı keyingi sózdi izbe-iz boljaw, awdarıw.[16][17]
Ulıwmalastırılǵan oqıtıwdıń bir mısalı − GPT-2-niń francuz hám inglis tilleri arasında mashinalıq awdarmanı orınlawǵa qábiletli, ol ushın GPT-2 jumısı WMT-14 awdarma tapsırmaları arqalı bahalandı. GPT-2 oqıw korpusında francuz teksti is júzinde joq; Treningke shekem maǵlıwmatlar jıynaǵın tazalaw waqtında inglisshe emes tekst arnawlı óshirildi, sonıń aqıbetinen model úyreniw ushın qalǵan 40 000 MB francuz tiliniń 10 MB ǵana paydalanıw múmkin boldı (tiykarınan inglis tilindegi jazıwlar menen maqalalardaǵı shet tilindegi citatalardan).[1]
Usıǵan qaramastan, GPT-2 WMT-14 inglisshe-francuzsha test jıynaǵında 5 BLEU-ge eristi (sózbe-sóz almastırıw arqalı awdarmanıń upayınan sál tómen). Sonday-aq ol GPT-2 11,5 BLEU-ge erisken francus-inglisshe test jıynaǵında bir neshe zamanagóy (2017) baqlanbaytuǵın mashinalıq awdarmanıń tiykarǵı kórsetkishlerinen ozıp ketti. Bul 33,5 BLEU-ge erisken eń joqarı ónimli zamanagóy baqlawsız usıldan (2019) tómen bolıp qaldı.[1] Degen menen, basqa modeller usı nátiyjelerge erisiw ushın francuz tekstiniń úlken kólemin paydalandı; GPT-2 salıstırmalı usıllardıń shama menen 1/500 mólsherinde bir tilli francuz korpusın paydalanadı dep bahalandı.[1]
arxitektura | parametr sanı | trening maǵlıwmatları | |
---|---|---|---|
GPT-1 | 12 dárejeli, 12 baslı Transformator deshifratorı (kodersiz), onnan keyin sızıqlı-softmax. | 0,12 mlrd | BookCorpus:[35] 4,5 GB tekst, hár túrli janrdaǵı 7000 járiyalanbaǵan kitaplardan. |
GPT-2 | GPT-1, biraq ózgertilgen normalaw menen | 1,5 mlrd | WebText: 40 GB[36] tekst, Reddit-te tastıyıqlanǵan 45 million veb-bettiń 8 million hújjeti. |
GPT-3 | GPT-2, biraq úlkenirek masshtablawǵa imkaniyat beretuǵın modifikaciyası bar. | 175 mlrd | 570 GB ashıq tekst, 300 milliard CommonCrawl, WebText, inglisshe Wikipedia tokenleri hám eki kitap korpusı (Books1 hám Books2). |
GPT-2 den keyin 2020 jılı kópshilikke járiyalanǵan 175 milliard parametrli GPT-3 bolıwı kerek edi[37] (onıń derek kodı heshqashan qoljetimli emes). GPT-3 ke kiriw tek OpenAI hám Microsoft tárepinen usınılǵan API interfeysleri arqalı támiyinlenedi. Bul keyinirek GPT-4 boldı
[3] [37] [38] [10] [39] [40] [11] [7] [1] [8] [6] [12] [17] [9] [16] [4] [5] [2] [41] [14] [13] [15] [21] [33] [26] [22] [19] [20] [29] [28] [27] [42]
<ref>
tag; name "gpt2paper" defined multiple times with different content
<ref>
tag; name "verge2" defined multiple times with different content
<ref>
tag; name "15Brelease" defined multiple times with different content
<ref>
tag; name "voxxy2" defined multiple times with different content
<ref>
tag; name "vb" defined multiple times with different content
<ref>
tag; name "openai" defined multiple times with different content
<ref>
tag; name "gpt1paper" defined multiple times with different content
<ref>
tag; name "guardian" defined multiple times with different content
<ref>
tag; name "attention" defined multiple times with different content
<ref>
tag; name "attentionRNNs" defined multiple times with different content
<ref>
tag; name "register" defined multiple times with different content
<ref>
tag; name "staggering" defined multiple times with different content
<ref>
tag; name "vb2" defined multiple times with different content
<ref>
tag; name "verge1" defined multiple times with different content
<ref>
tag; name "voxxy" defined multiple times with different content
<ref>
tag; name "ethics" defined multiple times with different content
<ref>
tag; name "pls" defined multiple times with different content
<ref>
tag; name "opengpt2" defined multiple times with different content
<ref>
tag; name "reddit" defined multiple times with different content
<ref>
tag; name "smartcompose" defined multiple times with different content
<ref>
tag; name "aid2" defined multiple times with different content
<ref>
tag; name "aidungeon" defined multiple times with different content
<ref>
tag; name "tclat" defined multiple times with different content
<ref>
tag; name "teens" defined multiple times with different content
<ref>
tag; name "Arram_20200709" defined multiple times with different content