Vývojář | OpenAI |
---|---|
První vydání | 28. května 2020 |
Aktuální verze | 175B |
Typ softwaru | velký jazykový model, autoregressive model, transformer, generativní model a Generative pre-trained transformer |
Licence | proprietární licence |
Web | arxiv |
Některá data mohou pocházet z datové položky. |
GPT-3, v angličtině též jako third generation Generative Pre-trained Transformer, je základní model Generative pre-trained transformeru v oblasti zpracování přirozeného jazyka, založený na strojovém učení neuronové sítě.[1] Jedná se o autoregresivní jazykový model, který je schopen hlubokého učení textu, trénovaný za pomocí internetových dat. Model, podobně jako lidský mozek, si zapamatovává data, ze kterých je následně schopen produkovat nejen nový text, ale také generovat kód, příběhy i básně.[2][3]
Produkt představila v květnu 2020 společnost OpenAI jakožto nástupce předchozího jazykového modelu s názvem GPT-2, který nebyl schopný obsáhnout takové množství dat a produkovat kvalitní texty.[1] Výzkumná laboratoř OpenAI se sídlem v americkém San Franciscu předvedla v červenci roku 2020 úspěšné beta testování modelu.[4] GPT-3 model na rozdíl od svého předchůdce produkuje texty, ze kterých je mnohem těžší rozpoznat, zda jej psal člověk či tato umělá inteligence.[2] V roce 2022 byl na této platformě spuštěn chatbot ChatGPT, který získal značnou mediální pozonost.
Přístup k základnímu modelu má pouze společnost Microsoft, na jejíž používání získala v září 2020 licenční smlouvu. Všichni ostatní uživatelé mohou používat alespoň veřejné rozhraní API.[5]
V roce 2015 byl projekt GPT-3 vyvíjen pod křídly neziskové organizace OpenAI. Cílem projektu bylo vytvořit a popularizovat „přátelskou umělou inteligenci“ schopnou přinést užitek lidstvu jako celku. První verze GPT byla vydána v roce 2017 a obsahovala 117 milionů parametrů. Druhá verze GPT-2, vyšla v roce 2019 a obsahovala 1,5 miliardy parametrů.[6]
Nejnovější verze, GPT-3, svou konkurenci více než stonásobně překonala. Model byl trénován na 175 miliardách parametrů. Nejvýkonnějším předchůdcem byla Turing NLG společnosti Microsoft s 10 miliardami parametrů. Jedná se o mnohem robustnější verzi, která je schopna lépe zpracovávat data v užších specializacích. Verze GPT i GPT-2 byl kritizovány za nedostatečný výkon v hudební oblasti a za špatné schopnosti v oblasti vyprávění příběhů a psaní textu. GPT-3 je v těchto ohledech díky masivní datové základně mnohonásobně více výkonný model, zvládá úkony jako odpovídání na otázky, psaní esejí, shrnutí textu, překlad textu a také generování zdrojového kódu.[7]
K trénování modelu byla v nejvyšší míře použita datová sada Common Crawl2, která obsahuje téměř miliardu slov. Jedná se o nezpracovaná data webových stránek, extrahovaná metadata a textové extrakce. Takováto velikost je k trénování modelu dostačující, nicméně nefiltrovaná nebo málo filtrovaná verze datasetu by mohla vést k nekvalitním výstupům.
Ke zlepšení kvality datové sady vedly 3 kroky, konkrétně:
Konkrétně se jednalo o rozšíření datasety WebText2, který zahrnuje veškeré příspěvky na Redditu datované od 2005-2020. Dále Books1 a Books2, datasety internetových knižních korporací. V poslední řadě a v nejmenším rozsahu byl použit dataset anglických článku z Wikipedie.
Dataset | Tokeny | Váha | Uběhlé epochy při trénování 300 mld. tokenů |
---|---|---|---|
Common Crawl2 | 410 mld. | 60% | 0,44 |
WebText2 | 19 mld. | 22% | 2,9 |
Books1 | 12 mld. | 8% | 1,9 |
Books2 | 55 mld. | 8% | 0,43 |
Wikipedia | 3 mld. | 3% | 3,4 |
"Váha" se vztahuje k podílu příkladů během tréninku, které jsou vybrány z daného souboru dat. Tento podíl záměrně není úměrný velikosti datasetu. Některé datové sady se tak během trénování objeví až 3,4×, zatímco jiné dokonce méně než jednou.[1]
GPT-3 je řada modelů jazykové predikce, nejedná se o jeden model, ale o rodinu modelů. Každý model v rodině má jiný počet trénovatelných parametrů. Nejvýkonnější z rodiny GPT-3 je model s názvem text-davinci-003, trénovaný na nejvyšším množství parametrů. Zvládne jakoukoli úlohu, kterou zvládnou ostatní modely, často ve vyšší kvalitě, s delším výstupem a lepším dodržováním pokynů. Podporuje také vkládání doplnění v textu. Dalším členem rodiny je například podobně schopný model text-curie-001,který je rychlejší a levnější než Davinci. Zatímco Davinci je silnější, pokud jde o analýzu složitých textů, model Curie je výkonný pro mnoho nuancovaných úloh, jako je klasifikace sentimentu a sumarizace. Dalšími oficiálně dostupnými modely jsou Babbage a Ada, které jsou určeny spíše k rychlým a jednoduchým úlohám, jako je klasifikace textu.[8]
Architektura modelů GPT-3 je postavena na principu strojového učení neuronové sítě, který dokáže přijmout text jako vstup a transformovat jej na to, co předpovídá jako nejužitečnější výsledek. Toho je dosaženo trénováním systému na rozsáhlém množství internetových textů. GPT-3 se zaměřuje na výstup v podobě textu, čehož je s vysokou úspěšností schopen na základě toho, že byl předem vycvičen na obrovském množství textu. Když uživatel zadá vstupní text, systém analyzuje jazyk a pomocí prediktoru vytvoří nejpravděpodobněji nejužitečnější výstup.[7]
Model dokáže psát beletrii, vyprávět vtipy, psát básně a vytvářet konverzační rukopisy a řadu dalších věcí. Za předpokladu správného podnětu, tzv. promptu, dokáže psát přesvědčivé a poutavé články, nicméně však nedokáže uvést zdroje a nelze spoléhat na pravost a pravdivost informací, jedná-li se o informativní či naučný článek. Je také schopen generovat všechny druhy dokumentů, od obchodních poznámek až po právní dokumenty. Kromě psaní jej lze využít k opravě gramatických chyb v textu a nebo jako nástroj pro překlad.[9]
Pomocí GPT-3 lze překládat přirozený jazyk do kódu a naopak. Lze také překládat kód z jednoho programovacího jazyka do druhého, vysvětlit část složitého kódu, opravit kód nebo odpovědět na otázky týkající se používání programovacího jazyka.[10]
Startupy jako ActiveChat využívají GPT-3 k vývoji chatbotů, možností živého chatu a dalších konverzačních služeb s umělou inteligencí, které pomáhají odlehčit zátěž online zákaznické péče.
Většina interakcí se zákaznickými službami jsou jednoduché dotazy týkající se například ceny nebo otevírací doby. Může se také jednat o běžné problémy, které může mít mnoho nových zákazníků s produktem, onboarding nebo snadno odstranitelné potíže. Umělá inteligence dokáže odpovídat na dotazy bez ohledu na denní či noční dobu a v několika cílových jazycích. Zákazníci dostávají téměř okamžité odpovědi a mohou snadněji řešit problémy.[11]
Řada modelů GPT-3 je stejně jako většina technologií svazována jistými limitacemi.
Uživatelé identifikovali zejména následující nedostatky modelu:
Model nefunguje na principu neustálého učení. Byl předem vycvičen, což znamená, že nemá trvalou dlouhodobou paměť, která by se učila z každé interakce.
Kromě výše zmíněních limitací trpí GPT-3 stejnými problémy jako všechny neuronové sítě: nemá dostatečné schopnosti vysvětlit a interpretovat, z jakého důvodu vedou dané vstupy k daným výstupům.[1]
Další limitací modelu, taktéž způsobenou absencí principu neustálého učení je fakt, že model bude brzy zastaralý, pokud nebude doučen na nová data. GPT-3 momentálně funguje na základě dat nasbíraných do roku 2019. Neví tak například vůbec nic o tématu jako je Covid-19 a proto když GPT-3 pracuje s pojmy jako "lock down" a nebo společenské distancování, nedokáže poskytnout kontext spojený s pandemií, protože o ní jednoduše neví, stala se až po jeho kompletním naučení. Tento problém lze adresovat doučením modelu o nové, aktuální datasety.[13]
V aplikaci slouží GPT-3 zejména obchodníkům a majitelům různých firem. Produkt je totiž schopný generovat text pro blogy, názvy pro produkty, atp. a to na základě slovní zásoby zadané uživatelem. Aplikace generuje řadu možných textových výsledků, ze kterých si poté uživatel sám vybírá, co se mu líbí nejvíce.[14]
GPT-3 se používá v Jasper.ai, jako generátor obsahu, který má pomáhat obchodníkům a copyeditorům. Aplikace se používá k tomu, aby pomohl podnikům rozšiřovat jejich obsahové strategie, pomáhal nerodilým mluvčím efektivněji sdělovat jejich myšlenky a umožňoval lidem rozvíjet každodenní návyky psaní. Nové rozšíření prohlížeče Jasper vydané pro Chrome umožňuje uživatelům vzít si s sebou generativní umělou inteligenci na celou řadu webových stránek a platforem obsahu, které používají.[15]
Spadá stejně jako samotný model GPT-3 pod křídla společnosti OpenAI. Jedná se o model, který je schopen odpovídat na otázky dialogovým, konverzačním způsobem. Model umí díky svému formátu odpovídat na otázky, přiznávat své chyby a zpochybňovat nesprávné předpoklady. Je také postaven tak, aby odmítal nevhodné požadavky.[16]
GPT-3 bude integrován do Microsoft Power Apps, platformy pro vývoj low code aplikací, která umožní všem, od lidí s malými nebo žádnými zkušenostmi s kódováním až po profesionální vývojáře s hlubokými znalostmi programování, vytvářet aplikace pro zlepšení produktivity nebo podnikových procesů.[17]
S využitím GPT-3 umožňuje převádět textové pokyny do vzorců pro aplikace Excel nebo Google Sheets nebo naopak vysvětlit již existující vzorce a jejich dekompozici. Textové pokyny lze převést i do VBA kódu. [18]
Codex syntetizuje specifický kód pro zpracování dotazů SQL pomocí modelu GPT-3 Codex od společnosti OpenAI. Uživatelé si vygenerovaný kód přizpůsobí pomocí instrukcí v přirozeném jazyce. Laičtí uživatelé mohou například v přirozeném jazyce popsat výstup, který se má generovat a který jim pomůže při ladění dotazů SQL.[19]
Poháněné systémem GPT-3, TextCortex dokáže generovat texty pro blogy nebo marketingové kopie, názvy produktů, značky a další. Uživatelé zadají požadovaný slovník a aplikace vytvoří řadu možných výsledků; uživatelé si pak mohou vybrat ten, který se jim nejvíce líbí. [20]