Generative Pre-trained Transformer 3

Generative Pre-trained Transformer 3 (GPT-3)
Basisdaten
Entwickler	OpenAI
Erscheinungsjahr	28. Mai 2020
Aktuelle Version	175B
Lizenz	proprietäre Lizenz
	https://openai.com/blog/openai-api

Generative Pre-trained Transformer 3 (GPT-3) ist ein im Mai 2020 vorgestelltes autoregressives Sprachmodell, das Deep Learning verwendet, um natürlich wirkenden Text zu produzieren. Es ist der Nachfolger von GPT-2 und wurde von OpenAI entwickelt, einem amerikanischen Unternehmen, das Forschung zu künstlicher Intelligenz betreibt. Die größte Version von GPT-3 besitzt 175 Milliarden Parameter. GPT-3 ist Teil eines Trends in der Computerlinguistik, Systeme mit vortrainierten Sprachrepräsentationen zu nutzen. Die Qualität der von GPT-3 generierten Texte ist so hoch, dass es schwierig ist, sie von Texten zu unterscheiden, die von Menschen geschrieben wurden, was sowohl Vorteile als auch Nachteile hat. Microsoft verkündete im September 2020, dass es die „exklusiven“ Nutzungsrechte an GPT-3 lizenziert habe, andere können weiterhin die öffentliche API nutzen, aber nur Microsoft habe Kontrolle über den Quellcode.

Hintergrund

Verbesserte Algorithmen, leistungsfähige Computer und eine größere Menge digitalisierter Daten haben eine Revolution des maschinellen Lernens vorangetrieben: Neue Technologien der 2010er-Jahre resultierten in „schnellen Fortschritten bei Aufgaben“ wie zum Beispiel Sprachverarbeitung.^[2] Softwaremodelle „lernen“ in einer „Struktur […] lose der neuralen Architektur des Gehirns nachempfunden“, unter Verwendung von massiven Mengen von Trainingsdaten, Muster und Strukturen zu erkennen und dadurch Texte generativ zu erzeugen. Eine Architektur, die in der Verarbeitung natürlicher Sprache verwendet wird, ist der erstmals 2017 vorgestellte Transformer-Architektur, die mit einem sog. Aufmerksamkeitsmechanismus erlaubte, die Anzahl der Parameter durch parallele Verarbeitung massiv zu steigern. Die GPT-n-Modelle nutzen eine solche Transformer-basierte Architektur.

Im Juni 2018 veröffentlichte OpenAI ihre erste Fachpublikation über generative Modelle, die mit einem sehr großen und diversen Textkorpus in einem Prozess generativen Vortrainings vortrainiert werden können.^[3] Die Autoren beschrieben, wie die Leistungen im maschinellen Sprachverstehen bei GPT-n durch eine Anwendung von „generativem Pre-Training eines Sprachmodells auf einem diversen, nicht mit Labeln versehen Korpus, gefolgt von diskriminativem Fine-Tuning für jede spezifische Aufgabe.“ Das machte Beaufsichtigung durch Menschen (unüberwachtes Lernen) und zeitintensive manuelle Labelerstellung unnötig.

Im Februar 2020 stellte Microsoft Turing Natural Language Generation (T-NLG) vor, das mit 17 Milliarden Parametern das „größte je veröffentlichte Sprachmodell“ war.^[4] Es erzielte bei einer Vielzahl von Aufgaben, darunter bei automatischer Textzusammenfassung und bei der Beantwortung von Fragen, bessere Leistungen als jedes andere Sprachmodell.

Fähigkeiten

Am 28. Mai 2020 veröffentlichte OpenAI ein Preprint auf arXiv, das die Entwicklung von GPT-3, einem „dem Stand der Technik entsprechenden Sprachmodell“ der dritten Generation, beschrieb.^[5] Das Team vergrößerte die Kapazität von GPT-3 im Vergleich zum Vorgängermodell GPT-2 um mehr als das Hundertfache.^[6] Damit stellte es das größte Sprachmodell seiner Art dar. Die größere Zahl an Parametern ermöglicht im Vergleich zu kleineren Modellen eine größere Genauigkeit.^[7] Die Kapazität von GPT-3 ist mehr als das Zehnfache derer von Microsofts Turing NLG.

Sechzig Prozent des gewichteten Pre-Training-Datasets für GPT-3 entstammen einer gefilterten Version von Common Crawl bestehend aus 410 Milliarden Tokens. Andere Quellen sind 19 Milliarden Tokens aus WebText2 für 22 % des gewichteten Datasets, 12 Milliarden Tokens aus Books1 für 8 %, 55 Milliarden Tokens from Books2 für 8 % und 3 Milliarden Tokens aus Wikipedia für 3 %. GPT-3 wurde auf hunderten Milliarden Wörtern trainiert und ist in der Lage, Code in CSS, JSX, Python und anderen Sprachen zu generieren.^[5] Da die Trainingsdaten allumfassend waren, wird kein weiteres Training für spezifische Anwendungen benötigt.

Am 11. Juni 2020 verkündete OpenAI, dass Benutzer Zugriff auf eine GPT-3-API anfragen könnten, um OpenAI beim „Erkunden der Stärken und Grenzen“ dieser neuen Technologie zu helfen.^[8]^[9] Die Einladung beschrieb, dass die API einen Text als Eingabe akzeptiert, um dann einen Ausgabetext zu generieren. Damit könne „fast jede englische Sprachverarbeitungsaufgabe“ durchgeführt werden, im Gegensatz zu den üblichen zweckspezifischen Anwendungen. Laut einem Nutzer mit frühem privaten Zugriff auf die GPT-3-API war GPT-3 „unheimlich gut“ darin, „erstaunlich kohärenten Text“ auf nur wenige, einfache Aufforderungen hin zu generieren.^[10] Microsoft verkündete am 22. September 2020, dass es die „exklusiven“ Nutzungsrechte an GPT-3 lizenziert habe, andere können weiterhin die öffentliche API nutzen, aber nur Microsoft habe Kontrolle über den Quellcode. Es gibt mehrere Startups, die auf GPT-3 aufbauen.^[11]

GPT-3 kann „Nachrichtenartikel produzieren, bei denen Menschen Schwierigkeiten haben, sie von menschengemachten Artikeln zu unterscheiden“ und hat daher das „Potential, sowohl die nützlichen als auch die schädlichen Anwendungen von Sprachmodellen voranzutreiben.“ In der Publikation vom 28. Mai 2020 beschrieben die Forscher detailliert die potentiellen „schadhaften Auswirkungen von GPT-3“, darunter „Misinformation, Spam, Phishing, Missbrauch von Rechts- und Regierungsprozessen, betrügereische Erstellung von akademischen Aufsätzen und Social Engineering.“ Die Autoren sprechen diese Thematik an, um Forschung zur Risikominimierung zu fordern.

Rezeption

In einem Bericht vom 29. Juli 2020 in der New York Times beschrieb Farhad Manjoo GPT-3 als nicht nur „erstaunlich“, „gruselig“, and „demütigend“, sondern auch „mehr als ein wenig erschreckend“.^[12] Daily Nous präsentierte eine Reihe von Artikeln zum Thema GPT-3, geschrieben von neun Philosophen.^[13] Der australische Philosoph David Chalmers beschrieb GPT-3 als „eines der interessantesten und wichtigsten KI-Systeme, die je produziert wurden“.^[14] National Law Review schrieb, GPT-3 sei ein „beeindruckender Schritt im größeren Prozess“, wobei OpenAI und andere „nützliche Anwendungen für all diese Macht“ fänden, während sie weiterhin „auf eine Allgemeine Künstliche Intelligenz hinarbeiten“.^[15]

Wired berichtete, GPT-3 „lässt im Silicon Valley Schauer über Rücken laufen.“^[16] Ein Artikel in MIT Technology Review, unter anderem verfasst vom Deep-Learning-Kritiker Gary Marcus, stellte fest, dass das „Verständnis der Welt häufig ernstlich fehlerhaft [sei], was bedeutet, man kann nie wirklich dem Vertrauen, was es sagt.“ Laut den Autoren modelliert GPT-3 Beziehungen zwischen Wörtern, ohne ein Verständnis der Bedeutung jeden Wortes zu besitzen.^[17]

Jerome Pesenti, Leiter des Facebook A.I. Lab, sagte, GPT-3 sei „unsicher“, mit Verweis auf sexistische, rassistische und andere voreingenommene und negative Sprache, die vom System verwendet wurde, als es aufgefordert wurde, Text über Juden, Frauen, Schwarze und den Holocaust zu generieren.^[18] Nabla, ein französisches Startup, das sich in Gesundheitstechnologie spezialisiert, testete GPT-3 als medizinischen Chatbot, obwohl OpenAI bereits vor solcher Nutzung gewarnt hatte. Wie erwartet zeigte GPT-3 schwere Einschränkungen: Zum Beispiel schlug bei Tests zum Thema psychische Gesundheit das System einem Patienten vor, Suizid zu begehen.^[19]

Belege

↑ In: Language Models are Few-Shot Learners. 22. Juli 2020: „To study the dependence of ML performance on model size, we train 8 different sizes of model, ranging over three orders of magnitude from 125 million parameters to 175 billion parameters, with the last being the model we call GPT-3.“
↑ An understanding of AI's limitations is starting to sink in In: The Economist, 11. Juli 2020. Abgerufen am 31. Juli 2020 (englisch).
↑ Alec Radford, Karthik Narasimhan: Improving Language Understanding by Generative Pre-Training. 11. Juni 2018, S. 12, abgerufen am 31. Juli 2020 (englisch).
↑ Bruce Sterling: Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG) In: Wired, 13. Februar 2020. Abgerufen am 31. Juli 2020 (englisch).
↑ ^a ^b Frederik Bussler: Will GPT-3 Kill Coding? In: Towards Data Science. 21. Juli 2020, abgerufen am 1. August 2020 (englisch).
↑ Language Models are Unsupervised Multitask Learners. Abgerufen am 31. Juli 2020 (englisch).
↑ Tiernan Ray: OpenAI's gigantic GPT-3 hints at the limits of language models for AI. In: ZDNet. 1. Juni 2020, abgerufen am 31. Juli 2020 (englisch).
↑ OpenAI API. In: OpenAI. 11. Juni 2020; abgerufen im 1. Januar 1 (englisch).
↑ TechCrunch – Startup and Technology News. In: TechCrunch. 11. Juni 2020, abgerufen am 31. Juli 2020 (englisch): „If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.”“
↑ Arram: GPT-3: An AI that’s eerily good at writing almost anything. In: Arram Sabeti. 9. Juli 2020, abgerufen am 31. Juli 2020 (englisch).
↑ Anton Shardin: Apps and Startups powered by GPT-3. In: Medium. 29. Oktober 2020, abgerufen am 10. Februar 2021 (englisch).
↑ Farhad Manjoo: How Do You Know a Human Wrote This? In: The New York Times, 29. Juli 2020. Abgerufen am 4. August 2020 (englisch).
↑ Philosophers On GPT-3 (updated with replies by GPT-3). In: Daily Nous. 30. Juli 2020, abgerufen am 31. Juli 2020 (englisch).
↑ David Chalmers: GPT-3 and General Intelligence. In: Daily Nous. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).
↑ Theodore Claypoole: New AI Tool GPT-3 Ascends to New Peaks, But Proves How Far We Still Need to Travel. In: The National Law Review. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).
↑ Tom Simonite: Did a Person Write This Headline, or a Machine? In: Wired, 22. Juli 2020. Abgerufen am 31. Juli 2020 (englisch).
↑ Gary Marcus: The deepest problem with deep learning. In: Medium. 1. Dezember 2018, abgerufen am 29. September 2020 (englisch).
↑ Cade Metz: Meet GPT-3. It Has Learned to Code (and Blog and Argue). In: The New York Times, 24. November 2020 (amerikanisches Englisch).
↑ Medical chatbot using OpenAI's GPT-3 told a fake patient to kill themselves. In: AI News. 28. Oktober 2020, abgerufen am 8. Januar 2021 (britisches Englisch).

[_3ed4f96245da93f3-1] In: Language Models are Few-Shot Learners. 22. Juli 2020: „To study the dependence of ML performance on model size, we train 8 different sizes of model, ranging over three orders of magnitude from 125 million parameters to 175 billion parameters, with the last being the model we call GPT-3.“

[2] An understanding of AI's limitations is starting to sink in In: The Economist, 11. Juli 2020. Abgerufen am 31. Juli 2020 (englisch).

[3] Alec Radford, Karthik Narasimhan: Improving Language Understanding by Generative Pre-Training. 11. Juni 2018, S. 12, abgerufen am 31. Juli 2020 (englisch).

[4] Bruce Sterling: Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG) In: Wired, 13. Februar 2020. Abgerufen am 31. Juli 2020 (englisch).

[Medium_Bussler_20200721-5] Frederik Bussler: Will GPT-3 Kill Coding? In: Towards Data Science. 21. Juli 2020, abgerufen am 1. August 2020 (englisch).

[6] Language Models are Unsupervised Multitask Learners. Abgerufen am 31. Juli 2020 (englisch).

[7] Tiernan Ray: OpenAI's gigantic GPT-3 hints at the limits of language models for AI. In: ZDNet. 1. Juni 2020, abgerufen am 31. Juli 2020 (englisch).

[8] OpenAI API. In: OpenAI. 11. Juni 2020; abgerufen im 1. Januar 1 (englisch).

[9] TechCrunch – Startup and Technology News. In: TechCrunch. 11. Juni 2020, abgerufen am 31. Juli 2020 (englisch): „If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.”“

[10] Arram: GPT-3: An AI that’s eerily good at writing almost anything. In: Arram Sabeti. 9. Juli 2020, abgerufen am 31. Juli 2020 (englisch).

[11] Anton Shardin: Apps and Startups powered by GPT-3. In: Medium. 29. Oktober 2020, abgerufen am 10. Februar 2021 (englisch).

[12] Farhad Manjoo: How Do You Know a Human Wrote This? In: The New York Times, 29. Juli 2020. Abgerufen am 4. August 2020 (englisch).

[13] Philosophers On GPT-3 (updated with replies by GPT-3). In: Daily Nous. 30. Juli 2020, abgerufen am 31. Juli 2020 (englisch).

[DailyNous_Weinberg_Chalmer_20200730-14] David Chalmers: GPT-3 and General Intelligence. In: Daily Nous. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).

[15] Theodore Claypoole: New AI Tool GPT-3 Ascends to New Peaks, But Proves How Far We Still Need to Travel. In: The National Law Review. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).

[16] Tom Simonite: Did a Person Write This Headline, or a Machine? In: Wired, 22. Juli 2020. Abgerufen am 31. Juli 2020 (englisch).

[17] Gary Marcus: The deepest problem with deep learning. In: Medium. 1. Dezember 2018, abgerufen am 29. September 2020 (englisch).

[18] Cade Metz: Meet GPT-3. It Has Learned to Code (and Blog and Argue). In: The New York Times, 24. November 2020 (amerikanisches Englisch).

[19] Medical chatbot using OpenAI's GPT-3 told a fake patient to kill themselves. In: AI News. 28. Oktober 2020, abgerufen am 8. Januar 2021 (britisches Englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Generative Pre-trained Transformer 3 (GPT-3)
Basisdaten
Entwickler	OpenAI
Erscheinungsjahr	28. Mai 2020
Aktuelle Version	175B^[1]
Lizenz	proprietäre Lizenz
https://openai.com/blog/openai-api