उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर 2 ( जीपीटी-2 ) ओपनएआई द्वारा एक बड़ा भाषा मॉडल है और जीपीटी मॉडल की उनकी मूलभूत श्रृंखला में दूसरा है। GPT-2 को बुककॉर्पस पर पूर्व-प्रशिक्षित किया गया था, [1] विभिन्न शैलियों की 7,000 से अधिक अप्रकाशित फिक्शन पुस्तकों का डेटासेट, और 8 मिलियन वेब पेजों के डेटासेट पर प्रशिक्षित किया गया था। [2] इसे फरवरी 2019 में आंशिक रूप से जारी किया गया था, इसके बाद 5 नवंबर, 2019 को 1.5-बिलियन-पैरामीटर मॉडल की पूर्ण रिलीज हुई [3][4][5][6][7]
GPT-2 को GPT-1 [8] के "प्रत्यक्ष स्केल-अप" के रूप में बनाया गया था, जिसमें इसके पैरामीटर गिनती और इसके प्रशिक्षण डेटासेट के आकार दोनों में दस गुना वृद्धि हुई थी। [7] यह एक सामान्य-उद्देश्यीय शिक्षार्थी है और विभिन्न कार्यों को करने की इसकी क्षमता एक क्रम में अगले आइटम की सटीक भविष्यवाणी करने की इसकी सामान्य क्षमता का परिणाम थी, [2][9] जिसने इसे ग्रंथों का अनुवाद करने, किसी विषय के बारे में सवालों के जवाब देने में सक्षम बनाया। एक पाठ से, एक बड़े पाठ से अनुच्छेदों को सारांशित करें, [9] और कभी-कभी मनुष्यों से अप्रभेद्य स्तर पर पाठ आउटपुट उत्पन्न करें, [10] हालांकि लंबे अनुच्छेद उत्पन्न करते समय यह दोहराव या निरर्थक हो सकता है। [11] इसका स्थान GPT-3 और GPT-4 मॉडल ने ले लिया, जो अब खुला स्रोत नहीं हैं।
GPT-2 में, अपने पूर्ववर्ती GPT-1 और उसके उत्तराधिकारियों जीपीटी-3 और जीपीटी-4 की तरह, एक उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर वास्तुकला है, जो एक गहरे तंत्रिका नेटवर्क को लागू करता है, विशेष रूप से एक ट्रांसफार्मर मॉडल, [8] जो पुराने के बजाय ध्यान का उपयोग करता है पुनरावृत्ति- और कनवल्शन-आधारित आर्किटेक्चर। [12][13] ध्यान तंत्र मॉडल को इनपुट टेक्स्ट के उन खंडों पर चयनात्मक रूप से ध्यान केंद्रित करने की अनुमति देता है जो सबसे अधिक प्रासंगिक होने की भविष्यवाणी करते हैं। [14][15] यह मॉडल बहुत अधिक समानांतरीकरण की अनुमति देता है, और RNN/CNN/LSTM-आधारित मॉडल के लिए पिछले बेंचमार्क से बेहतर प्रदर्शन करता है। [8]
↑Zhu, Yukun; Kiros, Ryan (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV].Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015).
↑ अआRadford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners"(PDF). 1 (8). मूल(PDF) से 6 February 2021 को पुरालेखित. अभिगमन तिथि 19 December 2020. Cite journal requires |journal= (मदद)Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019).
↑Bahdanau, Dzmitry; Cho, Kyunghyun (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014).
↑Luong, Minh-Thang; Pham, Hieu (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025 [cs.CL].Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015).