GPT-3

Generative Pre-trained Transformer 3 (GPT-3) là một mô hình ngôn ngữ lớn được phát hành bởi OpenAI vào năm 2020. Giống như phiên bản tiền nhiệm của nó, GPT-2, đây là một mô hình transformer chỉ chứa bộ giải mã của mạng nơ-ron sâu, nó vượt trội hơn các kiến trúc dựa trên hồi quy và tích chập bằng kỹ thuật được gọi là ("cơ chế chú ý" hay "attention").^[1] Cơ chế chú ý này cho phép mô hình tập trung lựa chọn vào các phân đoạn văn bản đầu vào mà nó dự đoán là liên quan nhất.^[2] Nó sử dụng ngữ cảnh dài 2048-token, độ chính xác float16 (16-bit) và 175 tỷ tham số chưa từng có trước đó, yêu cầu 350GB dung lượng lưu trữ vì mỗi tham số chiếm 2 byte không gian, và đã thể hiện khả năng học "zero-shot" và "few-shot" tốt trên nhiều nhiệm vụ.^[3]

Vào ngày 22 tháng 9 năm 2020, Microsoft thông báo rằng họ đã đạt được giấy phép độc quyền GPT-3. Người dùng khác vẫn có thể nhận đầu ra từ API công cộng của nó, nhưng chỉ Microsoft mới có quyền truy cập vào mô hình cơ bản.^[4]

Tham khảo

^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). “Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arΧiv:1409.0473 [cs.CL].
^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 tháng 6 năm 2018). “Improving Language Understanding by Generative Pre-Training” (PDF). tr. 12. Lưu trữ (PDF) bản gốc ngày 26 tháng 1 năm 2021. Truy cập ngày 31 tháng 7 năm 2020.
^ Hao, Karen (23 tháng 9 năm 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model”. MIT Technology Review (bằng tiếng Anh). Lưu trữ bản gốc ngày 5 tháng 2 năm 2021. Truy cập ngày 25 tháng 9 năm 2020. Các công ty cho biết OpenAI sẽ tiếp tục cung cấp API hướng đến công chúng của mình, cho phép người dùng được chọn gửi văn bản đến GPT-3 hoặc các mô hình khác của OpenAI và nhận đầu ra của nó. Tuy nhiên, chỉ Microsoft mới có quyền truy cập vào mã nguồn cơ bản của GPT-3, cho phép họ nhúng, tái sử dụng và sửa đổi mô hình theo ý muốn.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[2018_Attention_Paper-1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). “Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.

[jointly-2] Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arΧiv:1409.0473 [cs.CL].

[OpenAI_Radford_20200611-3] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 tháng 6 năm 2018). “Improving Language Understanding by Generative Pre-Training” (PDF). tr. 12. Lưu trữ (PDF) bản gốc ngày 26 tháng 1 năm 2021. Truy cập ngày 31 tháng 7 năm 2020.

[MSgotcode-4] Hao, Karen (23 tháng 9 năm 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model”. MIT Technology Review (bằng tiếng Anh). Lưu trữ bản gốc ngày 5 tháng 2 năm 2021. Truy cập ngày 25 tháng 9 năm 2020. Các công ty cho biết OpenAI sẽ tiếp tục cung cấp API hướng đến công chúng của mình, cho phép người dùng được chọn gửi văn bản đến GPT-3 hoặc các mô hình khác của OpenAI và nhận đầu ra của nó. Tuy nhiên, chỉ Microsoft mới có quyền truy cập vào mã nguồn cơ bản của GPT-3, cho phép họ nhúng, tái sử dụng và sửa đổi mô hình theo ý muốn.

[1]

[2]

[3]

[4]