Generative Pre-trained Transformer 3 (GPT-3) là một mô hình ngôn ngữ lớn được phát hành bởi OpenAI vào năm 2020. Giống như phiên bản tiền nhiệm của nó, GPT-2, đây là một mô hình transformer chỉ chứa bộ giải mã của mạng nơ-ron sâu, nó vượt trội hơn các kiến trúc dựa trên hồi quy và tích chập bằng kỹ thuật được gọi là ("cơ chế chú ý" hay "attention").[1] Cơ chế chú ý này cho phép mô hình tập trung lựa chọn vào các phân đoạn văn bản đầu vào mà nó dự đoán là liên quan nhất.[2] Nó sử dụng ngữ cảnh dài 2048-token, độ chính xác float16 (16-bit) và 175 tỷ tham số chưa từng có trước đó, yêu cầu 350GB dung lượng lưu trữ vì mỗi tham số chiếm 2 byte không gian, và đã thể hiện khả năng học "zero-shot" và "few-shot" tốt trên nhiều nhiệm vụ.[3]
Vào ngày 22 tháng 9 năm 2020, Microsoft thông báo rằng họ đã đạt được giấy phép độc quyền GPT-3. Người dùng khác vẫn có thể nhận đầu ra từ API công cộng của nó, nhưng chỉ Microsoft mới có quyền truy cập vào mô hình cơ bản.[4]
Các công ty cho biết OpenAI sẽ tiếp tục cung cấp API hướng đến công chúng của mình, cho phép người dùng được chọn gửi văn bản đến GPT-3 hoặc các mô hình khác của OpenAI và nhận đầu ra của nó. Tuy nhiên, chỉ Microsoft mới có quyền truy cập vào mã nguồn cơ bản của GPT-3, cho phép họ nhúng, tái sử dụng và sửa đổi mô hình theo ý muốn.