বুককর্পাস (কখনও কখনও টরন্টো বুক কর্পাস নামেও পরিচিত) হল একটি ডেটাসেট যা ইন্ডি ইবুক বিতরণ ওয়েবসাইট স্ম্যাশওয়ার্ডস থেকে স্ক্র্যাপ করা প্রায় ৭,০০০ স্ব-প্রকাশিত বইয়ের পাঠ্য সমন্বিত।[১] ইংরেজিতে এটিকে BookCorpus হিসেবে বিন্যাসিত করা হয়েছে। ওপেনএআই[২] দ্বারা প্রাথমিক জিপিটি মডেলের প্রশিক্ষণের জন্য এটিই ব্যবহৃত প্রধান সংস্থা এবং গুগলের বার্টসহ অন্যান্য প্রাথমিক বৃহৎ ভাষার মডেলগুলির প্রশিক্ষণ ডেটা হিসাবে ব্যবহৃত হয়েছে।[৩] ডেটাসেটটি প্রায় ৯৮৫ মিলিয়ন শব্দ নিয়ে গঠিত। এটি যে বইগুলি নিয়ে গঠিত তাতে রোম্যান্স, কল্পবিজ্ঞান এবং ফ্যান্টাসিসহ বিভিন্ন ধরণের ধারার বই রয়েছে৷[৩]
২০১৫ সালে টরন্টো বিশ্ববিদ্যালয় এবং এমআইটির গবেষকরা "অ্যালাইনিং বুকস অ্যান্ড মুভিস: টুওয়ার্ডস স্টোরি-লাইক ভিজ্যুয়াল এক্সপ্ল্যানেশনস বাই ওয়াচিং মুভিজ এবং রিডিং বুকস" শিরোনামের একটি গবেষণাপত্রে এই কর্পাসটি চালু করেছিলেন। লেখকরা এটিকে "এখনও অপ্রকাশিত লেখকদের দ্বারা লিখিত বিনামূল্যের বই"-এর সমন্বয় হিসাবে বর্ণনা করেছেন, তবে এটি বাস্তবে ভুল। এই বইগুলি স্ব-প্রকাশিত ("ইন্ডি") লেখকদের দ্বারা প্রকাশিত হয়েছিল যারা এর মূল্য বিনামূল্য নির্ধারণ করেছিল; স্ম্যাশওয়ার্ডস বা স্ম্যাশওয়ার্ডস লেখকদের সম্মতি বা অনুমতি ছাড়াই এবং স্ম্যাশওয়ার্ডস পরিষেবার শর্তাবলী লঙ্ঘন করে বইগুলি ডাউনলোড করা হয়েছিল৷[৪] ডেটাসেটটি প্রাথমিকভাবে টরন্টো বিশ্ববিদ্যালয়ের ওয়েবপেজে হোস্ট করা হয়েছিল।[৪] মূল ডেটাসেটের দাপ্তরিক সংস্করণ আর সর্বজনীনভাবে উপলব্ধ নেই। যদিও একটি বিকল্প, বুককর্পাসওপেন তৈরি করা হয়েছে৷[১] যদিও মূল ২০১৫ কাগজে নথিভুক্ত করা হয়নি, যে সাইট থেকে কর্পাসের বইগুলি স্ক্র্যাপ করা হয়েছিল সেটি স্ম্যাশওয়ার্ড হিসাবে পরিচিত।[১][৪]