বুককর্পাস

বুককর্পাস (কখনও কখনও টরন্টো বুক কর্পাস নামেও পরিচিত) হল একটি ডেটাসেট যা ইন্ডি ইবুক বিতরণ ওয়েবসাইট স্ম্যাশওয়ার্ডস থেকে স্ক্র্যাপ করা প্রায় ৭,০০০ স্ব-প্রকাশিত বইয়ের পাঠ্য সমন্বিত।[] ইংরেজিতে এটিকে BookCorpus হিসেবে বিন্যাসিত করা হয়েছে। ওপেনএআই[] দ্বারা প্রাথমিক জিপিটি মডেলের প্রশিক্ষণের জন্য এটিই ব্যবহৃত প্রধান সংস্থা এবং গুগলের বার্টসহ অন্যান্য প্রাথমিক বৃহৎ ভাষার মডেলগুলির প্রশিক্ষণ ডেটা হিসাবে ব্যবহৃত হয়েছে।[] ডেটাসেটটি প্রায় ৯৮৫ মিলিয়ন শব্দ নিয়ে গঠিত। এটি যে বইগুলি নিয়ে গঠিত তাতে রোম্যান্স, কল্পবিজ্ঞান এবং ফ্যান্টাসিসহ বিভিন্ন ধরণের ধারার বই রয়েছে৷[]

২০১৫ সালে টরন্টো বিশ্ববিদ্যালয় এবং এমআইটির গবেষকরা "অ্যালাইনিং বুকস অ্যান্ড মুভিস: টুওয়ার্ডস স্টোরি-লাইক ভিজ্যুয়াল এক্সপ্ল্যানেশনস বাই ওয়াচিং মুভিজ এবং রিডিং বুকস" শিরোনামের একটি গবেষণাপত্রে এই কর্পাসটি চালু করেছিলেন। লেখকরা এটিকে "এখনও অপ্রকাশিত লেখকদের দ্বারা লিখিত বিনামূল্যের বই"-এর সমন্বয় হিসাবে বর্ণনা করেছেন, তবে এটি বাস্তবে ভুল। এই বইগুলি স্ব-প্রকাশিত ("ইন্ডি") লেখকদের দ্বারা প্রকাশিত হয়েছিল যারা এর মূল্য বিনামূল্য নির্ধারণ করেছিল; স্ম্যাশওয়ার্ডস বা স্ম্যাশওয়ার্ডস লেখকদের সম্মতি বা অনুমতি ছাড়াই এবং স্ম্যাশওয়ার্ডস পরিষেবার শর্তাবলী লঙ্ঘন করে বইগুলি ডাউনলোড করা হয়েছিল৷[] ডেটাসেটটি প্রাথমিকভাবে টরন্টো বিশ্ববিদ্যালয়ের ওয়েবপেজে হোস্ট করা হয়েছিল।[] মূল ডেটাসেটের দাপ্তরিক সংস্করণ আর সর্বজনীনভাবে উপলব্ধ নেই। যদিও একটি বিকল্প, বুককর্পাসওপেন তৈরি করা হয়েছে৷[] যদিও মূল ২০১৫ কাগজে নথিভুক্ত করা হয়নি, যে সাইট থেকে কর্পাসের বইগুলি স্ক্র্যাপ করা হয়েছিল সেটি স্ম্যাশওয়ার্ড হিসাবে পরিচিত।[][]

তথ্যসূত্র

[সম্পাদনা]
  1. Bandy, Jack; Vincent, Nicholas (২০২১)। "Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus" 
  2. "Improving Language Understanding by Generative Pre-Training" (পিডিএফ)। জানুয়ারি ২৬, ২০২১ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ জুন ৯, ২০২০ 
  3. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (১১ অক্টোবর ২০১৮)। "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"। arXiv:1810.04805v2অবাধে প্রবেশযোগ্য [cs.CL]। 
  4. Lea, Richard (২৮ সেপ্টেম্বর ২০১৬)। "Google swallows 11,000 novels to improve AI's conversation"The Guardian