BookCorpus(ブック・コーパス)は、Toronto Book Corpus(トロント・ブック・コーパス)としても知られ、インターネットから収集された約11,000冊の未発表書籍のテキストで構成されるデータセットである。このコーパスは、OpenAIによる初期の言語モデルであるGPTの訓練に使用された主要なコーパスであり[1]、GoogleのBERTを含む他の初期の大規模言語モデルの訓練データとしても使われた[2]。このデータセットは約9億8,500万語からなり、ロマンス、SF、ファンタジーなど幅広いジャンルの書籍に及んでいる[2]。
このコーパスは、トロント大学とマサチューセッツ工科大学の研究者による2015年の論文「Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books」で公開された。著者らはこれを「まだ出版されていない著者による無料の書籍」で構成されていると説明している[3][4]。このデータセットは当初、トロント大学のウェブページから提供された[4]。もとのデータセットの公式バージョンは非公開となり、それに代わるものとしてBookCorpusOpenが作成されている[5]。2015年のオリジナル論文には触れられていないが、このコーパスの書籍を収集したサイトはSmashwords(英語版)であることが知られている[4][5]。
^ abDevlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]。