Thiết kế bởi | Matthew Honnibal |
---|---|
Phát triển bởi | Explosion AI, đa dạng |
Phát hành lần đầu | tháng 2 năm 2015[1] |
Phiên bản ổn định | 3.0.0
/ 1 tháng 2 năm 2021[2] |
Kho mã nguồn | |
Viết bằng | Python, Cython |
Hệ điều hành | Linux, Microsoft Windows, MacOS, MacOS |
Nền tảng | Đa nền tảng |
Thể loại | Xử lý ngôn ngữ tự nhiên |
Giấy phép | Giấy phép MIT |
Website | spacy |
spaCy (/speɪˈsiː/ spay-SEE) là một thư viện phần mềm mã nguồn mở dành cho xử lý ngôn ngữ tự nhiên nâng cao, được viết bằng hai ngôn ngữ Python và Cython.[3][4] Thư viện này được xuất bản với giấy phép MIT và các nhà phát triển chính là Matthew Honnibal và Ines Montani, cũng là những người sáng lập công ty phần mềm Explosion.
Không giống như NLTK, được sử dụng rộng rãi trong giảng dạy và nghiên cứu, spaCy tập trung vào việc cung cấp phần mềm để sử dụng trong sản xuất.[5][6] spaCy cũng hỗ trợ các quy trình làm việc học sâu cho phép nối kết với các mô hình thống kê được huấn luyện bởi các thư viện máy học phổ biến như TensorFlow, PyTorch hay Apache MXNet thông qua thư viện học máy Thinc của riêng nó.[7][8] Sử dụng Thinc làm chương trình phụ trợ (backend) của nó, spaCy làm nổi bật các mô hình mạng thần kinh tích chập cho các tác vụ gán nhãn từ loại (part-of-speech tagging), cây phân tích cú pháp, phân loại tài liệu và nhận dạng thực thể có tên (NER). Các mô hình thống kê mạng thần kinh nhân tạo được tích hợp trước để thực hiện các tác vụ này sẵn có ở 17 ngôn ngữ, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Nga, Trung Quốc, và cũng có một mô hình NER đa ngữ. Thêm nữa, spaCy cũng hỗ trợ token hóa cho hơn 65 ngôn ngữ, cho phép người dùng huấn luyện mô hình tùy chỉnh trên các tập dữ liệu của riêng mình.[9]