SpaCy

spaCy
Thiết kế bởiMatthew Honnibal
Phát triển bởiExplosion AI, đa dạng
Phát hành lần đầutháng 2 năm 2015; 9 năm trước (2015-02)[1]
Phiên bản ổn định
3.0.0 / 1 tháng 2 năm 2021; 3 năm trước (2021-02-01)[2]
Kho mã nguồn
Viết bằngPython, Cython
Hệ điều hànhLinux, Microsoft Windows, MacOS, MacOS
Nền tảngĐa nền tảng
Thể loạiXử lý ngôn ngữ tự nhiên
Giấy phépGiấy phép MIT
Websitespacy.io Sửa dữ liệu tại Wikidata

spaCy (/spˈs/ spay-SEE) là một thư viện phần mềm mã nguồn mở dành cho xử lý ngôn ngữ tự nhiên nâng cao, được viết bằng hai ngôn ngữ PythonCython.[3][4] Thư viện này được xuất bản với giấy phép MIT và các nhà phát triển chính là Matthew HonnibalInes Montani, cũng là những người sáng lập công ty phần mềm Explosion.

Không giống như NLTK, được sử dụng rộng rãi trong giảng dạy và nghiên cứu, spaCy tập trung vào việc cung cấp phần mềm để sử dụng trong sản xuất.[5][6] spaCy cũng hỗ trợ các quy trình làm việc học sâu cho phép nối kết với các mô hình thống kê được huấn luyện bởi các thư viện máy học phổ biến như TensorFlow, PyTorch hay Apache MXNet thông qua thư viện học máy Thinc của riêng nó.[7][8] Sử dụng Thinc làm chương trình phụ trợ (backend) của nó, spaCy làm nổi bật các mô hình mạng thần kinh tích chập cho các tác vụ gán nhãn từ loại (part-of-speech tagging), cây phân tích cú pháp, phân loại tài liệunhận dạng thực thể có tên (NER). Các mô hình thống kê mạng thần kinh nhân tạo được tích hợp trước để thực hiện các tác vụ này sẵn có ở 17 ngôn ngữ, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Nga, Trung Quốc, và cũng có một mô hình NER đa ngữ. Thêm nữa, spaCy cũng hỗ trợ token hóa cho hơn 65 ngôn ngữ, cho phép người dùng huấn luyện mô hình tùy chỉnh trên các tập dữ liệu của riêng mình.[9]

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ “Introducing spaCy”. explosion.ai. Truy cập ngày 18 tháng 12 năm 2016.
  2. ^ “Release v3.0.0: Transformer-based pipelines, new training system, project templates, custom models, improved component API, type hints & lots more · explosion/spaCy”. GitHub (bằng tiếng Anh). Truy cập ngày 2 tháng 2 năm 2021.
  3. ^ Choi et al. (2015). It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool.
  4. ^ “Google's new artificial intelligence can't understand these sentences. Can you?”. Washington Post. Truy cập ngày 18 tháng 12 năm 2016.
  5. ^ “Facts & Figures - spaCy”. spacy.io (bằng tiếng Anh). Truy cập ngày 4 tháng 4 năm 2020.
  6. ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). “Multidisciplinary instruction with the Natural Language Toolkit” (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145.
  7. ^ “PyTorch, TensorFlow & MXNet”. thinc.ai. Truy cập ngày 4 tháng 4 năm 2020.
  8. ^ “explosion/thinc”. GitHub. Truy cập ngày 30 tháng 12 năm 2016.
  9. ^ “Models & Languages | spaCy Usage Documentation”. spacy.io. Truy cập ngày 10 tháng 3 năm 2020.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Akatsuki no Goei - Trinity Complete Edition [Tiếng Việt]
Akatsuki no Goei - Trinity Complete Edition [Tiếng Việt]
Cậu chuyện lấy bối cảnh Nhật Bản ở một tương lai gần, giai đoạn cảnh sát hoàn toàn mất kiểm soát, tội phạm ở khắp nơi
Đại cương chiến thuật bóng đá: Pressing và các khái niệm liên quan
Đại cương chiến thuật bóng đá: Pressing và các khái niệm liên quan
Cụm từ Pressing đã trở nên quá phổ biến trong thế giới bóng đá, đến mức nó còn lan sang các lĩnh vực khác và trở thành một cụm từ lóng được giới trẻ sử dụng để nói về việc gây áp lực
Phantom Valorant – Vũ khí quốc dân
Phantom Valorant – Vũ khí quốc dân
Không quá khó hiểu để chọn ra một khẩu súng tốt nhất trong Valorant , ngay lập tức trong đầu tôi sẽ nghĩ ngay tới – Phantom
Jujutsu Kaisen chương 239: Kẻ sống sót ngốc nghếch
Jujutsu Kaisen chương 239: Kẻ sống sót ngốc nghếch
Cô nàng cáu giận Kenjaku vì tất cả những gì xảy ra trong Tử Diệt Hồi Du. Cô tự hỏi rằng liệu có quá tàn nhẫn không khi cho bọn họ sống lại bằng cách biến họ thành chú vật