저장소 | |
---|---|
웹사이트 | spacy |
spaCy(/speɪˈsiː/ spay-SEE)는 파이썬 및 사이썬 프로그래밍 언어로 작성된 고급 자연어 처리용 오픈 소스 소프트웨어 라이브러리이다.[1][2] 이 라이브러리는 MIT 허가서에 따라 게시되며 주요 개발자는 소프트웨어 회사 익스플로전(Explosion)의 창립자인 매튜 호니발(Matthew Honnibal)과 이네스 몬타니(Ines Montani)이다.
교육 및 연구에 널리 사용되는 NLTK와 달리 spaCy는 생산용 소프트웨어 제공에 중점을 둔다.[3][4] spaCy는 자체 기계 학습 라이브러리 Thinc를 통해 TensorFlow, PyTorch 또는 MXNet과 같은 인기 있는 기계 학습 라이브러리로 훈련된 통계 모델을 연결할 수 있는 딥 러닝 워크플로우도 지원한다.[5][6] Thinc을 백엔드로 사용하는 spaCy는 품사 태그 지정, 종속성 구문 분석, 텍스트 분류 및 명명된 엔터티 인식(NER)을 위한 컨볼루션 신경망 모델을 제공한다. 이러한 작업을 수행하기 위해 사전 구축된 통계 신경망 모델은 영어, 포르투갈어, 스페인어, 러시아어, 중국어를 포함한 23개 언어로 제공되며 다국어 NER 모델도 있다. 65개 이상의 언어에 대한 토큰화에 대한 추가 지원을 통해 사용자는 자신의 데이터 세트에서 사용자 정의 모델을 교육할 수도 있다.[7]