기계 학습과 데이터 마이닝 |
---|
![]() |
비전 트랜스포머(Vision transformer)는 트랜스포머로 구축된 이미지 처리 모델이다. 2020년 "An image is worth 16x16 words" 논문에 의해 이미지를 단어처럼 처리하면 어떨까 하는 아이디어에서 시작되어, 분야에 따라 종래의 합성곱 신경망과 비슷한 성능을 내고 있다.
잘 알려진 프로젝트로는 Xception, ResNet,[1] DenseNet,[2] Inception[3] 등이 있다.
![]() |
이 글은 컴퓨터 과학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다. |