AlexNet

Comparison of the LeNet and AlexNet convolution, pooling and dense layers

AlexNet畳み込みニューラル ネットワーク(CNN)の構造の名前であり、Alex Krizhevsky が博士課程の指導教官である Ilya Sutskever および ジェフェリー・ヒントン と共同で設計した[1] [2]

AlexNet は、2012 年 9 月 30 日に開催された ILSVRC 2012[3] に参加した。AlexNet はエラー率 15.3% で優勝し、次点よりも 10.8% 以上低かった。この論文の主な内容は、モデルの深さが高性能には不可欠であるというもので、計算コストは高くなるものの、GPU を用いて学習することで実現した[2]

歴史的背景

[編集]

GPU で実装した高速な畳み込みニューラルネットワークが画像認識コンテストで優勝したのは AlexNet が初めてではなかった。K. Chellapilla ら(2006)による GPU 上の畳み込みニューラルネットワークは、CPU 上の同等の実装と比べて 4 倍高速だった[4]。IDSIA での Dan Cireșan ら(2011)のディープ畳み込みニューラルネットワークは、すでに 60 倍の速度で[5]、2011 年 8 月には超人的な性能を達成していた[6]。2011 年 5 月 15 日から 2012 年 9 月 10 日までの間に、彼らの畳み込みニューラルネットワークは 4 つ以上の画像コンテストで優勝している[7] [8]。また、複数の画像データベースに関する文献の中での最高性能を大幅に更新した[9]

AlexNet の論文によると[2]、Cireșan の初期のネットワークは「多少似ている」とのこと。 どちらも元々は GPU 上で動作するように CUDA で書かれた。実際には、どちらもヤン・ルカンら(1989)が発表した畳み込みニューラルネットワーク・デザインの変形であり[10] [11]ネオコグニトロンと呼ばれる福島邦彦の畳み込みニューラルネットワークの構造に誤差逆伝播法(バックプロパゲーション)を適用したものだ[12] [13]。 この構造は、J. Weng の max-pooling と呼ばれる手法で後に修正された [14] [8]

2015 年には、ImageNet 2015 コンテストで優勝した Microsoft Research Asia の100層以上の非常に深い畳み込みニューラルネットワークにAlexNet が勝った[15]

ネットワーク・デザイン

[編集]

AlexNet には 8 つのレイヤーが含まれていた。最初の 5 つは畳み込み層で、そのうちのいくつかに max-pooling 層が続き、最後の 3 つは全結合層だった[2]。活性化関数には、非飽和型の ReLU を使用し、tanh および sigmoid よりも学習性能が向上している。

影響

[編集]

AlexNet は、コンピュータビジョンで発表された最も影響力のある論文の 1 つであると考えられており、深層学習を加速するために畳み込みニューラルネットワークと GPU を使用してさらに多くの論文が発表されている[16]。 Google Scholar によると、AlexNet の論文は 2021 年現在で 80,000 回以上引用されている。

関連項目

[編集]

脚注

[編集]
  1. ^ The data that transformed AI research—and possibly the world”. 2021年6月4日閲覧。
  2. ^ a b c d Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf. 
  3. ^ ILSVRC2012 Results”. 2021年6月4日閲覧。
  4. ^ Kumar Chellapilla; Sid Puri; Patrice Simard (2006). “High Performance Convolutional Neural Networks for Document Processing”. In Lorette, Guy. Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft. https://hal.inria.fr/inria-00112631/document 
  5. ^ Cireșan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). “Flexible, High Performance Convolutional Neural Networks for Image Classification”. Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two 2: 1237–1242. http://www.idsia.ch/~juergen/ijcai2011.pdf 17 November 2013閲覧。. 
  6. ^ IJCNN 2011 Competition result table” (英語). OFFICIAL IJCNN2011 COMPETITION (2010年). 2019年1月14日閲覧。
  7. ^ Schmidhuber (17 March 2017). “History of computer vision contests won by deep CNNs on GPU” (英語). 14 January 2019閲覧。
  8. ^ a b Schmidhuber, Jürgen (2015). “Deep Learning”. Scholarpedia 10 (11): 1527–54. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. http://www.scholarpedia.org/article/Deep_Learning. 
  9. ^ Cireșan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). Multi-column deep neural networks for image classification. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). 3642–3649. arXiv:1202.2745. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155 
  10. ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). “Backpropagation Applied to Handwritten Zip Code Recognition”. Neural Computation (MIT Press - Journals) 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139. http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf. 
  11. ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). “Gradient-based learning applied to document recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791. http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf October 7, 2016閲覧。. 
  12. ^ Fukushima, K. (2007). “Neocognitron”. Scholarpedia 2 (1): 1717. Bibcode2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717. 
  13. ^ Fukushima, Kunihiko (1980). “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position”. Biological Cybernetics 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf 16 November 2013閲覧。. 
  14. ^ Weng, J; Ahuja, N; Huang, TS (1993). “Learning recognition and segmentation of 3-D objects from 2-D images”. Proc. 4th International Conf. Computer Vision: 121–128. 
  15. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. 
  16. ^ Deshpande. “The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)”. adeshpande3.github.io. 2018年12月4日閲覧。