Comparison of the LeNet and AlexNet convolution, pooling and dense layers
AlexNet 是一个卷积神经网络 ,由亚历克斯·克里泽夫斯基 设计[ 1] ,与伊尔亚·苏茨克维 和克里泽夫斯基的博士导师杰弗里·辛顿 共同发表[ 2] [ 3] 。
AlexNet参加了2012年9月30日举行的ImageNet 大规模视觉识别挑战赛[ 4] ,达到最低的15.3%的Top-5错误率,比第二名低10.8个百分点。原论文的主要结论是,模型的深度对于提高性能至关重要,AlexNet的计算成本很高,但因在训练过程中使用了图形处理器 (GPU)而使得计算具有可行性[ 4] 。
背景
AlexNet并不是卷积神经网络(CNN)第一次利用快速GPU实现而赢得图像识别竞赛。K. Chellapilla等人(2006)在GPU上的CNN比同等的CPU实现速度快4倍[ 5] 。Dan Ciresan等人(2011)的深层CNN在IDSIA 上已经快了60倍[ 6] ,并在2011年8月取得了超过人类的表现[ 7] 。从2011年5月15日到2012年9月10日,他们的CNN赢得了不少于四场图像竞赛[ 8] [ 9] 。他们还极大提高了文献中多个图像数据库 的最佳性能[ 10] 。
根据AlexNet的论文[ 4] ,其与Ciresan的早期网络“有些相似”。两者最初都用CUDA 编写,可在GPU 支持下运行。实际上,两者都是杨立昆 等人(1989)介绍的CNN设计的变体[ 11] [ 12] ,他将反向传播算法 应用于福岛邦彦(福島 邦彦 )最初提出的CNN架构“neocognitron ”的一个变种[ 13] [ 14] 。后来J. Weng提出的最大池化方法 修改了该架构[ 15] [ 9] 。
网络设计
AlexNet包含八层。前五层是卷积 层,之后一些层是最大池化 层,最后三层是全连接层[ 4] 。它使用了非饱和的ReLU 激活函数,显示出比tanh 和sigmoid 更好的训练性能[ 4] 。
影响
AlexNet被认为是计算机视觉领域最有影响力的论文之一,它刺激了更多使用卷积神经网络和GPU来加速深度学习的论文的出现[ 16] 。
根據Google scholar網站統計,截至2024年中,AlexNet论文已被引用超过157,000次[ 17] 。
亚历克斯·克里泽夫斯基
亚历克斯·克里泽夫斯基(出生于乌克兰 ,在加拿大 长大)是一名计算机科学家 ,以在人工神经网络 和深度学习 方面的工作而著称。在通过AlexNet赢得ImageNet 2012挑战赛后不久,他和同事将他们的创业公司DNN研究公司(DNN Research Inc.)卖给了Google [ 1] 。克里泽夫斯基对这项工作失去兴趣后,于2017年9月离开了Google[ 1] 。在Dessa公司,克里泽夫斯基将为新的深度学习技术提供建议和帮助[ 1] 。研究人员经常引用他的许多有关机器学习 和计算机视觉 的论文[ 18] 。
参考资料
^ 1.0 1.1 1.2 1.3 Dave Gershgorn. The inside story of how AI got good enough to dominate Silicon Valley . Quartz . 2018-06-18 [2018-10-05 ] . (原始内容存档 于2019-12-12).
^ The data that transformed AI research—and possibly the world . [2020-01-17 ] . (原始内容存档 于2017-07-27).
^ ILSVRC2012 Results . [2020-01-17 ] . (原始内容存档 于2020-01-16).
^ 4.0 4.1 4.2 4.3 4.4 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. ImageNet classification with deep convolutional neural networks (PDF) . Communications of the ACM. 2017-05-24, 60 (6): 84–90 [2020-01-17 ] . ISSN 0001-0782 . doi:10.1145/3065386 . (原始内容存档 (PDF) 于2017-05-16).
^ Kumar Chellapilla; Sid Puri; Patrice Simard. High Performance Convolutional Neural Networks for Document Processing . Lorette, Guy (编). Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft. 2006 [2020-01-17 ] . (原始内容存档 于2020-05-18).
^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF) . Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2011, 2 : 1237–1242 [2013-11-17 ] . (原始内容存档 (PDF) 于2013-11-16).
^ IJCNN 2011 Competition result table . OFFICIAL IJCNN2011 COMPETITION. 2010 [2019-01-14 ] . (原始内容存档 于2019-01-21).
^ Schmidhuber, Jürgen. History of computer vision contests won by deep CNNs on GPU . 2017-03-17 [2019-01-14 ] . (原始内容存档 于2018-12-19).
^ 9.0 9.1 Schmidhuber, Jürgen. Deep Learning . Scholarpedia. 2015, 10 (11): 1527–54 [2020-01-17 ] . CiteSeerX 10.1.1.76.1541 . PMID 16764513 . doi:10.1162/neco.2006.18.7.1527 . (原始内容存档 于2016-04-19).
^ Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen. Multi-column deep neural networks for image classification. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). June 2012: 3642–3649. CiteSeerX 10.1.1.300.3283 . ISBN 978-1-4673-1226-4 . OCLC 812295155 . arXiv:1202.2745 . doi:10.1109/CVPR.2012.6248110 .
^ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel, Backpropagation Applied to Handwritten Zip Code Recognition (页面存档备份 ,存于互联网档案馆 ); AT&T Bell Laboratories
^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-based learning applied to document recognition (PDF) . Proceedings of the IEEE. 1998, 86 (11): 2278–2324 [2016-10-07 ] . CiteSeerX 10.1.1.32.9552 . doi:10.1109/5.726791 . (原始内容 (PDF) 存档于2017-12-15).
^ Fukushima, K. Neocognitron. Scholarpedia. 2007, 2 (1): 1717. doi:10.4249/scholarpedia.1717 .
^ Fukushima, Kunihiko. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF) . Biological Cybernetics. 1980, 36 (4): 193–202 [2013-11-16 ] . PMID 7370364 . doi:10.1007/BF00344251 . (原始内容存档 (PDF) 于2014-06-03).
^ Weng, J; Ahuja, N; Huang, TS. Learning recognition and segmentation of 3-D objects from 2-D images. Proc. 4th International Conf. Computer Vision. 1993: 121–128.
^ Deshpande, Adit. The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3) . adeshpande3.github.io. [2018-12-04 ] . (原始内容存档 于2018-11-21).
^ AlexNet paper on Google Scholar
^ Alex Krizhevsky . Google Scholar Citations. [2020-01-17 ] . (原始内容存档 于2020-04-17).
可微分计算
概论 概念 应用 硬件 软件库 实现
人物 组织 架构
主题
分类