MNISTデータベース

MNIST sample images
MNISTテストデータセットのサンプル

MNISTデータベース(英: MNIST database, Modified National Institute of Standards and Technology databaseの略)は、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベース[1][2]。米国商務省配下の研究所が構築したこのデータベースは、機械学習分野での学習や評価に広く用いられている[3][4]

概要

MNISTデータベースは、もともとNISTが保有していたデータセットに含まれるサンプルを再構成することによって作成されたデータベースである[5]。元のデータセットでは、学習データセットが国勢調査局の従業員から取得したものであるのに対し、評価データセットは米国の高校生から取得したものであるため、MNISTデータベースの作成者は、そのままでは機械学習の実験には適さないと感じていた[6][注釈 1]。また、NISTのデータベースに含まれる画像は当初白黒であったが、28x28ピクセルの範囲に収まるようにサイズが正規化され、グレースケール画像になるようアンチエイリアス処理も行われた。

MNISTデータベースには、60,000枚の訓練用画像と10,000枚の評価用画像が含まれている[8]。訓練用画像の半分と評価用画像の半分をNISTの訓練データセットから取得し、残りの半分をNISTの評価データセットから取得した[9]。データベースの作成者は、データベースで評価した手法の一覧を公開している[6]。論文では、サポートベクターマシンを使用して誤検知率0.8%という実験結果を発表している[10]。また関連して、EMNISTと呼ばれるMNISTに類似した拡張データセットも2017年に公開されている。このデータセットには手書きの数字と文字が含まれており、240,000枚の訓練用画像と40,000枚の評価用画像が含まれる[11]

データセット

MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている[6]

MNISTによる性能評価の歴史

2012年に発表された研究では、ニューラルネットワークを組み合わせるコミッティマシン英語版を用いて、MNISTデータベースで「人間に近いパフォーマンス」を達成した。同じ論文で、他の認識タスクでも人間の2倍のパフォーマンスを達成している[12]。MNISTデータベースのWebサイトにアップされている一覧[6]によれば、最も悪い誤検知率は12%である。これは、データの前処理をすることなく単純な線形分類器を使用して分類した場合に記録されたものである[10]

2004年には、ローゼンブラットのパーセプトロン原理に基づく3つのニューロン層を持つニューラル分類器であるLIRAと呼ばれる新しい分類器を用いて、MNISTデータベースにおいて0.42%という最良の誤検知率が達成された[13]

研究者によっては、ランダムな歪み加工を施したデータを用いて人工知能を学習・評価したものもある。対象となるシステムは通常ニューラルネットワークであり、使用される歪み加工はアフィン変換または弾性変形のいずれかであることが多い[6]。この方法で学習されたモデルが高い精度を達成する場合もある。その中の事例の一つでは、MNISTデータベースを用いた評価で誤検知率0.39%を達成した[14]

2011年には、従来の最良の結果を改善して誤検知率0.27%を達成したことが、同様のニューラルネットワークを用いた研究で報告された[15]。2013年には、DropConnect[注釈 2]と呼ばれる正則化手法を用いたニューラルネットワークで、誤検知率0.21%を達成したとする研究も現れた[16]。2016年時点で、単一の畳み込みニューラルネットワーク(CNN)を用いた実験に限ると、誤検知率0.25%が最も良い[17]。また2018年8月時点で、データ拡張英語版を使用せずにMNISTで学習した単一の畳み込みニューラルネットワークの最高精度もまた、誤検知率0.25%である[18]。単一のCNNに限らなければ、Parallel Computing Center(ウクライナフメリニツキー)が、5つのCNNを用いたアンサンブル学習により誤検知率0.21%を達成している[19][20]。2018年には、バージニア大学の研究者が、3種類のニューラルネットワーク(fully connected, recurrent, convolutional)を並列させたネットワークを用いて誤検知率0.18%を達成したと発表している[21]。なお、テストデータセット内の画像にはほとんど読み取れないような識別難度の高いものも含まれている[22]

分類器と性能の一覧

本データセットを用いて評価された機械学習手法とその誤検知率を、分類器の種類別に表している。

分類器の種別 分類器の説明

(784-100-10といった表記は、ニューラルネットワークにおける各層のノード数を表す。またPはプーリング層。)

歪み加工 前処理 誤検知率(%)
線形分類器 ペアワイズ線形分類器 自動傾き補正 7.6[10]
ランダム化された木を使用したデジションストリーム[注釈 3] 単一モデル(深さ400以上) 2.7[24]
K近傍法 非線形変換を伴うK-NN(P2DHMDM) エッジずらし 0.52[25]
決定株英語版のブースト Haar特徴を用いた決定株のブースト Haar特徴量英語版 0.87[26]
サポートベクターマシン(SVM) 仮想SVM 自動傾き補正 0.56[27]
ディープニューラルネットワーク(DNN) 2層 784-800-10 1.6[28]
ディープニューラルネットワーク 2層 784-800-10 弾性歪み 0.7
ディープニューラルネットワーク 6層 784-2500-2000-1500-1000-500-10 弾性歪み 0.35[29]
畳み込みニューラルネットワーク (CNN) 6層 784-40-80-500-1000-2000-10 学習データの拡張 0.31[30]
畳み込みニューラルネットワーク 6層 784-50-100-500-1000-10-10 学習データの拡張 0.27[31]
畳み込みニューラルネットワーク 13層 64-128(5x)-256(3x)-512-2048-256-256-10 0.25[17]
畳み込みニューラルネットワーク 35個のCNNの組み合わせ、1-20-P-40-P-150-10 弾性歪み 幅の正規化 0.23[12]
畳み込みニューラルネットワーク 5つのCNNの組み合わせ, 6層 784-50-100-500-1000-10-10 学習データの拡張 0.21[19][20]
ランダムマルチモデルディープラーニング(RMDL) 10個のニューラルネットワーク, 10個のリカレントニューラルネットワーク、10個の畳み込みニューラルネットワーク 0.18[21]

QMNIST

QMNISTはMNISTの厳密なスーパーセットとなる手書き文字画像データセットである[32]

MNISTは1990年代にNISTデータセットから構築された。しかしその正確な構築手順は記録として残っておらず、またNISTデータセットに存在した他の手書き文字画像やラベル情報も失われている。失われた構築法を再現し元のNISTデータセットから更なるデータを追加することでMNISTの上位互換(スーパーセット)となることを意図し構築されたデータセットがQMNISTである[33]

QMNISTはtrain/test合計で1074人計12万個の手書き文字画像から構成されており、1人当たり100~130個の画像が含まれている。

表. コンテンツ比較
MNIST QMNIST
データ数 train 60,000[34] 60,000[34]
test 10,000[35] 60,000[35]
話者数 train 539[36] 539[37]
test 298[38] 535[39]

pMNIST

permuted MNIST (pMNIST) タスクはピクセル並び替えにより空間情報が失われたMNISTの分類タスクである[40]。MNISTは2次元の画像であり隣接ピクセル同士に文字ごとで異なる相関がある。ゆえにConvのような空間に関する帰納バイアスを利用して効率的に解くことができる。ある種のタスクではそのような空間情報によるバイアス無しでの性能評価が望ましい(例: 長系列予測)。pMNISTではピクセルの位置を完全にシャッフルしたうえで固定し、これを用いた分類タスクとする。これにより文字ごとの隣接ピクセル間相関差が消滅し、空間バイアスのないデータセットによるモデル評価が可能になる。

関連項目

脚注

注釈

  1. ^ 一般に、どのような機械学習アルゴリズムを用いて精度の高いモデルを作成したとしても、学習に用いたデータの分布を外れたデータに対しては、正しい結果を返すとは限らない[7]。そのため、NISTがもともと保持していたデータセットのように学習データと評価データの分布が大きく異なる場合には、評価データによる評価が用をなさないおそれがある。
  2. ^ 正規化手法の一種。ネットワークの過学習を抑えることが目的で、訓練段階ごとにノード間をつなぐ接続のいくつかを一定の確率で無効にする手法。特定のノードや接続が、特定の学習サンプルに過度に適合することを防ぐことが期待される[16]
  3. ^ 決定木の拡張。決定木同様、一定の方向に分枝していく点は同じだが、一つのノードに複数の枝が流入することがある点が異なる[23]

出典

  1. ^ Support vector machines speed pattern recognition - Vision Systems Design”. Vision Systems Design. 17 August 2013閲覧。
  2. ^ Gangaputra. “Handwritten digit database”. 17 August 2013閲覧。
  3. ^ Qiao (2007年). “THE MNIST DATABASE of handwritten digits”. 18 August 2013閲覧。
  4. ^ Platt, John C. (1999). “Using analytic QP and sparseness to speed training of support vector machines”. Advances in Neural Information Processing Systems: 557–563. http://ar.newsmth.net/att/148aa490aed5b5/smo-nips.pdf 18 August 2013閲覧。. 
  5. ^ Grother. “NIST Special Database 19 - Handprinted Forms and Characters Database” (pdf). National Institute of Standards and Technology. 2021年2月2日閲覧。
  6. ^ a b c d e LeCun. “The MNIST Handwritten Digit Database”. Yann LeCun's Website yann.lecun.com. 30 April 2020閲覧。
  7. ^ Bickel, Steffen. Learning under differing training and test distributions. https://publishup.uni-potsdam.de/opus4-ubp/frontdoor/index/index/docId/3148 2021年2月2日閲覧。. 
  8. ^ Kussul, Ernst; Baidyk, Tatiana (2004). “Improved method of handwritten digit recognition tested on MNIST database”. Image and Vision Computing 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008. 
  9. ^ Zhang, Bin; Srihari, Sargur N. (2004). “Fast k-Nearest Neighbor Classification Using Cluster-Based Trees”. IEEE Transactions on Pattern Analysis and Machine Intelligence 26 (4): 525–528. doi:10.1109/TPAMI.2004.1265868. PMID 15382657. http://mleg.cse.sc.edu/edu/csce822/uploads/Main.ReadingList/KNN_fastbyClustering.pdf 20 April 2020閲覧。. 
  10. ^ a b c LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). “Gradient-Based Learning Applied to Document Recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791. http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf 18 August 2013閲覧。. 
  11. ^ Cohen, Gregory; Afshar, Saeed (17 February 2017). "EMNIST: an extension of MNIST to handwritten letters". arXiv:1702.05373 [cs.CV]。
  12. ^ a b Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). “Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1228-8. http://repository.supsi.ch/5145/1/IDSIA-04-12.pdf 
  13. ^ Kussul, Ernst; Tatiana Baidyk (2004). “Improved method of handwritten digit recognition tested on MNIST database”. Image and Vision Computing 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008. https://vlabdownload.googlecode.com/files/Image_VisionComputing.pdf 20 September 2013閲覧。. 
  14. ^ Ranzato, Marc’Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). “Efficient Learning of Sparse Representations with an Energy-Based Model”. Advances in Neural Information Processing Systems 19: 1137–1144. http://yann.lecun.com/exdb/publis/pdf/ranzato-06.pdf 20 September 2013閲覧。. 
  15. ^ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber (2011). “Convolutional neural network committees for handwritten character classification”. 2011 International Conference on Document Analysis and Recognition (ICDAR). pp. 1135–1139. doi:10.1109/ICDAR.2011.229. ISBN 978-1-4577-1350-7. オリジナルの22 February 2016時点におけるアーカイブ。. http://www.icdar2011.org/fileup/PDF/4520b135.pdf 20 September 2013閲覧。 
  16. ^ a b Wan et al. 2013.
  17. ^ a b SimpleNet (2016年). “Lets Keep it simple, Using simple architectures to outperform deeper and more complex architectures”. 3 December 2020閲覧。
  18. ^ SimpNet. “Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet”. Github. 3 December 2020閲覧。
  19. ^ a b Romanuke. “Parallel Computing Center (Khmelnytskyi, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate.”. 24 November 2016閲覧。
  20. ^ a b Romanuke, Vadim (2016). “Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate”. Research Bulletin of NTUU "Kyiv Polytechnic Institute" 6 (6): 29–34. doi:10.20535/1810-0546.2016.6.84115. 
  21. ^ a b Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (2018-05-03). “RMDL: Random Multimodel Deep Learning for Classification”. Proceedings of the 2018 International Conference on Information System and Data Mining. arXiv:1805.01890. doi:10.1145/3206098.3206111. 
  22. ^ MNIST classifier. “Classify MNIST digits using Convolutional Neural Networks”. 3 August 2018閲覧。
  23. ^ Ignatov, Dmitry; Ignatov, Andrey (2017-11). “Decision Stream: Cultivating Deep Decision Trees”. 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI) (Boston, MA: IEEE): 905–912. arXiv:1704.07657. doi:10.1109/ICTAI.2017.00140. ISBN 978-1-5386-3876-7. https://ieeexplore.ieee.org/document/8372043/ 2021年2月2日閲覧。. 
  24. ^ Ignatov, D.Yu.; Ignatov, A.D. (2017). “Decision Stream: Cultivating Deep Decision Trees”. IEEE Ictai: 905–912. arXiv:1704.07657. Bibcode2017arXiv170407657I. doi:10.1109/ICTAI.2017.00140. ISBN 978-1-5386-3876-7. https://www.researchgate.net/publication/316471270. 
  25. ^ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (August 2007). “Deformation models for image recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 29 (8): 1422–1435. doi:10.1109/TPAMI.2007.1153. PMID 17568145. 
  26. ^ Kégl, Balázs; Róbert Busa-Fekete (2009). “Boosting products of base classifiers”. Proceedings of the 26th Annual International Conference on Machine Learning: 497–504. doi:10.1145/1553374.1553439. https://users.lal.in2p3.fr/kegl/research/PDFs/keglBusafekete09.pdf 27 August 2013閲覧。. 
  27. ^ Decoste & Schölkopf 2002.
  28. ^ Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). “Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis”. Proceedings of the Seventh International Conference on Document Analysis and Recognition. 1. Institute of Electrical and Electronics Engineers. pp. 958. doi:10.1109/ICDAR.2003.1227801. ISBN 978-0-7695-1960-9. http://research.microsoft.com/apps/pubs/?id=68920 
  29. ^ Ciresan, Claudiu Dan; Ueli Meier; Luca Maria Gambardella; Juergen Schmidhuber (December 2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”. Neural Computation 22 (12): 3207–20. arXiv:1003.0358. doi:10.1162/NECO_a_00052. PMID 20858131. 
  30. ^ Romanuke. “The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnytskyi, Ukraine”. 16 November 2016閲覧。
  31. ^ Romanuke. “Parallel Computing Center (Khmelnytskyi, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate”. 24 November 2016閲覧。
  32. ^ "We propose a reconstruction that is accurate enough to serve as a replacement for the MNIST dataset ... we eventually had to freeze one of these datasets and call it QMNIST" Yadav. (2019). Cold Case: the Lost MNIST Digits.
  33. ^ Yadav and Bottou. (2019). Cold Case: the Lost MNIST Digits.
  34. ^ a b "The reconstructed training set contains 60,000 images matching each of the MNIST training images." Yadav. (2019). Cold Case: the Lost MNIST Digits.
  35. ^ a b "the first 10,000 images of the reconstructed test set match each of the MNIST test set images. The next 50,000 images are a reconstruction of the 50,000 lost MNIST test images." Yadav. (2019). Cold Case: the Lost MNIST Digits.
  36. ^ 高校生 250人(#2100 ~ #2349)+ 国勢調査局 "Even-numbered images among the 58,100 first MNIST training set samples exactly match the digits written by writers #2100-#2349, all high school students" Yadav. (2019). Cold Case: the Lost MNIST Digits.
  37. ^ 国勢調査局 289人(#0 ~ #288)+ 高校生 250人(#2100 ~ #2349)
  38. ^ 国勢調査局 48人(#326 ~ #373)+ 高校生 250人(#2350 ~ #2599)
  39. ^ 国勢調査局 285人(#326 ~ #610)+ 高校生 250人(#2350 ~ #2599)
  40. ^ "The permuted MNIST (pMNIST) task feeds inputs to a model pixel-by-pixel in the order of a fixed permutation." Gu, et al. (2020). HiPPO: Recurrent Memory with Optimal Polynomial Projections.

参考文献

外部リンク