Deep Q-Network (略称:DQN[ 1] )とは、Google の子会社DeepMind が2015年 に発表した、電子ゲーム をプレーする、Q学習 と畳み込みニューラルネットワーク を組み合わせた強化学習 のエージェントである。Atari 2600 の49個中29ゲームにおいて人間以上のスコアを獲得できた[ 1] [ 2] 。
概要
深層学習 (畳み込みニューラルネットワーク )と強化学習 (Q学習 )を組み合わせたアルゴリズムであるDQNで学習したエージェントは、ゲームのルールを教えていない場合でも、どのように操作すれば高得点を目指すことができるのかを判断することができる[ 3] 。この際に、今までの経験をもとにトレーニングを行う「experience replay」と呼ばれるアルゴリズムが大きく貢献していることが分かった[ 1] 。
あるプログラムはAtari 2600 の49種類のゲーム中43種類で従来の人工知能による得点を上回り、29のゲームではプロゲーマー と同等またはそれ以上のパフォーマンスを見せた[ 1] 。特にブロック崩し では、400回プレイするとボールの取りこぼしがなくなり、600回のプレイの後には次々と攻略法を生み出し、高得点を取るようになった[ 2] 。またもっとも上達したピンボール では人間の25倍のスコアを取った[ 4] 。
これらの研究成果は、Nature 電子版に、2015年2月26日付で掲載された[ 5] [ 6] 。また、翌年の2016年2月4日にAsynchronous Advantage Actor-Critic (A3C)を発表し、学習効率が改善した[ 7] 。更にその翌年の2017年10月6日に、2015年~2017年に発表されたDQNに対する改善手法6手法を組み合わせたRainbowを発表し、更に学習効率が改善した[ 8] 。
なお、2008年の時点で、日本の別のグループが、実ロボット (AIBO )の行動学習タスクにおいて、画像入力の5層全結合ニューラルネットワークを用いた強化学習 (Q学習)をすでに使っている[ 9] 。また、2001年の時点には、画像入力の多層全結合ニューラルネットワークを用いた強化学習 (Actor Critic)を使って、シミュレーション上でロボットの行動学習をさせている[ 10] 。
開発
開発元のDeepMind 社は2011年 に設立され、2014年にGoogleによって5億ドルで買収された人工知能 (AI)関連のベンチャー企業 で[ 11] [ 12] 、買収後Google傘下でAtari 2600 のゲームをプレイさせ、AI開発を続けた[ 13] 。
弱点
DQNを用いて学習したプログラムは、従来の人工知能とは違い、ゲームのルールをあらかじめ教わることなく全てランダムで操作を行った。そのため、パックマン 風のゲーム(ミズ・パックマン)ではスコアを伸ばせず、数秒先の事でも考えることができないというDQNの弱点が示されている[ 13] 。これは、ランダムな操作では得点を得ることが難しいので、システムが学習できなかったため[ 14] 。
関連項目
脚注・出典
^ a b c d “Google、「DQN」という人工知能を開発、ゼロからゲームをプレイして自力で攻略方法を見つける ”. Internet Watch (2015年2月26日). 2015年2月27日 閲覧。
^ a b c “グーグルAI、その名もDQN! 超高性能だが、「頭悪そう〜」” . 産経ニュース. (2015年2月26日). https://web.archive.org/web/20150227110031/http://www.sankei.com/entertainments/news/150226/ent1502260005-n1.html 2015年2月27日 閲覧。
^ “人工知能「DQN」が成長しながらレトロゲームを次々とクリア ”. Livedoor News (2015年2月28日). 2015年2月28日 閲覧。
^ “グーグル、自ら学ぶ人工知能開発 ゲーム繰り返し遊んで攻略” . 日本経済新聞. (2015年2月26日). https://www.nikkei.com/article/DGXLZO83685140W5A220C1EA2000/ 2015年2月27日 閲覧。
^ Volodymyr Mnih et al. (February 2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. doi :10.1038/nature14236 . PMID 25719670 .
^ Bernhard Schölkopf (February 2015). “Learning to see and act”. Nature 518 (7540): 486–487. doi :10.1038/518486a . PMID 25719660 .
^ Mnih, Volodymyr; Badia, Adrià Puigdomènech; Mirza, Mehdi; Graves, Alex; Lillicrap, Timothy P.; Harley, Tim; Silver, David; Kavukcuoglu, Koray (2016). Asynchronous Methods for Deep Reinforcement Learning . doi :10.48550/arXiv.1602.01783 . https://arxiv.org/abs/1602.01783 .
^ Hessel, Matteo; Modayil, Joseph; van Hasselt, Hado; Schaul, Tom; Ostrovski, Georg; Dabney, Will; Horgan, Dan; Piot, Bilal et al. (2017). Rainbow: Combining Improvements in Deep Reinforcement Learning . doi :10.48550/arXiv.1710.02298 . https://arxiv.org/abs/1710.02298 .
^ Katsunari Shibata and Tomohiko Kawano (2009) “Learning of Action Generation from Raw Camera Images in a Real-World-like Environment by Simple Coupling of Reinforcement Learning and a Neural Network”, Advances in Neuro-Information Processing (Proc. of ICONIP’08), Lecture Notes in Computer Science, Vol. 5506, pp. 755-762, 200
^ 柴田克成, 岡部洋一, 伊藤宏司 (2001) “ニューラルネットワークを用いたDirect-Vision-Based強化学習 -センサからモータまで-”, 計測自動制御学会論文集, Vol.37, No.2, pp.168-177
^ “グーグル、AI研究開発のディープマインドを買収 - 買収額は4億ドル以上 ”. WirelessWireNews (2014年1月27日). 2014年1月29日時点のオリジナル よりアーカイブ。2015年2月27日 閲覧。
^ “英ディープマインド、AIでコンピューターゲームの遊び方を自動習得するアルゴリズム” . 日刊工業新聞 . (2015年2月26日). http://www.nikkan.co.jp/news/nkx0220150226bjad.html 2015年2月27日 閲覧。
^ a b “グーグルの人工知能「DQN」、ピンボールは得意でもパックマンは苦手 ”. GIZMODO (2015年2月27日). 2015年2月27日 閲覧。
^ “自力で学習する人工知能「DQN」、ゲーム攻略で習熟力披露” . AFP BBニュース. (2015年2月28日). https://www.afpbb.com/articles/-/3040902 2015年2月28日 閲覧。
^ “グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 ” (2015年2月26日). 2015年2月27日 閲覧。
^ 羽生善治 、NHKスペシャル取材班『人工知能の核心』NHK出版 、2017年、51頁。ISBN 978-4-14-088511-6 。
外部リンク