Recherche arborescente Monte-Carlo

En informatique, et plus précisément en intelligence artificielle, la recherche arborescente Monte Carlo ou Monte Carlo tree search (MCTS) est un algorithme de recherche heuristique utilisé dans le cadre de la prise de décision. Il est notamment employé dans les jeux. On peut citer son implémentation dans le jeu vidéo Total War: Rome II avec son mode campagne IA haut-niveau[1] et les récents programmes informatiques de Go[2], suivis par les échecs et shogi[3], ainsi que les jeux vidéo en temps réel et les jeux à information incomplète tels que le poker[4].

Principe

L'algorithme MCTS est un algorithme qui explore l'arbre des possibles. La racine est la configuration initiale du jeu. Chaque nœud est une configuration et ses enfants sont les configurations suivantes. MCTS conserve en mémoire un arbre qui correspond aux nœuds déjà explorés de l'arbre des possibles. Une feuille de cet arbre (un nœud n'ayant pas d'enfants) est soit une configuration finale (i.e. on sait si un des joueurs a gagné, ou s'il y a match nul), soit un nœud dont aucun enfant n'a encore été exploré. Dans chaque nœud, on stocke deux nombres : le nombre de simulations gagnantes, et le nombre total de simulations. Chaque étape est composée de quatre phases[5].

  • Sélection. Depuis la racine, on sélectionne successivement des enfants jusqu'à atteindre une feuille. Dans cette phase, le choix des enfants est guidé par un compromis entre exploitation (aller vers un enfant qui a été prouvé comme prometteur) et exploration (aller visiter un autre enfant, qui a l'air moins prometteur mais qui pourrait l'être davantage). Dans l'exemple donné dans la figure, on choisit la feuille de gauche (de profondeur 3).
  • Expansion. Si cette feuille n'est pas finale, créer un enfant (ou plusieurs) en utilisant les règles du jeu et choisir l'un des enfants. Sur l'exemple, on ajoute cet enfant, marqué 0/0.
  • Simulation. Simuler une exécution d'une partie au hasard depuis cet enfant, jusqu'à atteindre une configuration finale.
  • Rétropropagation (Backpropagation). Utiliser le résultat de la partie au hasard et mettre à jour les informations sur la branche en partant du nœud enfant vers la racine. Sur l'exemple, la partie était perdante pour blanc. On incrémente donc uniquement le nombre de simulations totales sur la branche pour les nœuds blancs et on incrémente le nombre de simulations gagnées et le nombre de simulations totales pour les noirs sur la branche : 0/0 devient 0/1, 3/3 devient 4/4, 5/6 devient 5/7, 7/10 devient 8/11, et 12/21 devient 12/22. Si la partie avait été gagnante, 0/0 serait devenu 1/1, 3/3 serait devenu 3/4, 5/6 serait devenu 6/7, 7/10 serait devenu 7/11, et 12/21 serait devenu 13/22.
Étapes d'un MCTS.

Exploitation et exploration

La difficulté principale est dans la phase de sélection. Il faut sélectionner successivement les enfants jusqu'à attendre une feuille. Pour cela, on maintient un compromis entre l'exploitation des choix qui ont l'air prometteurs et l'exploration des nœuds à partir desquels peu de simulations ont été réalisées. La première formule pour ce compromis entre exploitation et exploration, qui s'appelle UCT (Upper Confidence Bound 1 applied to Trees) était introduit par Levente Kocsis (en) et Csaba Szepesvári (en)[6]. UCT est basée sur la formule UCB1 de Auer, Cesa-Bianchi et Fischer[7] et l'algorithme AMS (Adaptive Multi-stage Sampling) a été appliqué à la décision multi-étage par Chang, Fu, Hu, et Marcus[8]. Kocsis et Szepesvári recommandent de choisir le successeur i, en chaque nœud de l'arbre, pour lequel l'expression a la valeur maximale. Dans cette formule :

  • est le nombre de parties gagnées marqué dans le successeur i
  • est le nombre de fois où le successeur i a été visité
  • est le nombre de fois où le nœud, père de i, a été visité
  • c est le paramètre d'exploration — en théorie égal à , en pratique choisi expérimentalement.

La première partie de la formule, correspond à l'exploitation ; la fraction est grande pour les successeurs qui ont eu beaucoup de succès jusque là. La seconde partie correspond à l'exploration ; elle est grande pour des successeurs qui n'ont été impliqués que dans peu de simulations.

Les implémentations plus modernes de MCTS sont basées sur une variante de UCT, cf. les travaux de Chang et al.[8],[9] (2005) à Operations Research (en).

Comparaison avec d'autres approches

Références

  1. « Monte-Carlo Tree Search in TOTAL WAR: ROME II’s Campaign AI », sur AI Game Dev (consulté le )
  2. David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel et Demis Hassabis, « Mastering the game of Go with deep neural networks and tree search », Nature, vol. 529, no 7587,‎ , p. 484–489 (ISSN 0028-0836, PMID 26819042, DOI 10.1038/nature16961, Bibcode 2016Natur.529..484S, lire en ligne Accès payant, consulté le ).
  3. (en) D. Silver, « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », .
  4. Jonathan Rubin et Ian Watson, « Computer poker: A review », Artificial Intelligence, vol. 175, nos 5–6,‎ , p. 958–987 (DOI 10.1016/j.artint.2010.12.005, lire en ligne)
  5. G.M.J.B. Chaslot, M.H.M. Winands, J.W.H.M. Uiterwijk, H.J. van den Herik et B. Bouzy, « Progressive Strategies for Monte-Carlo Tree Search », New Mathematics and Natural Computation, vol. 4, no 3,‎ , p. 343–359 (DOI 10.1142/s1793005708001094, lire en ligne)
  6. (en) Levente Kocsis et Csaba Szepesvári « Bandit based Monte-Carlo Planning » (DOI 10.1007/11871842_29, CiteSeerx 10.1.1.102.1296)
    Machine Learning: ECML 2006, 17th European Conference on Machine Learning (Berlin, 18–22 septembre 2006)
    « (ibid.) », dans Johannes Fürnkranz, Tobias Scheffer et Myra Spiliopoulou (éds.), [...] Proceedings, vol. 4212, Springer, coll. « Lecture Notes in Computer Science », (ISBN 3-540-45375-X), p. 282–293
  7. Peter Auer, Nicolò Cesa-Bianchi et Paul Fischer, « Finite-time Analysis of the Multiarmed Bandit Problem »(Archive.orgWikiwixArchive.isGoogleQue faire ?), (DOI 10.1023/a:1013689704352), p. 235–256.
  8. a et b Hyeong Soo Chang, Michael C. Fu, Jiaqiao Hu et Steven I. Marcus, « An Adaptive Sampling Algorithm for Solving Markov Decision Processes », Operations Research, vol. 53,‎ , p. 126–139 (DOI 10.1287/opre.1040.0145, lire en ligne)
  9. Hyeong Soo Chang, Michael Fu, Jiaqiao Hu et Steven I. Marcus, « Google DeepMind's Alphago: O.R.'s unheralded role in the path-breaking achievement », INFORMS, vol. 45, no 5,‎ , p. 24–29 (lire en ligne)

Bibliographie

  • Cameron Browne, Edward Powley, Daniel Whitehouse, Simon Lucas, Peter I. Cowling, Philipp Rohlfshagen, Stephen Tavener, Diego Perez, Spyridon Samothrakis, Simon Colton, « A Survey of Monte Carlo Tree Search Methods », IEEE Transactions on Computational Intelligence and AI in Games, vol. 4, no 1,‎ (lire en ligne)

Lien externe

Read other articles:

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Desember 2022. Mg Mg AyeMg Mg Aye pada 2019Nama asalမောင်မောင်အေးLahirMg Mg Aye29 Juni 1978 (umur 45)Yangon, BurmaKebangsaanBurmaAlmamaterUniversitas DagonTahun aktif2008–kini Mg Mg Aye (bahasa Burma: မောင်မ...

 

Rotating chair Further information: Office chair A swivel chair with a pump to raise and lower the seat A swivel, swivelling, spinny, or revolving chair is a chair with a single central leg that allows the seat to rotate 360 degrees to the left or right. A concept of a rotating chair with swivel castors was illustrated by the Nuremberg patrician Martin Löffelholz von Kolberg in his 1505 technological illuminated manuscript, the so-called Codex Löffelholz, on folio 10r.[1] It is purp...

 

Brazilian politician You can help expand this article with text translated from the corresponding article in Portuguese. (April 2012) Click [show] for important translation instructions. View a machine-translated version of the Portuguese article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated t...

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Cet article ne cite pas suffisamment ses sources (août 2010). Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». En pratique : Quelles sources sont attendues ? Com...

 

Kubok Ukraïny 2004-2005Кубок України Competizione Kubok Ukraïny Sport Calcio Edizione 14ª Date dal 4 agosto 2004al 29 maggio 2005 Luogo  Ucraina Partecipanti 64 Risultati Vincitore Dinamo Kiev(7º titolo) Secondo Šachtar Semi-finalisti DniproKryvbas Statistiche Miglior marcatore Diogo Rincón (6) Gol segnati 210 Cronologia della competizione 2003-2004 2005-2006 Manuale La Kubok Ukraïny 2004-2005 (in ucraino Кубок України?) fu la 14ª edizio...

 

Cesare MagarottoMonumento a Cesare Magarotto nell'ingresso della sede nazionale dell'ENS a Roma 1º Segretario Generale dell'Ente Nazionale SordomutiDurata mandato1932 –1979 Predecessorecarica istituita Successorenon disponibile Dati generaliTitolo di studioLaurea in Scienze Economiche UniversitàUniversità degli Studi di Roma La Sapienza Professionegiornalista, segretario Cesare Magarotto (Padova, 10 luglio 1917 – Roma, 24 agosto 2006) è stato un giornalista e f...

British daily tabloid format newspaper Not to be confused with the British tabloid the Daily Star. For the 19th-century newspaper, see Morning Star (London newspaper). The neutrality of this article is disputed. Relevant discussion may be found on the talk page. Please do not remove this message until conditions to do so are met. (June 2023) (Learn how and when to remove this message) Morning StarFront page of the Morning Star from 27 June 2020TypeDaily newspaperFormatTabloidOwner(s)People's ...

 

Este artículo o sección tiene referencias, pero necesita más para complementar su verificabilidad. Busca fuentes: «Atletismo» – noticias · libros · académico · imágenesEste aviso fue puesto el 16 de mayo de 2018. Atletismo Autoridad deportiva Asociación Internacional de Federaciones de Atletismo (IAAF)CaracterísticasOlímpico Desde los Juegos Olímpicos de Atenas 1896Paralímpico Desde los Juegos Paralímpicos de Roma 1960[editar datos en Wikidata] ...

 

Artikel ini sudah memiliki referensi, tetapi tidak disertai kutipan yang cukup. Anda dapat membantu mengembangkan artikel ini dengan menambahkan lebih banyak kutipan pada teks artikel. (November 2023) (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini)Tentara Nasional IndonesiaAngkatan UdaraLambang TNI Angkatan UdaraDibentuk9 April 1946 (1946-04-09)(78 tahun)Negara IndonesiaCabang Angkatan UdaraPeranPertempuran UdaraJumlah personel30,100 personel aktif[1]...

النمر والأنثىمعلومات عامةالصنف الفني أكشن، دراماتاريخ الصدور 14 فبراير 1987مدة العرض 177 دقيقةاللغة الأصلية العربيةالبلد  مصر الطاقمالمخرج سمير سيف الكاتب إبراهيم الموجيالبطولة عادل إمام آثار الحكيم التصوير عصام فريدالموسيقى محمد سلطان التركيب سلوى بكيرصناعة سينمائيةا...

 

The United Arab Emirates (UAE) law against blasphemy is governed by article 312 of the United Arab Emirates Penal Code. Law This section relies excessively on references to primary sources. Please improve this section by adding secondary or tertiary sources. Find sources: Blasphemy law in the United Arab Emirates – news · newspapers · books · scholar · JSTOR (December 2021) (Learn how and when to remove this message) According to Article 312 of the Pe...

 

Political party in Malaysia People's Alliance Malay namePakatan Rakyatڤاكتن رعيت‎Chinese name人民聯盟人民联盟Rénmín LiánméngTamil nameபக்காத்தான் ராக்யாட்Pakkāttāṉ RākyāṭAbbreviationPRLeaderAnwar IbrahimFounded1 April 2008Dissolved16 June 2015Preceded byBarisan AlternatifSucceeded byPakatan Harapan and Gagasan SejahteraHeadquartersPetaling Jaya, Malaysia (PKR) Kuala Lumpur, Malaysia (DAP & PAS) Kuching...

Основная статья: Нюрнбергский процессЗаседание Нюрнбергского процесса. Декабрь 1945 года В списке в алфавитном порядке указаны бывшие руководители гитлеровской Германии, представшие в качестве обвиняемых перед Международным военным трибуналом, заседавшим в Нюрнбер�...

 

1978 single by Toto This article is about Toto song. For other uses, see Hold the Line (disambiguation). Hold the LineSingle by Totofrom the album Toto B-sideTakin' It BackReleasedSeptember 1978 (1978-09)Recorded1978StudioStudio 55(Los Angeles, California)GenreHard rockarena rockyacht rock[1]Length3:29 (Single Version)3:56 (Album Version)LabelColumbiaSongwriter(s)David PaichProducer(s)TotoToto singles chronology Hold the Line (1978) I'll Supply the Love (1979) Alternative co...

 

«Siamo un corpo solo: banditi, polizia e mafia! Come il Padre, il Figlio e lo Spirito Santo!» (Gaspare Pisciotta al Processo di Viterbo)Gaspare Pisciotta (a sin.) assieme a Salvatore Giuliano Gaspare Pisciotta (Montelepre, 5 marzo 1924 – Palermo, 9 febbraio 1954) è stato un criminale italiano, personaggio della storia criminale siciliana del secondo dopoguerra. Indice 1 Biografia 1.1 L'arresto e la morte di Giuliano 1.2 Il processo di Viterbo 1.3 Il carcere e l'avvelenamento 2 Influenza...

Artikel ini perlu dikembangkan agar dapat memenuhi kriteria sebagai entri Wikipedia.Bantulah untuk mengembangkan artikel ini. Jika tidak dikembangkan, artikel ini akan dihapus. Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Astara rayon – berita · surat kabar...

 

Vevo LLC Vevo Nomes anteriores VEVO Proprietário(s) Majoritários: Universal Music Group Sony Music Group Warner Music Group Minoritários: BMG Gravadoras independentes Merlin Network ONErpm MNRK Music Group Vydia Anteriores: EMI Group Sony BMG Abu Dhabi Media Company[1] MGM Holdings The Recording Academy Requer pagamento? Não Gênero Vários Cadastro Opcional País de origem  Estados Unidos Idioma(s) Inglês, espanhol, português, francês, alemão, italiano e árabe Lançamento 8 de...

 

Colonial Governor of Virginia George Percy The Honourable George Percy (4 September 1580 – 1632) was an English explorer, author, and early Colonial Governor of Virginia. Early life George Percy was born in England, the youngest son of Henry Percy, 8th Earl of Northumberland and Lady Catherine Neville. He was sickly for much of his life, possibly suffering from epilepsy or severe asthma. He graduated from Oxford University in 1597. While at university, he gained admission to Gloucester Hall...

Professor of Chemistry For the Bessarabian-Bulgarian physician, see Nina Berova-Orahovac. Nina BerovaNina Berova speaks at the Scuola Normale Superiore in 2012Alma materUniversity of Sofia Bulgarian Academy of Sciences Ruhr University BochumAwardsChirality MedalScientific careerInstitutionsColumbia UniversityUniversity of Sofia Nina D. Berova is a Professor of Chemistry at Columbia University. She is recognised as a world leader in stereochemistry and chiroptical spectroscopy. Her contr...

 

Japanese financial company, a subsidiary of Sony Sony Financial Group Inc.Headquarters at Otemachi Financial CityNative nameソニーフィナンシャルグループ株式会社Romanized nameSonī Finansharu Gurūpu Kabushiki-gaishaFormerlySony Financial Holdings(2004–2021)Company typeSubsidiaryIndustryFinancial servicesFounded1 April 2004; 20 years ago (2004-04-01)[1]HeadquartersŌtemachi, Chiyoda-ku, Tokyo, Japan[1]Key peopleShigeru Ishii (President)[...