Arbre de décision

Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteintes en fonction de décisions prises à chaque étape. L'arbre de décision est un outil utilisé dans des domaines variés tels que la sécurité, la fouille de données, la médecine, etc. Il a l'avantage d'être lisible et rapide à exécuter. Il s'agit de plus d'une représentation calculable automatiquement par des algorithmes d'apprentissage supervisé.

Exemple simple

Exemple d'un arbre de décision pour décider si une personne a des risques d'avoir un accident cardiovasculaire.

Prenons l'exemple du risque d'avoir un accident cardiovasculaire. Dans un arbre de décision, on pose des questions. On descend dans l'arbre jusqu'à obtenir la réponse « peu de risque » ou « grand risque ». La figure donne un exemple d'un arbre de décision. Il y a deux attributs : l'âge et le fait que la personne soit fumeuse. On pose d'abord la question de l'âge. Si on a moins de 30 ans, il y a peu de risque. Si on a plus de 30 ans, on pose la question si la personne est fumeuse. Si non, peu de risque. Si oui, le risque est grand.

Présentation

Les arbres de décision sont utilisés dans des domaines d'aide à la décision (par exemple l'informatique décisionnelle) ou l'exploration de données. Ils décrivent comment répartir une population d'individus (clients d'une entreprise, utilisateurs d'un réseau social, …) en groupes homogènes selon un ensemble de variables discriminantes (âge, temps passé sur un site Web, catégorie socio-professionnelle, …) et en fonction d'un objectif fixé (aussi appelé « variable d'intérêt » ou « variable de sortie » ; par exemple : chiffre d'affaires, probabilité de cliquer sur une publicité, …).

Par exemple, l'arbre de décision ci-dessous (tiré de l'ouvrage de Quilan[1]) illustre le cas où l'on cherche à prédire le comportement de sportifs (la variable à prédire Jouer prenant l'une des deux valeurs « oui » ou « non ») en fonction de données météorologiques (Ensoleillement, Température, Humidité ou Vent), appelées variables prédictives.

Arbre de décision sur les données Weather
Arbre de décision sur les données Weather

Chaque nœud de l’arbre décrit la distribution de la variable Jouer à prédire. Dans le cas du premier nœud, la racine de l’arbre, nous constatons qu’il y a 14 observations dans notre fichier : 9 cas où une partie a eu lieu (Jouer = oui) et 5 où aucune partie n'a eu lieu (Jouer = non). Ce premier nœud a plusieurs fils construits en utilisant la variable Ensoleillement : le plus à gauche (Ensoleillement = Soleil) comporte 5 observations, le suivant (Ensoleillement = couvert) en comporte 4, et ainsi de suite. La suite de décisions continue jusqu'à ce que, dans l'idéal, les observations dans un nœud soient toutes « oui » ou toutes « non ». On dit alors que le nœud est homogène.

Le processus de décision s'arrête aux feuilles de l’arbre. Dans l'arbre ci-dessus, toutes les feuilles sont homogènes, c'est-à-dire que les variables prédictives utilisées permettent de prédire complètement (sur ce fichier de données) si une partie va avoir lieu ou non. (Notons qu'il serait possible de construire l'arbre selon un ordre différent des variables de météo, par exemple en considérant l'humidité plutôt que l'ensoleillement à la première décision). L'arbre se lit intuitivement de haut en bas, ce qui se traduit en termes de règles logiques sans perte d’informations : par exemple, la feuille la plus à gauche se lit : « si ensoleillement = soleil et humidité < 77,5 % alors jouer = oui ».

Exemple d'arbre en contexte décisionnel

Cet exemple d'arbre de décision, au sens de la Recherche opérationnelle, est librement inspiré d'un ouvrage de James Evans[2].

Version textuelle

Les estimations de coûts et les probabilités ne sont pas réalistes, ce ne sont que de simples illustrations. De même, il existe d'autres paramètres de calcul des solutions aux arbres de décision, ignorés ici par souci de simplicité.

Vous êtes chargé du développement d'un médicament. Les essais de Phase II ont été très encourageants et vous souhaitez déterminer si le lancement de cette préparation sera ou non rentable pour votre société. Remarque liminaire : les coûts des études réalisées jusque-là sont irrécupérables et n'entrent donc pas dans le processus de décision. Ce dernier comprend :

  • Une phase de décision, lancer ou non la phase III. Si non, l'affaire s'arrête et si oui, cela vous coûtera 250 M€.
  • Une phase aléatoire (chance) : 30% de chances que cette phase soit concluante, 70% de chances d'échec.
  • Une nouvelle phase de décision, en cas de réussite uniquement : soumettre une demande d'agrément à l'ANSM ou, aux États-Unis, à la FDA. Vous estimez les coûts des aller-retours prévisibles à 25 M€.
  • Une deuxième phase aléatoire : 60% de chances que votre proposition soit acceptée.
  • Pas d'autre phase de décision : si c'est approuvé vous lancez le produit.
  • Mais, là, une dernière phase aléatoire :
    • Avec une probabilité de 60%, votre médicament sera un succès éclatant, générant au moins 4,5 Md€ ;
    • Pour 30% des cas, le succès sera moindre, le retour n'étant que de 2,2 Md€ ;
    • Dans 9,9% des cas, des concurrents lanceront des solutions proches, limitant vos gains à 1,5 Md€ ;
    • Enfin, et même si cela est très improbable (0,1% de chances), l'affaire peut virer au fiasco avec des procès vous conduisant à débourser 10 Md€ de dommages et intérêts.

Question simple : vous lancez la phase III ou non ?

Vue de l'arbre de décision

Cet arbre a été obtenu grâce à la procédure Dtree de SAS/OR [3], légèrement édité ensuite.

Image de l'arbre de décision

Légende :

  • Les carrés sont les phases de décision, les ronds ouverts les phases aléatoires, les ronds fermés les phases de fin ;
  • Les lignes plus sombres sont les décisions suggérées par le modèle ;
  • r : coût d'une décision unique ;
  • CR : coût cumulé des décisions jusque-là ;
  • EV : espérance mathématique de gain.

Le calcul de ces dernières se fait à rebours, de droite à gauche. L'espérance est positive pour la première décision, donc on lance le processus.

Utilisation en apprentissage automatique

Un avantage majeur des arbres de décision est qu'ils peuvent être calculés automatiquement à partir de bases de données par des algorithmes d’apprentissage supervisé. Ces algorithmes sélectionnent automatiquement les variables discriminantes à partir de données non structurées et potentiellement volumineuses. Ils peuvent ainsi permettre d'extraire des règles logiques de cause à effet (des déterminismes) qui n'apparaissaient pas initialement dans les données brutes.

Extensions

Certains formalismes alternatifs proposent d'ajouter des règles de transition plus complexes dans chaque nœud. Ces formalismes sont alors utiles non pas pour l’apprentissage automatique mais pour la construction incrémentale de bases de connaissances, quand on dispose d'un expert dans le domaine d'application visé. On peut citer les Règles Dé-Roulées (Ripple Down Rules (en)), les EDAG (Exception directed acyclic graphs)[4], ou les nœuds de situation (nos) du logiciel libre EdiNoS.

Par ailleurs, un autre usage en apprentissage automatique consiste à construire non pas un arbre mais une forêt d'arbres de décision. Une décision est alors prise en faisant « voter » l'ensemble des arbres et en choisissant la réponse majoritaire (pour un choix discret) ou la moyenne des réponses (pour une variable continue).

Voir aussi

Sur les autres projets Wikimedia :

Articles connexes

Liens externes

Références

  1. R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., 1993.
  2. James R. Evans et Ayanendranath Basu, Statistics, data analysis, and decision modeling, Pearson, coll. « Always learning », (ISBN 978-0-273-76822-7 et 978-0-13-274428-7)
  3. (en) SAS Institute Inc., SAS/OR 15.2 User's Guide: Project Management, Cary, NC, SAS Institute Inc., (lire en ligne)
  4. (en) Brian Gaines, « Exceptions DAGS as Knowledge Structure », AAAI Technical Report WS-94-03,‎ (lire en ligne)

Read other articles:

Neith-hotep/Hotep-Neith Era: Kerajaan Baru(1550–1069 BC) Hieroglif Mesir Fragmen Alabaster dengan nama ratu Neith-hotep Neithhotep atau Neith-hotep merupakan seorang Permaisuri Mesir Kuno yang hidup dan bertakhta selama awal Dinasti ke-1. Ia pernah dianggap sebagai penguasa laki-laki: Mastabanya yang luar biasa besarnya dan Serekh kerajaan yang mengandung namanya di beberapa jejak segel sebelumnya menyebabkan para Egiptolog dan sejarawan keliru bahwa ia mungkin seorang raja yang tidak...

 

Celurut pigmi Mesir Crocidura religiosa Status konservasiKekurangan dataIUCN5616 TaksonomiKerajaanAnimaliaFilumChordataKelasMammaliaOrdoEulipotyphlaFamiliSoricidaeGenusCrociduraSpesiesCrocidura religiosa Geoffroy, 1827 DistribusiPersebaran celurut pigmi Mesir lbs Celurut pigmi Mesir atau celurut keramat[1] (Crocidura religiosa) adalah sebuah spesies mamalia dalam keluarga Soricidae. Spesies tersebut adalah endemik di Mesir. Habitat alaminya adalah lahan subur. Spesies tersebut teranca...

 

Cahill ministry57th Cabinet of the State of New South WalesPremier Joe CahillDate formed15 March 1956Date dissolved1 April 1959People and organisationsMonarchElizabeth IIGovernorSir John NorthcottSir Eric WoodwardPremierJoe CahillDeputy PremierBob HeffronNo. of ministers15Member partyLaborStatus in legislatureMajority governmentOpposition partyLiberal/Country coalitionOpposition leaderPat MortonHistoryElection(s)1956 New South Wales electionPredecessorSecond Cahill ministrySuccessorFourth Ca...

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Elba – berita · surat kabar · buku · cendekiawan · JSTOR Untuk kegunaan lain, lihat Elba (disambiguasi). Pulau ElbaNama lokal: Isola d'ElbaPemandangan pantai Portoferraio di Pulau ElbaGeografiLokasiLaut ...

 

Neighborhood of Beverly, Massachusetts, US Neighborhood of Beverly in Essex, Massachusetts, United StatesBeverly FarmsNeighborhood of BeverlyBeverly Farms Fire Station on the 4th of July in 2006.Nickname: FarmsMotto(s): Filled with History and TraditionCountryUnited StatesStateMassachusettsCountyEssexNeighborhood ofBeverlyPopulation7,929Time zoneUTC-5 (Eastern)Zip Code01915Area code351 / 978 Beverly Farms is a neighborhood comprising the eastern part of the city of Beverly, Massachu...

 

Place in Sindh, PakistanSanghar District ضلع سانگھڑسانگهڙ ضلعو‎Top: Mosque at ShahdadpurBottom: Fields near SirhinwariSanghar is located in the centre of Sindh.Country PakistanProvince SindhDivisionShaheed Benazir AbadSeatSangharGovernment • TypeDistrict Administration • MNA SangharShazia Janat MariArea • Total10,728 km2 (4,142 sq mi)Population (2017)[1] • Total249,873 • ...

Supreme Court of the United States38°53′26″N 77°00′16″W / 38.89056°N 77.00444°W / 38.89056; -77.00444EstablishedMarch 4, 1789; 235 years ago (1789-03-04)LocationWashington, D.C.Coordinates38°53′26″N 77°00′16″W / 38.89056°N 77.00444°W / 38.89056; -77.00444Composition methodPresidential nomination with Senate confirmationAuthorized byConstitution of the United States, Art. III, § 1Judge term lengthl...

 

مبنى البنك المركزي الأوروبي في فرانكفورت-ألمانيا توسيع منطقة اليورو هو عملية مستمرة داخل الاتحاد الأوروبي. تلتزم كافة الدول الأعضاء في الاتحاد الأوروبي، باستثناء الدنمارك التي تفاوضت على الانسحاب من الأحكام، بتبنّي اليورو باعتباره العملة الوحيدة في البلاد بعد أن تحقق ت�...

 

Canadian ice hockey player, coach, and scout Ice hockey player Craig Hartsburg Born (1959-06-29) June 29, 1959 (age 64)Stratford, Ontario, CanadaHeight 6 ft 1 in (185 cm)Weight 200 lb (91 kg; 14 st 4 lb)Position DefenceShot LeftPlayed for Birmingham BullsMinnesota North StarsNational team  CanadaNHL Draft 6th overall, 1979Minnesota North StarsPlaying career 1978–1989 Craig William Hartsburg (born June 29, 1959) is a Canadian former profession...

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. La mise en forme de cet article est à améliorer (février 2021). La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ». Cet article est une ébauche concernant l’alimentation, la politique et l’économie. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Récolte du ma�...

 

Painting by Raphael Madonna with the FishArtistRaphaelYearc. 1512–1514Typeoil on boardDimensions113 cm × 88 cm (44 in × 35 in)LocationMuseo del Prado, Madrid Madonna of the Fish, known also as Madonna with the Fish is a painting by the High Renaissance master Raphael, dated to 1512-14. It is now in the Museo del Prado, Madrid. Mary sits enthroned with Jesus on her knee. On one side is St. Jerome kneeling by the Lion; he is holding a book. On the o...

 

American politician (1885–1940) Roy Alvin BaldwinBaldwin in 1923Member of the Texas House of Representatives from the 122nd districtIn officeMay 20, 1920 – January 9, 1923Preceded byWilliam H. BledsoeSucceeded byDewey YoungMember of the Texas House of Representatives from the 119th districtIn officeJanuary 9, 1923 – January 13, 1925Preceded byJohn QuaidSucceeded byJames K. Wester Personal detailsBorn(1885-01-02)January 2, 1885Mercer County, Missouri, U.S.DiedOctober 2,...

Refrancorecomune LocalizzazioneStato Italia Regione Piemonte Provincia Asti AmministrazioneSindacoRoberta Volpato (lista civica Insieme) dal 27-5-2019 TerritorioCoordinate44°56′14″N 8°20′31″E / 44.937222°N 8.341944°E44.937222; 8.341944 (Refrancore)Coordinate: 44°56′14″N 8°20′31″E / 44.937222°N 8.341944°E44.937222; 8.341944 (Refrancore) Altitudine150 m s.l.m. Superficie13,21 km² Abitanti1 551...

 

الهيئة السعودية للمهندسين الاختصار SCE البلد السعودية  المقر الرئيسي الرياض،  السعودية تاريخ التأسيس 18 نوفمبر 2002 النوع هيئة مهنية علمية الاهتمامات العلوم الهندسية منطقة الخدمة  السعودية العضوية الاتحاد العالمي للمنظمات الهندسية[1]  رئيس مجلس الادارة ماجد ب�...

 

Joe Kelly al Wondercon di Anaheim del 2012 Joseph Paul Kelly, meglio noto come Joe Kelly (1º settembre 1971), è un fumettista, scrittore e produttore televisivo statunitense. Celebre soprattutto per il suo lavoro su Deadpool per la Marvel Comics, del quale scrisse le storie dal 1997 al 1999, trasformandolo da stereotipo del personaggio action e violento anni '90 (come voleva la precedente caratterizzazione del personaggio ad opera dei suoi creatori, Rob Liefeld e Fabian Nicieza)[1] ...

Нейтральність цієї статті під сумнівом. Будь ласка, ознайомтеся з відповідним обговоренням та за можливості виправте недоліки. Запит «ДНР» перенаправляє сюди; див. також ДНР (значення). «Донецька народна республіка»рос. «Донецкая народная республика» Участь у війнах: В�...

 

Irene CaraLahirIrene Cara Escalera(1959-03-18)18 Maret 1959Kota New York, A.S.Meninggal25 November 2022(2022-11-25) (umur 63)Largo, Florida, A.S.PendidikanProfessional Children's SchoolPekerjaan Penyanyi penulis lagu pemeran Dikenal atasSparkle Williams – Sparkle[1] Coco Hernandez – FameSuami/istriConrad Palmisano ​ ​(m. 1986; bercerai 1991)​Karier musikGenreR&BpopdiscoInstrumenVokalkeyboardTahun aktif1967–2018LabelEpicGe...

 

Dewan Perwakilan Rakyat DaerahKabupaten TabalongDewan Perwakilan RakyatKabupaten Tabalong2019-2024JenisJenisUnikameral Jangka waktu5 tahunSejarahSesi baru dimulai12 Agustus 2019PimpinanKetuaH. Mustafa (Gerindra) sejak 25 September 2019 Wakil Ketua IH. Jurni, S.E. (Golkar) sejak 25 September 2019 Wakil Ketua IIHabib Muhammad Taufani Al Kaf, S.Kom. (PAN) sejak 25 September 2019 KomposisiAnggota30Partai & kursi  PDI-P (3)   NasDem (2)   PKB (2)  ...

Katedral Bourges Bourges merupakan nama kota di Prancis. Letaknya di bagian tengah. Tepatnya di region Centre, Prancis. Pada tahun 2005, kota ini memiliki jumlah penduduk sebanyak 69.900 jiwa dengan memiliki luas wilayah 68,74 km². Kota ini memiliki kepadatan penduduk sebanyak 1.054 jiwa/km². Pranala luar Wikimedia Commons memiliki media mengenai Bourges. Situs resmi lbsKomune di departemen Cher Achères Ainay-le-Vieil Les Aix-d'Angillon Allogny Allouis Annoix Apremont-sur-Allier Arça...

 

English squash player Lee BeachillLee Beachill with his 2005 US Open trophyFull nameLee BeachillCountry EnglandResidencePontefract, EnglandBorn (1977-11-28) 28 November 1977 (age 46)Huddersfield, EnglandHeight1.82 m (6 ft 0 in)Weight76 kg (168 lb)Turned Pro1998Retired2009PlaysRight HandedCoached byMalcolm WillstropRacquet usedDunlopMen's singlesHighest rankingNo. 1 (October 2004)Title(s)8Tour final(s)13World OpenF (2004) Medal r...