CART (Algorithmus)

CART (Classification and Regression Trees) ist ein Algorithmus, der zur Entscheidungsfindung dient. Er wird bei Entscheidungsbäumen eingesetzt.

Der CART-Algorithmus wurde erstmals 1984 von Leo Breiman et al. publiziert.[1]

Allgemeines

Ein bedeutendes Merkmal des CART-Algorithmus ist, dass nur Binärbäume erzeugt werden können, das heißt, dass an jeder Verzweigung immer genau zwei Äste vorhanden sind. Das zentrale Element dieses Algorithmus ist also das Finden einer optimalen binären Trennung.

Beim CART-Algorithmus wird die Attributsauswahl durch die Maximierung des Informationsgehalts gesteuert. CARTs zeichnen sich dadurch aus, dass sie die Daten in Bezug auf die Klassifikation optimal trennen. Dies wird mit einem Schwellwert erreicht, der zu jedem Attribut gesucht wird. Der Informationsgehalt eines Attributes wird als hoch erachtet, wenn durch die Auswertung der sich aus der Teilung über die Schwellwerte ergebenden Attributausprägungen mit einer hohen Trefferquote eine Klassifikation vorgenommen werden kann. Bei den Entscheidungsbäumen, welche durch den CART-Algorithmus berechnet werden, gilt: Je höher der Informationsgehalt eines Attributs in Bezug auf die Zielgröße, desto weiter oben im Baum findet sich dieses Attribut.

Die Entscheidungsschwellwerte ergeben sich jeweils durch die Optimierung der Spaltenentropie. Die Gesamtentropien der Attribute ergeben sich durch ein gewichtetes Mittel aus den Spaltenentropien.

Mathematische Beschreibung

Sei die Menge der Trainingsdaten mit Eingabevariablen und Ausgabewerten . Ein Entscheidungsbaum ist formal darstellbar mittels einer Funktion , die jeder Eingabe eine Vorhersage des Ausgabewertes zuordnet. Der CART Algorithmus zur Erzeugung eines solchen Baumes findet selbständig die Verzweigungen (Knoten) und assoziierten Regeln zur Trennung der Daten (enS split rule), mit denen diese Zuordnung möglichst optimal wird.

Regression

Sei zunächst , d. h. die Ausgabe ist ein quantitatives Merkmal und der zu konstruierende Baum soll ein Regressionsproblem lösen. Um einen optimalen Baum zu finden, muss erst einmal ein Trainingskriterium (Fehlerfunktion) definiert werden. Typischerweise wird dafür die Mittlere quadratische Abweichung genutzt:

,

welche dann minimiert wird. Die Fehlerfunktion ist allerdings generell frei wählbar.

Jedem Blatt wird eine Menge zugeordnet, sodass für alle Blätter die zugeordneten disjunkten Mengen eine Partition von bilden. Man sucht nun einen Schätzwert, der für alle möglichst nahe an den wahren Werten liegt. Der Schätzer

liefert dafür eine Lösung. Da die Berechnung aller möglichen Bäume nicht auf effiziente Weise umsetzbar ist, eignet sich für diesen Ansatz ein Greedy-Algorithmus am besten. D.h. konkret: Man beginnt mit einem Baum, der nur aus einem Knoten besteht und findet dann sukzessive lokal optimale Verzweigen. An jedem Knoten bestimmt man das Merkmal , das alle Einträge des Elternknoten am besten in zwei Regionen unterteilen kann, wobei immer auch eine optimale Teilungsvorschrift gefunden werden muss. Für ordinale Merkmale erfolgt dies mittels Schranke , welche die beiden Regionen und für alle in der ursprünglichen Partition des Elternknotens so erzeugt, dass die Fehlerfunktion minimiert wird. Sind die Merkmale nicht ordinal, ergeben sich die Verzweigungsvorschriften anhand der Zuordnung zu den verschiedenen Merkmalsausprägungen. Formal lässt sich das schreiben als

,

wobei jeweils die beiden Summen minimiert.

Ausgehend von dem einzelnen Knoten, fügt man also in jedem Schritt zwei neue Knoten hinzu, die wiederum solange weiter verzweigt werden, bis eine Abbruchbedingung (z. B. die maximale Pfadlänge von der Wurzel bis zu den Blättern) erfüllt ist.

Pruning

Da der Baum so in den meisten Fällen zu komplex, also anfällig für Überanpassung (englisch overfitting) ist, kann (sollte) er gestutzt werden (englisch Pruning). Überanpassung lässt sich verhindern, indem in der Fehlerfunktion ein Regulationsterm (vgl. englisch Regularization) eingeführt wird, der nicht von den Daten abhängt und die Komplexität des Entscheidungsbaumes bestraft. Dadurch wird unterbunden, dass der Baum spezifische Eigenschaften der Trainingsdaten lernt, die im Allgemeinen (also bei anderen Daten aus der gleichen Grundgesamtheit) nicht zu den wahren Vorhersagen beitragen[2].

Die zweite Möglichkeit, die im Folgenden beschrieben wird, ist es zunächst einen relativ großen Baum zu konstruieren, der dann im Nachhinein beschnitten wird. Sei ein echter Teilgraph, der durch Entfernung inneren Knoten erzeugt werden kann (d. h. die Partitionen der Kinder dieses Knotens werden zusammengelegt). Sei die Anzahl der Blätter eines solchen Teilgraphs, wobei jedem Blatt die Partition mit Elementen zugeordnet ist. Sei wie oben und

.

Die Idee ist es einen Baum zu finden, der die Funktion

für gegebenes minimiert. Hierzu wird eine von verschiedene Datenmenge (englisch test set) benutzt, um einer Überanpassung vorzubeugen (vgl. Kreuzvalidierungsverfahren).

Der frei wählbare Parameter beschreibt die Gewichtung zwischen Güte der Voraussage des Entscheidungsbaums und seiner Komplexität. Für gegebenes wird eine absteigende Sequenz von Teilbäumen erzeugt, indem bei jedem Schritt der innere Knoten entfernt wird, der den geringsten pro-Knoten Anstieg von erzeugt, bis nur noch ein einziger Knoten übrig ist. Es gibt dann einen eindeutig bestimmbaren kleinsten Teilbaum, der minimiert.

Klassifizierung

Seien nun die Ausgabewerte kategorisch, d. h. ist eine endliche Menge und o. B. d. A. . Die einzigen Änderungen des Algorithmus im Vergleich zur Regression betreffen die Fehlerfunktionen für die Konstruktion des Baums und das Pruning.

Wir definieren

,

wobei gleich der Anzahl der Elemente in sei und die Indikatorfunktion.

Damit lässt sich nun in jeder Region die Klassifizierung der Einträge nach Mehrheitsentscheid durchführen:

.

Mögliche Fehlerfunktionen geben die sogenannte Unreinheit der Partitionen an und können definiert werden als:

(Missklassifizerungsfehler)
(Gini-Simpson-Index)
(Kreuzentropie, Shannon-Index)

Jede dieser Funktionen kann bei der Konstruktion eines Entscheidungsbaumes anstelle der mittleren quadratischen Abweichung genutzt werden, sodass der wesentliche Teil des Algorithmus unverändert bleibt.

Siehe auch

Literatur

Einzelnachweise

  1. L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone: CART: Classification and Regression Trees. Wadsworth: Belmont, CA, 1984.
  2. T. Grubinger, A. Zeileis, K.-P. Pfeiffer: evtree: Evolutionary Learning of Globally Optimal Classification and Regression Trees in R. Journal of Statistical Software. 2014, Volume 61, Issue 1

Read other articles:

Theater in Atlanta, Georgia, United States Coca-Cola Roxy Theatre redirects here. For the current venue named Coca-Cola Roxy, see Coca-Cola Roxy. Buckhead TheatreExterior of venue, seen from Loudermilk Park (c.2012)Former namesBuckhead Theatre (1930-61)Capri Theatre (1961-78)Capri Ballroom (1979-80)Buckhead Cinema & Drafthouse (1980-86)Buckhead Roxy (1987-88)The Roxy (1989-92)Coca-Cola Roxy Theatre (1992-2008)Address3110 Roswell Rd NWAtlanta, GA 30305-1841LocationBuckhead VillageCoordinat...

 

Species of bacterium Coxiella burnetii A dry fracture of a Vero cell exposing the contents of a vacuole where Coxiella burnetii is growing Scientific classification Domain: Bacteria Phylum: Pseudomonadota Class: Gammaproteobacteria Order: Legionellales Family: Coxiellaceae Genus: Coxiella Species: C. burnetii Binomial name Coxiella burnetii(Derrick 1939)Philip 1948 Coxiella burnetii is an obligate intracellular bacterial pathogen, and is the causative agent of Q fever.[1] The gen...

 

2012 video gameTime TravelersJapanese box artDeveloper(s)Level-5Publisher(s)Level-5Director(s)Jiro IshiiProducer(s)Akihiro HinoWriter(s)Yukinori Kitajima Jiro IshiiComposer(s)Hideki SakamotoPlatform(s)Nintendo 3DS, PlayStation Vita, PlayStation PortableReleaseJP: July 12, 2012[1]Genre(s)Playing cinema, adventure, visual novel[2]Mode(s)Single-player Time Travelers (タイムトラベラーズ, Taimu Toraberāzu) is a video game without a genre[3] developed by Level-5 fo...

Portuguese footballer In this Portuguese name, the first or maternal family name is Martins and the second or paternal family name is Carriço. Daniel Carriço Carriço with Sevilla in 2015Personal informationFull name Daniel Filipe Martins Carriço[1]Date of birth (1988-08-04) 4 August 1988 (age 35)[1]Place of birth Cascais, Portugal[1]Height 1.80 m (5 ft 11 in)[1]Position(s) Centre-back, defensive midfielderYouth career1997–1999 Esto...

 

Bridge in Lycia, TurkeyBridge near SeydikemerThe western ramp of the Bridge near KemerCoordinates36°41′36″N 29°21′43″E / 36.693333°N 29.361944°E / 36.693333; 29.361944CrossesXanthos river (Koca Çayı)LocaleNear Xanthos, Lycia, TurkeyCharacteristicsTotal length500+ mWidth4.5 mHistoryConstruction endPresumably 3rd century ADLocation The Bridge near Seydikemer was a Roman segmental arch bridge near the ancient city of Xanthos in Lycia, in modern-day southwest...

 

Farming and cultivation of geoduck This article's use of external links may not follow Wikipedia's policies or guidelines. Please improve this article by removing excessive or inappropriate external links, and converting useful links where appropriate into footnote references. (September 2022) (Learn how and when to remove this message) Geoducks on display as seafood in a Chinese restaurant in Hong Kong Geoduck aquaculture or geoduck farming is the practice of cultivating geoducks (specifical...

此条目序言章节没有充分总结全文内容要点。 (2019年3月21日)请考虑扩充序言,清晰概述条目所有重點。请在条目的讨论页讨论此问题。 哈萨克斯坦總統哈薩克總統旗現任Қасым-Жомарт Кемелұлы Тоқаев卡瑟姆若马尔特·托卡耶夫自2019年3月20日在任任期7年首任努尔苏丹·纳扎尔巴耶夫设立1990年4月24日(哈薩克蘇維埃社會主義共和國總統) 哈萨克斯坦 哈萨克斯坦政府...

 

← 2005 •  • 2018 → Referéndum en los Países Bajos sobre el acuerdo de asociación entre la UE y Ucrania¿Está usted a favor o en contra del Acta de Aprobación del Tratado de Asociación entre la Unión Europea y Ucrania? Fecha 6 de abril de 2016 Tipo Referéndum Participación    32.2 % A favor    38 % En contra    61 % Boleta de elección del referéndum El 6 de abril de 2016 se celebró en los Países...

 

علي الغربي علي الغربيجمهورية العراق علي الغربي الخارطة الادارية تقسيم إداري البلد  العراق المحافظة محافظة ميسان القضاء قضاء علي الغربي خصائص جغرافية إحداثيات 32°27′42″N 46°41′16″E / 32.4617°N 46.6878°E / 32.4617; 46.6878 المساحة 1369 كم² الارتفاع 44م السكان التعداد السكاني 50,000 �...

Gushu固戍Shenzhen MetroLokasiDistrik Bao'an, Shenzhen, GuangdongChinaOperatorSZMC (Shenzhen Metro Group)JalurGalat Lua: expandTemplate: template "SZM lines" does not exist.Jumlah peron3 (1 peron pulau dan 1 peron samping)Jumlah jalur3KonstruksiJenis strukturBawah tanahAkses difabelYaSejarahDibuka15 Juni 2011Operasi layanan Lua error in package.lua at line 80: module 'Module:Adjacent stations/SZM' not found. Sunting kotak info • L • BBantuan penggunaan templat ini Sta...

 

Group of protists Breviatea Breviata anathema Scientific classification Domain: Eukaryota Clade: Amorphea Clade: Obazoa Class: BreviateaCavalier-Smith, 2004[2] Order: BreviatidaCavalier-Smith, 2004[2] Family: BreviatidaeCavalier-Smith, 2013[1] Genera Breviata Subulatomonas Lenisia Pygsuia Diversity 4 species Breviatea, commonly known as breviate amoebae,[3] are a group of free-living, amitochondriate protists with uncertain phylogenetic position.[4] The...

 

Form of carbon with an extremely high surface area Activated carbon Activated carbon, also called activated charcoal, is a form of carbon commonly used to filter contaminants from water and air, among many other uses. It is processed (activated) to have small, low-volume pores that greatly increase the surface area[1][2] available for adsorption or chemical reactions[3] that can be thought of as a microscopic sponge structure. (Adsorption, not to be confused with absor...

فيلاريخو دي فوينتيس (بالإسبانية: Villarejo de Fuentes)‏[1]   - بلدية -    تقسيم إداري البلد إسبانيا  [2] المقاطعة قونكة خصائص جغرافية إحداثيات 39°47′18″N 2°41′43″W / 39.7883722°N 2.6953955°W / 39.7883722; -2.6953955 [3]  [4] المساحة 128.28 كيلومتر مربع  الارتفاع 862 �...

 

American rapper (born 1980) Guwop redirects here. For the Young Thug song named after the rapper, see Jeffery (mixtape). Gucci ManeGucci Mane performing in 2017BornRadric Delantic Davis (1980-02-12) February 12, 1980 (age 44)Bessemer, Alabama, U.S.Other namesGuwopMr. Zone 6WizopEast Atlanta SantaLaFlare[1]OccupationsRappersongwriterrecord executiveactorYears active2001–presentAgentParadigm Talent AgencySpouse Keyshia Ka'Oir ​(m. 2017)​Chil...

 

Sorquainvillecomune Sorquainville – Veduta LocalizzazioneStato Francia Regione Normandia Dipartimento Senna Marittima ArrondissementLe Havre CantoneFécamp TerritorioCoordinate49°42′N 0°33′E49°42′N, 0°33′E (Sorquainville) Superficie4,47 km² Abitanti168[1] (2009) Densità37,58 ab./km² Altre informazioniCod. postale76540 Fuso orarioUTC+1 Codice INSEE76680 CartografiaSorquainville Sito istituzionaleModifica dati su Wikidata · Manuale Sorquainvill...

Maria Laach redirects here. For the Austrian town, see Maria Laach am Jauerling. Benedictine abbey situated in Glees, Germany This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (May 2024) (Learn how and when to remove this message) You can help expand this article with text translated from the corresponding article in German. (May 2024) Click [show] for impo...

 

Voce principale: National Hockey League 2001-2002. Stanley Cup playoff 2002Sport Hockey su ghiaccio Durata17 aprile al 13 giugno 2002 Numero squadre16 Finali di ConferenceVincitore Eastern Carolina Hurricanes Finalista Toronto Maple Leafs Vincitore Western Detroit Red Wings Finalista Colorado Avalanche MVP Playoff Nicklas Lidström (Detroit) Stanley Cup 2002Vincitore Stanley Cup Detroit Red Wings Finalista Carolina Hurricanes ← 2001 2003 → I playoff ...

 

Lusail Iconic Stadium Besichtigung des Stadions im November 2021 Daten Ort Katar Lusail, Katar Koordinaten 25° 25′ 15,3″ N, 51° 29′ 26,3″ O25.42090651.49064Koordinaten: 25° 25′ 15,3″ N, 51° 29′ 26,3″ O Eigentümer al-Ladschna al-ulimbiyya al-qatariyya Baubeginn April 2017 Eröffnung 11. August 2022 Erstes Spiel 11. August 2022Al-Arabi – al-Rayyan SC 2:1 Oberfläche Naturrasen Kosten 662 Mio. US-Dollar Architekt...

Seikat sōmen Sōmen yang dihidangkan dingin Sōmen (素麺code: ja is deprecated , そうめん) adalah mi Jepang yang halus dan tipis, dan selalu dijual dalam bentuk kering. Sōmen dibuat dari tepung terigu dicampur air, garam dapur, dan minyak goreng. Sōmen biasanya dihidangkan sebagai makanan penyejuk di musim panas. Sōmen terdiri dari dua jenis berdasarkan cara pembuatannya, somen buatan tangan dan somen buatan mesin. Adonan mi direntangkan dengan tangan helai demi helai untuk menghasi...

 

1945 1954 Élections régionales de 1949 en Basse-Autriche 56 sièges du Landtag (Majorité absolue : 29 sièges) 9 octobre 1949 Corps électoral et résultats Inscrits 920 981 Votants 892 672   96,93 %  1,7 ÖVP Voix 463 053 52,48 %   2 Sièges obtenus 31  1 SPÖ Voix 329 549 37,35 %   3 Sièges obtenus 22 Linksblock Voix 48 217 5,46 %   0,3 Sièges obtenus 3  1 modifie...