Foresta casuale

Dati d'allenamento consistenti in punti-nuvola di due gaussiane
Una visualizzazione dello spazio-modello della Foresta casuale dopo un allenamento con i dati

Una foresta casuale (in inglese random forest) è un classificatore d'insieme ottenuto dall'aggregazione tramite bagging di alberi di decisione[1][2] L'algoritmo per la creazione di foreste casuali fu sviluppato originariamente da Leo Breiman e Adele Cutler.[3]Le foreste casuali sono state proposte come soluzione atta a ridurre il sovradattamento del training set negli alberi di decisione.[4]

Il nome viene dalle foreste di decisione casuali che furono proposte per la prima volta da Tin Kam Ho dei Bell Labs nel 1995.[5][6]

Il metodo combina l'idea del bagging di Breiman con la selezione casuale delle caratteristiche, introdotta indipendentemente da Ho e Amit Geman al fine di costruire una collezione di alberi di decisione a varianza controllata.

La selezione di un sottoinsieme di caratteristiche è un esempio del metodo del sottoinsieme casuale che, nella formulazione di Ho, è un modo di implementare la discriminazione stocastica proposta da Eugene Kleinberg.[7]

Applicazioni

In combinazione col metodo chiamato Repeated Incremental and Pruning, trova impiego nella categorizzazione automatica di fatti e opinioni, così come nel fact-checking di singole proposizioni.[8]

Note

  1. ^ (EN) Tin Kam Ho, The Random Subspace Method for Constructing Decision Forests (PDF), in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, n. 8, 1998, pp. 832–844, DOI:10.1109/34.709601. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 4 marzo 2016).
  2. ^ De Mauro, Andrea., Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 978-88-503-3478-0, OCLC 1065010076. URL consultato il 10 novembre 2019.
  3. ^ (EN) Tin Kam Ho, Random Decision Forests (PDF), Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995, 1995, pp. 278–282 (archiviato dall'url originale il 17 aprile 2016).
  4. ^ Hastie, Trevor. e Friedman, J. H. (Jerome H.), The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations, Springer, 2001, ISBN 0-387-95284-5, OCLC 46809224. URL consultato il 13 marzo 2020.
  5. ^ (EN) Eugene Kleinberg, An Overtraining-Resistant Stochastic Modeling Method for Pattern Recognition (PDF), in Annals of Statistics, vol. 24, n. 6, 1996, pp. 2319–2349, DOI:10.1214/aos/1032181157, MR 1425956 (archiviato dall'url originale il 19 luglio 2011).
  6. ^ (EN) Eugene Kleinberg, On the Algorithmic Implementation of Stochastic Discrimination (PDF), in IEEE Transactions on PAMI, vol. 22, n. 5, 2000. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 19 agosto 2011).
  7. ^ (EN) Eugine Kleinberg, Stochastic Discrimination and its Implementation (archiviato dall'url originale il 26 novembre 2012).
  8. ^ Ankan Mullick, Surjodoy Ghosh D, Shivam Maheswari, Srotaswini Sahoo e Suman Maity, Identifying Opinion and Fact Subcategories from the Social Web, in GROUP '18: Proceedings of the 2018 ACM Conference on Supporting Groupwork, DOI:10.1145/3148330.3154518, ISBN 978-1-4503-5562-9, OCLC 7279777466. URL consultato il 14 dicembre 2020. Ospitato su archive.is.

Voci correlate

Altri progetti