En tilfeldig skog[1] eller tilfeldig beslutningsskog[2]er en ensemblelærings-metode for klassifisering, regresjon og andre oppgaver som fungerer ved å konstruere en mengde beslutningstrær på treningstidspunktet. For klassifiseringsoppgaver er resultatet den klassen som blir valgt av flest trær. For regresjonsoppgaver returneres gjennomsnittlig prediksjon for de enkelte trærne.[3] Tilfeldige beslutningsskoger korrigerer for beslutningstrærs vane med å overtilpasse treningssettet deres.
Ulemper
Mens tilfeldige skoger ofte oppnår høyere nøyaktighet enn et enkelt beslutningstre ofrer de den iboende tolkbarheten som finnes i beslutningstrær. Beslutningstrær er en del av en ganske liten familie av maskinlæringsmodeller som er enkle å tolke sammen med lineære modeller, regelbaserte modeller og oppmerksomhetsbaserte modeller. Denne tolkbarheten er en av de mest ettertraktede egenskapene til beslutningstrær. Det lar utviklere bekrefte at modellen har lært realistisk informasjon fra dataene og gir sluttbrukerne tillit til beslutningene som tas av modellen.[4][5] For eksempel er det ganske trivielt å følge stien som et beslutningstre tar for å ta sin beslutning, men det er mye vanskeligere å følge stiene til titalls eller hundrevis av trær. For å oppnå både ytelse og tolkbarhet tillater noen modellkomprimerings-teknikker å transformere en tilfeldig skog til et minimalt "født-på-nytt"-beslutningstre som gjengir den samme beslutningsfunksjonen.[6] Hvis det fastslås at de prediktive attributtene er lineært korrelerte med målvariabelen kan det hende at bruk av tilfeldig skog ikke øker nøyaktigheten til den basislærende.[6] Ved problemer med flere kategoriske variabler kan tilfeldig skog kanskje ikke øke nøyaktigheten til den basislærende.[7]
Se også
Referanser