Bootstrap (engl. Bootstrapping) on tilastotieteessä menetelmä tai algoritmi, jolla voidaan arvioida tunnusluvun tai parametrin otantajakaumaa. Bootstrapilla voidaan johtaa arvio tunnusluvun tarkkuudelle tilanteissa, joissa se on analyyttisesti hankalaa tai mahdotonta. Bootstrap soveltuu varianssin, harhan, luottamusvälin ja P-arvon määräämiseen.
Historia
Ensimmäinen artikkeli bootstrapista on Bradley Efronin kirjoittama Bootstrap Methods: Another Look at the Jackknife vuodelta 1979. Bootstrap on kehittynyt aiemman menetelmän Jackknife pohjalta. Myöhemmin bootstrapista on kehitetty myös bayesiläinen versio.
Bootstrap-algoritmi
Bootstrap-otos
Olkoon hankittu aineisto kokoa n. Bootstrap-otos on aineistosta simuloitu otos havaintoja, yhteensä n kappaletta. Bootstrap-otoksen koko on siis sama kuin aineiston havaintojen lukumäärä. Bootstrap-otosta (merkataan tähdellä yläindeksissä) ei tule sekoittaa aineistoon . Bootstrap-otoksen havainnot on arvottu käyttäen otantamenetelmänä yksinkertaista satunnaisotantaa takaisinpalauttaen. Tällöin aineistossa vain kerran esiintyvät lukuarvot voivat esiintyä lukuisia kertoja boostrap-otoksessa. Bootstrap-otoksia tehdään algoritmilla tyypillisesti lukuisia (yleensä satoja), joten merkitään tehtyjen boostrap-otosten lukumäärä :llä.
Algoritmi
Toistetaan askeleita 1 ja 2:
- Ota aineistosta bootstrap-otos (otos takaisinpalauttaen).
- Laske kiinnostuksen kohteena olevan tunnusluvun arvo (bootstrap-toisto) bootstrap-otoksesta. Ota tunnusluvun arvo talteen. Tuloksena saadaan toistoja tunnusluvun otantajakaumasta. Ko. bootstrap-toistojen avulla voidaan arvioida esim. todennäköisyyksiä ja luottamusvälejä.
Esimerkkejä tilanteista, joissa bootstrapia voidaan soveltaa
Teoreettinen esimerkki
Merkitään havaintoja ja havainnoista laskettua keskivirheen tunnuslukua .
Tehdään B kappaletta bootstrap-otoksia , jokaisen bootstrap-otoksen koko on n. Lasketaan bootstrap-otoksista keskivirhe empiirisellä kaavalla , joten saadaan kappaletta toistoja keskivirheestä .
Ideaalinen bootstrap-estimaattori on asymptoottinen, sillä se määritellään[1]
mikä tarkoittaa, että B:n bootstrap-otoksen keskivirhe-estimaatti lähestyy populaatiokeskivirhettä, kun bootstrap-otosten määrä menee kohti ääretöntä. Tässä tapauksessa ”populaatio” on havainnot ja populaation jakauma määrittyy empiirisen kertymäfunktion kautta. Tätä kutsutaan myös parametrittomaksi bootstrapiksi.
Käytännönläheinen esimerkki
Toteutetaan bootstrap käyttäen R-ohjelmistoa. Aineistona on R:ssä vapaasti saatavilla oleva 'faithful'. R-ohjelmakoodi on seuraava:
#ladataan aineisto
data(faithful)
eruptions <- faithful$eruptions
#bootstrap-otosten lukumäärä
n <- 10000
#alustetaan muuttujat, joihin sijoitetaan tulokset
mean.boot <- NULL
sd.boot <- NULL
#toistetaan n kertaa
for(i in 1:n) {
#bootstrap-otos (satunnaisotos takaisinpalauttaen)
s.int <- sample.int(length(eruptions), replace = TRUE)
#lasketaan tunnusluvut keskiarvo (mean) ja keskihajonta (sd)
mean.boot[i] <- mean(eruptions[s.int])
sd.boot[i] <- sd(eruptions[s.int])
}
#havaintojen lukumäärä aineistossa (tarvitaan keskivirhettä varten)
n.obs <- length(eruptions)
#keskiarvon keskivirhe
se.mean.boot <- sd.boot/sqrt(n.obs)
Keskivirheen estimointi bootstrapilla
Keskivirheen estimointi bootstrapin avulla on luontevaa. Edellä olevassa Käytännönläheisessä esimerkissä lasketaan bootstrap-estimaatit keskiarvolle ja keskihajonnalle sekä lopussa keskivirhe. Koska keskivirhe on keskiarvon keskihajonta, niin sille voidaan laskea piste-estimaatti suoraan laskemalla keskiarvon bootstrap-toistoista keskihajonta. Keskivirheelle saadaan bootstrap-toistot käyttämällä keskivirheen kaavaa , missä SE on keskivirhe, s on keskihajonta ja n on aineiston havaintojen lukumäärä (eri kuin bootstrap-otosten lkm).
Hypoteesien testaaminen bootstrapilla
Bootstrapilla voidaan testata hypoteeseja tunnusluvulle . Lasketaan bootstrap-toistot ko. tunnusluvulle. Jos halutaan testata poikkeaako tunnusluku nollasta, niin voidaan laskea empiirisesti todennäköisyys, että tunnusluku poikkeaa vähintään yhtä paljon bootstrap-toistojen avulla. Siis
Bootstrap-menetelmiä
Parametrinen bootstrap
Parametrinen bootstrap perustuu oletukseen aineiston jakaumasta. Se on siis sensitiivinen jakaumaoletukselle, eli jos oletus on väärä, ovat tuloksetkin vääriä. Se on kuitenkin parametritonta bootstrapia tehokkaampi menetelmä, kun jakaumaoletus on tosi.[2]
Parametriton bootstrap
Parametriton bootstrap ei perustu mallioletukseen, vaan käyttää empiiristä (aineistoon perustuvaa) jakaumaa. Teoreettisemmin parametrittomasta bootstrapista on kohdassa Teoreettinen esimerkki.
Jäännösten bootstrap
Jäännösten bootstrap perustuu vahvasti olettamukseen, että käytettävä malli on oikea ja että mallin jäännökset ovat keskenään riippumattomia. Tällöin voidaan käyttää bootstrapia mallin jäännöksille. Menetelmä soveltuu erityisesti lineaariseen regressioon, koska siinä jäännökset ovat oletusten mukaan riippumattomia.
Algoritmi on seuraava:
- Sovita malli aineistoon eli estimoi mallin parametrit.
- Laske jäännökset.
- Tee bootstrap jäännöksille.
- Muodosta 'bootstrap-vasteet' jokaista jäännöstä kohden käyttäen mallioletusta, kohdassa 1. sovitettuja mallin parametreja ja kohdan 3. jäännöksiä. Bootstrap-vasteita on nyt yhtä monta kuin jäännöksiä kohdassa 3. Käytetään ko. bootstrap-vasteita yhdessä kovariaattien kanssa muodostamaan bootstrap-otos.
- Sovita malli kohdassa 4. saatuun bootstrap-otokseen.
Iteroimalla kohtia 3-5 päästään käsiksi mallin parametrien otantajakaumaan.
Bayes-boostrap
Bayes-bootstrapilla on bootstrap Bayesiläisittäin. Kun tavallisessa bootstrapissa simuloidaan tunnusluvun otantajakaumaa, niin Bayes-bootstrapilla simuloidaan tunnusluvun posteriorijakaumaa.[3]
Painojen laskeminen Bayes-bootstrapissa:
- Olkoon käytössä n havaintoa. Simuloidaan n-1 kappaletta tasajakautuneita satunnaislukuja väliltä ja järjestetään ne suuruusjärjestykseen pienimmästä alkaen. Merkitään järjestettyjä satunnaislukuja . Asetetaan lisäksi ja .
- Lasketaan peräkkäiset erotukset , joita sanotaan todennäköisyyspainoiksi.
Bayes-bootstrapissa Bayes-bootstrap -otos saadaan samalla tapaa kuin tavallisessa bootstrapissa, mutta todennäköisyys saada havainto bootstrap-otokseen on . Todennäköisyyspainot arvotaan jokaisen Bayes-bootstrap -otoksen yhteydessä uudelleen.
Siloitettu bootstrap
Siloitetussa bootstrapissa bootstrap-otos simuloidaan skaalatusta ydinestimaatista eikä suoraan havainnoista.[1]
Skaalattu ydinestimaatti on saatu Gaussisella ydinestimoinnilla skaalauksen jälkeen ja on sellainen ydinestimaattorin ikkunanleveys, jolla saadaan yksimoodinen ydinestimaatti. Skaalauksella poistetaan se lisävaihtelu, jonka ydinestimointi aiheuttaa.
Bootstrap suhteessa muihin samantapaisiin menetelmiin
Jackknife
Jackknife eroa bootstrapista siten että jackknife-otoksia (vrt. bootstrap-otos) tehdään täsmälleen aineiston havaintojen lukumäärän verran ja kullakin otoksella jätetään vuorollaan kukin havainto pois jackknife-otoksesta. Tällöin saadaan havaintojen lukumäärän verran näytteitä, joista kustakin puuttuu yksi havainto. Kyseisistä näytteistä lasketaan mielenkiinnon kohteena oleva tunnusluku ja näin saadut tunnusluvut approksimoivat ko. tunnusluvun otantajakaumaa.[4]
Ristiinvalidointi
Riistinvalidoinnissa, jolla voidaan tutkia mallin sopivuutta aineistoon, on samankaltaisuuksia bootstrapin nähden. Ristiinvalidoinnissa valitaan osaotos aineistosta ja sovitetaan malli sillä. Jos osaotos on kokoa n-1 ja tehdään ilman takaisinpalautusta, niin kyseessä on jackknife.
voidaan käyttää bootstrapia tai sen kaltaista menetelmää. Tällöin malli on sovitettava jokaisella bootstrap-otoksella uudelleen.
Bootstrap stokastisessa simuloinnissa
Tila-avaruusmallien estimointiin simuloimalla voidaan käyttää algoritmia hiukkassuodin (particle filter) joka on toiselta nimeltään bootstrap-suodin (bootstrap filter).[5] Kyseisessä algoritmissa yksi iteroitavista askeleista on identtinen bootstrapin kanssa.
Bagging
Bagging on estimaatin laskemista bootstrap-otoksen ylitse. Tämä on joskus järkevää ja tätä on sovellettu varsinkin päätöspuumalleissa. Päätöspuumallit ovat käytettyjä koneoppimisessa.
Puoliotokset
Puoliotokset tai puolitetut otokset (half-sampling) on erityisesti otantamenetelmissä käytetty menetelmä, jolla voidaan arvioida tunnusluvun otantaepävarmuutta (otantajakaumaa). Menetelmä pohjaa nimensä mukaan otosten puolittamiseen vaihtelun laskemiseksi ja on idealtaan lähes identtinen bootstrapiin verrattuna.[6]
Lähteet
- ↑ a b Efron, Bradley; Tibshirani, Robert J.: An Introduction to the Bootstrap. Chapman & Hall/CRC, 1993. ISBN 0-412-04231-2
- ↑ Efron, Bradley: Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, 1979, 7. vsk, nro 1, s. 1-26. JSTOR:2958830
- ↑ Rubin, Donald: The Bayesian Bootstrap. The Annals of Statistics, 1981, 9. vsk, s. 130-134. Artikkelin verkkoversio.
- ↑ Penttinen, Antti: Matemaattinen tilastotiede 1, luentomoniste, kl. 2010, versio 1, Jyväskylän yliopisto. Määritä julkaisu!Määritä ajankohta!
- ↑ Vihola, Matti: Lectures on stochastic simulation. Määritä julkaisu!Määritä ajankohta! Jyväskylän yliopisto. Artikkelin verkkoversio.[vanhentunut linkki]
- ↑ Efron, Bradley: The Jackknife, the Bootstrap and Other Resampling Plans, Techical report no. 63, December 1980, Stanford University, California. Määritä julkaisu!Määritä ajankohta!