Osnovni uzrok stratifikacije genetičke strukture populacije u vrstama sa spolnim razmnožavanjem je neslučajno parenje među grupama: ako se sve jedinke unutar populacije slučajno pare, tada bi učestalost alela među skupinama trebala biti slična. Struktura stanovništva obično proizlazi iz fizičkog razdvajanja razdaljinom ili barijerama, poput planina i rijeka, nakon čega slijedi genetički drift. Ostali uzroci uključuju tok gena iz migracija, genetičko usko usko grlo I širenja, efekt osnivača, evolucijski pritisak, slučajna šansa i (kod ljudi) kulturni faktori.[1][2]
Asocijacijske studije
Struktura opopulacije može biti problem za studije udruživanja gena (I fenotipova), poput studije slučaja, gdje bi se povezanost mogla pronaći zbog osnovne strukture populacije, a ne zbog bolesti povezanog lokusa. Po analogiji, može se zamisliti scenarij u kojem su određene male perlice izrađene od određene vrste jedinstvene pjene i da djeca imaju tendenciju da se zadave tim perlicama; moglo bi se pogrešno zaključiti da materijal od pjene uzrokuje gušenje, jer je zapravo riječ o maloj veličini kuglica. Također, stvarna bolest koju uzrokuje dati lokus možda neće biti pronađena u studiji ako je lokus manje zastupljen u populaciji u kojoj su izabrani subjekti slučajni. Iz tog razloga, devedesetih je bilo uobičajeno koristiti porodične podatke gdje se učinak strukture stanovništva može lahko kontrolirati upotrebom metoda kao što je test neravnotežne transmisije (TDT). Ali ako je struktura poznata ili je pronađena navodna struktura, postoji niz mogućih načina da se ova struktura implementira u studije udruživanja, a time izbjegne bilo kakvu pristrasnost. Većina savremenih studija unutargenomse povezanosti zauzimaju stav da je problem strukture populacije
upravljiv,[3] te da logističke prednosti upotrebe nepovezanih slučajeva i kontrola čine ove studije poželjnijima od porodičnih studija udruživanja.
Dva najčešće korištena pristupa ovom problemu uključuju genomsku kontrolu, što je relativno neparametrijskistatistički teat
,[4] i strukturirani metode udruživanja,[5] koji koristi genetičke informacije za procjenu i kontrolu strukture populacije. Alkes Price i suradnici dokazili su efikasnost postupka zvanog analiza glavne komponente.[6] Također je moguće korigirati strukturu i zbunjivanje iz kriptičnog srodstva, izvođenjem matrice srodstva i uključivanjem u linearni mješoviti model.[7][8]
Pretpostavka homogenosti populacije u studijama udruživanja, posebno kontroli
studije slučaja, mogu se lahko prekršiti i mogu dovesti do grešaka tipa I I tipa II. Zato je to važno za modele koji se koriste u studiji za kompenzaciju populacijske
struktura. Problem u studijama kontrole slučaja je taj što ako postoji genetička uključenost u
bolest, vjerojatnije je da će populacija slučajeva biti povezanija nego osobe u
kontrolnoj populaciji. To znači da je pretpostavka o neovisnosti opažanja
prekršena. To će često dovesti do precjenjivanja značaja asocijacije gena
ali to ovisi o načinu uzimanja uzorka. Ako slučajno postoji više alelnih
učestalosti u subpopulaciji slučajeva, naći će se povezanost sa bilo kojom osobinom koja je zastupljenija
u populaciji.[9] Ova vrsta lažne asocijacije povećava se kako raste broj uzoraka, pa bi problem trebao biti od posebnog značaja u velikim studijama, kada lokusi uzrokuju samo relativno male efekte na osobinu. Metod koji u nekim slučajevima može nadoknaditi gore opisane probleme razvili su Devlin i Roeder (1999).[4] Koristi se i frekventna i statistika pristrasnosti (potonja je prikladna kada se radi o velikom broju kandidatskih gena.
Frekvencijski način ispravljanja strukture populacija djeluje korištenjem markera koji nisu povezani sa osobinom o kojoj je riječ, kako bi se ispravila bilo kakva inflacija statistike, uzrokovana njenom strukturom. Metod je prvi put razvijena za alternativne (kvalitativne) osobine, ali je od tada generaliziran i za kvantitativne.[10] Za binarne, koji se odnosi na pronalaženje genetičkih razlika između slučaja i kontrolne populacije, Devlin i Roeder (1999) koriste Armitageov test trenda
Ako je populacija u Hardy-Weinbergovoj ravnoteži, dvije statistike su približno jednake. Pod nultom hipotezom da nema stratifikacije populacije, trend trend ima asimptotsku distribuciju, sa jednim stepenom slobode. Ideja je da se statistika ima infglaciju sa faktorom tako da je gdje ovisi o učinku raslojavanja. Gornji metod počiva na pretpostavkama da je faktor inflacije konstatnan, što znači da bi lokusi trebali imati približno jednake stope mutacije i ne bi trebali biti pod različitom selekcijom u dvije populacije, a veličina Hardy-Weinbergove neravnoteže izmjerena Wrightovim koeficijentom inbreedingaF ne bi se trebala razlikovati između različitih lokusa. To je najviše u vezi sa posljednjim. Ako je učinak raslojavanja sličan na različitim lokusima može se procijeniti iz nepovezanih markera
gdje L = broj nevezanih markera. Nazivnik je izveden iz gama distribucije kao robustan procjenjivač . Predloženi su i drugi procjenitelji, kao naprimjer, Reich- Goldsteinov[11] koji podrazulijeva da se umjesto toga koristi statistika srednje vrijednosti. To nije jedini način procjene , ali prema Bacanu et al.[12] to je odgovarajuća procjena, čak i ako su neki od nepovezanih markera zapravo u neravnoteži s lokusom koji uzrokuje bolest ili su sami povezani s bolešću. Pod nultom hipotezom i prilikom ispravljanja stratifikacije, korištenjem L nevezanih gena, približno je distibuiran po obrascu . Uz ovu korekciju, ukupna stopa grešaka tipa I trebala bi biti približno jednaka čak i kada je populacija stratificirana. Devlin and Roeder (1999)[4] uglavnom razmatraju situaciju kada daje 95%-tnu razinu pouzdanosti, a ne manje p-vrijednosti. Marchini et al. (2004)[13] demonstrirali su da genomska kontrola može dovesti do antikonzervativne p-vrijednosti, ako je ta vrijednost vrlo mala i ako se dvije populacije (slučaj i kontrola) izuzetno razlikuju. To je bio poseban problem ako je broj nepovezanih markera bio reda 50-100. To može rezultirati lažno pozitivnim nalazom (na tom nivou značajnosti).
Demografsko zaključivanje
Struktura stanovništva važan je aspekt evolucije i populacijske genetike. Događaji poput migracija i interakcija između grupa ostavljaju genetski pečat na populacije. Izmiješane populacije imat će dijelove haplotipova iz svojih predačkih grupa, čije se frekvencije vremenom postepeno smanjuju zbog rekombinacije. Iskorištavanjem ove činjenice i uparivanjem dijeljenih haplotipskih dijelova osoba u skupu genetičkih podataka, mogu pratiti i datirati porijeklo miješanja stanovništva i rekonstruisati istorijske događaje poput uspona i pada carstava, trgovine robljem, kolonijalizma i ekspanzije stanovništva.[14]
O strukturi stanovništva može se zaključiti unutar podataka pomoću različitih metoda, kao što su redukcija dimenzijonalnosti i analiza klastera,[15][16] ili pretpostavki statističkog modela podataka i procjena njegovih parametara pomoću procjene najveće vjerovatnoće (maximum likelihood.[17]
Mnoge statističke metode oslanjaju se na jednostavne populacijske modele kako bi zaključile o povijesnim demografskim promjenama, kao što su prisustvo populacijskih uskih grla, primjesa ili vremena razilaženja stanovništva. Često se ove metode oslanjaju na pretpostavku panmiksije ili homogenosti u populaciji predaka. Pogrešno specificiranje takvih modela, naprimjer ne uzimajući u obzir postojanje strukture u populaciji predaka, može dovesti do vrlo pristranih procjena proučavanih parametara.[18] Simulacijske studije pokazuju da povijesna struktura populacije može čak imati genetičke efekte koji se lahko mogu pogrešno protumačiti kao povijesne promjene u veličini populacije ili kao postojanje miješanja, čak i kada se takvi događaji nisu dogodili.[19]
^Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D (august 2006). "Principal components analysis corrects for stratification in genome-wide association studies". Nature Genetics. 38 (8): 904–9. doi:10.1038/ng1847. PMID16862161.
^Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF, et al. (februar 2006). "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness". Nature Genetics. 38 (2): 203–8. doi:10.1038/ng1702. PMID16380716.