Demografska genetika

Struktura stanovništva ili stratifikacija populacije je prisustvo sistematske razlike u alelnim frekvencijama između subpopulacija u populaciji kao rezultat ne slučajnog parenja između jedinki. Može biti informativna za genetičko porijeklo, a u kontekstu medicinske genetike važna je zbunjujuća varijabla u svegenomske studije povezanosti (GWAS). U praksi se izjednačava sa pojmom demografska genetika

Uzroci

Osnovni uzrok stratifikacije genetičke strukture populacije u vrstama sa spolnim razmnožavanjem je neslučajno parenje među grupama: ako se sve jedinke unutar populacije slučajno pare, tada bi učestalost alela među skupinama trebala biti slična. Struktura stanovništva obično proizlazi iz fizičkog razdvajanja razdaljinom ili barijerama, poput planina i rijeka, nakon čega slijedi genetički drift. Ostali uzroci uključuju tok gena iz migracija, genetičko usko usko grlo I širenja, efekt osnivača, evolucijski pritisak, slučajna šansa i (kod ljudi) kulturni faktori.[1][2]

Asocijacijske studije

Struktura opopulacije može biti problem za studije udruživanja gena (I fenotipova), poput studije slučaja, gdje bi se povezanost mogla pronaći zbog osnovne strukture populacije, a ne zbog bolesti povezanog lokusa. Po analogiji, može se zamisliti scenarij u kojem su određene male perlice izrađene od određene vrste jedinstvene pjene i da djeca imaju tendenciju da se zadave tim perlicama; moglo bi se pogrešno zaključiti da materijal od pjene uzrokuje gušenje, jer je zapravo riječ o maloj veličini kuglica. Također, stvarna bolest koju uzrokuje dati lokus možda neće biti pronađena u studiji ako je lokus manje zastupljen u populaciji u kojoj su izabrani subjekti slučajni. Iz tog razloga, devedesetih je bilo uobičajeno koristiti porodične podatke gdje se učinak strukture stanovništva može lahko kontrolirati upotrebom metoda kao što je test neravnotežne transmisije (TDT). Ali ako je struktura poznata ili je pronađena navodna struktura, postoji niz mogućih načina da se ova struktura implementira u studije udruživanja, a time izbjegne bilo kakvu pristrasnost. Većina savremenih studija unutargenomse povezanosti zauzimaju stav da je problem strukture populacije upravljiv,[3] te da logističke prednosti upotrebe nepovezanih slučajeva i kontrola čine ove studije poželjnijima od porodičnih studija udruživanja.

Dva najčešće korištena pristupa ovom problemu uključuju genomsku kontrolu, što je relativno neparametrijski statistički teat ,[4] i strukturirani metode udruživanja,[5] koji koristi genetičke informacije za procjenu i kontrolu strukture populacije. Alkes Price i suradnici dokazili su efikasnost postupka zvanog analiza glavne komponente.[6] Također je moguće korigirati strukturu i zbunjivanje iz kriptičnog srodstva, izvođenjem matrice srodstva i uključivanjem u linearni mješoviti model.[7][8]

Genomska kontrola

Pretpostavka homogenosti populacije u studijama udruživanja, posebno kontroli studije slučaja, mogu se lahko prekršiti i mogu dovesti do grešaka tipa I I tipa II. Zato je to važno za modele koji se koriste u studiji za kompenzaciju populacijske struktura. Problem u studijama kontrole slučaja je taj što ako postoji genetička uključenost u bolest, vjerojatnije je da će populacija slučajeva biti povezanija nego osobe u kontrolnoj populaciji. To znači da je pretpostavka o neovisnosti opažanja prekršena. To će često dovesti do precjenjivanja značaja asocijacije gena ali to ovisi o načinu uzimanja uzorka. Ako slučajno postoji više alelnih učestalosti u subpopulaciji slučajeva, naći će se povezanost sa bilo kojom osobinom koja je zastupljenija u populaciji.[9] Ova vrsta lažne asocijacije povećava se kako raste broj uzoraka, pa bi problem trebao biti od posebnog značaja u velikim studijama, kada lokusi uzrokuju samo relativno male efekte na osobinu. Metod koji u nekim slučajevima može nadoknaditi gore opisane probleme razvili su Devlin i Roeder (1999).[4] Koristi se i frekventna i statistika pristrasnosti (potonja je prikladna kada se radi o velikom broju kandidatskih gena.

Frekvencijski način ispravljanja strukture populacija djeluje korištenjem markera koji nisu povezani sa osobinom o kojoj je riječ, kako bi se ispravila bilo kakva inflacija statistike, uzrokovana njenom strukturom. Metod je prvi put razvijena za alternativne (kvalitativne) osobine, ali je od tada generaliziran i za kvantitativne.[10] Za binarne, koji se odnosi na pronalaženje genetičkih razlika između slučaja i kontrolne populacije, Devlin i Roeder (1999) koriste Armitageov test trenda

I test za frekvencije alela

Aleli aa Aa AA Ukupno
Slučaj r0 r1 r2 R
Kontrola s0 s1 s2 S
Ukupno n0 n1 n2 N

Ako je populacija u Hardy-Weinbergovoj ravnoteži, dvije statistike su približno jednake. Pod nultom hipotezom da nema stratifikacije populacije, trend trend ima asimptotsku distribuciju, sa jednim stepenom slobode. Ideja je da se statistika ima infglaciju sa faktorom tako da je gdje ovisi o učinku raslojavanja. Gornji metod počiva na pretpostavkama da je faktor inflacije konstatnan, što znači da bi lokusi trebali imati približno jednake stope mutacije i ne bi trebali biti pod različitom selekcijom u dvije populacije, a veličina Hardy-Weinbergove neravnoteže izmjerena Wrightovim koeficijentom inbreedinga F ne bi se trebala razlikovati između različitih lokusa. To je najviše u vezi sa posljednjim. Ako je učinak raslojavanja sličan na različitim lokusima može se procijeniti iz nepovezanih markera

gdje L = broj nevezanih markera. Nazivnik je izveden iz gama distribucije kao robustan procjenjivač . Predloženi su i drugi procjenitelji, kao naprimjer, Reich- Goldsteinov[11] koji podrazulijeva da se umjesto toga koristi statistika srednje vrijednosti. To nije jedini način procjene , ali prema Bacanu et al.[12] to je odgovarajuća procjena, čak i ako su neki od nepovezanih markera zapravo u neravnoteži s lokusom koji uzrokuje bolest ili su sami povezani s bolešću. Pod nultom hipotezom i prilikom ispravljanja stratifikacije, korištenjem L nevezanih gena, približno je distibuiran po obrascu . Uz ovu korekciju, ukupna stopa grešaka tipa I trebala bi biti približno jednaka čak i kada je populacija stratificirana. Devlin and Roeder (1999)[4] uglavnom razmatraju situaciju kada daje 95%-tnu razinu pouzdanosti, a ne manje p-vrijednosti. Marchini et al. (2004)[13] demonstrirali su da genomska kontrola može dovesti do antikonzervativne p-vrijednosti, ako je ta vrijednost vrlo mala i ako se dvije populacije (slučaj i kontrola) izuzetno razlikuju. To je bio poseban problem ako je broj nepovezanih markera bio reda 50-100. To može rezultirati lažno pozitivnim nalazom (na tom nivou značajnosti).

Demografsko zaključivanje

Struktura stanovništva važan je aspekt evolucije i populacijske genetike. Događaji poput migracija i interakcija između grupa ostavljaju genetski pečat na populacije. Izmiješane populacije imat će dijelove haplotipova iz svojih predačkih grupa, čije se frekvencije vremenom postepeno smanjuju zbog rekombinacije. Iskorištavanjem ove činjenice i uparivanjem dijeljenih haplotipskih dijelova osoba u skupu genetičkih podataka, mogu pratiti i datirati porijeklo miješanja stanovništva i rekonstruisati istorijske događaje poput uspona i pada carstava, trgovine robljem, kolonijalizma i ekspanzije stanovništva.[14]

O strukturi stanovništva može se zaključiti unutar podataka pomoću različitih metoda, kao što su redukcija dimenzijonalnosti i analiza klastera,[15][16] ili pretpostavki statističkog modela podataka i procjena njegovih parametara pomoću procjene najveće vjerovatnoće (maximum likelihood.[17]

Mnoge statističke metode oslanjaju se na jednostavne populacijske modele kako bi zaključile o povijesnim demografskim promjenama, kao što su prisustvo populacijskih uskih grla, primjesa ili vremena razilaženja stanovništva. Često se ove metode oslanjaju na pretpostavku panmiksije ili homogenosti u populaciji predaka. Pogrešno specificiranje takvih modela, naprimjer ne uzimajući u obzir postojanje strukture u populaciji predaka, može dovesti do vrlo pristranih procjena proučavanih parametara.[18] Simulacijske studije pokazuju da povijesna struktura populacije može čak imati genetičke efekte koji se lahko mogu pogrešno protumačiti kao povijesne promjene u veličini populacije ili kao postojanje miješanja, čak i kada se takvi događaji nisu dogodili.[19]

Reference

  1. ^ Cardon LR, Palmer LJ (februar 2003). "Population stratification and spurious allelic association". Lancet. 361 (9357): 598–604. doi:10.1016/S0140-6736(03)12520-2. PMID 12598158.
  2. ^ Gil McVean (2001). "Population Structure" (PDF). Arhivirano s originala (PDF), 23. 11. 2018. Pristupljeno 14. 11. 2020.
  3. ^ Pritchard JK, Rosenberg NA (juli 1999). "Use of unlinked genetic markers to detect population stratification in association studies". American Journal of Human Genetics. 65 (1): 220–8. doi:10.1086/302449. PMC 1378093. PMID 10364535.
  4. ^ a b c Devlin B, Roeder K (decembar 1999). "Genomic control for association studies". Biometrics. 55 (4): 997–1004. doi:10.1111/j.0006-341X.1999.00997.x. PMID 11315092.
  5. ^ Pritchard JK, Stephens M, Rosenberg NA, Donnelly P (juli 2000). "Association mapping in structured populations". American Journal of Human Genetics. 67 (1): 170–81. doi:10.1086/302959. PMC 1287075. PMID 10827107.
  6. ^ Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D (august 2006). "Principal components analysis corrects for stratification in genome-wide association studies". Nature Genetics. 38 (8): 904–9. doi:10.1038/ng1847. PMID 16862161.
  7. ^ Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF, et al. (februar 2006). "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness". Nature Genetics. 38 (2): 203–8. doi:10.1038/ng1702. PMID 16380716.
  8. ^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK, Salem RM, et al. (mart 2015). "Efficient Bayesian mixed-model analysis increases association power in large cohorts". Nature Genetics. 47 (3): 284–90. doi:10.1038/ng.3190. PMC 4342297. PMID 25642633.
  9. ^ Lander ES, Schork NJ (septembar 1994). "Genetic dissection of complex traits". Science. 265 (5181): 2037–48. doi:10.1126/science.8091226. PMID 8091226.
  10. ^ Bacanu SA, Devlin B, Roeder K (januar 2002). "Association studies for quantitative traits in structured populations". Genetic Epidemiology. 22 (1): 78–93. doi:10.1002/gepi.1045. PMID 11754475.
  11. ^ Reich DE, Goldstein DB (januar 2001). "Detecting association in a case-control study while correcting for population stratification". Genetic Epidemiology. 20 (1): 4–16. doi:10.1002/1098-2272(200101)20:1<4::AID-GEPI2>3.0.CO;2-T. PMID 11119293.
  12. ^ Bacanu SA, Devlin B, Roeder K (juni 2000). "The power of genomic control". American Journal of Human Genetics. 66 (6): 1933–44. doi:10.1086/302929. PMC 1378064. PMID 10801388.
  13. ^ Marchini J, Cardon LR, Phillips MS, Donnelly P (maj 2004). "The effects of human population structure on large genetic association studies". Nature Genetics. 36 (5): 512–7. doi:10.1038/ng1337. PMID 15052271.
  14. ^ Hellenthal G, Busby GB, Band G, Wilson JF, Capelli C, Falush D, Myers S (februar 2014). "A genetic atlas of human admixture history". Science. 343 (6172): 747–751. doi:10.1126/science.1243518. PMC 4209567. PMID 24531965.
  15. ^ Patterson N, Price AL, Reich D (decembar 2006). "Population structure and eigenanalysis". PLoS Genetics. 2 (12): e190. doi:10.1371/journal.pgen.0020190. PMC 1713260. PMID 17194218.
  16. ^ Frichot E, Mathieu F, Trouillon T, Bouchard G, François O (april 2014). "Fast and efficient estimation of individual ancestry coefficients". Genetics. 196 (4): 973–83. doi:10.1534/genetics.113.160572. PMC 3982712. PMID 24496008.
  17. ^ Alexander DH, Novembre J, Lange K (septembar 2009). "Fast model-based estimation of ancestry in unrelated individuals". Genome Research. 19 (9): 1655–64. doi:10.1101/gr.094052.109. PMC 2752134. PMID 19648217.
  18. ^ Scerri EM, Thomas MG, Manica A, Gunz P, Stock JT, Stringer C, et al. (august 2018). "Did Our Species Evolve in Subdivided Populations across Africa, and Why Does It Matter?". Trends in Ecology & Evolution. 33 (8): 582–594. doi:10.1016/j.tree.2018.05.005. PMC 6092560. PMID 30007846.
  19. ^ Rodríguez W, Mazet O, Grusea S, Arredondo A, Corujo JM, Boitard S, Chikhi L (decembar 2018). "The IICR and the non-stationary structured coalescent: towards demographic inference with arbitrary changes in population structure". Heredity. 121 (6): 663–678. doi:10.1038/s41437-018-0148-0. PMC 6221895. PMID 30293985.