ゲノムワイド関連解析

ゲノムワイド関連解析(ゲノムワイドかんれんかいせき、: genome-wide association study, GWA study、略称: GWAS)、またはゲノムワイド関連研究は、ゲノミクスゲノム科学)において、異なる個人のゲノム全域にわたる(ゲノムワイドな)遺伝的変異一式を対象に、ある形質に関連する変異があるかどうかを調べる観察研究英語版である。GWAS は、通常、一塩基多型(SNP)とヒトの主要な疾患などの形質との関連に焦点を当てているが、他のすべての遺伝的変異や他の生物にも同様に適用することができる。

概要

Manhattan plot of a GWAS
いくつかの強く関連するリスク遺伝子座を描いたマンハッタンプロット。各ドットはSNPを表し、X軸はゲノムの位置を示し、Y軸は関連レベルを示す。この例は、微小循環を調査するGWA研究から取られたものであるため、上部は、小血管に狭窄がある個人でより頻繁に見られる遺伝的変異を示している。

GWASをヒトのデータに適用した場合、特定の形質や疾患について様々な表現型を持つ参加者のDNAを比較する。これらの参加者は、疾患のある人(症例)と疾患のない同様の人(対照)であったり、血圧などの特定の形質について異なる表現型を持つ人であったりする。この方法は、遺伝子型を優先するのではなく、臨床症状によって参加者を分類する表現型優先アプローチとして知られている。一人一人のDNAを採取し、そこからSNPアレイを用いて読み取る。ある種の遺伝子変異(1つの対立遺伝子)が病気の人に多く見られる場合、その遺伝子変異体はその病気と関連していると言われる。そして、関連するSNPは、疾患のリスクに影響を与える可能性のあるヒトゲノムの領域を示していると考えられる。

GWASは、あらかじめ指定された少数の遺伝子領域を特異的に検証する方法とは対照的に、ゲノム全体を調査する。したがって、GWASは、遺伝子特異的な仮説駆動型の研究とは対照的に、データ駆動型の研究といえる。 GWASでは、疾患に関連するDNAのSNPやその他のバリアントを特定するが、それだけではどの遺伝子が原因であるかを特定することはできない[1][2][3]

2002年に発表された最初のGWASは、心筋梗塞を対象としたものだった[4]。その後、この研究デザインは2005年に、加齢黄斑変性の患者を調査した画期的なGWASに導入され、健康対照者と比較して対立遺伝子の頻度が有意に変化した 2つのSNPが発見された[5]。2017年現在、ヒトを対象とした3,000件以上のGWASで、1,800以上の疾患や形質が調査され、何千ものSNPの関連が発見された[6]。希少な遺伝子疾患の場合を除き、これらの関連性は非常に弱くリスクの多くを説明できないかもしれないが、重要かもしれない遺伝子や経路についての知見を得ることができる。

背景

GWA研究は、通常、効果量の小さい一般的な変異を特定する[7](右下)。

ヒトゲノムは、2つあれば何百万通りもの違いがある。ゲノムの個々のヌクレオチドには小さな変異(SNP)があり、欠失、挿入、コピー数の変異などの大きな変異もある。これらの変異は、病気のリスクから身長などの身体的特徴まで、個人の形質(表現型)に変化をもたらす可能性がある[8]。2000年頃、GWASが導入される前の主な調査方法は、家族の遺伝的連鎖を調べる遺伝学的調査(連鎖研究)だった。この方法は、単一遺伝子疾患に対しては非常に有用であることがわかっていたが、一般的な疾患や複雑な疾患では、連鎖研究の調査結果を再現することは困難だった [8][9][10]。そこで連鎖研究に変わるものとして提案されたのが、遺伝子関連研究だった。この研究は、ある遺伝子変異の対立遺伝子が、対象となる表現型(例: 研究対象となる疾患)を持つ個人に予想以上に多く見られるかどうかを調べるものである。初期の統計的検出力の計算で、弱い遺伝的影響を検出するには、連鎖研究よりもこの方法の方が優れていることが示された[11]

概念的な枠組みに加えて、GWASを可能にした要因がいくつかある。1つは、バイオバンクの登場であった。バイオバンクとは、ヒトの遺伝物質を保管する機関で、研究に必要な数の生物学的標本を集める費用と難易度を大幅に下げてくれた[12]。もう1つは、2003年から始まった国際HapMap計画によって、GWASで調べられる一般的なSNPの大部分が特定されたことであった[13]。国際HapMap計画で特定されたハプロブロック構造は、変動の大部分を記述するSNPのサブセットに焦点を当てることを可能にした。また、ジェノタイピングアレイを用いてこれらのSNPをすべてジェノタイピングする方法を開発することも重要な前提条件だった[14]

方法

症例対照GWASの手法を示す計算例。測定された各SNPの対立遺伝子のは、問題となっている形質に関連する変異体を特定するために、この場合はカイ二乗検定で評価される。この例では、2007年の虚血性心疾患の研究で、SNP1( rs1333049 )のGアリルを持つ人が虚血性心疾患の患者の中に多く含まれていることを示した数値を使用した[15]

GWASの最も一般的なアプローチは、症例対照研究で、2つの大規模な個人グループ、すなわち健康な対照グループと疾患に罹患した症例グループを比較する。各グループのすべての個人は、一般的な既知のSNPの大部分について遺伝子型別を解析される。SNPの正確な数はジェノタイピング技術によって異なるが、通常は100万個以上である[7]。そして、これらのSNPsのそれぞれについて、対立遺伝子の頻度が症例群と対照群の間で有意に変化しているかどうかを調べる[16]。このような設定では、効果の大きさを報告するための基本的な単位はオッズ比である。オッズ比とは、2つのオッズの比であり、GWASの文脈では、特定の対立遺伝子を持つ個人の症例のオッズと、同じ対立遺伝子を持たない個人の症例のオッズを指す。

例として、TとCの 2つの対立遺伝子があるとする。対立遺伝子Tを持つ症例群の個体数は「A」、対立遺伝子Tを持つ対照群の個体数は「B」で表される 。同様に、対立遺伝子Cを有する症例群の個体数は「X」、対立遺伝子Cを有する対照群の個体数は「Y」で表される。この場合、対立遺伝子Tのオッズ比はA:B(標準的な用語ではBに対するAの比)をX:Yで割ったものであり、数学表記では単純に(A / B)/(X / Y)となる。

症例群の対立遺伝子の頻度が対照群よりもはるかに高い場合、オッズ比は1よりも高くなり、対立遺伝子頻度が低い場合はその逆となる。さらに、オッズ比の有意性を示す P値は、通常、単純なカイ二乗検定を用いて算出される。1とは有意に異なるオッズ比を見つけることは、SNPが疾患と関連していることを示すため、GWASの目的となる[16]。非常に多くのバリアントが検定されるため、p値が 5×10−8 未満であることをもって有意であると判断することが標準的である。

この症例対照アプローチにはいくつかの変法がある。症例対照GWASの一般的な代替法は、定量的な表現型データ、例えば身長やバイオマーカーの濃度、さらには遺伝子発現などの分析である。同様に、優性または劣性の浸透度パターン用に設計された代替統計を使用することができる[16]。SNPTESTやPLINKなどのバイオインフォマティクス・ソフトウェアを用いて計算するのが一般的で、これらの代替統計の多くに対応している[15][17]。GWASでは、個々のSNPの影響に注目する。しかし、複数のSNP間の複雑な相互作用(エピスタシス)が、複雑な疾患の原因となっている可能性もある。相互作用の数は指数関数的に増加する可能性があるため、GWASデータから統計的に有意な相互作用を検出することは、計算的にも統計的にも困難である。この課題は、データマイニングから着想を得たアルゴリズムを使用する既存の出版物で取り組まれていきた[18]。さらに、研究者たちは、GWASのデータをタンパク質間相互作用ネットワークなどの他の生物学的データと統合して、より有益な結果を引きだそうとしている[19][20]

大半のGWASでは、研究に使用された遺伝子型チップにないSNPの遺伝子型を代入することが重要なステップとなっている[21]。このプロセスにより、関連性を検証できるSNPの数が大幅に増え、研究の検出力が向上し、異なるコホート間のGWASのメタ分析が容易になる。遺伝子型の代入は、GWASデータとハプロタイプのリファレンス・パネルとを組み合わせた統計的手法によって行われる。これらの方法では、短い配列の間の個人間でハプロタイプが共有されていることを利用して、対立遺伝子を推定する。ジェノタイプ・インピュテーションのための既存のソフトウェア・パッケージには、IMPUTE2、Minimac、Beagle、MaCHなどがある [22][23][24]

関連性の算出に加えて、結果を交絡させる可能性のある因子を考慮するのが一般的である。性別と年齢は交絡因子の一般的な例である。さらに、多くの遺伝的変異は、その変異が最初に生じた地理的・歴史的集団と関連していることも知られている[25]。このような関連性があるため、研究では、参加者の地理期的・民族的背景を考慮して、いわゆる母集団の層別化を行う必要がある。そうしないと、これらの研究は偽陽性の結果を生み出す可能性がある[26]

すべてのSNPについてオッズ比とP値を計算した後で、マンハッタン・プロットを作成するのが一般的である。GWASでは、このプロットはP値の負の対数をゲノム位置の関数として表している。このようにして、最も有意な関連性を持つSNPは、ハプロブロック構造のため、通常、点のスタックとしてプロット上に表示される。重要なのは、有意性を示すP値のしきい値が、多重検定の問題に対して補正されていることである。閾値の正確な値は研究によって異なるが[27] 、数十万から数百万の検定においても有意であることを示す 5×10−8が用いられてきた[7][16][28]。GWASでは通常、最初の解析を発見コホートで行い、その後、独立した検証コホートで最も有意なSNPを検証する[29]

結果

LDL受容体領域に存在する個々のSNPとLDLコレステロール値との関連性を示した地域関連性プロット。このタイプのプロットは、リードセクションのマンハッタンプロットに似ているが、ゲノムのより限定されたセクションのためのものである。ハプロブロック構造はカラースケールで視覚化され、関連レベルは左のY軸で与えられる。 rs73015013というSNP(上部中央)を表すドットは、このSNPがLDLコレステロールの変動の一部を説明するSNPであるため、Y軸の位置が高くなっている[30]

GWASから同定されたSNPの包括的なカタログを作成する試みがなされている[31]。2009年の時点で、疾患に関連するSNPは数千にのぼる[32]

2005年に実施された最初のGWASでは、96人の加齢黄斑変性(ARMD)患者と50人の健康対照者を比較した[33] 。その結果、両群間で対立遺伝子の頻度が有意に変化している 2つのSNPを同定した。これらのSNPは、補体因子Hをコードする遺伝子に位置しており、これはARMDの研究では予想外の発見だった。この最初のGWASで得られた知見は、その後、ARMDにおける補体系の治療的操作に向けて、さらなる機能的研究を促した[34]。GWASの歴史におけるもう1つの画期的な発表はウェルカム・トラスト・ケース・コントロール・コンソーシアム(WTCCC)研究であり、2007年に発表された時点では最大のGWASだった。WTCCCでは、7つの一般的な疾患の14,000症例(冠状動脈性心臓病1型糖尿病2型糖尿病関節リウマチクローン病双極性障害高血圧のそれぞれについて約2,000人)と、3,000人の共通対照群が含まれていた[15]。この研究は、これらの疾患の基礎となる多くの新しい病気の遺伝子を発見することに成功した[15][35]

これらの最初の画期的なGWAS以来、2つの一般的な傾向がある[36]。1つは、より大きなサンプルサイズへと向かっている。2018年には、学歴に関するもので110万人、不眠症に関するもので130万人と、100万人以上のサンプルサイズに達するGWASがある[37] [38]。その理由は、オッズ比が小さく、対立遺伝子頻度が低いリスクSNPを確実に検出しようという動きがあるからである。もう1つの傾向は、血中脂質やプロインスリンなどのバイオマーカーのように、より狭く定義された表現型を使用することである。これらは中間表現型と呼ばれ、その解析はバイオマーカーの機能的研究に役立つ可能性がある[39]。GWASの変法では、疾患を持つ人の一親等の親族を対照にする。このタイプの研究は、代理人 (proxy) によるゲノムワイド関連研究(GWAX)と呼ばれる[40]

GWASに関する議論の中心は、GWASによって発見されたSNP変異のほとんどが、わずかな疾患のリスクの増加にしか関連しておらず、小さな予測値しか持たないということだった。オッズ比の中央値は、一つのリスクSNPあたり1.33であり、3.0を超えるオッズ比を示すのはわずかである[1] [41]。オッズ比の大きさは小さく、遺伝性変動をほとんど説明できていない。この遺伝性変動は、一卵性双生児を対照とした遺伝率調査から推定される[42]。例えば、身長の変動の80 - 90%は遺伝的差異によって説明できることが知られているが、GWASでは、この変動のごく一部しか説明できていない[42]

関連項目

出典

  1. ^ a b “Genomewide association studies and assessment of the risk of disease”. The New England Journal of Medicine 363 (2): 166–76. (July 2010). doi:10.1056/NEJMra0905980. PMID 20647212. 
  2. ^ “How to interpret a genome-wide association study”. JAMA 299 (11): 1335–44. (March 2008). doi:10.1001/jama.299.11.1335. PMID 18349094. 
  3. ^ Genome-Wide Association Studies”. National Human Genome Research Institute. 2021年8月4日閲覧。
  4. ^ “Functional SNPs in the lymphotoxin-alpha gene that are associated with susceptibility to myocardial infarction”. Nature Genetics 32 (4): 650–4. (December 2002). doi:10.1038/ng1047. PMID 12426569. https://www.nature.com/articles/ng1047z6 
  5. ^ “Complement factor H polymorphism in age-related macular degeneration”. Science 308 (5720): 385–9. (April 2005). Bibcode2005Sci...308..385K. doi:10.1126/science.1109557. PMC 1512523. PMID 15761122. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1512523/6 
  6. ^ GWAS Catalog: The NHGRI-EBI Catalog of published genome-wide association studies”. European Molecular Biology Laboratory. European Molecular Biology Laboratory. 2017年4月18日閲覧。
  7. ^ a b c “Chapter 11: Genome-wide association studies”. PLOS Computational Biology 8 (12): e1002822. (2012). Bibcode2012PLSCB...8E2822B. doi:10.1371/journal.pcbi.1002822. PMC 3531285. PMID 23300413. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531285/. 
  8. ^ a b Human Molecular Genetics (4th ed.). Garland Science. (2011). pp. 467–495. ISBN 978-0-8153-4149-9. https://archive.org/details/humanmolecularge00stra_254 
  9. ^ Online Mendelian Inheritance in Man”. 5 December 2011時点のオリジナルよりアーカイブ。2011年12月6日閲覧。
  10. ^ “Genomewide scans of complex human diseases: true linkage is hard to find”. American Journal of Human Genetics 69 (5): 936–50. (November 2001). doi:10.1086/324069. PMC 1274370. PMID 11565063. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1274370/. 
  11. ^ “The future of genetic studies of complex human diseases”. Science 273 (5281): 1516–7. (September 1996). Bibcode1996Sci...273.1516R. doi:10.1126/science.273.5281.1516. PMID 8801636. 
  12. ^ “The uneasy ethical and legal underpinnings of large-scale genomic biobanks”. Annual Review of Genomics and Human Genetics 8: 343–64. (2007). doi:10.1146/annurev.genom.7.080505.115721. PMID 17550341. 
  13. ^ “The International HapMap Project”. Nature 426 (6968): 789–96. (December 2003). Bibcode2003Natur.426..789G. doi:10.1038/nature02168. PMID 14685227. https://deepblue.lib.umich.edu/bitstream/2027.42/62838/1/nature02168.pdf. 
  14. ^ “Quantitative monitoring of gene expression patterns with a complementary DNA microarray”. Science 270 (5235): 467–70. (October 1995). Bibcode1995Sci...270..467S. doi:10.1126/science.270.5235.467. PMID 7569999. 
  15. ^ a b c d Wellcome Trust Case Control Consortium, Burton PR (June 2007). “Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls”. Nature 447 (7145): 661–78. Bibcode2007Natur.447..661B. doi:10.1038/nature05911. PMC 2719288. PMID 17554300. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2719288/. 
  16. ^ a b c d “Basic statistical analysis in genetic case-control studies”. Nature Protocols 6 (2): 121–33. (February 2011). doi:10.1038/nprot.2010.182. PMC 3154648. PMID 21293453. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3154648/. 
  17. ^ “PLINK: a tool set for whole-genome association and population-based linkage analyses”. American Journal of Human Genetics 81 (3): 559–75. (September 2007). doi:10.1086/519795. PMC 1950838. PMID 17701901. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1950838/6 
  18. ^ “Genome-wide detection of intervals of genetic heterogeneity associated with complex traits”. Bioinformatics 31 (12): i240-9. (June 2015). doi:10.1093/bioinformatics/btv263. PMC 4559912. PMID 26072488. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4559912/. 
  19. ^ “MOBAS: identification of disease-associated protein subnetworks using modularity-based scoring”. EURASIP Journal on Bioinformatics & Systems Biology 2015 (1): 7. (December 2015). doi:10.1186/s13637-015-0025-6. PMC 5270451. PMID 28194175. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5270451/. 
  20. ^ “Assessing the Collective Disease Association of Multiple Genomic Loci”. Proceedings of the 6th ACM Conference on Bioinformatics, Computational Biology and Health Informatics. BCB '15. New York, NY, USA: ACM. (2015-01-01). pp. 376–385. doi:10.1145/2808719.2808758. ISBN 978-1-4503-3853-0 
  21. ^ “Genotype imputation for genome-wide association studies”. Nature Reviews Genetics 11 (7): 499–511. (July 2010). doi:10.1038/nrg2796. PMID 20517342. 
  22. ^ “Genotype imputation with thousands of genomes”. G3 1 (6): 457–70. (November 2011). doi:10.1534/g3.111.001198. PMC 3276165. PMID 22384356. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3276165/. 
  23. ^ “A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals”. American Journal of Human Genetics 84 (2): 210–23. (February 2009). doi:10.1016/j.ajhg.2009.01.005. PMC 2668004. PMID 19200528. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2668004/. 
  24. ^ “MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes”. Genetic Epidemiology 34 (8): 816–34. (December 2010). doi:10.1002/gepi.20533. PMC 3175618. PMID 21058334. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3175618/. 
  25. ^ “Genes mirror geography within Europe”. Nature 456 (7218): 98–101. (November 2008). Bibcode2008Natur.456...98N. doi:10.1038/nature07331. PMC 2735096. PMID 18758442. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2735096/. 
  26. ^ “Genes, behavior, and behavior genetics”. Wiley Interdisciplinary Reviews. Cognitive Science 8 (1-2): e1405. (January 2017). doi:10.1002/wcs.1405. PMID 27906529. 
  27. ^ “A novel computational biostatistics approach implies impaired dephosphorylation of growth factor receptors as associated with severity of autism”. Translational Psychiatry 4 (1): e354. (January 2014). doi:10.1038/tp.2013.124. PMC 3905234. PMID 24473445. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3905234/. 
  28. ^ “Guidelines for genome-wide association studies”. PLOS Genetics 8 (7): e1002812. (July 2012). doi:10.1371/journal.pgen.1002812. PMC 3390399. PMID 22792080. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3390399/. 
  29. ^ Smith SM, Douaud G, Chen W, Hanayik T, Alfaro-Almagro F, Sharp K, Elliott LT (2021). “An expanded set of genome-wide association studies of brain imaging phenotypes in UK Biobank.”. Nat Neurosci. doi:10.1038/s41593-021-00826-4. PMID 33875891. https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org/cite&retmode=ref&cmd=prlinks&id=33875891. 
  30. ^ “Fine mapping of five loci associated with low-density lipoprotein cholesterol detects variants that double the explained heritability”. PLOS Genetics 7 (7): e1002198. (July 2011). doi:10.1371/journal.pgen.1002198. PMC 3145627. PMID 21829380. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145627/6 
  31. ^ “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proceedings of the National Academy of Sciences of the United States of America 106 (23): 9362–7. (June 2009). Bibcode2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2687147/. 
  32. ^ “An open access database of genome-wide association results”. BMC Medical Genetics 10: 6. (January 2009). doi:10.1186/1471-2350-10-6. PMC 2639349. PMID 19161620. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2639349/. 
  33. ^ “Complement factor H variant increases the risk of age-related macular degeneration”. Science 308 (5720): 419–21. (April 2005). Bibcode2005Sci...308..419H. doi:10.1126/science.1110359. PMID 15761120. 
  34. ^ “Design and development of TT30, a novel C3d-targeted C3/C5 convertase inhibitor for treatment of human complement alternative pathway-mediated diseases”. Blood 118 (17): 4705–13. (October 2011). doi:10.1182/blood-2011-06-359646. PMC 3208285. PMID 21860027. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3208285/. 
  35. ^ "Largest ever study of genetics of common diseases published today" (Press release). Wellcome Trust Case Control Consortium. 6 June 2007. 2008年6月19日閲覧
  36. ^ “Validating, augmenting and refining genome-wide association signals”. Nature Reviews Genetics 10 (5): 318–29. (May 2009). doi:10.1038/nrg2544. PMC 7877552. PMID 19373277. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7877552/. 
  37. ^ “Gene discovery and polygenic prediction from a genome-wide association study of educational attainment in 1.1 million individuals”. Nature Genetics 50 (8): 1112–1121. (July 2018). doi:10.1038/s41588-018-0147-3. PMC 6393768. PMID 30038396. http://man.ac.uk/C0BbE7. 
  38. ^ Genome-wide Analysis of Insomnia (N=1,331,010) Identifies Novel Loci and Functional Pathways. (January 2018). doi:10.1101/2149736 
  39. ^ “C-reactive protein and coronary disease: is there a causal link?”. Circulation 120 (21): 2036–9. (November 2009). doi:10.1161/CIRCULATIONAHA.109.907212. PMID 19901186. 
  40. ^ “Case-control association mapping by proxy using family history of disease”. Nature Genetics 49 (3): 325–331. (March 2017). doi:10.1038/ng.3766. PMID 28092683. 
  41. ^ “The pursuit of genome-wide association studies: where are we now?”. Journal of Human Genetics 55 (4): 195–206. (April 2010). doi:10.1038/jhg.2010.19. PMID 20300123. 
  42. ^ a b “Personal genomes: The case of the missing heritability”. Nature 456 (7218): 18–21. (November 2008). doi:10.1038/456018a. PMID 18987709. 

外部リンク