国際HapMap計画 (International HapMap Project) はヒトゲノムのハプロタイプマップを構築することを目標として組織された。
このハプロタイプマップはヒトの遺伝的変異の共通のパターンを集積したものになると期待されている。
遺伝的変異と疾患や、薬剤応答、環境因子の関係を見つけようとする研究者にとってはHapMapは重要な情報源となる。
このプロジェクトで得られた情報は、全世界の研究者に無償で公開される。
HapMapプロジェクトは学術系の研究機関と非営利の医学系研究機関、及び各国(カナダ、中国、
日本、ナイジェリア、英国、米国)の企業の共同研究である。
プロジェクトの公式なスタートは2002年の10/27-29の会合で、そこから3年間の計画とされた。
このプロジェクトは3段階で構成される。フェーズ1で得られた全データは2005年10月27日に公開され、
フェーズ2については、そのデータセットの解析結果が2007年10月に発表された。フェーズ3に
ついては2009年春にデータセットが公開された。
背景
まれなメンデル遺伝の疾患と異なり、ありふれた疾患(糖尿病、がん、心疾患、脳梗塞、うつ病、気管支喘息)や
個人の薬剤応答の違いには
複数の遺伝子の組み合わせと環境要因が関与していると考えられている。
これらの疾患に関係する遺伝的要因を見つけるには、原理上は、病気に罹っている人々と罹っていない人々の
ゲノム配列を解読して、その違いを比較すればいい。しかしこれは実際には
ゲノム配列の完全な解読には莫大なコストがかかるので、現時点では実行不可能である。
この問題に対し、HapMapプロジェクトは近道とも言える方法を提案している。
血縁関係にない二者間ではDNAの塩基配列は約99.5%が共通だが、ゲノム上で同じ位置で比較すると
塩基が異なっている箇所がある。このような箇所はSNP(Single nucleotide polymorphism)
と呼ばれ、そのような変異を含む座位や遺伝子の1本ずつはアリル[要曖昧さ回避]と呼ばれる。
HapMapプロジェクトではコモンSNP(Common SNP)のみにフォーカスしており、
共通かどうかの目安としては集団中でそのアリルの頻度が1%以上存在するか否かを
基準にしている。
ヒトでは男性の性染色体を例外として、各個人は各染色体を2本ずつ持つ。一人の個人の
ある箇所でのアリルの組み合わせはジェノタイプ(遺伝子型)と呼ばれる。
ある個人のある箇所のDNA塩基配列を読んで遺伝子型を決定することはジェノタイピングと
呼ばれる。HapMapプロジェクトでは269人について、既知の数百万SNPを対象として
ジェノタイピングを行い、その結果を公表した。
一本の染色体上で近傍に位置するSNPのアリル同士には関連がある。
例えば、2つのSNPのうちある人の片方のSNPのアリル情報が得られたとき、
その近傍のSNPのアリルは予測できることが多い。
これは、各SNPは進化の過程で点突然変異として起こったものだが、その変異が子孫に
伝わっていくときにその箇所周辺のもっと古い突然変異と一緒に伝わってくるためである。
一方でSNP間に長い距離がある場合には、このような関連はあまりない。これは
世代が代わるときに組換えによって2本の染色体間でアリルの並び同士が
混ぜ合わされてしまうためである(ハプロタイプが組み替えによって崩れていく)。
1本の染色体上での、このような連続するアリルの並びのことをハプロタイプと呼ぶ。
対象サンプル
一般的に、集団間でハプロタイプは共有されているが、その頻度となると違いにはかなり幅がある。
HapMapプロジェクトでは4つの集団が対象となった。ナイジェリアのイバダンのヨルバ人の30トリオ(30組の両親と子)、
ユタ州の北ヨーロッパ及び西ヨーロッパ由来の30トリオ、日本の東京の血縁関係の無い個人44人、中国の北京の漢民族由来の
血縁関係のない個人45人である。これらの集団から得られたハプロタイプの情報は他の集団を研究する上でも
有用ではあるが、他の集団も含めた場合の有用性についても平行して検討が進められていた。
フェーズIIIでは11の共通祖先のグループのサンプルが集積された。内訳は、以下の通り。
- ASW (African ancestry in Southwest USA)
- CEU (Utah residents with Northern and Western European ancestry from the CEPH collection)
- CHD (Chinese in Metropolitan Denver, Colorado)
- GIH (Gujarati Indians in Houston, Texas)
- LWK (Luhya in Webuye, Kenya)
- MEX (Mexican ancestry in Los Angeles, California)
- MKK (Maasai in Kinyawa, Kenya)
- TSI (Tuscans in Italy)
- YRI (Yoruba in Ibadan, Nigeria)
戦略
フェーズ1では5,000base間隔でコモンSNPsをジェノタイピングした。
これは合計では百万個以上のSNPsである。
ジェノタイピングは10拠点のセンターで分散して行われ、
5種類の解析手法が使用された。
ジェノタイピングのクオリティー評価は、重複したサンプル間や
関連したサンプル間で行われ、共通のSNPsのセットをもつ拠点間で
定期的にクオリティチェックが行われた。
カナダのモントリオールのMcGill大学のThomas J. HudsonMontrealらのチームは
2番染色体と4pを解析した。 中国の北京、上海、香港を拠点としたHuanming Yangらのチームは3番染色体と8p、21pを解析した。東京大学の中村祐輔らのチームは
5、 11、 14、 15、 16、 17、19番染色体を解析した。イギリスのSanger InstituteのDavid R. Bentleyらは1、6、10、13、20番染色体を解析した。
米国は4拠点あり、サンディエゴのイルミナ社のMark Chee と Arnold Oliphantらは染色体 8q、 9、 18q、 22、 X、 ケンブリッジのBroad Instituteの David Altshulerらは染色体 4q、 7q、 18p、 Y ミトコンドリアを、 ヒューストンのベイラー医科大のRichard A. Gibbsらは染色体 12、 サンフランシスコのカリフォルニア大のPui-Yan Kwok らはchromosome 7pを解析した。
マップを作るために、まず約100万個のSNPsが標的とされたが、染色体の領域によっては
SNPsが少なすぎたり、多くのSNPsが各種解析に使用するには頻度が少なすぎたりしたため
追加のSNPsのタイピングが必要となった。このため、コンソーシアムでは
数百万個のSNPsを追加することになり、その大規模なリシーケンシング作業のために
多額の予算を割り当てなければならなかった。プロジェクト開始時にdbSNPに
登録されていたSNPsが280万個であったのに対し、2003年9月には
このプロジェクトにより280万個追加され、2006年8月には合計で1000万を超えている(PhaseII)。
このPhaseIIの時点で900-1000万SNPsのうち25-35%のものがMAF≥0.05のCommon SNPsであった。
[1]
プロジェクトの開始時に300万弱のSNPsのうち10%程度のSNPsにしか多型がなかったことからすると、
各種解析(ゲノムワイド相関解析、連鎖不平衡、組換え、自然選択)に利用できるSNPsは
大幅に増加した。
文献
脚注
外部リンク
|
---|
データ収集 | |
---|
分野概念 | |
---|
アプリケーション | |
---|
分析手法 | |
---|
主なプロジェクト | |
---|