De novoタンパク質構造予測

ヒトアルテミンの一次構造(Isoform 1 [UniParc])
ヒトアルテミンの三次構造 (PDB: 2GYR)。PyMOLによるレンダリング。

計算生物学において、de novoタンパク質構造予測(デノボたんぱくしつこうぞうよそく、: de novo protein structure prediction)は、アミノ酸の一次構造からタンパク質の三次構造を予測するアルゴリズムのプロセスである。この問題は、何十年にもわたって第一線の科学者たちを悩ませてきたが、いまだに解決されていない。Science誌によると、この問題は現代科学における125の未解決問題のうちの1つである[1]。現在、最も成功している手法の中には、小さな単一ドメインのタンパク質のフォールドを、構造全体で1.5オングストローム以内の位置精度を高い確率で予測できるものがある[2]

de novo法は膨大な計算資源を必要とするため、比較的小さなタンパク質を対象とした研究しか行われていなかった。de novoタンパク質構造モデリングは、テンプレートベースのモデリング(template-based modeling、TBM)とは異なり、目的のタンパク質に対する相同体が解明されていないため、アミノ酸配列からタンパク質構造を予測することを非常に困難にしている。大規模なタンパク質の構造を新たに予測するには、より優れたアルゴリズムと、強力なスーパーコンピュータ(Blue GeneMDGRAPE-3など)や分散型コンピューティングプロジェクト(Folding@homeRosetta@homeヒトプロテオーム・フォールディング・プロジェクト英語版栄養価の高いコメを世界にプロジェクト英語版など)が提供する大規模な計算資源が必要となる。計算上の障壁は大きいが、構造ゲノミクス(予測法または実験法)が医学医薬品設計などの分野に役立つ可能性があるため、de novo構造予測は活発な研究分野となっている。

背景

既知のタンパク質配列と確認されたタンパク質構造との間には膨大なギャップがあり、2008年初頭の時点では、UniProtKB英語版データベースに登録されている配列のうち、蛋白質構造データバンク(PDB)に登録されている構造に対応しているのは約1%で、配列と構造の間には約500万個のギャップがあった[3]。三次構造を決定するための実験技術は、特定のタンパク質の構造を決定する上で深刻なボトルネックとなっていた。例えば、X線結晶構造解析では、約80,000個の細胞質タンパク質の結晶化に成功しているが、膜タンパク質でははるかに少ない約280個しか結晶化に成功していない[4]。実験の限界を考えると、既知の配列と構造の間のギャップを埋めるための効率的なコンピュータプログラムを開発することが、唯一の実行可能な選択肢であると考えられる[4]

de novoタンパク質構造予測法は、明示的なテンプレートを使用せずに、タンパク質の折りたたみエネルギーを支配する一般原理、および/または、天然の構造が獲得する立体配座的な特徴の統計的傾向に基づいて、配列から三次構造を予測しようとするものである。de novo構造予測の研究は、主に次の3つの分野に焦点を当てている。すなわち、タンパク質の代替的な低解像度表現、正確なエネルギー関数、効率的なサンプリング方法である。

de novo予測の一般的なパラダイムは、スコアリング関数やその他の配列依存のバイアスを用いて配座空間英語版をサンプリングし、多数の候補構造(デコイ、おとり)を生成するというものである。次に、スコアリング関数立体構造異性体クラスタリングを用いて、これらのデコイから天然様のコンフォメーションを選択する。天然様の構造を微調整する最終ステップとして、高解像度リファインメントが用いられることもある。スコアリング関数には大きく分けて2種類のクラスがある。物理ベースの関数は、分子間相互作用の既知の物理学的側面を記述する数学モデルに基づいている。知識ベースの関数は、天然タンパク質のコンフォメーションの特徴の側面を捉えた統計モデルで形成される[5]

アミノ酸配列がタンパク質の三次構造を決定

タンパク質の一次構造には、タンパク質の全体的な立体構造に必要な情報がすべて含まれているという考えを支持するいくつかの証拠が提示されており、これによりde novoタンパク質予測のアイデアが可能になっている。第一に、機能の異なるタンパク質は、通常、アミノ酸の配列が異なる。第二に、デュシェンヌ型筋ジストロフィーのようないくつかの異なるヒトの疾患は、一次構造中のたった1つのアミノ酸の変化によってタンパク質の機能が失われることに関連している可能性がある。第三に、多くの異なる生物種にわたって同様の機能を持つタンパク質は、しばしば類似したアミノ酸配列を持っている。たとえば、ユビキチンは、他のタンパク質の分解を制御するタンパク質であり、そのアミノ酸配列は、ショウジョウバエホモ・サピエンスという異なる種でもほぼ同じである。第四に、思考実験によって、タンパク質の折りたたみは完全にランダムなプロセスとはならず、折りたたみに必要な情報は一次構造の中にコード化されていなければならないと推測することができる。例えば、小さなポリペプチドに含まれる100個のアミノ酸残基がそれぞれ平均して10個の異なるコンフォメーションをとると仮定すると、ポリペプチドには10^100個の異なるコンフォメーションが存在することになる。仮に10^-13秒ごとに1つの可能性のある確認がテストされた場合、すべての可能性のあるコンフォメーションをサンプリングするには約10^77年かかることになる。しかし、体内では常に短い時間軸でタンパク質が正しく折りたたまれており、その過程はランダムではないため、したがってモデル化できる可能性がある。

タンパク質の三次構造をコード化するのに必要な情報はすべて一次構造に含まれているという仮説を裏付ける最も有力な証拠の一つが、1950年代にクリスチャン・アンフィンセンが示したものである。彼は古典的な実験で、リボヌクレアーゼAを、還元剤(安定化しているジスルフィド結合を切断する)の存在下で、尿素(安定化している疎水性結合を破壊する)の溶液に浸すことで、完全に変性させることができることを示した。タンパク質をこの環境から取り除くと、変性して機能しなくなったリボヌクレアーゼタンパク質は、自発的に反跳(はんちょう)して機能を取り戻した。このことは、タンパク質の三次構造が一次アミノ酸配列にコードされていることを示している。もし、このタンパク質がランダムに再形成されていたら、4つのジスルフィド結合の100種類を超える組み合わせが形成されていた可能性がある。ただし、ほとんどの場合、タンパク質が適切に折りたたまれるためには、細胞内に分子シャペロンの存在が必要となる。タンパク質の全体的な形状はそのアミノ酸構造にコードされていても、その折りたたみにはシャペロンの助けを必要とする場合がある[6]

成功したde novoモデリングの要件

de novoコンフォメーション予測ツールは、通常、候補コンフォメーション(デコイ)を作成し、熱力学的安定性エネルギー状態に基づいてそれらの中から選択することで機能する。もっとも成功した予測ツールには、次の3つの要素が共通している。

  1. 熱力学的に最も安定した状態をタンパク質の天然の構造に対応させる正確なエネルギー関数。
  2. コンフォメーション探索により、低エネルギー状態を迅速に特定できる効率的な探索方法。
  3. デコイ構造のコレクションから天然様モデルを選択できる能力[3]

de novo法プログラムは、3次元空間を探索し、その過程でタンパク質のコンフォメーションの候補を作成する。タンパク質が正しく折りたたまれた天然状態に近づくと、エントロピー自由エネルギーが減少する。この情報を利用して、de novo予測プログラムはデコイを区別できる。具体的には、de novoプログラムは、自由エネルギーが高い構造よりも、自由エネルギーが低い可能性のあるコンフォメーションを選択する[2][6][7]David A. Bakerが、彼のde novo Rosetta予測ツールの仕組みについて述べているように、「折りたたみの間、鎖の各局所的セグメントは、異なる局所的コンフォメーションの部分集合の間を行き来する。天然の構造への折りたたみは、局所的セグメントが採用するコンフォメーションとそれらの相対的な方向が、天然構造のタンパク質の特徴である低エネルギー状態を可能にするときに起こる。Rosettaのアルゴリズムでは、全体のエネルギーが最も低い局所的なコンフォメーションの組み合わせを探す」[8]

ただし、いくつかのde novo法では、最初にタンパク質構造の簡略化された表現を用いて配座空間全体を列挙し、次に天然様の可能性が最も高いものを選択する。このアプローチの例は、タンパク質の折りたたみを四面体の格子で表現し、四面体表現で得られたすべての可能なコンフォメーションの上に、すべての原子モデルを構築するという方法がある。Michael Levittのチームは、CASP3でこの手法を用いて、これまでトポロジーが観測されていなかったタンパク質の折りたたみを予測することに成功した[9]

XuとZhangはQUARKプログラムを開発し、知識ベースの力場を通じて、いくつかのタンパク質のab initio(第一原理)構造をうまく構築できることを示した[10][11]

タンパク質構造予測の戦略

正しく折りたたまれたタンパク質コンフォメーション(天然構造)は、部分的に折りたたまれた構造や一次構造よりも自由エネルギーが低い。コンピュータはこれらの正しく折りたたまれているコンフォメーションを検索する。

既知の三次構造を持つタンパク質が、構造未決定の潜在的な相同体と少なくとも30%の配列を共有している場合、未知の推定構造と既知の構造を重ね合わせる比較方法を利用して、未知の可能性のある構造を予測することができる。しかし、この閾値以下では、初期モデルから可能な構造を決定するために、他の3つのクラスの戦略が使用される。すなわち、ab initioタンパク質予測、フォールド認識、およびスレッディングである。

  1. ab initioab initio(第一原理)法では、物理化学的パラメータとニューラルネットアルゴリズムを用いて、一次構造から二次構造(αヘリックスβシートβターンなど)を解明する試みが最初に行われる。その先は、アルゴリズムによって三次構造の折りたたみが予測される。この戦略の1つの欠点は、アミノ酸の側鎖の位置や向きを取り込むことがまだできないことである。
  2. フォールド認識フォールド認識戦略では、最初に二次構造を予測し、CATHSCOPなど既知のタンパク質折りたたみのライブラリ、または可能な二次構造形態の「周期表」と呼ばれているものと比較する。次に、マッチする可能性のあるものに信頼度スコアが割り当てられる。
  3. スレッディングスレッディング戦略では、前記フォールディング認識技術をさらに発展させる。このプロセスでは、残基ペアの相互作用に対する経験に基づくエネルギー関数を使用して、未知のタンパク質を推定上の主鎖上に最適な形で配置し、必要に応じてギャップを調整する。次に、最適な相互作用を強調することで、潜在的なデコイを識別し、最も可能性の高いコンフォメーションを予測することができる。

フォールド戦略とスレッディング戦略の目的は、未知のタンパク質の折りたたみが、蛋白質構造データバンク(PDB)などのデータベースに登録されている既知のタンパク質のドメインに類似しているかどうかを確認することである。これは、タンパク質の折りたたみをデータベースの構造と比較する代わりに、物理ベースのアプローチで構造を決定するab initio法とは対照的である[12]

de novo予測法の限界

de novoタンパク質予測法における主な限界は、タンパク質の天然のコンフォメーションをうまく解明するために、膨大なコンピュータ時間を必要とすることである。Rosetta@homeに代表されるような分散型の手法では、データ処理のためにアイドル状態の自宅のコンピューター時間をボランティアで提供してくれる個人を募集することで、この問題を解決しようとしている。しかし、これらの方法にも課題がある。たとえば、ワシントン大学ハワード・ヒューズ医学研究所の研究チームは、アミノ酸配列からタンパク質T0283の三次構造を予測するために分散型の手法を用いた。この分散手法の精度を、蛋白質構造データバンク(PDB)に登録されている実験的に確認された構造と比較するブラインドテストを行ったところ、この予測ツールは登録された構造と見事に一致した。しかし、この偉業に要した時間とコンピュータ数は、それぞれ約2年と約70,000台の家庭用コンピュータという膨大なものであった[13]

このような制限を克服するために提案されている方法の一つに、マルコフモデルを使用する方法がある(マルコフ連鎖モンテカルロ法を参照)。一つの可能性として、自由エネルギーの計算とタンパク質構造予測を支援するために、そのようなモデルを構築し、おそらく計算シミュレーションを改良することが考えられる[14]。計算能力の限界を回避する別の方法は、粗視化モデリング英語版の使用がある。粗視化タンパク質モデルにより、小さなタンパク質や大きなタンパク質断片の構造を短い計算時間でde novo予測することができる[15]

CASP

アミノ酸配列からタンパク質の立体構造を予測する分散コンピューティング(Rosetta)の一例を示す。予測されたタンパク質の構造(赤紫色)と、実験で決定された結晶構造(青色)を重ねて表示している。両者は非常によく一致している。

「計算機によるタンパク質構造予測法の進歩は、年に2回、コミュニティ全体で行われる「タンパク質構造予測精密評価」(CASP)実験で評価される。CASP実験においては、研究グループは、天然の構造が不明であるが、決定され、まもなく公開される予定のアミノ酸配列に予測手法を適用するよう求められる。CASP実験で提供されたアミノ酸配列の数は少ないが、これらのコンテストは、間違いなく偏りのない方法で、予測手法やこの分野の進歩をベンチマークするための良い指標となる[16]」。

参照項目

脚注

  1. ^ “Editorial: So much more to know”. Science 309 (5731): 78–102. (2005). doi:10.1126/science.309.5731.78b. PMID 15994524. 
  2. ^ a b Dill, Ken A. (2007). “The protein folding problem: when will it be solved?”. Current Opinion in Structural Biology 17 (3): 342–346. doi:10.1016/j.sbi.2007.06.001. PMID 17572080. 
  3. ^ a b Rigden, Daniel J. From Protein Structure to Function with Bioinformatics. Springer Science. 2009. ISBN 978-1-4020-9057-8.
  4. ^ a b Yonath, Ada. X-ray crystallography at the heart of life science. Current Opinion in Structural Biology. Volume 21, Issue 5, October 2011, Pages 622–626.
  5. ^ Samudrala, R; Moult, J (1998). “An all-atom distance-dependent conditional probability discriminatory function for protein structure prediction”. Journal of Molecular Biology 275 (5): 893–914. doi:10.1006/jmbi.1997.1479. PMID 9480776. 
  6. ^ a b Nelson, David L. and Cox, Michael. Lehninger Principles of Biochemistry 5th Edition. M. W. H. Freeman; June 15, 2008. ISBN 1429224169.
  7. ^ The Baker Laboratory”. 2012年11月13日時点のオリジナルよりアーカイブ。2021年3月24日閲覧。
  8. ^ Rosetta News Article”. 2021年3月24日閲覧。
  9. ^ Samudrala, R; Xia, Y; Huang, ES; Levitt, M (1999). “Ab initio prediction of protein structure using a combined hierarchical approach”. Proteins: Structure, Function, and Genetics S3: 194–198. doi:10.1002/(SICI)1097-0134(1999)37:3+<194::AID-PROT24>3.0.CO;2-F. 
  10. ^ Xu D, Zhang Y (July 2012). “Ab initio protein structure assembly using continuous structure fragments and optimized knowledge-based force field”. Proteins 80 (7): 1715–35. doi:10.1002/prot.24065. PMC 3370074. PMID 22411565. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3370074/. 
  11. ^ Xu D, Zhang J, Roy A, Zhang Y (Aug 2011). “Automated protein structure modeling in CASP9 by I-TASSER pipeline combined with QUARK-based ab initio folding and FG-MD-based structure refinement”. Proteins 79 Suppl 10: 147–60. doi:10.1002/prot.23111. PMC 3228277. PMID 22069036. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3228277/. 
  12. ^ Gibson, Greg and Muse, Spencer V. A Primer of Genome Science 3rd edition. Sinauer Associates, Inc. 2009. ISBN 978-0-87893-236-8.
  13. ^ Qian et al. High-resolution structure prediction and the crystallographic phase problem. (2007). Nature. Volume 450.
  14. ^ Jayachandran, Guha et al. (2006). Using massively parallel simulation and Markovian models to study protein folding: Examining the dynamics of the villin headpiece. Published online.
  15. ^ Kmiecik, Sebastian; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (2016-06-22). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. ISSN 0009-2665. PMID 27333362. 
  16. ^ C.A. Floudas et al. Advances in protein structure prediction and de novo protein design: A review. Chemical Engineering Science 61 (2006) 966 – 988.

推薦文献

  • Samudrala, R, Xia, Y, Huang, E.S., Levitt, M. Ab initio prediction of protein structure using a combined hierarchical approach. (1999). Proteins Suppl 3: 194-198.
  • Bradley, P.; Malmstrom, L.; Qian, B.; Schonbrun, J.; Chivian, D.; Kim, D. E.; Meiler, J.; Misura, K. M. et al. (2005). “Free modeling with Rosetta in CASP6”. Proteins 61 (Suppl 7): 128–34. doi:10.1002/prot.20729. PMID 16187354. 
  • Bonneau; Baker, D (2001). “Ab Initio Protein Structure Prediction: Progress and Prospects”. Annu. Rev. Biophys. Biomol. Struct. 30: 173–89. doi:10.1146/annurev.biophys.30.1.173. PMID 11340057. 
  • J. Skolnick, Y. Zhang and A. Kolinski. Ab Initio modeling. Structural genomics and high throughput structural biology. M. Sundsrom, M. Norin and A. Edwards, eds. 2006: 137-162.
  • J Lee, S Wu, Y Zhang. Ab initio protein structure prediction. From Protein Structure to Function with Bioinformatics, Chapter 1, Edited by D. J. Rigden, (Springer-London, 2009), P. 1-26.

外部リンク