計算生物学において、de novoタンパク質構造予測(デノボたんぱくしつこうぞうよそく、英: de novo protein structure prediction)は、アミノ酸の一次構造からタンパク質の三次構造を予測するアルゴリズムのプロセスである。この問題は、何十年にもわたって第一線の科学者たちを悩ませてきたが、いまだに解決されていない。Science誌によると、この問題は現代科学における125の未解決問題のうちの1つである[1]。現在、最も成功している手法の中には、小さな単一ドメインのタンパク質のフォールドを、構造全体で1.5オングストローム以内の位置精度を高い確率で予測できるものがある[2]。
de novo法は膨大な計算資源を必要とするため、比較的小さなタンパク質を対象とした研究しか行われていなかった。de novoタンパク質構造モデリングは、テンプレートベースのモデリング(template-based modeling、TBM)とは異なり、目的のタンパク質に対する相同体が解明されていないため、アミノ酸配列からタンパク質構造を予測することを非常に困難にしている。大規模なタンパク質の構造を新たに予測するには、より優れたアルゴリズムと、強力なスーパーコンピュータ(Blue Gene、MDGRAPE-3など)や分散型コンピューティングプロジェクト(Folding@home、Rosetta@home、ヒトプロテオーム・フォールディング・プロジェクト(英語版)、栄養価の高いコメを世界にプロジェクト(英語版)など)が提供する大規模な計算資源が必要となる。計算上の障壁は大きいが、構造ゲノミクス(予測法または実験法)が医学や医薬品設計などの分野に役立つ可能性があるため、de novo構造予測は活発な研究分野となっている。
de novoタンパク質構造予測法は、明示的なテンプレートを使用せずに、タンパク質の折りたたみエネルギーを支配する一般原理、および/または、天然の構造が獲得する立体配座的な特徴の統計的傾向に基づいて、配列から三次構造を予測しようとするものである。de novo構造予測の研究は、主に次の3つの分野に焦点を当てている。すなわち、タンパク質の代替的な低解像度表現、正確なエネルギー関数、効率的なサンプリング方法である。
de novo予測の一般的なパラダイムは、スコアリング関数やその他の配列依存のバイアスを用いて配座空間(英語版)をサンプリングし、多数の候補構造(デコイ、おとり)を生成するというものである。次に、スコアリング関数と立体構造異性体クラスタリングを用いて、これらのデコイから天然様のコンフォメーションを選択する。天然様の構造を微調整する最終ステップとして、高解像度リファインメントが用いられることもある。スコアリング関数には大きく分けて2種類のクラスがある。物理ベースの関数は、分子間相互作用の既知の物理学的側面を記述する数学モデルに基づいている。知識ベースの関数は、天然タンパク質のコンフォメーションの特徴の側面を捉えた統計モデルで形成される[5]。
de novo法プログラムは、3次元空間を探索し、その過程でタンパク質のコンフォメーションの候補を作成する。タンパク質が正しく折りたたまれた天然状態に近づくと、エントロピーと自由エネルギーが減少する。この情報を利用して、de novo予測プログラムはデコイを区別できる。具体的には、de novoプログラムは、自由エネルギーが高い構造よりも、自由エネルギーが低い可能性のあるコンフォメーションを選択する[2][6][7]。David A. Bakerが、彼のde novo Rosetta予測ツールの仕組みについて述べているように、「折りたたみの間、鎖の各局所的セグメントは、異なる局所的コンフォメーションの部分集合の間を行き来する。天然の構造への折りたたみは、局所的セグメントが採用するコンフォメーションとそれらの相対的な方向が、天然構造のタンパク質の特徴である低エネルギー状態を可能にするときに起こる。Rosettaのアルゴリズムでは、全体のエネルギーが最も低い局所的なコンフォメーションの組み合わせを探す」[8]。
ab initio法:ab initio(第一原理)法では、物理化学的パラメータとニューラルネットアルゴリズムを用いて、一次構造から二次構造(αヘリックス、βシート、βターンなど)を解明する試みが最初に行われる。その先は、アルゴリズムによって三次構造の折りたたみが予測される。この戦略の1つの欠点は、アミノ酸の側鎖の位置や向きを取り込むことがまだできないことである。
de novoタンパク質予測法における主な限界は、タンパク質の天然のコンフォメーションをうまく解明するために、膨大なコンピュータ時間を必要とすることである。Rosetta@homeに代表されるような分散型の手法では、データ処理のためにアイドル状態の自宅のコンピューター時間をボランティアで提供してくれる個人を募集することで、この問題を解決しようとしている。しかし、これらの方法にも課題がある。たとえば、ワシントン大学とハワード・ヒューズ医学研究所の研究チームは、アミノ酸配列からタンパク質T0283の三次構造を予測するために分散型の手法を用いた。この分散手法の精度を、蛋白質構造データバンク(PDB)に登録されている実験的に確認された構造と比較するブラインドテストを行ったところ、この予測ツールは登録された構造と見事に一致した。しかし、この偉業に要した時間とコンピュータ数は、それぞれ約2年と約70,000台の家庭用コンピュータという膨大なものであった[13]。
^ abRigden, Daniel J. From Protein Structure to Function with Bioinformatics. Springer Science. 2009. ISBN978-1-4020-9057-8.
^ abYonath, Ada. X-ray crystallography at the heart of life science. Current Opinion in Structural Biology. Volume 21, Issue 5, October 2011, Pages 622–626.
^Samudrala, R; Moult, J (1998). “An all-atom distance-dependent conditional probability discriminatory function for protein structure prediction”. Journal of Molecular Biology275 (5): 893–914. doi:10.1006/jmbi.1997.1479. PMID9480776.
^ abNelson, David L. and Cox, Michael. Lehninger Principles of Biochemistry 5th Edition. M. W. H. Freeman; June 15, 2008. ISBN1429224169.
^Gibson, Greg and Muse, Spencer V. A Primer of Genome Science 3rd edition. Sinauer Associates, Inc. 2009. ISBN978-0-87893-236-8.
^Qian et al. High-resolution structure prediction and the crystallographic phase problem. (2007). Nature. Volume 450.
^Jayachandran, Guha et al. (2006). Using massively parallel simulation and Markovian models to study protein folding: Examining the dynamics of the villin headpiece. Published online.
^Kmiecik, Sebastian; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (2016-06-22). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. ISSN0009-2665. PMID27333362.
^C.A. Floudas et al. Advances in protein structure prediction and de novo protein design: A review. Chemical Engineering Science 61 (2006) 966 – 988.
推薦文献
Samudrala, R, Xia, Y, Huang, E.S., Levitt, M. Ab initio prediction of protein structure using a combined hierarchical approach. (1999). Proteins Suppl 3: 194-198.
Bradley, P.; Malmstrom, L.; Qian, B.; Schonbrun, J.; Chivian, D.; Kim, D. E.; Meiler, J.; Misura, K. M. et al. (2005). “Free modeling with Rosetta in CASP6”. Proteins61 (Suppl 7): 128–34. doi:10.1002/prot.20729. PMID16187354.
J. Skolnick, Y. Zhang and A. Kolinski. Ab Initio modeling. Structural genomics and high throughput structural biology. M. Sundsrom, M. Norin and A. Edwards, eds. 2006: 137-162.
J Lee, S Wu, Y Zhang. Ab initio protein structure prediction. From Protein Structure to Function with Bioinformatics, Chapter 1, Edited by D. J. Rigden, (Springer-London, 2009), P. 1-26.