タンパク質スレッディング (英 : protein threading )は、フォールド認識 (英 : fold recognition )とも呼ばれ、構造が既知のタンパク質 と同じ折りたたみ(フォールド) を持つが、構造が既知の相同 タンパク質を持たないタンパク質をモデル化するために使用されるタンパク質モデリング の方法である。この方法とホモロジーモデリング (英語版 ) による構造予測との違いは、この方法は蛋白質構造データバンク (PDB)に相同タンパク質構造 が登録されていないタンパク質を対象としているのに対し、ホモロジーモデリングは登録されているタンパク質を対象としている点である。スレッディングは、PDBに登録されている構造と、モデル化したいタンパク質の配列 との関係の統計的知識を用いて行われる。
予測は、ターゲット配列の各アミノ酸 をテンプレート構造内の位置に「スレッド化」し(つまり、配置、整列)、ターゲットがテンプレートにどの程度適合するかを評価することで行われる。最適なテンプレートが選択された後、選択されたテンプレートとのアライメント(整列)に基づいて、配列の構造モデルが構築される。タンパク質スレッディングは、「自然界に存在するさまざまなフォールドの数はかなり少ない(約1300)」ということと、「過去3年間にPDBに提出された新規構造の90%は、すでにPDBに登録されている構造と類似したフォールドを持つ」という2つの基本的な観察に基づいている。
タンパク質構造の分類
タンパク質立体構造分類データベース (SCOP)データベースは、既知の構造の構造的および進化的関係の詳細かつ包括的な記述を提供している。タンパク質は、構造的な関連性と進化的な関連性の両方を反映するように分類される。階層には多くのレベルが存在するが、主要なレベルは次に説明するように、ファミリー 、スーパーファミリー 、フォールド である。
ファミリー(進化上の関係が明確): ファミリーに分類されたタンパク質は、進化上の関係が明確である。一般に、これはタンパク質間のペアワイズ残基同一性が30%以上であることを意味する。しかし、配列同一性が高くなくても、機能や構造が類似していれば、共通祖先であることの決定的な証拠となる場合もある。たとえば、多くのグロビン がファミリーを形成しているが、配列同一性が15%しかないメンバーもある。
スーパーファミリー(おそらく共通進化的起源): 配列同一性は低いが、その構造的および機能的特徴から進化的起源が共通である可能性が高いことを示唆するタンパク質をまとめてスーパーファミリーとする。たとえば、アクチン 、熱ショックタンパク質 のATPase ドメイン、およびヘキサキナーゼが一緒になってスーパーファミリーを形成している。
フォールド(主要構造の類似性): タンパク質は、同じ配列内で同じ主要な二次構造を持ち、同じトポロジー的な接続を持つ場合、共通のフォールドを持つと定義される。同じフォールドを持つ異なるタンパク質でも、二次構造の周辺要素や、ターン領域のサイズやコンフォメーション が異なることが多い。場合によっては、これらの異なる周辺領域が構造の半分を占めることがある。同じフォールドカテゴリーにまとめられたタンパク質が、進化的に共通の起源を持っているとは限らない。その構造的な類似性は、タンパク質の物理的および化学的性質が、ある種のパッキング配置や鎖トポロジーを好都合とすることから生じている可能性がある。
方法
タンパク質スレッディングの一般的なパラダイムは、次の4つのステップで構成されている。
構造テンプレートデータベースの構築: タンパク質構造データベースからタンパク質構造を構造テンプレートとして選択する。これは一般的に、PDB 、FSSP 、SCOP 、CATH などのデータベースから、配列類似性が高いタンパク質構造を削除した上で、タンパク質構造を選択することを伴う。
スコアリング関数の設計: 構造と配列の間における既知の関係の知識に基づいて、ターゲット配列とテンプレートの間の適合性を測定するための優れたスコアリング関数を設計する。優れたスコアリング関数には、突然変異の可能性、環境適合性の可能性、ペアワイズの可能性、二次構造の適合性、およびギャップペナルティが含まれている必要がある。エネルギー関数の質は、予測精度、特にアライメント精度と密接に関係している。
スレッディングアライメント: 設計されたスコアリング関数で最適化を行うことで、ターゲット配列を各構造テンプレートに整列させる。このステップは、ペアワイズ接触可能性を考慮に入れたすべてのスレッドベースの構造予測プログラムの主要なタスクの1つである。さもなければ、動的計画法アルゴリズムがそれを満たすことができる。
スレッディング予測: 統計的に最も可能性の高いスレッディングアライメントをスレッディング予測として選択する。次に、選択された構造テンプレートの配置されたバックボーン位置にターゲット配列のバックボーン原子を配置して、ターゲットの構造モデルを構築する。
ホモロジーモデリングとの比較
ホモロジーモデリング (英語版 ) とタンパク質スレッディングはどちらもテンプレートベースの方法であり、予測技術の観点からは厳密な境界はない。しかし、それらのターゲットのタンパク質構造は異なる。ホモロジーモデリングは、構造がわかっている相同タンパク質(通常/おそらく同じファミリー)があるターゲット用であるのに対し、タンパク質スレッディングは、フォールドレベルの相同性のみが分かっているターゲット用である。言い換えれば、ホモロジーモデリングは「より簡単な」ターゲット用で、タンパク質スレッディングは「より難しい」ターゲット用である。
ホモロジーモデリングでは、アライメント内のテンプレートを配列として扱い、配列相同性のみを予測に使用する。タンパク質スレッディングは、アライメント内のテンプレートを構造として扱い、アライメントから抽出した配列と構造の両方の情報を予測に使用する。有意な相同性が見つからない場合、タンパク質スレッディングは構造情報に基づいて予測を行うことができる。それはまた、多くの場合で、ホモロジーモデリングよりもタンパク質スレッディングの方が効果的であることの説明にもなる。
実際には、配列アライメントにおける配列同一性が低い場合(つまり25%未満)、ホモロジーモデリングでは有意な予測が得られない場合がある。この場合、ターゲットに対して遠方の相同性が見つかれば、タンパク質スレッディングによって適切な予測を生成できる。
スレッディングの詳細
フォールド認識方法は、大きく2つのタイプに分けられる。1つは、フォールドライブラリの各構造について1次元プロファイル(特性)を導出し、これらのプロファイルにターゲット配列を整列する方法で、もう1つは、タンパク質テンプレートの完全な3次元構造を考慮するものである。プロファイル表現の簡単な例として、構造内の各アミノ酸を取りあげ、それがタンパク質のコア内に埋まっているか、表面に露出しているかによって単純にラベル付けすることがあげられる。より精巧なプロファイルでは、局所的な二次構造 (たとえば、アミノ酸がαヘリックス の一部であるか否か)や、進化的情報(アミノ酸がどのように保存されているか)を考慮に入れることも考えられる。3次元表現では、構造は原子間距離の集合としてモデル化される。つまり、構造内の一部またはすべての原子ペアの間の距離が計算される。これは、構造のはるかに豊富で柔軟な記述であるが、アライメントの計算に使用するのは非常に困難である。プロファイルベースのフォールド認識アプローチは、1991年にBowie、Lüthy、David Eisenberg (英語版 ) によって最初に説明された[ 1] 。スレッディングという用語は、1992年にDavid Jones (英語版 ) 、William R. Taylor、Janet Thornton (英語版 ) によって最初に作られたもので[ 2] 、当初は、フォールド認識におけるタンパク質テンプレートで完全な3次元構造の原子表現の使用を特に指していた。現在では「スレッディング」と「フォールド認識」という用語は(やや間違ってはいるが)同じ意味で使われることが多い。
フォールド認識法が広く利用され効果を発揮しているのは、自然界には厳密に限られた数のさまざまなタンパク質フォールドが存在すると考えられているからである。これは主に進化の結果であるが、ポリペプチド鎖の基本的な物理学的および化学的な制約にも起因するものである。そのため、ターゲットタンパク質と類似のフォールドを持つタンパク質が、X線結晶構造解析 や核磁気共鳴分光法 (NMR)などですでに研究され、PDBに登録されている可能性が高い(現在は70~80%)。現在、約1300種類のタンパク質フォールドが知られており、進行中の構造ゲノミクス プロジェクトの重要な活動により、毎年新規フォールドが発見されている。
配列を構造に正しくスレッディングさせるためのアルゴリズムは数多く提案されているが、その多くは何らかの形で動的計画法 を利用している。完全な3次元スレッディングの場合、最適なアライメントを特定する問題は非常に困難である(スレッディングのいくつかのモデルではNP困難 な問題となる)。研究者たちは、条件付き確率場 、シミュレーテッド・アニーリング 、分枝限定法 、線型計画法 など、多くの組み合わせ最適化手法を用いて、ヒューリスティック な解決策を目指してきた。スレッディング法を、2つのタンパク質構造を整列させようとする手法(タンパク質構造アライメント (英語版 ) )と比較するのは興味深いことであり、実際、同じアルゴリズムの多くが両方の問題に適用されている。
タンパク質スレッディングソフトウェア
HHpred (英語版 ) は、隠れマルコフモデル のペアワイズ比較に基づき、遠隔の相同性を検出するために広く使用されているソフトウェアHHsearch (英語版 ) を実行する人気のあるスレッディング・サーバーである。
RAPTOR (ソフトウェア) (英語版 ) は、整数計画に基づくタンパク質のスレッディングソフトウェアである。このプログラムは、確率的グラフィカルモデルと統計的推論を用いて、シングルテンプレートおよびマルチテンプレートベースのタンパク質スレッディングを行う。これは、新規のタンパク質スレッディングプログラムRaptorX (英語版 ) で置き換えられた[ 3] [ 4] [ 5] [ 6] 。RaptorXはRAPTORを大幅に凌駕し、特に配列プロファイルが疎なタンパク質のアライメントに優れている。RaptorXサーバは無料で公開されている。
Phyre (英語版 ) は、HHsearch (英語版 ) をab initio およびmultiple-template modellingを組み合わせた人気のあるスレッディングサービスである。
MUSTERは、動的計画法と配列プロファイル-プロファイルアライメントに基づいた標準的なスレッディング・アルゴリズムである。これはまた、複数の構造リソースを組み合わせて、配列プロファイルアライメントを支援する[ 7] 。
SPARKS Xは、クエリで予測された1次元構造特性と、それに対応するテンプレートの本来特性との間で、配列と構造の確率ベースによるマッチングを行う[ 8] 。
BioShellは、最適化されたプロファイル間動的計画法アルゴリズムと、予測された二次構造を組み合わせたスレッディングアルゴリズムである[ 9] 。
参照項目
脚注
^ Bowie JU, Lüthy R, Eisenberg D (1991). “A method to identify protein sequences that fold into a known three-dimensional structure”. Science 253 (5016): 164–170. Bibcode : 1991Sci...253..164B . doi :10.1126/science.1853201 . PMID 1853201 .
^ Jones DT, Taylor WR, Thornton JM (1992). “A new approach to protein fold recognition”. Nature 358 (6381): 86–89. Bibcode : 1992Natur.358...86J . doi :10.1038/358086a0 . PMID 1614539 .
^ Peng, Jian; Jinbo Xu (2011). “RaptorX: exploiting structure information for protein alignment by statistical inference” . Proteins 79 Suppl 10 : 161–171. doi :10.1002/prot.23175 . PMC 3226909 . PMID 21987485 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3226909/ .
^ Peng, Jian; Jinbo Xu (2010). “Low-homology protein threading” . Bioinformatics 26 (12): i294–i300. doi :10.1093/bioinformatics/btq192 . PMC 2881377 . PMID 20529920 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2881377/ .
^ Peng, Jian; Jinbo Xu (April 2011). “A multiple-template approach to protein threading” . Proteins 79 (6): 1930–1939. doi :10.1002/prot.23016 . PMC 3092796 . PMID 21465564 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3092796/ .
^ Ma, Jianzhu; Sheng Wang; Jinbo Xu (June 2012). “A conditional neural fields model for protein threading” . Bioinformatics 28 (12): i59–66. doi :10.1093/bioinformatics/bts213 . PMC 3371845 . PMID 22689779 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3371845/ .
^ Wu S, Zhang Y (2008). “MUSTER: Improving protein sequence profile–profile alignments by using multiple sources of structure information” . Proteins 72 (2): 547–56. doi :10.1002/prot.21945 . PMC 2666101 . PMID 18247410 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2666101/ .
^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). “Improving protein fold recognition and template-based modeling by employing probabilistic-based matching between predicted one-dimensional structural properties of query and corresponding native properties of templates” . Bioinformatics 27 (15): 2076–2082. doi :10.1093/bioinformatics/btr350 . PMC 3137224 . PMID 21666270 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3137224/ .
^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). “BioShell Threader: protein homology detection based on sequence profiles and secondary structure profiles” . Nucleic Acids Research 40 (W1): W257–W262. doi :10.1093/nar/gks555 . PMC 3394251 . PMID 22693216 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394251/ .
推薦文献
Finkelstein, AV; Reva, BA (Jun 1991). “A search for the most stable folds of protein chains”. Nature 351 (6326): 497–9. Bibcode : 1991Natur.351..497F . doi :10.1038/351497a0 . PMID 2046752 .
Lathrop RH (1994). “The protein threading problem with sequence amino acid interaction preferences is NP-complete”. Protein Eng 7 (9): 1059–1068. doi :10.1093/protein/7.9.1059 . PMID 7831276 .
Jones DT, Hadley C (2000). “Threading methods for protein structure prediction”. Bioinformatics: Sequence, structure and databanks . Heidelberg: Springer-Verlag. pp. 1–13
Xu J, Li M, Kim D, Xu Y (2003). “RAPTOR: Optimal Protein Threading by Linear Programming, the inaugural issue”. J Bioinform Comput Biol 1 (1): 95–117. doi :10.1142/S0219720003000186 . PMID 15290783 .
Xu J, Li M, Lin G, Kim D, Xu Y (2003). “Protein threading by linear programming”. Pac Symp Biocomput : 264–275. PMID 12603034 .