Firma s vývojem algoritmu schopného určit tvar proteinu pouze na základě sekvence zbytků aminokyselin započala v roce 2016. Software se učil určovat konformaci na více než 170 000 proteinových strukturách dostupných ve veřejných databázích.[1][2][3] V roce 2018 se AlphaFold představil na 13. ročníku CASP (angl. Critical Assessment of protein Structure Prediction, kritické vyhodnocení předpovědi proteinových struktur), bienální konferenci a soutěži testující software určený k modelování terciární struktury proteinů. Již v tomto roce AlphaFold na plné čáře vyhrál a vzbudil údiv pořadatelů.[1][3][4][5] Upravená a vylepšená verze dosáhla na CASP14 v roce 2020 u některých proteinů přesnosti srovnatelné s experimentálními metodami.[1][2][3][6][7] Možnost podvádění je prakticky vyloučena, AlphaFold dokázal v krátkém čase určit i strukturu membránového proteinu, se kterým se vědci marně trápili 10 let. Až s počítačově vygenerovaným modelem se dokázali zorientovat ve svých datech.[1][7]
Kromě urychlení základního výzkumu proteinových struktur může umělá inteligence pomoci s predikováním vhodných cílů pro léčiva a odhalováním proteinů na povrchu různých patogenů (včetně původců COVID-19, leishmanióz, spavé nemoci, či malárie)[2][6][8][9][10][11], hovoří se také o možném využití např. v kosmetickém průmyslu[12] či tvorbě syntetických proteinů k likvidaci odpadů nebo zvyšování nutriční hodnoty zemědělských plodin.[2] Současné nedostatky tohoto přístupu (viz níže) však znamenají, že v dohledné době rozhodně nedojde k opuštění tradičních experimentálních přístupů určování proteinové struktury – rentgenové krystalografie, nukleární magnetické rezonance či kryo-elektronové mikroskopie – je však téměř jisté, že použití umělé inteligence umožní rychlejší, levnější a snazší získávání strukturních dat.[6][7]
Dne 28. července 2022 bylo zveřejněno přes 200 milionů proteinových struktur vyřešených AlphaFoldem ze zhruba milionu druhů, ze kterých jsou dostupné sekvence proteinů. Toto množství struktur představuje většinu známých proteinů.[13]
Proteiny jsou tvořeny lineárním „řetízkem“ kovalentně spojených aminokyselinových zbytků (tzv. primární struktura), který se za fyziologických podmínek ohýbá a stáčí do výsledného trojrozměrného tvaru proteinu (terciární struktura), jež definuje i jeho funkci. Protein se do tohoto tvaru (nativní konformace) dokáže za správných podmínek složit samovolně, řada proteinů se umí správně složit i poté, co byly denaturovány. Veškerá potřebná informace definující konformaci proteinu je tedy obsažena v sekvenci aminokyselin příslušného proteinu.[16]
V 60. letech začaly pokusy o určení výsledného tvaru proteinu na základě vzájemných interakcí jednotlivých aminokyselinových zbytků. Vzhledem k tomu, že průměrný protein obsahuje stovky aminokyselinových zbytků a tyto spolu mohou interagovat několika různými způsoby, je počet možných konformací jednoho proteinu astronomický.[1][17][18] Z hlediska kvantové mechaniky by měla být nativní konformací (či konformacemi, v případě, že existuje více alternativ) ta, která představuje stav s nejnižší volnou energií. Potíž však je, že i s pomocí počítačů a postupů obcházejících přímou potřebu spočítat energii všech konformací jde stále o problém vyžadující extrémní výpočetní rychlost a kapacitu.[19][20]
Názorně toto demonstruje tzv. Levinthalův paradox postulující, že pokud by se protein skládal náhodně, tak by dosažení správné konformace trvalo déle než je doba existence známého vesmíru. Proteiny se však navzdory tomu dokáží složit v řádu sekund. Detailní matematické analýzy později ukázaly, že šlo o výrazné nadhodnocení plynoucí mj. z faktu, že k dosažení správné konformace nevede pouze jedna cesta, množství možných konformací však stále zůstává enormní.[21][22]
Nastínění algoritmu
AlphaFold se skládá z několika částí. První z nich je software generující terciární struktury krátkých fragmentů (32 aminokyselin, dle autorů programu optimální délka). Ty jsou dále předávány umělé neuronové síti schopné hlubokého učení. Poslední je algoritmus schopný sestavovat terciární strukturu celého proteinu z fragmentů generovaných první částí dle skóre produkovaného neuronovou sítí.[23] Celý proces připomíná proces skládání puzzle – nejprve jsou dohromady složeny menší samostatné kusy, které jsou následně propojeny do celku.[1] Neuronová síť navíc poskytuje informaci o míře jistoty svých odhadů v podobě rozptylu predikovaných vzdáleností.[24]
Použitá neuronová síť predikuje vzdáleností mezi beta uhlíky párů aminokyselinových zbytků v sekvenci na základě hlubokého učení na datech z databáze proteinových struktur PDB (Protein Data Bank).[5][6] Učení je založeno na předpokladu koevoluce dvou aminokyselinových zbytků nacházejících se blízko sebe v trojrozměrné struktuře proteinu. Pokud dojde mutací ke změně jedné aminokyseliny, u druhé se po nějaké době pravděpodobně uchytí mutace kompenzující změnu (velikost, náboj atd.) první aminokyseliny. Koevoluční informace lze následně převést do binární kontaktní mapy rozlišující blízkost či vzdálenost jednotlivých párů aminokyselin, z nichž je následně možné odvodit celý tvar proteinu. Podobné páry pravděpodobně koevolučně svázaných aminokyselin jsou hledány analýzou příbuzných (homologických) proteinů. Nejde o úplně novou myšlenku, realizovat ji však šlo až díky pokročilým algoritmům a nárůstu množství sekvenčních dat.[20] Vliv měl také vývoj lepších experimentálních metod a produkce kvalitnějších dat, která následně umožnila i zlepšení kvality predikcí.[24]
Hluboké učení (deep learning) je podmíněno existencí neuronových sítí složených z několika vrstev, kdy prostřední vrstvy dodávají strojovému učení onu potřebnou hloubku. Každá vrstva se skládá z několika uzlů („neuronů“), které z několika vážených inputů tvoří jeden output (obvykle sumací jednotlivých inputů), který je předán uzlům v následující vrstvě. Nelineární zpracování informací ve středních vrstvách umožňuje “oddělení zrna od plev” a vytřídění důležitých dat.[25]
Kritika a nedostatky
Řada popularizačních článků, jež vyšla vzápětí po oznámení úspěchu AlphaFoldu na CASP14, hlásala, že umělá inteligence definitivně vyřešila 50 let starý problém hledání pravidel, dle nichž se skládají proteiny. Toto tvrzení se objevilo například i na stránkách prestižního časopisu Science.[11] Problém je, že AlphaFold tato pravidla neobjevil a spíše je obchází tím, že při modelování skládání vychází z naučených korelací.[26] Sami autoři přiznávají, že závislost na koevolučních datech znamená, že pokud chybí dostatek homologických proteinů vhodných k učení, jsou predikce algoritmu velmi nekvalitní.[27]
Dalším problémem je i fakt, že dostupná data, na kterých je umělá inteligence trénovaná, jsou jen zlomkem všech existujících proteinů. Navíc jde o proteiny, které se povedlo vykrystalizovat a určit jejich strukturu, v databázích tedy převládají snadno určitelné proteiny a je možné, že řada jiných struktur nám zatím uniká.[26] AlphaFold si zatím také neumí poradit s multimerními proteinovými komplexy a s modelováním interakcí různých struktur mezi sebou.[1][7][28]
Přesnost predikcí zatím také neodpovídá té, která by byla potřebná pro design léčiv přesně zapadajících do příslušných míst v proteinové struktuře. K tomu je potřeba rozlišení alespoň 0,3 Å (0,03 nm), nejpřesnější predikce AlphaFoldu z CASP14 dosáhla rozlišení 0,9 Å, řada proteinů byla určena s přesností 1,6 Å, medián všech odhadů AlphaFoldu byl 6,6 Å.[2][20][29] Další nevýhodou AlphaFoldu je i jeho relativní pomalost (v řádu jednotek dnů až stovek hodin) v porovnání s podobnými, avšak méně přesnými programy.[2][7][20]
Kritiku sklidil DeepMind také za to, že ačkoliv k sestavení a učení AlphaFoldu použili open source software a veřejné databáze, tak program jako takový open source není. V systému GitHub je dostupná pouze okleštěná verze AlphaFoldu z CASP13. Nepřístupnost programu mimo jiné brání i rychlejšímu objevu možných problémů a vylepšení.[30] Ostatní programy soupeřící na CASP14 také vykázaly oproti předchozímu ročníku výrazné zlepšení, dá se tedy předpokládat, že DeepMind s AlphaFoldem nebude mít na trhu monopol a vzájemná konkurence jednotlivých programů bude pohánět další pokrok v tomto odvětví.[28] Výše popsaný stav se změnil 15. července 2021, kdy společně s článkem v Nature[31] autoři zveřejnili open source software pro AlphaFold[32] a také databázi struktur proteinů predikovaných AlphaFoldem a vytvořenou ve spolupráci s Evropským bioinformatickým institutem (EMBL-EBI).[33] V červenci 2022 bylo v této veřejně přístupné databázi zveřejněno přes 200 milionů proteinových struktur — tedy struktur většiny známých proteinů.[13] V listopadu 2022 byl zveřejněn algoritmus AlphaFill, který umožňuje do modelů predikovaných AlphaFoldem doplnit různé menší molekuly, které jsou pevně či přechodně vázány na proteiny (např. hem, ionty kovů či ATP). Sám AlphaFold není schopen umístění těchto molekul predikovat.[34]
↑ abcdefghSERVICENOV. 30, Robert F.; 2020; AM, 10:30. ‘The game has changed.’ AI triumphs at solving protein structures. Science | AAAS [online]. 2020-11-30 [cit. 2021-04-14]. Dostupné online. (anglicky)
↑ abcdefg DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology. MIT Technology Review [online]. [cit. 2021-04-14]. Dostupné online. (anglicky)
↑ abSENIOR, Andrew W.; EVANS, Richard; JUMPER, John. Improved protein structure prediction using potentials from deep learning. Nature. 2020-01, roč. 577, čís. 7792, s. 706–710. Dostupné online [cit. 2021-04-14]. ISSN1476-4687. DOI10.1038/s41586-019-1923-7. (anglicky)
↑ abcd AlphaFold: Using AI for scientific discovery. Deepmind [online]. [cit. 2021-04-14]. Dostupné online.
↑ abcdeCALLAWAY, Ewen. ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Nature. 2020-11-30, roč. 588, čís. 7837, s. 203–204. Dostupné online [cit. 2021-04-14]. DOI10.1038/d41586-020-03348-4. (anglicky)
↑ Artificial Intelligence against COVID-19: An Early Review. www.iza.org [online]. [cit. 2021-04-14]. Dostupné online. (anglicky)
↑FLOWER, Thomas G.; HURLEY, James H. Crystallographic molecular replacement using an in silico-generated search model of SARS-CoV-2 ORF8. Protein Science. 2021, roč. 30, čís. 4, s. 728–734. Dostupné online [cit. 2021-04-14]. ISSN1469-896X. DOI10.1002/pro.4050. PMID33625752. (anglicky)
↑HEO, Lim; FEIG, Michael. Modeling of Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) Proteins by Machine Learning and Physics-Based Refinement. bioRxiv. 2020-03-28. PMID 32511334
PMCID: PMC7239069. Dostupné online [cit. 2021-04-14]. DOI10.1101/2020.03.25.008904. PMID32511334.
↑PARIS, Karl Lintner, Ph D. , KAL’idées Beauty Ideas. Could Protein Folding Reshape Anti-aging Cosmetics?. Cosmetics & Toiletries [online]. [cit. 2021-04-14]. Dostupné online.
↑ abCALLAWAY, Ewen. ‘The entire protein universe’: AI predicts shape of nearly every known protein. Nature. 2022-07-28, roč. 608, čís. 7921, s. 15–16. Dostupné online [cit. 2022-09-02]. DOI10.1038/d41586-022-02083-2. (anglicky)
↑HUNT, Christian Edwards, Katie. Scientists who used AI to ‘crack the code’ of almost all proteins win Nobel Prize in chemistry. CNN [online]. 2024-10-09 [cit. 2024-10-14]. Dostupné v archivu pořízeném z originálu. (anglicky)
↑KNAPP, Alex. 2023 Breakthrough Prizes Announced: Deepmind’s Protein Folders Awarded $3 Million. Forbes [online]. [cit. 2024-10-14]. Dostupné v archivu pořízeném z originálu. (anglicky)
↑NGO, J. Thomas; MARKS, Joe; KARPLUS, Martin. Computational Complexity, Protein Structure Prediction, and the Levinthal Paradox. Příprava vydání Kenneth M. Merz, Scott M. Le Grand. Boston, MA: Birkhäuser Dostupné online. ISBN978-1-4684-6831-1. DOI10.1007/978-1-4684-6831-1_14. S. 433–506. (anglicky) DOI: 10.1007/978-1-4684-6831-1_14.
↑ Deep learning methods in protein structure prediction. Computational and Structural Biotechnology Journal. 2020-01-01, roč. 18, s. 1301–1310. Dostupné online [cit. 2021-04-14]. ISSN2001-0370. DOI10.1016/j.csbj.2019.12.011. (anglicky)
↑ abcdALQURAISHI, Mohammed. A watershed moment for protein structure prediction. Nature. 2020-01, roč. 577, čís. 7792, s. 627–628. Dostupné online [cit. 2021-04-14]. DOI10.1038/d41586-019-03951-0. (anglicky)
↑ Generative deep learning for macromolecular structure and dynamics. Current Opinion in Structural Biology. 2021-04-01, roč. 67, s. 170–177. Dostupné online [cit. 2021-04-14]. ISSN0959-440X. DOI10.1016/j.sbi.2020.11.012. (anglicky)
↑GRAVES, Jordan; BYERLY, Jacob; PRIEGO, Eduardo. A Review of Deep Learning Methods for Antibodies. Antibodies. 2020/6, roč. 9, čís. 2, s. 12. Dostupné online [cit. 2021-04-14]. DOI10.3390/antib9020012. (anglicky)
↑ abBALL2020-12-09T14:40:00+00:00, Philip. Behind the screens of AlphaFold. Chemistry World [online]. [cit. 2021-04-14]. Dostupné online. (anglicky)
↑SENIOR, Andrew W.; EVANS, Richard; JUMPER, John. Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13). Proteins: Structure, Function, and Bioinformatics. 2019, roč. 87, čís. 12, s. 1141–1148. Dostupné online [cit. 2021-04-14]. ISSN1097-0134. DOI10.1002/prot.25834. PMID31602685. (anglicky)
↑ abHUBBARD, Tim. The secret of life, part 2: the solution of the protein folding problem.. Medium [online]. 2020-12-07 [cit. 2021-04-14]. Dostupné online. (anglicky)
↑STEPHEN. Reciprocal Space [online]. [cit. 2021-04-14]. Dostupné online. (anglicky)