Assessing accuracy of machine learning-based protein structure prediction model with molecular dynamics stabilization simulations
Malm, Cajsa (2023)
Malm, Cajsa
2023
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2023041236157
https://urn.fi/URN:NBN:fi-fe2023041236157
Tiivistelmä
Med dagens teknik är det möjligt att syntetiskt skapa material med önskade egenskaper. Kärnan i den här avhandlingen är digital design av material. Med hjälp av bioteknik är det möjligt att bygga godtyckliga proteiner med önskad aminosyrauppsättning. För forskningsvärlden är det önskvärt att kunna förutsäga hur ett slumpmässigt utvalt protein kommer att vika sig samt skapa nya syntetiska proteiner med valfri tredimensionell struktur. Målet med avhandlingen är att testa noggrannheten hos en AlphaFold-ekvivalent maskininlärningsmodell på syntetiskt konstruerade ideala tandemupprepningsproteiner genom att köra dem genom molekylärdynamiksimuleringar i Gromacs.
Det har länge varit känt att strukturen är kritisk för att ett protein ska kunna fungera som det ska, men det finns ännu mycket som behöver utvecklas för att förstå sambandet mellan sekvens, struktur och funktion. Databaserade beräkningsverktyg behövs som stöd för materialutveckling, eftersom det finns oändligt många kombinationer av aminosyror och det är omöjligt att experimentellt undersöka dem alla. Maskininlärningstekniker är snabbare och mer kostnadseffektiva. Maskininlärningsmodellen kan också föreslå nya sekvenser som inte har testats. Mitt arbete undersöker stabiliteten hos de strukturer som har förutspåtts, vilket senare kan användas som data tillbaka till maskininlärningsmodellen.
År 2020 vann DeepMind Technologies överlägset med AlphaFold2, vilket var ett stort steg för maskininlärningsbaserad förutsägelse av proteinstrukturer. DeepMind tävlade först med AlphaFold1 i CASP13, men AlphaFold2 var en betydande uppgradering. Strukturerna för proteinerna i proteindatabanken PDB bestäms experimentellt med röntgenkristallografi, kärnmagnetisk resonansspektroskopi eller elektronmikroskopi. AlphaFold tränades att hitta mönster bland dessa proteiner och kunde inte ha gjorts utan existerande experimentella data. AlphaFold är bättre på att förutsäga sidokedjor och letar även efter evolutionära kopplingar till proteinerna i sina förutsägelser.
Maskininlärningsalgoritmer matas med befintliga data och använder de för att hitta mönster och förutsäga resultat för godtyckliga indata, dvs. ju mer kända data maskininlärningsmodellen har, desto bättre kommer förutsägelserna att bli. Maskininlärningsmodeller minskar mänskliga påverkningar, vilket kan leda till nya upptäckter. En nackdel med maskininlärningsmodeller är att de förlitar sig på bekanta data, vilket innebär att det alltid finns en möjlighet att indata är för obekanta för att maskininlärningsmodellen ska kunna bearbeta dem.
AlphaFold har bidragit till att lägga till förutspådda strukturer för det mänskliga proteomet och andra organiska proteiner. Den höga noggrannheten hos AlphaFold baseras på lokal atomprecision med låg standardavvikelse. När man undersöker närmare, uppvisade även dessa dåligt förutspådda regioner. Studier visar att AlphaFold endast kan förutsäga 40 % av det mänskliga proteomet med ett högt konfidensintervall.
Studier visar att AlphaFold-modellen har svårigheter att förutsäga delar som kan bilda alternativa konformationer samt förhållandet mellan olika domäner. Det finns forskning som tyder på att komplettering av experimentell information, t.ex. elektrondensitetskartor och avstånd mellan sidokedjor, ökar prediktionsnoggrannheten. En densitetskarta kan skapas med kristallografiska data från PDB och jämföras med en densitetskarta som erhålls genom att itererade AlphaFold-predicerade strukturerna. Jämförelserna visar att proteiner som ansetts ha en korrekt struktur i många fall består av felaktigt förutsagda domänorienteringar på global nivå och fel i ryggrad och sidokedjor på lokal nivå.
Maskininlärningsmodellen som strukturstabilitetsanalyserna baseras på är jämförbar med AlphaFold. Dessa maskininlärningsförutsägelser är användbara för att förutsäga den initiala strukturen, baserat på dihedriska vinklar, men har fortfarande stora avvikelser jämfört med experimentellt bestämda strukturer och kan för närvarande inte ersätta experiment. Resultaten av denna avhandling visar att de flesta av de maskininlärning förutsagda strukturerna som undersöktes inte är stabila under molekyldynamiksimuleringar.
Gromacs är ett simuleringsprogram för molekylär dynamik som är användbart vid undersökningen av proteinstabilisering. Simuleringarna är baserade på peptider som består av upprepade aminosyraenheter. De ursprungliga peptiderna var 210–300 aminosyror långa. På grund av den stora beräkningsbelastningen reducerades peptiderna initialt till kortare sekvenser för att få en förståelse för deras beteende.
Oönskat beteende i MD-simuleringarna innebär att ML-modellen misslyckas med att förutsäga proteinstrukturen korrekt. Ett sätt att bestämma framgången med maskininlärningsförutsägelsen är att titta på icke-fysiskt beteende i proteinerna. Problem under simuleringarna uppstod huvudsakligen av överlappande atomer. Istället för att utesluta dessa proteiner helt och hållet tillämpades ett extra steg i simuleringen för att separera atomerna från varandra. Dessa steg kan vara användbara i inlärningen av maskininlärningsmodellen. De korrigerade strukturerna är initialt icke-fysikaliska, men kan hjälpa till att justera maskininlärningsmodellen mot mer exakta förutsägelser och ge information om oönskat beteende. Upptäckterna i denna avhandling tyder på att det finns utrymme för förbättringar i ML-modellen. Även om strukturerna överlag är väl förutspådda, kan experimentella data hjälpa till att justera proteinet på en mer detaljerad nivå. När en region är fixerad korrigeras även resten av proteinet, vilket utnyttjas i en iterativ korrigeringsprocess. The ability to synthetically create materials with desired properties has been greatly enhanced by advances in biotechnology. One important application of biotechnology is the design of synthetic proteins with the ability to fold in any confguration and predict their folding in advance. However, the connection between sequence, structure, and function is not yet fully understood, and there are endless combinations of amino acids that cannot be experimentally examined. Therefore, computational tools such as machine learning techniques are needed to guide material development.
This thesis evaluates the accuracy of machine learning-based protein structure predictions by subjecting the predicted structures to molecular dynamics simulations using Gromacs software. The focus of the study is on synthetically constructed perfect tandem repeat proteins, and the goal is to test the stability of the predicted structures. The RMSD metric, often used to compare the structural similarity of proteins during molecular dynamics simulations, has limitations in its interpretation. To address this, a new measure of structural similarity called ρsc is proposed and used to assess the stability of the proteins.
The results of the simulations show that many of the proteins generated by the machine learning model are unstable, with signifcant conformational changes observed. This suggests that the current model may not accurately predict the stability of all proteins. The predicted proteins also contained nonphysical structures with overlapping atoms. The study highlights the importance of combining machine learning approaches with other computational approaches to improve the accuracy of protein structure prediction.
In conclusion, this study provides insights into the limitations of current machine learning models for protein structure prediction, and suggests the need for further research to better understand the underlying reasons for the observed instability. These findings could lead to improvements in protein design and prediction, ultimately leading to the creation of more advanced and functional materials with desired properties.
Det har länge varit känt att strukturen är kritisk för att ett protein ska kunna fungera som det ska, men det finns ännu mycket som behöver utvecklas för att förstå sambandet mellan sekvens, struktur och funktion. Databaserade beräkningsverktyg behövs som stöd för materialutveckling, eftersom det finns oändligt många kombinationer av aminosyror och det är omöjligt att experimentellt undersöka dem alla. Maskininlärningstekniker är snabbare och mer kostnadseffektiva. Maskininlärningsmodellen kan också föreslå nya sekvenser som inte har testats. Mitt arbete undersöker stabiliteten hos de strukturer som har förutspåtts, vilket senare kan användas som data tillbaka till maskininlärningsmodellen.
År 2020 vann DeepMind Technologies överlägset med AlphaFold2, vilket var ett stort steg för maskininlärningsbaserad förutsägelse av proteinstrukturer. DeepMind tävlade först med AlphaFold1 i CASP13, men AlphaFold2 var en betydande uppgradering. Strukturerna för proteinerna i proteindatabanken PDB bestäms experimentellt med röntgenkristallografi, kärnmagnetisk resonansspektroskopi eller elektronmikroskopi. AlphaFold tränades att hitta mönster bland dessa proteiner och kunde inte ha gjorts utan existerande experimentella data. AlphaFold är bättre på att förutsäga sidokedjor och letar även efter evolutionära kopplingar till proteinerna i sina förutsägelser.
Maskininlärningsalgoritmer matas med befintliga data och använder de för att hitta mönster och förutsäga resultat för godtyckliga indata, dvs. ju mer kända data maskininlärningsmodellen har, desto bättre kommer förutsägelserna att bli. Maskininlärningsmodeller minskar mänskliga påverkningar, vilket kan leda till nya upptäckter. En nackdel med maskininlärningsmodeller är att de förlitar sig på bekanta data, vilket innebär att det alltid finns en möjlighet att indata är för obekanta för att maskininlärningsmodellen ska kunna bearbeta dem.
AlphaFold har bidragit till att lägga till förutspådda strukturer för det mänskliga proteomet och andra organiska proteiner. Den höga noggrannheten hos AlphaFold baseras på lokal atomprecision med låg standardavvikelse. När man undersöker närmare, uppvisade även dessa dåligt förutspådda regioner. Studier visar att AlphaFold endast kan förutsäga 40 % av det mänskliga proteomet med ett högt konfidensintervall.
Studier visar att AlphaFold-modellen har svårigheter att förutsäga delar som kan bilda alternativa konformationer samt förhållandet mellan olika domäner. Det finns forskning som tyder på att komplettering av experimentell information, t.ex. elektrondensitetskartor och avstånd mellan sidokedjor, ökar prediktionsnoggrannheten. En densitetskarta kan skapas med kristallografiska data från PDB och jämföras med en densitetskarta som erhålls genom att itererade AlphaFold-predicerade strukturerna. Jämförelserna visar att proteiner som ansetts ha en korrekt struktur i många fall består av felaktigt förutsagda domänorienteringar på global nivå och fel i ryggrad och sidokedjor på lokal nivå.
Maskininlärningsmodellen som strukturstabilitetsanalyserna baseras på är jämförbar med AlphaFold. Dessa maskininlärningsförutsägelser är användbara för att förutsäga den initiala strukturen, baserat på dihedriska vinklar, men har fortfarande stora avvikelser jämfört med experimentellt bestämda strukturer och kan för närvarande inte ersätta experiment. Resultaten av denna avhandling visar att de flesta av de maskininlärning förutsagda strukturerna som undersöktes inte är stabila under molekyldynamiksimuleringar.
Gromacs är ett simuleringsprogram för molekylär dynamik som är användbart vid undersökningen av proteinstabilisering. Simuleringarna är baserade på peptider som består av upprepade aminosyraenheter. De ursprungliga peptiderna var 210–300 aminosyror långa. På grund av den stora beräkningsbelastningen reducerades peptiderna initialt till kortare sekvenser för att få en förståelse för deras beteende.
Oönskat beteende i MD-simuleringarna innebär att ML-modellen misslyckas med att förutsäga proteinstrukturen korrekt. Ett sätt att bestämma framgången med maskininlärningsförutsägelsen är att titta på icke-fysiskt beteende i proteinerna. Problem under simuleringarna uppstod huvudsakligen av överlappande atomer. Istället för att utesluta dessa proteiner helt och hållet tillämpades ett extra steg i simuleringen för att separera atomerna från varandra. Dessa steg kan vara användbara i inlärningen av maskininlärningsmodellen. De korrigerade strukturerna är initialt icke-fysikaliska, men kan hjälpa till att justera maskininlärningsmodellen mot mer exakta förutsägelser och ge information om oönskat beteende. Upptäckterna i denna avhandling tyder på att det finns utrymme för förbättringar i ML-modellen. Även om strukturerna överlag är väl förutspådda, kan experimentella data hjälpa till att justera proteinet på en mer detaljerad nivå. När en region är fixerad korrigeras även resten av proteinet, vilket utnyttjas i en iterativ korrigeringsprocess.
This thesis evaluates the accuracy of machine learning-based protein structure predictions by subjecting the predicted structures to molecular dynamics simulations using Gromacs software. The focus of the study is on synthetically constructed perfect tandem repeat proteins, and the goal is to test the stability of the predicted structures. The RMSD metric, often used to compare the structural similarity of proteins during molecular dynamics simulations, has limitations in its interpretation. To address this, a new measure of structural similarity called ρsc is proposed and used to assess the stability of the proteins.
The results of the simulations show that many of the proteins generated by the machine learning model are unstable, with signifcant conformational changes observed. This suggests that the current model may not accurately predict the stability of all proteins. The predicted proteins also contained nonphysical structures with overlapping atoms. The study highlights the importance of combining machine learning approaches with other computational approaches to improve the accuracy of protein structure prediction.
In conclusion, this study provides insights into the limitations of current machine learning models for protein structure prediction, and suggests the need for further research to better understand the underlying reasons for the observed instability. These findings could lead to improvements in protein design and prediction, ultimately leading to the creation of more advanced and functional materials with desired properties.
Kokoelmat
- 114 Fysiikka [25]