Loading…
Thumbnail Image

Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning

Stahl, Kolja

Knowing the functions and interactions of proteins is essential for drug and vaccine development. The function of a protein is determined by its structure which is encoded in the sequence of amino acids. Structures can be determined experimentally. Unfortunately, this is expensive and time-consuming. Computationally determining structures presents a cheaper and more efficient alternative. In this thesis, we develop AlphaLink, a novel method for protein structure prediction and protein-protein docking that merges experimental data with co-evolutionary information. Leveraging experimental data allows AlphaLink to predict many biologically interesting and challenging targets with insufficient evolutionary information. We integrate crosslinking MS data which yield sparse distance restraints, and show that they act as anchors in the prediction and that we can use this effect to steer the prediction towards in situ conformations. We encode the restraints as distograms, allowing us to generalise to arbitrary (experimental) distance restraints and mix different types of experimental restraints. To showcase the potential of crosslinks in protein structure prediction, we conduct an extensive crosslinker study with simulated data that could guide future developments. On our data set, combining three photo-amino acids (AA) crosslinkers solves all structures without co-evolutionary information. Finally, we extend AlphaLink to multi-chain proteins, where crosslinks help to identify protein-protein interactions and to build the interface. AlphaLink-Multimer with simulated crosslinks outperforms other methods on nanobody and antibody-antigen targets from the 15th Critical Assessment of protein Structure Prediction (CASP) and substantially improves the performance over AlphaFold-Multimer. We improve the ipTM on average by 30% on real data.
Für die Medikamenten- und Impfstoffentwicklung ist es wichtig die Funktionen und Interaktionen von Proteinen zu kennen. Die Funktion durch die 3D Struktur des Proteins bestimmt die in der Sequenz von Aminosäuren kodiert ist. Strukturen können experimentell bestimmt werden, was jedoch teuer und zeitintensiv ist. Eine effizientere und günstigere Alternative ist es die Strukturen Mithilfe von Computerprogrammen Vorherzusagen. In dieser Arbeit entwickeln wir AlphaLink, eine neue Methode für die Proteinstrukturvorhersage und für Protein-Protein docking, die experimentelle Daten und co-evolutionäre Informationen vereint. Das Integrieren und Ausnutzen von experimentellen Daten ermöglicht es uns biologisch interessante und herausfordernde Proteine und Proteinkomplexe mit wenigen evolutionären Informationen vorherzusagen. Wir integrieren Crosslinking MS Daten direkt ins neuronale Netzwerk, die uns Informationen über die maximale Distanz zwischen Residue-Paaren innerhalb des Proteins und zwischen Proteinen liefern. Wir zeigen, dass diese Informationen als Ankerpunkte benutzt werden können um die Vorhersage auf in situ Konformationen zu lenken. Wir repräsentieren die Distanzinformationen als Distogramme, was es uns ermöglicht beliebige Distanzrestraints abzubilden und verschiedene experimentelle Distanzinformationen zu kombinieren. Um das Potenzial von Crosslinks in der Proteinstrukturvorhersage zu zeigen, führen wir eine Crosslinkerstudie durch. Dafür simulieren wir verschiedene Photo-Aminosäuren Crosslinker und testen die Performance auf unserem Benchmarkdatensatz. Auf unseren Testproteinen können wir mit der Kombination von drei Photo-Aminosäuren Crosslinkern alle Strukturen lösen. Die Ergebnisse könnten richtungsweisend für zukünftige Entwicklungen sein. Zu guter Letzt erweitern wir AlphaLink auf multi-chain Proteine. Hier helfen Crosslinks dabei Protein-Protein Interaktionen zu identifizieren und das Interface zu bestimmen. AlphaLink-Multimer schlägt mit simulierten Crosslinks andere Methoden auf Nanobody und Antikörper-Antigen Komplexen aus CASP15 und verbessert die Performance gegenüber AlphaFold-Multimer deutlich. Auf echten Daten verbessert sich der ipTM-Score im Schnitt um 30%.