Thumbnail Image

Leveraging topological information in protein structure prediction

Mabrouk, Mahmoud

Protein structure prediction is a crucial task in computational biology with significant implications for drug development, and understanding biological processes. Experimental methods for protein determination are expensive and time-consuming. Computational protein structure prediction provides a feasible alternative. Although end-to-end deep-learning methods, like Alphafold 2, have significantly improved prediction quality by utilizing co-evolutionary information from multiple sequence alignments, they remain limited when such information is unavailable, which pertains to approximately 20% of all metagenomic proteins. Furthermore, these methods are less effective in downstream tasks where co-evolutionary information is uninformative, such as predicting proteins with multiple conformations or disordered proteins. The primary challenge with these methods is their over-reliance on co-evolutionary information. They tend to over-exploit the co-evolutionary information even when the Multiple Sequence Alignments (MSAs) are not informative enough which results in wrong predictions. To address this issue, we propose adding conformational space exploration to the exploitation of co-evolutionary information. Past approaches attempting conformational search have struggled due to the vast size of the conformational space. However, the actual solution space for protein structure prediction, the space of natural protein structures, is not very large: Proteins cluster in 1,000 to 10,000 folds, which is a minuscule region of the conformational space. In this thesis, we explore how to constrain the conformational search to an estimate of the protein structure universe. Our insight is that most conformations of natural (globular) protein structures can be represented by the arrangement of their secondary structure elements. We hypothesize that the representation of this arrangement, called topology, is a latent representation of natural protein structures. This means that this representation encodes essential features of natural protein structures while discarding unimportant characteristics. Thus, we conduct the conformational search in the space of topologies, limiting thereby the search to conformations possessing essential features of natural protein structures and disregarding physically and evolutionarily improbable structures. We develop a protein structure prediction approach called Topology-Based Search (TBS), which conducts the conformational search in the topological space. Our approach combines the exploration of the conformational space with the exploitation of co-evolutionary information. We sample the space of topologies restricting it to relevant regions of the conformational space that also satisfy some of the co-evolutionary information. Both the topological prior and the co-evolutionary prior help us limit the search to the relevant regions of the space. In the first chapter, we define our topological representation, devise an approach to predict structure from topology, and demonstrate that topology is a latent representation of protein structures. We show that the knowledge of a protein's topology is sufficient to determine the native structure of most proteins with medium accuracy (TM-score > 0.5). In the next two chapters, we investigate combining our approach with co-evolutionary information. First, we demonstrate that we can use co-evolutionary information to guide the search in topological space and predict protein topology from multiple sequence alignments. We then show that combining topology and multiple sequence alignments improves structure prediction over using either information source alone. In the final chapter, we introduce TBS, a protein structure prediction approach that employs topological search guided by co-evolutionary information. We reveal that TBS enhances prediction for beta-proteins and proteins with a high proportion of beta residues. This improvement stems from both efficient and increased conformational space sampling compared to the baseline (trRosetta) resulting in diverse and realistic structures. Last, we discuss the limitations of our approach, particularly regarding proteins containing alpha helices. Overall, our thesis presents a novel approach for protein structure prediction that addresses the limitations of current deep-learning methods by combining topology-based search with co-evolutionary information. Our approach provides an efficient and effective way of conducting the conformational search in the space of topologies, resulting in better prediction accuracy for proteins where co-evolutionary information is unavailable or uninformative. Our work also has significant implications for downstream protein structure prediction tasks. We propose that our approach of learning a latent representation of the solution space then using it in search can be extended to other protein-related problems, such as protein design, protein-protein interactions and protein-ligand binding.
Die Vorhersage von Proteinstrukturen ist eine wichtige Aufgabe in der rechnergestützten Biologie mit weitreichenden Auswirkungen auf die Medikamentenentwicklung und das Verständnis biologischer Prozesse. Experimentelle Methoden zur Bestimmung von Proteinen sind teuer und zeitaufwendig. Die rechnergestützte Vorhersage von Proteinstrukturen ist eine effizientere Alternative. Obwohl End-to-End Deep Learning Methoden, wie AlphaFold2, die Vorhersagequalität durch die Nutzung von koevolutionären Informationen aus multiplen Sequenzalignments (MSAs) erheblich verbessert haben, sind sie nur bedingt nutzbar, wenn solche Informationen nicht verfügbar sind, was auf etwa 20% aller metagenomischen Proteine zutrifft. Darüber hinaus sind diese Methoden bei Problemen, in denen koevolutionäre Informationen nicht informativ sind, wie bei der Vorhersage von Proteinen mit mehreren Konformationen oder unstrukturierten Proteinen, weniger effektiv. Die Hauptproblematik dieser Methoden besteht in ihrer übermäßigen Abhängigkeit von koevolutionären Informationen, was zu falschen Vorhersagen führt, wenn die MSAs nicht informativ genug sind. Um dieses Problem zu beheben, schlagen wir vor, die Erkundung des Konformationsraums der Ausnutzung von koevolutionären Informationen hinzuzufügen. Frühere Ansätze, die eine konformationelle Suche versucht haben, haben aufgrund der enormen Größe des Konformationsraums Schwierigkeiten gehabt. Allerdings ist der tatsächliche Lösungsraum für die Vorhersage von Proteinstrukturen, der Raum natürlicher Proteinstrukturen, nicht sehr groß: Proteine gruppieren sich in 1.000 bis 10.000 Folds, was eine winzige Region des Konformationsraums ist. In dieser Dissertation untersuchen wir, wie die konformationelle Suche auf ein Modell des Universums der Proteinstruktur beschränkt werden kann. Unsere Erkenntnis ist, dass die meisten Konformationen von natürlichen (globulären) Proteinstrukturen durch die Anordnung ihrer sekundären Strukturelemente dargestellt werden können. Wir postulieren, dass die Darstellung dieser Anordnung, die Topologie genannt wird, eine latente Darstellung von natürlichen Proteinstrukturen ist. Dies bedeutet, dass diese Darstellung wesentliche Merkmale von natürlichen Proteinstrukturen kodiert, während sie unwichtige Eigenschaften weglässt. Daher führen wir die konformationelle Suche im Raum der Topologien durch, wobei wir die Suche auf Konformationen beschränken, die wesentliche Merkmale von natürlichen Proteinstrukturen besitzen und physisch und evolutionär unwahrscheinliche Strukturen außer Acht lassen. Wir entwickeln einen Ansatz zur Vorhersage von Proteinstrukturen, den wir als Topologiebasierte Suche (TBS) bezeichnen, der die konformationelle Suche im topologischen Raum durchführt. Unser Ansatz kombiniert die Erkundung des Konformationsraums mit der Ausnutzung von koevolutionären Informationen. Wir sampeln den Raum der Topologien, indem wir ihn auf relevante Bereiche des Konformationsraums beschränken, die auch einige der koevolutionären Informationen erfüllen. Sowohl die topologischen Informationen als auch die koevolutionären Informationen helfen uns, die Suche auf die relevanten Bereiche des Raums zu beschränken. Im ersten Kapitel definieren wir unsere topologische Darstellung, entwerfen einen Ansatz zur Vorhersage der Struktur aus der Topologie und zeigen, dass die Topologie eine latente Darstellung von Proteinstrukturen ist. Wir zeigen, dass die Kenntnis der Topologie eines Proteins ausreicht, um die native Struktur der meisten Proteine mit mittlerer Genauigkeit (TM-Score > 0.5) zu bestimmen. In den folgenden zwei Kapiteln untersuchen wir die Kombination unseres Ansatzes mit koevolutionären Informationen. Zunächst zeigen wir, dass wir koevolutionäre Informationen nutzen können, um die Suche im topologischen Raum zu steuern und die Protein-Topologie aus multiplen Sequenzalignments vorherzusagen. Dann zeigen wir, dass die Kombination von Topologie und multiplen Sequenzalignments die Strukturvorhersage im Vergleich zur Verwendung von nur einer der beiden Informationsquellen verbessert. Im letzten Kapitel führen wir TBS ein, einen Ansatz zur Vorhersage von Proteinstrukturen, der eine topologische Suche einsetzt, die durch koevolutionäre Informationen geleitet wird. Wir zeigen, dass TBS die Vorhersage für Beta-Proteine und Proteine mit einem hohen Anteil an Beta-Aminosäuren verbessert. Diese Verbesserung resultiert sowohl aus einer effizienteren als auch aus einer erhöhten Sondierung des Konformationsraums im Vergleich zur Baseline (trRosetta), was zu vielfältigeren und realistischen Strukturen führt. Zuletzt diskutieren wir die Grenzen unseres Ansatzes, insbesondere in Bezug auf Proteine, die Alpha-Helices enthalten. Diese Dissertation stellt einen neuen Ansatz zur Vorhersage von Proteinstrukturen vor, der die Beschränkungen der aktuellen Deep Learning Methoden durch die Kombination von topologiebasierter Suche mit koevolutionären Informationen adressiert. Unser Ansatz bietet eine effiziente und effektive Möglichkeit, die konformationelle Suche im Raum der Topologien durchzuführen, was zu einer besseren Vorhersagegenauigkeit für Proteine führt, bei denen koevolutionäre Informationen nicht verfügbar oder nicht informativ sind. Diese Arbeit hat auch signifikante Auswirkungen auf nachgelagerte Aufgaben der Vorhersage von Proteinstrukturen. Wir schlagen vor, dass unser Ansatz, eine latente Darstellung des Lösungsraums zu erlernen und dann bei der Suche zu verwenden, auf andere proteinbezogene Probleme, wie das Design von Proteinen, Protein-Protein-Interaktionen und Protein-Ligand-Bindungen, erweitert werden kann.