Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-7660
Main Title: Leveraging novel information for coarse-grained prediction of protein motion
Translated Title: Ausnutzung neuer Informationen für grobaufgelöste Vorhersage von Protein Bewegung
Author(s): Putz, Ines
Advisor(s): Brock, Oliver
Referee(s): Brock, Oliver
Bahar, Ivet
Rappsilber, Juri
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Proteins are involved in almost all functions in our cells due to their ability to combine conformational motion with chemical specificity. Hence, information about the motions of a protein provides insights into its function. Proteins move on a rugged energy landscape with many local minima, which is imposed on their high-dimensional conformational space. Exhaustive sampling of this space exceeds the available computational resources for all but the smallest proteins. Computational approaches thus have to simplify the potential energy function and/or resolution of the model using information about what is relevant and what can be ignored. The accuracy of the approximation depends on the accuracy of the used information. Information that is specific to the problem domain, i.e. protein motion in our case, usually results in better models. In this thesis, I propose a novel elastic network model of learned maintained contacts, lmcENM. It expands the range of motions that can be captured by such simplified models by leveraging novel information about a protein's structure. This improves the general applicability of elastic network models. Elastic network models (ENMs) are a highly popular coarse-grained method to study protein motions. They assume that protein motions are harmonic around an equilibrium conformation and largely governed by the protein's structural connectivity. This leads to the simplified representation of a protein as elastic mass-spring-network based on residue interactions. Despite their simplicity, ENMs predict intrinsic protein motions with surprising biological relevance. Accurate ENM predictions, however, require the initial contact topology to be maintained during a protein's motion. This is naturally fulfilled for highly collective motions resulting in successful predictions. But localized functional transitions involving substantial changes in the contact topology are often poorly explained. This limits the practical relevance of ENMs because the motion type of a protein is unknown a priori and thus it is unknown whether ENMs can capture it. lmcENM overcomes this limitation by leveraging information about the dynamic behavior of contacts, i.e. whether they break or are maintained when the protein moves. The maintained contacts remain after predicted breaking contacts have been removed from the initial network. In contrast to existing ENM variants, lmcENM is able to accurately predict protein motions even for localized and uncorrelated functional transitions with changing contact topology. In the first part of my thesis, I show that the absence of observed breaking contacts enables ENMs to accurately explain localized functional transitions. The resulting network of observed maintained contacts, mcENM, can be built when start and end conformation of a functional transition are known. Of course, to apply this strategy in the standard case when only a single protein conformation is available, we need to be able to predict these breaking contacts. In the second part of my thesis, I show how the breaking contacts can be predicted. To do so, I developed a machine-learning based classifier to differentiate breaking from maintained contacts based on a graph-based encoding of their structural context. The physicochemical characteristics of a contact's structural context capture how tightly different parts of the protein are bound to each other, how this affects their movements, and ultimately their contact topology. To build lmcENM the predicted breaking contacts are removed from the initial network. Using a large set of proteins covering different motion types I demonstrate the effectiveness of lmcENM. My thesis unlocks breaking contacts, or generally dynamic contact changes, as a novel source of information that has proven valuable in coarse-grained prediction of protein motion. Because they are defined on a simplified model of the structural connectivity of a protein, they are insensitive to structural details that would otherwise make their identification and prediction more difficult. The existence and usefulness of breaking contacts demonstrated in my thesis enables future research opportunities to study the conditions under which they occur and to examine the features that contributed the most to their accurate prediction. Our framework for predicting breaking contacts can be easily extended to further advance our understanding of protein motion.
Proteine sind an fast allen Funktionen in unseren Zellen beteiligt aufgrund ihrer Fähigkeit, Konformationsbewegungen mit chemischer Spezifität zu kombinieren. Informationen über die Bewegungen eines Proteins liefern somit Einblicke in seine Funktion. Proteine bewegen sich auf einer zerklüfteten Energielandschaft mit vielen lokalen Minima über ihrem hochdimensionalen Konformationsraum. Eine erschöpfende Abtastung dieses Raums übersteigt die verfügbaren Rechenressourcen für alle bis auf die kleinsten Proteine. Computergestützte Ansätze müssen daher die Energiefunktion und/oder die Auflösung des Modells vereinfachen aufgrund von Informationen darüber, was relevant ist und was ignoriert werden kann. Die Genauigkeit der Approximation hängt von der Genauigkeit der verwendeten Information ab. Informationen, die spezifisch für die Problemdomäne sind, d. h. Proteinbewegung in unserem Fall, führen normalerweise zu besseren Modellen. In dieser Arbeit stelle ich ein neuartiges elastisches Netzwerkmodell von erlernten erhaltenen Kontakten, genannt lmcENM, vor. Es erweitert die Bewegungsreichweite, die durch diese Netzwerke erfasst werden können, durch das Ausnutzen neuer Informationen über die Struktur eines Proteins. Dies verbessert die allgemeine Anwendbarkeit von elastischen Netzwerkmodellen. Elastische Netzwerkmodelle (ENMs) sind eine sehr populäre grobkörnige Methode zur Untersuchung von Proteinbewegungen. Sie nehmen an, dass Proteinbewegungen harmonisch um eine Gleichgewichtskonformation verlaufen und weitgehend von der strukturellen Konnektivität des Proteins bestimmt werden. Dies führt zur vereinfachten Darstellung eines Proteins als elastisches Masse-Feder-Netzwerk auf der Basis von Residue-Interaktionen. Trotz ihrer Einfachheit sagen ENMs intrinsische Proteinbewegungen mit überraschender biologischer Relevanz voraus. Genaue ENM-Vorhersagen erfordern jedoch, dass die anfängliche Kontakttopologie während der Bewegung eines Proteins aufrechterhalten wird. Dies ist natürlicherweise für hoch kollektive Bewegungen erfüllt, was zu ihrer erfolgreichen Vorhersagen führt. Lokalisierte Funktionsbewegungen, die wesentliche Änderungen in der Kontakttopologie beinhalten, werden jedoch oft nur unzureichend erklärt. Dies begrenzt die praktische Relevanz von ENMs, da der Bewegungstyp eines Proteins a priori unbekannt ist und daher unbekannt ist, ob ENMs es erfassen können. lmcENM überwindet diese Einschränkung, indem Informationen über das dynamische Verhalten von Kontakten genutzt werden, d. h. ob sie brechen oder erhalten bleiben, wenn sich das Protein bewegt. Die erhaltenen Kontakte bleiben übrig, nachdem die brechenden Kontakte aus dem ursprünglichen Netzwerk entfernt wurden. Im Gegensatz zu existierenden ENM-Varianten ist lmcENM in der Lage, Proteinbewegungen auch für lokalisierte und unkorrelierte Funktionstransitionen mit sich ändernder Kontakttopologie genau vorherzusagen. Im ersten Teil meiner Arbeit zeige ich, dass die Abwesenheit von beobachteten brechenden Kontakten ENMs in die Lage versetzt, lokalisierte Funktionstransitionen genau zu erklären. Das resultierende Netzwerk von beobachteten bleibenden Kontakten, mcENM, kann erstellt werden, wenn die Anfangs- und Endkonformation eines Funktionsübergangs bekannt ist. Um diese Strategie im Standardfall anzuwenden, wenn nur eine einzige Proteinkonformation zur Verfügung steht, müssen wir diese brechenden Kontakte natürlich vorhersagen können. Im zweiten Teil meiner Arbeit zeige ich, wie die brechenden Kontakte vorhergesagt werden können. Um dies zu erreichen, entwickelte ich einen maschinell lernenden Klassifikator, der die brechenden von den bleibenden Kontakten unterscheidet auf Grundlage einer graph-basierten Kodierung ihres strukturellen Kontexts. Die physikalisch-chemischen Eigenschaften des strukturellen Kontexts eines Kontakts erfassen, wie stark verschiedene Teile des Proteins miteinander verbunden sind, wie sich dies auf ihre Bewegungen und letztendlich auf ihre Kontakttopologie auswirkt. Zum Erstellen von lmcENM werden die vorhergesagten brechenden Kontakte aus dem ursprünglichen Netzwerk entfernt. Anhand eines großen Datensatzes von Proteinen, die verschiedene Bewegungstypen abdecken, demonstriere ich die Effektivität von lmcENM. Meine Dissertation erschließt brechende Kontakte oder allgemein dynamische Kontaktänderungen  als eine neue Informationsquelle, die sich bei der grobkörnigen Vorhersage von Proteinbewegung als wertvoll erwiesen hat. Da diese dynamische Kontaktänderungen auf einem vereinfachten Modell der strukturellen Konnektivität eines Proteins definiert sind, sind sie unempfindlich gegenüber strukturellen Details, die ansonsten ihre Identifizierung und Vorhersage erschweren würden. Die Existenz und Nützlichkeit von brechenden Kontakten, die in meiner Dissertation gezeigt wurden, ermöglicht zukünftige Forschung, um die Bedingungen, unter denen sie auftreten, zu untersuchen sowie die Merkmale, die am meisten zu ihrer genauen Vorhersage beigetragen haben. Unser Framework für die Vorhersage von brechenden Kontakten kann leicht erweitert werden, um unser Verständnis der Proteinbewegung weiter voranzutreiben.
URI: https://depositonce.tu-berlin.de//handle/11303/8514
http://dx.doi.org/10.14279/depositonce-7660
Exam Date: 6-Nov-2018
Issue Date: 2018
Date Available: 21-Dec-2018
DDC Class: 000 Informatik, Informationswissenschaft, allgemeine Werke
570 Biowissenschaften; Biologie
Subject(s): computational biology
protein motion prediction
elastic network models
machine learning
network analysis
Proteinbewegungsvorhersage
elastische Netzwerkmodelle
maschinelles Lernen
Netzwerkanalyse
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:FG Robotics » Publications

Files in This Item:
File Description SizeFormat 
putz_ines.pdf20.08 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons