Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-4961
Main Title: Leveraging novel information sources for protein structure prediction
Translated Title: Nutzung neuer Informationsquellen für die Proteinstrukturvorhersage
Author(s): Bohlke-Schneider, Michael
Advisor(s): Brock, Oliver
Referee(s): Brock, Oliver
Rappsilber, Juri
Meiler, Jens
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Three-dimensional protein structures are an invaluable stepping stone towards the understanding of cellular processes. Computational protein structure prediction holds the promise of providing these structural models at low cost and effort. However, the major bottleneck towards effective protein structure prediction is the high dimensionality and vast size of the protein conformational space. These properties of the conformational space make it extremely difficult to locate the native structure through search. Information alleviates this issue by guiding search towards the native protein structure. Thus, information is invaluable in conformational space search. Not surprisingly, state-of-the-art structure prediction methods heavily rely on information. Obviously, unlocking novel sources of information should further increase our ability to accurately predict protein structure. This thesis leverages three novel sources of information to advance protein structure prediction. First, we leverage physicochemical information that is encoded in energy functions and predicted structure models. Native contact networks form characteristic patterns to be energetically favorable. This thesis develops a network-based representation to capture these patterns and uses this representation to predict residue-residue contacts. The second source of information is experimental data from high-density cross-linking/ mass spectrometry (CLMS) experiments. We integrate this information in an experimental/ computational hybrid method for protein structure determination. The third information source is corroborating information. Corroborating information judges the likelihood of the co-occurence of structural constraints. Nearly all methods provide these constraints in isolation, thereby neglecting any corroborating evidence between them. We develop a network-based analysis method to refine structure constraints with corroborating information. We demonstrate the value of these information sources in extensive ab initio structure prediction experiments with a customized conformational space search algorithm and a novel structure prediction pipeline. This pipeline reached state-of-the-art contact and ab initio structure prediction performance in the 11th community-wide Critical Assessment of Protein Structure Prediction experiment (CASP11). Using our CLMS-based hybrid method, we reconstruct the domain structures of human serum albumin in solution and in its native environment, human blood serum. This represents a disruptive first step towards a mass spectrometry-driven, ab initio structure determination method that is able to probe protein structure where it really matters: In their natural environment, which is their very place of action.
Die Kenntnis von dreidimensionalen Proteinstrukturen ist für das Verständnis von zellulären Prozessen unverzichtbar. Computergestützte Verfahren zur Proteinstrukturvorhersage haben das Potenzial diese strukturellen Modelle mit wenig Aufwand und niedrigen Kosten zu generieren. Allerdings ist die hohe Dimensionalität und schiere Größe des Konformationsraumes ein großes Hindernis auf dem Weg zur effektiven Strukturvorhersage. Diese Eigenschaften des Suchraumes machen es extrem schwierig die native Proteinstruktur mittels Suchalgorithmen zu finden. Information leitet die Suche nach der nativen Struktur. Daher ist Information für die Suche im Konformationsraum unverzichtbar. Viele Proteinstrukturvorhersagemethoden nutzen ein hohes Maß an Information. Offensichtlich sollte das Erschließen neuer Informationsquellen unsere Fähigkeit zur genauen Strukturvorhersage massiv erweitern. Diese Dissertation demonstriert den Einsatz drei neuartiger Informationsquellen in der Strukturvorhersage. Die erste Informationsquelle ist physikalisch-chemische Information, enthalten in Energiefunktionen und vorhergesagten Strukturmodellen. Native Kontakte bilden charakteristische Netzwerke aus, um energetisch günstig zu sein. Diese Dissertation entwickelt eine Netzwerk-basierende Repräsentation dieser charakteristischen Netzwerke um Proteinkontakte vorherzusagen. Cross-link/Massenspektrometrie (CLMS) Daten mit extrem hoher Dichte sind die zweite Informationsquelle. Wir integrieren diese Information in einer experimentellen/ computergestützten Hybridmethode für die Strukturbestimmung. Die dritte Informationsquelle sind sich unterstützende Informationen. Diese beurteilen die Wahrscheinlichkeit vom simultanen Auftreten mehrerer struktureller Zwangsbedingungen. Nahezu alle Methoden sagen diese Zwangsbedingungen isoliert vorher und ignorieren daher unterstützende Informationen. Wir entwickeln eine Netzwerkanalysemethode um mit dieser Information Zwangsbedingungen zu verfeinern. Wir demonstrieren den Nutzen dieser Informationsquellen in umfangreichen ab initio Strukturvorhersageexperimenten mit einem modifizierten Suchalgorithmus und eines neuartigen Strukturvorhersagesystems. Mit diesem System waren genaue Kontaktvorhersagen und ab initio Strukturvorhersagen in dem elften „Critical Assessment of Protein Structure Prediction“ Experiment möglich. Mit unserer CLMS-basierenden Hybridmethode konnten wir die Struktur der Domänen von Humanalbumin rekonstruieren. Dies war für isoliertes Humanalbumin und für Humanalbumin in Blutserum möglich, welches die natürliche Umgebung dieses Proteins darstellt. Dies ist ein wichtiger erster Stritt in Richtung einer neuen CLMS-basierenden Strukturbestimmungsmethode. Diese ist in der Lage strukturelle Informationen da zu sammeln wo es wirklich darauf ankommt: In der natürlichen Umgebung von Proteinen, in welchen sie ihre Funktion ausüben.
URI: http://depositonce.tu-berlin.de/handle/11303/5273
http://dx.doi.org/10.14279/depositonce-4961
Exam Date: 22-Dec-2015
Issue Date: 2016
Date Available: 28-Jan-2016
DDC Class: DDC::000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::006 Spezielle Computerverfahren
DDC::500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
DDC::500 Naturwissenschaften und Mathematik::540 Chemie::543 Analytische Chemie
Subject(s): protein structure prediction
hybrid methods
network analysis
machine learning
cross-linking/mass spectrometry
Proteinstrukturvorhersage
hybride Methoden
Netzwerkanalyse
maschinelles Lernen
cross-linking/Massenspektrometrie
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Technische Informatik und Mikroelektronik » Publications

Files in This Item:
File Description SizeFormat 
bohlke_schneider_michael.pdf9.26 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.