Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-12031
For citation please use:
Main Title: Computational methods and machine learning for crosslinking mass spectrometry data analysis
Translated Title: Computergestützte Methoden und Maschinelles Lernen für die Datenanalyse von Quevernetzten Massenspektrometrie-Daten
Author(s): Giese, Sven Hans-Joachim
Advisor(s): Rappsilber, Juri
Referee(s): Selbach, Matthias
Rappsilber, Juri
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Has Part: http://dx.doi.org/10.14279/depositonce-11957
http://dx.doi.org/10.14279/depositonce-11580
http://dx.doi.org/10.14279/depositonce-11581
http://dx.doi.org/10.14279/depositonce-11579
http://dx.doi.org/10.14279/depositonce-11582
Language Code: en
Abstract: A central part in understanding complex biological systems is to uncover the function and structure of proteins. The elucidation of a protein’s structure and understanding its function are tightly connected. The underlying paradigm that structure defines function, has led to the development of many methods to derive the three-dimensional structure of proteins and protein complexes. Crosslinking mass spectrometry (CLMS) is a comparatively new tool for the analysis of single proteins, multi-protein complexes, and protein-protein interactions. CLMS poses several challenges for mass spectrometry-based proteomics, which include understanding the fragmentation behavior of crosslinked peptides to design efficient database search strategies and improved acquisition settings. CLMS builds upon the preservation of distance information by crosslinking reagents, which is relayed by mass spectrometric analysis. To identify a crosslink in a standard database search, theoretically all pairwise peptide combinations need to be considered. Without the use of isotope-labeled or cleavable crosslinkers, applying a standard crosslinking approach using homobifunctional NHS-ester crosslinker reagents, an exhaustive peptide identification strategy becomes quickly unfeasible because of the dynamic explosion of the search space. Therefore, robust heuristics are needed to make the identification of crosslinks in complex samples feasible. This endeavor is even further hindered by the unequal fragmentation of the two peptides in a crosslink under collision-induced dissociation conditions. The subsequent coverage gap between the two peptides in a crosslink may lead to misidentifications. This thesis presents computational approaches and machine learning methods to improve the identification of crosslinked peptides. First, an efficient strategy is outlined, based on an explorative study about the fragmentation behavior of crosslinked peptides. Most importantly, the presented search strategy shows that the information from isotope-labeled and cleavable crosslinkers can be partially retrieved by computational processing of the spectra and adequate mass spectrometric acquisition settings. A key concept builds upon the ability to recognize crosslinked fragments from their mass and charge. This allows to identify the two linked peptides in a sequential manner without searching all peptide combinations exhaustively. Second, to reduce the coverage gap, modern mass spectrometers offer versatile fragmentation methods. For most crosslinks, electron-transfer dissociation combined with higher-energy collision dissociation (HCD) yields the highest coverage.HCD remains an important choice because of its fast acquisition speed and competitive sequence coverage. Third, to avoid severe bias through the identification of noncovalently associated peptides as crosslinks, multiple solutions are feasible. For example, disruptive ionization settings can be used to avoid noncovalently associated peptides entering the mass spectrometer. Alternatively, post-acquisition heuristics using the retention time difference between linear and crosslinked peptides add valuable information to recognize noncovalent peptide associations. Fourth, since complex crosslinking experiments with deep-proteome coverage require extensive fractionation, being able to predict the retention behavior may prove beneficial for peptide identification. In addition, mechanistic understanding of the separation process helps to further improve the chromatographic separation. For hydrophilic anion exchange chromatography (hSAX), the separation is heavily influenced by charged amino acids and aromatics. Most importantly, the retention behavior of linear peptides can be accurately predicted through deep neural networks. Fifth, the ability to predict not only hSAX, but also strong cation exchange (SCX) and reversed-phase retention times indeed proves to be a valuable addition for the identification of crosslinked peptides. Siamese neural network architectures offer elegant solutions to encode crosslinked peptides. Multi-task learning of several chromatography domains at the same time allows robust and fast prediction of all chromatography domains. Accurate reversed-phase predictions together with hSAX and SCX fraction prediction allows rescoring already identified peptide spectrum matches with a support vector machine. This workflow leads to more identified protein-protein interactions at constant false discovery rate from a deep-fractionated Escherichia coli sample. The integration of advancements in crosslinking chemistry, sample acquisition, database search, and machine learning together are essential stepping-stones for the identification of crosslinked peptides in complex samples.
Ein zentraler Bestandteil zum Verständnis komplexer biologischer Systeme ist die Aufdeckung der Funktion und Struktur von Proteinen. Die Aufklärung der Struktur eines Proteins und das Verständnis seiner Funktion sind eng miteinander verbunden. Das zugrunde liegende Paradigma, Struktur definiert Funktion, hat zur Entwicklung vieler Methoden zur Bestimmung der dreidimensionalen Struktur von Proteinen und Proteinkomplexen geführt. Die quervernetzende Massenspektrometrie (CLMS) ist ein vergleichbar neuesWerkzeug für die Analyse von einzelnen Proteinen, Multiproteinkomplexen und Protein-Protein-Interaktionen. CLMS stellt die Massenspektrometrie-basierte Proteomik vor mehrere Herausforderungen, darunter das Verständnis des Fragmentierungsverhaltens von quervernetzten Peptiden, um effiziente Datenbank-Suchstrategien und verbesserte instrumentelle Aufnahmestrategien zu entwerfen. CLMS baut auf der Erhaltung von Abstandsinformationen durch die massenspektrometrische Analyse unter Verwendung von Quervernetzungsreagenzien auf. Beim universellen Ansatz, d.h. ohne die Verwendung isotopenmarkierter oder spaltbarer Quervernetzer, wird eine erschöpfende Peptididentifikationsstrategie aufgrund der dynamischen Explosion des Suchraums schnell undurchführbar. Daher sind robuste Heuristiken erforderlich, um die Identifizierung von Quervernetzungen in komplexen Proben durchführbar zu machen. Dieses Bestreben wird durch die ungleiche Fragmentierung der beiden Peptide in einer Quervernetzung unter kollisionsinduzierter Dissoziation behindert. Mit der daraus resultierenden Sequenzabdeckungslücke zwischen den beiden Peptiden in einer Quervernetzung kann es zu einer Fehlidentifizierung kommen oder sogar zu einer starken Verzerrung der Identifikationsergebnisse. In dieser Arbeit werden rechnergestützte Ansätze und Methoden des maschinellen Lernens vorgestellt, um die Identifizierung von quervernetzten Peptiden zu verbessern. Zuerst wird eine effiziente Suchstrategie skizziert, basierend auf einer explorativen Studie über das Fragmentierungsverhalten von quervernetzten Peptiden. Die vorgestellte Suchstrategie zeigt, dass die Informationen von isotopenmarkierten und spaltbaren Quervernetzern teilweise durch rechnerische Verarbeitung der Spektren und geeignete massenspektrometrische Aufnahmeeinstellungen ersetzt werden können. Ein Schlüsselkonzept basiert auf der Fähigkeit, quervernetzte Fragmente anhand ihrer Masse und Ladung zu erkennen, um die beiden quervernetzten Peptide sequenziell zu identifizieren. Zweitens bieten moderne Massenspektrometer vielseitige Fragmentierungsmethoden an, um die Sequenzabdeckung zu erhöhen. Für die meisten Quervernetzungen liefert die Elektronentransferdissoziation in Kombination mit der hochenergetischen Kollisionsdissoziation (HCD) die höchste Sequenzabdeckung. Die HCD bleibt wegen der schnellen Aufnahmegeschwindigkeit und der kompetitiven Sequenzabdeckung eine wichtige Option. Drittens ist es möglich, schwere Verzerrungen durch die Identifizierung von nichtkovalent assoziierten Peptiden als quervernetzte Peptide zu vermeiden. Zum Beispiel können disruptive Ionisierungseinstellungen verwendet werden, um nichtkovalent assoziierte Peptide daran zu hindern in das Massenspektrometer zu gelangen. Alternativ liefern Heuristiken nach der Akquisition unter Verwendung der Retentionszeitdifferenz von linearen und quervernetzten Peptiden wertvolle Informationen hinzu, um nicht-kovalent assoziierte Peptide zu erkennen. Viertens, da komplexe Quervernetzungsexperimente mit tiefer Proteomabdeckung eine umfangreiche Fraktionierung erfordern, kann sich die Vorhersage des Retentionsverhaltens als vorteilhaft für die Peptididentifizierung erweisen. Darüber hinaus hilft das mechanistische Verständnis des Trennprozesses, die chromatographische Trennung weiter zu verbessern. Bei der hydrophilen Anionenaustauschchromatographie (hSAX) wird die Trennung stark durch geladene Aminosäuren und Aromaten beeinflusst. Am wichtigsten ist, dass das Retentionsverhalten von linearen Peptiden durch tiefe neuronale Netzwerke genau vorhergesagt werden kann. Fünftens erweist sich die Fähigkeit, nicht nur hSAX, sondern auch den starken Kationenaustausch (SCX) und die Retentionszeiten in Umkehr-Phase Chromatographie vorherzusagen, in der Tat als wertvolle Ergänzung für die Identifizierung quervernetzter Peptide. Siamesische neuronale Netzwerke bieten elegante Lösungen zur Kodierung quervernetzter Peptide. Das Multi-Task-Lernen mehrerer Chromatographie-Domänen zur gleichen Zeit ermöglicht eine robuste und schnelle Vorhersage. Genaue Umkehrphasenvorhersagen zusammen mit hSAX- und SCX- Fraktionsvorhersagen erlauben es, bereits identifizierte Peptidspektrum-Identifikationen mit einer Support-Vektor-Maschine neu zu bewerten. Dabei können die identifizierten Protein-Protein-Interaktionen von einer tief-fraktionierten Escherichia coli Probe umdas Zweifache erhöht werden bei konstanter Falschfindungsrate. Fortschritte in der Quervernetzungschemie, der Probenvorbereitung, der Datenbanksuche und dem maschinellen Lernen zusammen bilden wesentliche Sprungbretter für die Identifizierung von quervernetzten Peptiden in komplexen Proben.
URI: https://depositonce.tu-berlin.de/handle/11303/13236
http://dx.doi.org/10.14279/depositonce-12031
Exam Date: 18-Sep-2020
Issue Date: 2021
Date Available: 28-Jul-2021
DDC Class: 570 Biowissenschaften; Biologie
000 Informatik, Informationswissenschaft, allgemeine Werke
Subject(s): proteomics
machine learning
deep learning
structural biology
crosslinking
Proteomik
Maschinelles Lernen
Tiefes Lernen
Strukturbiologie
Quervernetzung
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:FG Bioanalytik » Publications

Files in This Item:
giese_sven.pdf
Format: Adobe PDF | Size: 41.42 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons