Data analysis strategies for proteome-wide crosslinking mass spectrometry

dc.contributor.authorLenz, Swantje
dc.contributor.grantorTechnische Universität Berlin
dc.contributor.refereeRenard, Bernhard
dc.contributor.refereeRappsilber, Juri
dc.date.accepted2022-05-24
dc.date.accessioned2023-03-01T13:46:08Z
dc.date.available2023-03-01T13:46:08Z
dc.date.issued2023
dc.description.abstractAs enzymes, building blocks or messengers, proteins are essential molecules in life. They often function together with other proteins in complexes or in transient interactions. A crucial part of understanding their function is knowing their structure and their interaction partners. Crosslinking mass spectrometry (crosslinking MS) has by now been established as a method to study protein interactions and structures by delivering medium-resolution inter- residue distances. Initially, crosslinking MS studies were limited to single proteins or complexes, but the technology has the potential to be used in more complex samples, with the goal to detect protein-protein interactions at a proteome-wide scale. To realise this, the technology requires development and optimization of multiple steps of the workflow. In this thesis, I focus on the data analysis of crosslinking MS data at different points of the workflow. The work of this thesis increased the number of identifications during database search and provides the groundwork for further optimisation of the crosslinking MS workflow. It demonstrates data-driven evaluation of experimental tests and provides a reliable procedure for error estimation. First, I show that for crosslinked peptides, due to their low abundance and large size, the monoisotopic precursor mass is often misassigned by the mass spectrometer software. We implemented a solution into our database search, where multiple masses are searched. This increased the number of crosslinked identifications significantly. Another important factor in MS acquisition is the fragmentation of crosslinked peptides. I therefore analysed the fragmentation behaviour of the MS-cleavable crosslinker DSSO, which is commonly used for large-scale crosslinking MS studies. We analyse commonly used workflows regarding the peptide fragmentation and utilisation of the characteristic peaks during database search. This showed that the advantage of MS-cleavable crosslinkers lies in the improved fragmentation and showed that some workflows are suboptimal in their speed. Finally, we use a controlled sample of E. coli lysate to demonstrate a reliable procedure to estimate the error of crosslinked PPIs. The study was set up to allow for an experimental control of the error. With this and three other controls we show that for a reliable error estimation in crosslinked PPIs, the FDR needs to be calculated separately for self and heteromeric matches and on the PPI-level. This error estimation was applied to our E. coli lysate and provided a reliable network of protein-protein interaction. Here, we found an unknown binder to RNA polymerase which we map to its binding site with use of the structural information of the crosslinks. Overall, the results of this work allowed us to use crosslinking MS on the scale of proteome-wide, in-cell studies. The next challenge will be increasing the depth to allow detection of low abundant proteins, which will require further optimisation of crosslinking MS.en
dc.description.abstractIn Form von Enzymen, Bausteinen oder Botenstoffen agieren Proteine als wesentliche Moleküle des Lebens. Gemeinsam mit anderen Proteinen wirken sie oft als Protein-Komplexe oder in kurzlebigen Interaktionen. Dabei ist die Kenntnis ihrer Struktur und Interaktionspartner für das Verständnis ihrer Funktion entscheidend. Als Methode zur Untersuchung von Proteininteraktionen und -strukturen hat sich die Crosslinking-Massenspektrometrie (Crosslinking MS) etabliert, da sie Distanzen zwischen Aminosäureresten in mittlerer Auflösung liefert. Ursprünglich waren Crosslinking MS Studien auf einzelne Proteine oder Komplexe beschränkt, aber die Technologie hat das Potenzial, in komplexeren Proben eingesetzt zu werden und Protein-Protein-Interaktionen auf einem proteomweiten Maßstab zu erkennen. Um dieses Potenzial auszuschöpfen, muss die Technologie in mehreren Schritten des Arbeitsablaufs weiterentwickelt und optimiert werden. In dieser Arbeit konzentriere ich mich auf die Datenanalyse von Crosslinking-MS- Daten an verschiedenen Stellen des Arbeitsablaufs. Die Arbeit hat die Zahl der Identifizierungen der Datenbanksuche erhöht und liefert die Grundlage für die weitere Optimierung des Arbeitsablaufs bei der Crosslinking MS. Sie demonstriert die datengesteuerte Auswertung experimenteller Tests und liefert ein zuverlässiges Verfahren zur Fehlerabschätzung. Zunächst zeige ich, dass bei vernetzten Peptiden aufgrund ihrer Größe und geringen Abundanz die monoisotopische Vorläufermasse von der Software des Massenspektrometers oft falsch zugeordnet wird. Wir haben eine Lösung in unsere Datenbanksuche implementiert, bei der nach mehreren Massen gesucht wird. Dadurch kann die Zahl der vernetzten Identifizierungen erheblich gesteigert werden. Ein weiterer wichtiger Faktor bei der MS Akquisition ist die Fragmentierung von vernetzten Peptiden. Daher haben wir das Fragmentierungsverhalten des MS-spaltbaren Crosslinkers DSSO analysiert, der üblicherweise für groß angelegte Crosslinking MS Studien verwendet wird. Wir analysierten gängige Arbeitsabläufe hinsichtlich der Peptidfragmentierung und der Nutzung der charakteristischen Peaks bei der Datenbanksuche. Dabei zeigte sich, dass der Vorteil von MS-spaltbaren Crosslinkern in der verbesserten Fragmentierung liegt und dass einige Arbeitsabläufe in ihrer Geschwindigkeit suboptimal sind. Schließlich demonstrieren wir anhand einer kontrollierten Probe von E. coli Lysat ein zuverlässiges Verfahren zur Abschätzung des Fehlers von vernetzten PPIs. Die Studie ermöglicht uns eine experimentelle Kontrolle des Fehlers. Mit dieser und drei weiteren Kontrollen zeigen wir, dass für eine zuverlässige Fehlerabschätzung für vernetzte PPIs die FDR separat für Selbst- und Heteromere PPIs und auf PPI-Ebene berechnet werden muss. Diese Fehlerabschätzung wird auf unser E. coli Lysat angewandt und liefert ein zuverlässiges PPI- Netzwerk. Wir haben einen unbekannten Binder für die RNA-Polymerase gefunden, den wir mit Hilfe der Strukturinformationen der Crosslinks auf seine Bindungsstelle abbilden. Insgesamt ermöglichen uns die Ergebnisse dieser Arbeit, Crosslinking MS auf die Ebene von proteomweiten, zellinternen Studien zu bringen. Die nächste Herausforderung besteht darin, die Tiefe der Analyse zu erweitern, um auch Proteine mit geringer Abundanz nachzuweisen, wofür weitere Optimierungen der Crosslinking MS erforderlich sind.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/17524
dc.identifier.urihttps://doi.org/10.14279/depositonce-16305
dc.language.isoenen
dc.relation.haspart10.14279/depositonce-12306
dc.relation.haspart10.14279/depositonce-17513
dc.relation.haspart10.14279/depositonce-17514
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddc570 Biowissenschaften; Biologiede
dc.subject.otherproteomicsen
dc.subject.othercrosslinking mass spectrometryen
dc.subject.otherProtein-Protein-Interaktionende
dc.titleData analysis strategies for proteome-wide crosslinking mass spectrometryen
dc.title.translatedDatenanalysestrategien für proteomweite Crosslinking Massenspektrometriede
dc.typeDoctoral Thesis
dc.type.versionacceptedVersion
dcterms.rightsHolder.referenceDeposit-Lizenz (Erstveröffentlichung)
tub.accessrights.dnbfree
tub.affiliationFak. 3 Prozesswissenschaften::Inst. Biotechnologie::FG Bioanalytikde
tub.affiliation.facultyFak. 3 Prozesswissenschaftende
tub.affiliation.groupFG Bioanalytikde
tub.affiliation.instituteInst. Biotechnologiede
tub.publisher.universityorinstitutionTechnische Universität Berlin

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
lenz_swantje.pdf
Size:
8.03 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.86 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections