Machine learning on protein expression data

dc.contributor.advisorRappsilber, Juri
dc.contributor.authorGrabowski, Piotr
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeRappsilber, Juri
dc.contributor.refereeSelbach, Matthias
dc.date.accepted2019-01-25
dc.date.accessioned2020-01-31T16:09:09Z
dc.date.available2020-01-31T16:09:09Z
dc.date.issued2020
dc.description.abstractIntegrating gene expression data at transcript and protein level from many experiments helps in understanding functional relationships between genes, transcripts and the proteins they encode. Such approaches, collectively known as co-expression analysis, use various statistical methods to create pairwise association scores between genes or proteins. Co-expression analyses have been traditionally focused on transcript data due to the ever-increasing number of deposited datasets owing to the accessibility of mRNA-based technologies. However, there is growing evidence that protein expression is more closely linked to gene function. In this cumulative dissertation, I present my work on non-functional genomic effects on mRNA co-expression, which are absent on the protein level. These effects are predominantly rooted in genomic features such as 3D genome structure and epigenetic state. Genomic organization seems to have a direct, long-range effect on mRNA co-expression, e.g. through stochastic fluctuations between open and closed chromatin states or DNA replication timing. A considerable proportion of mRNA co-expression of spatially close gene pairs is not functional and buffered on the protein level, possibly through various post-transcriptional mechanisms. I demonstrate this effect in a human lymphoblastoid cell line panel and terminally differentiated mouse tissues by integrating publicly available omics datasets. Moreover, based on the notion of using protein data for co-expression analysis, I show how Random Forests can help in distinguishing patterns of mitochondrial protein localization in high-dimensional interphase chromatin data and even predict potential novel mitochondrial proteins. Finally, I show how machine learning can improve protein co-expression analytics over more classical statistical approaches, such as Pearson correlation. I integrate 294 high-quality SILAC experiments deposited in the PRIDE archive and calculate protein-wise functional links using tree-based unsupervised learning algorithm. The functional links between 5013 proteins resulting from my analysis are becoming part of the widely used STRING tool and thus will benefit biological researchers directly. Additionally, the resulting scores and data were made available via the ProteomeHD web app which I developed (https://www.proteomehd.net). At the methodological level, my work adds to the domain of computational systems biology and has impact on gene and protein function prediction efforts in the field. For example, the analysis of the protein co-expression scores helped to further annotate peroxisomal protein PEX11B and show its dual peroxisomal-mitochondrial function.en
dc.description.abstractDie Integration von Genexpressionsdaten aus Transkript- und Proteinhochdurchsatzmessungen hilft, funktionelle Beziehungen zwischen Genen, Transkripten und Proteinen zu verstehen. Ein bestimmter Ansatz, im Feld auch als Koexpressionsanalyse bezeichnet, nutzt verschiedene statistische Methoden, um paarweise Assoziationsmetriken zwischen Genen und Proteinen zu generieren. Bislang stützen sich Koexpressionsanalysen zumeist auf Transkriptionsdaten, da insbesondere dieser Typ Messdaten generiert und öffentlich verfügbar gemacht wurde. Jüngste Forschungsergebnisse legen jedoch nahe, dass die Expression von Proteinen stärker an die betreffende Genfunktion gebunden sind, als bisher angenommen. Diese kumulative Dissertation behandelt von mir untersuchte nicht-funktionale, genomische Effekte auf die Koexpression von mRNA, welche sich nicht auf die zu regulierenden Proteine auswirken. Diese Effekte beruhen zum überwiegenden Teil auf spezifischen genomischen Eigenschaften, wie der dreidimensionalen Chromatinstruktur und epigenetischer Zustände. Die genomische Architektur scheint direkte, weitreichende Effekte auf die mRNA-Koexpression zu haben, die beispielsweise aus stochastischen Fluktuationen zwischen offenen und geschlossenen Zuständen des Chromatins oder der Replikation von DNA hervorgehen könnte. Ein großer Anteil koexprimierter mRNAs proximal-liegender Gene besitzt keinen funktionalen Zusammenhang und wird auf Proteinebene gepuffert, wahrscheinlich aufgrund verschiedener posttranskriptioneller Mechanismen. Ich zeige diesen Effekt in menschlichen lymphoblastoiden Zelllinien und in differenzierten murinen Geweben durch Integration von öffentlich vorhandenen Omics-Datensätzen. Außerdem lege ich dar, wie ein Random Forest-Algorithmus Kovariationsmuster mitochondrialer Proteinen aus hochdimensionalen Interphasen-Chromatin-Daten extrahieren kann, um mögliche neue mitochondriale Proteine vorherzusagen. Schließlich zeige ich wie maschinelles Lernen die Analyse von Proteinkoexpression im Vergleich zu traditionellen statistischen Methoden, wie beispielsweise der Pearson Korrelationsanalyse, verbessern kann. Ich integriere 294 SILAC-Experimente, die im PRIDE-Archiv hinterlegt wurden und kalkuliere eine paarweise Protein-Assoziationsmetrik via Decision Tree-basiertem maschinellen Lernen. Beispielsweise erbrachte die detaillierte Analyse der Proteinkoexpressionsassoziationsmetrik eine neue Annotation des peroxisomalen Proteins PEX11B und half somit, dessen doppelte peroxisomal-mitochondriale Funktion aufzuklären. Die funktionelle Assoziationsmetrik zwischen den 5013 in meiner Analyse untersuchten Proteinen wird Teil der sehr weit verbreiteten STRING-Datenbank und wird die biologische Forschung unterstützen. Zusätzlich wurden die erarbeitete Assoziationsmetrik und Daten über die von mir erstellte ProteomeHD Web App (https://www.proteomehd.net) verfügbar gemacht. Meine Arbeit fügt ein bedeutendes Werkzeug zur Vorhersage von Gen- und Proteinfunktionen zu bisherigen Mitteln hinzu und trägt somit dazu bei, das Forschungsfeld rechentechnischer Systembiologie weiterzuentwickeln.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/10079
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-9070
dc.language.isoenen
dc.relation.haspart10.14279/depositonce-10866en
dc.relation.haspart10.14279/depositonce-5999en
dc.relation.haspart10.14279/depositonce-10867en
dc.relation.haspart10.14279/depositonce-10868en
dc.rights.urihttps://creativecommons.org/licenses/by-nd/4.0/en
dc.subject.ddc570 Biowissenschaften; Biologiede
dc.subject.otherproteomicsen
dc.subject.otheromics integrationen
dc.subject.othermachine learningen
dc.subject.othercomputational biologyen
dc.subject.otherProteomikde
dc.subject.otherOmics-Dateien-Integrationde
dc.subject.othermaschinelles Lernende
dc.subject.otherrechnerische Biologiede
dc.titleMachine learning on protein expression dataen
dc.title.subtitlepredicting functional relationships between proteinsen
dc.title.translatedVorhersagen der funktionellen Beziehungen zwischen Proteinen durch maschinelles Lernende
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 3 Prozesswissenschaften::Inst. Biotechnologie::FG Bioanalytikde
tub.affiliation.facultyFak. 3 Prozesswissenschaftende
tub.affiliation.groupFG Bioanalytikde
tub.affiliation.instituteInst. Biotechnologiede
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
grabowski_piotr.pdf
Size:
9.33 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.9 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections