Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-9070
For citation please use:
Main Title: Machine learning on protein expression data
Subtitle: predicting functional relationships between proteins
Translated Title: Vorhersagen der funktionellen Beziehungen zwischen Proteinen durch maschinelles Lernen
Author(s): Grabowski, Piotr
Advisor(s): Rappsilber, Juri
Referee(s): Rappsilber, Juri
Selbach, Matthias
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Integrating gene expression data at transcript and protein level from many experiments helps in understanding functional relationships between genes, transcripts and the proteins they encode. Such approaches, collectively known as co-expression analysis, use various statistical methods to create pairwise association scores between genes or proteins. Co-expression analyses have been traditionally focused on transcript data due to the ever-increasing number of deposited datasets owing to the accessibility of mRNA-based technologies. However, there is growing evidence that protein expression is more closely linked to gene function. In this cumulative dissertation, I present my work on non-functional genomic effects on mRNA co-expression, which are absent on the protein level. These effects are predominantly rooted in genomic features such as 3D genome structure and epigenetic state. Genomic organization seems to have a direct, long-range effect on mRNA co-expression, e.g. through stochastic fluctuations between open and closed chromatin states or DNA replication timing. A considerable proportion of mRNA co-expression of spatially close gene pairs is not functional and buffered on the protein level, possibly through various post-transcriptional mechanisms. I demonstrate this effect in a human lymphoblastoid cell line panel and terminally differentiated mouse tissues by integrating publicly available omics datasets. Moreover, based on the notion of using protein data for co-expression analysis, I show how Random Forests can help in distinguishing patterns of mitochondrial protein localization in high-dimensional interphase chromatin data and even predict potential novel mitochondrial proteins. Finally, I show how machine learning can improve protein co-expression analytics over more classical statistical approaches, such as Pearson correlation. I integrate 294 high-quality SILAC experiments deposited in the PRIDE archive and calculate protein-wise functional links using tree-based unsupervised learning algorithm. The functional links between 5013 proteins resulting from my analysis are becoming part of the widely used STRING tool and thus will benefit biological researchers directly. Additionally, the resulting scores and data were made available via the ProteomeHD web app which I developed (https://www.proteomehd.net). At the methodological level, my work adds to the domain of computational systems biology and has impact on gene and protein function prediction efforts in the field. For example, the analysis of the protein co-expression scores helped to further annotate peroxisomal protein PEX11B and show its dual peroxisomal-mitochondrial function.
Die Integration von Genexpressionsdaten aus Transkript- und Proteinhochdurchsatzmessungen hilft, funktionelle Beziehungen zwischen Genen, Transkripten und Proteinen zu verstehen. Ein bestimmter Ansatz, im Feld auch als Koexpressionsanalyse bezeichnet, nutzt verschiedene statistische Methoden, um paarweise Assoziationsmetriken zwischen Genen und Proteinen zu generieren. Bislang stützen sich Koexpressionsanalysen zumeist auf Transkriptionsdaten, da insbesondere dieser Typ Messdaten generiert und öffentlich verfügbar gemacht wurde. Jüngste Forschungsergebnisse legen jedoch nahe, dass die Expression von Proteinen stärker an die betreffende Genfunktion gebunden sind, als bisher angenommen. Diese kumulative Dissertation behandelt von mir untersuchte nicht-funktionale, genomische Effekte auf die Koexpression von mRNA, welche sich nicht auf die zu regulierenden Proteine auswirken. Diese Effekte beruhen zum überwiegenden Teil auf spezifischen genomischen Eigenschaften, wie der dreidimensionalen Chromatinstruktur und epigenetischer Zustände. Die genomische Architektur scheint direkte, weitreichende Effekte auf die mRNA-Koexpression zu haben, die beispielsweise aus stochastischen Fluktuationen zwischen offenen und geschlossenen Zuständen des Chromatins oder der Replikation von DNA hervorgehen könnte. Ein großer Anteil koexprimierter mRNAs proximal-liegender Gene besitzt keinen funktionalen Zusammenhang und wird auf Proteinebene gepuffert, wahrscheinlich aufgrund verschiedener posttranskriptioneller Mechanismen. Ich zeige diesen Effekt in menschlichen lymphoblastoiden Zelllinien und in differenzierten murinen Geweben durch Integration von öffentlich vorhandenen Omics-Datensätzen. Außerdem lege ich dar, wie ein Random Forest-Algorithmus Kovariationsmuster mitochondrialer Proteinen aus hochdimensionalen Interphasen-Chromatin-Daten extrahieren kann, um mögliche neue mitochondriale Proteine vorherzusagen. Schließlich zeige ich wie maschinelles Lernen die Analyse von Proteinkoexpression im Vergleich zu traditionellen statistischen Methoden, wie beispielsweise der Pearson Korrelationsanalyse, verbessern kann. Ich integriere 294 SILAC-Experimente, die im PRIDE-Archiv hinterlegt wurden und kalkuliere eine paarweise Protein-Assoziationsmetrik via Decision Tree-basiertem maschinellen Lernen. Beispielsweise erbrachte die detaillierte Analyse der Proteinkoexpressionsassoziationsmetrik eine neue Annotation des peroxisomalen Proteins PEX11B und half somit, dessen doppelte peroxisomal-mitochondriale Funktion aufzuklären. Die funktionelle Assoziationsmetrik zwischen den 5013 in meiner Analyse untersuchten Proteinen wird Teil der sehr weit verbreiteten STRING-Datenbank und wird die biologische Forschung unterstützen. Zusätzlich wurden die erarbeitete Assoziationsmetrik und Daten über die von mir erstellte ProteomeHD Web App (https://www.proteomehd.net) verfügbar gemacht. Meine Arbeit fügt ein bedeutendes Werkzeug zur Vorhersage von Gen- und Proteinfunktionen zu bisherigen Mitteln hinzu und trägt somit dazu bei, das Forschungsfeld rechentechnischer Systembiologie weiterzuentwickeln.
URI: https://depositonce.tu-berlin.de/handle/11303/10079
http://dx.doi.org/10.14279/depositonce-9070
Exam Date: 25-Jan-2019
Issue Date: 2020
Date Available: 31-Jan-2020
DDC Class: 570 Biowissenschaften; Biologie
Subject(s): proteomics
omics integration
machine learning
computational biology
Proteomik
Omics-Dateien-Integration
maschinelles Lernen
rechnerische Biologie
License: https://creativecommons.org/licenses/by-nd/4.0/
Appears in Collections:FG Bioanalytik » Publications

Files in This Item:
grabowski_piotr.pdf
Format: Adobe PDF | Size: 9.55 MB
DownloadShow Preview

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons