Combining traditional methods with novel machine learning techniques to understand the translation of genetic code into biological function

dc.contributor.advisorMüller, Klaus-Robert
dc.contributor.authorMieth, Bettina
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeMüller, Klaus-Robert
dc.contributor.refereeNavarro, Arcadi
dc.contributor.refereeMartus, Peter
dc.date.accepted2021-06-08
dc.date.accessioned2021-08-31T10:12:40Z
dc.date.available2021-08-31T10:12:40Z
dc.date.issued2021
dc.description.abstractOne of the great challenges in modern biology is understanding the genome and its translation into biological structures and function. In this context, the aim of this dissertation is to show that combinatorial approaches of traditional methods and novel machine learning ideas can be developed and successfully applied to analyze large-scale biological datasets and provide novel insights into genetic and transcriptomic variation. This proposed thesis is validated in two fields of biological research: genome-wide association studies (GWAS) and single-cell RNA sequencing (scRNA-Seq). For the analysis of such data, we propose three novel methods, each consisting of traditional methods on the one hand and state-of-the-art machine learning algorithms on the other. It is shown that these combinatorial approaches outperform both their individual methodological components and existing techniques on suitable corresponding datasets in terms of statistical power and accuracy. The standard approach to the evaluation of GWAS is based on testing each position in the genome individually for statistical significance of its association with the phenotype under investigation. To improve the analysis, we propose a combination of machine learning and statistical testing that takes correlation structures within the set of single-nucleotide polymorphisms (SNP) under investigation in a mathematically well-controlled manner into account. The general idea is to train an appropriate state-of-the-art classification algorithm, selecting a subset of candidate locations that are most relevant for the classifier’s decisions and examining only those for significant associations via multiple statistical hypothesis testing. This dissertation’s first methodological contribution, the two-step algorithm, COMBI, first trains a support vector machine to determine a subset of candidate SNPs and then performs hypothesis tests for these SNPs together with an adequate threshold correction. Applying COMBI to generated datasets as well as data from a WTCCC study (2007), we show that the novel method outperforms ordinary raw p-value thresholding and other state-of-the-art methods. COMBI presents higher power and precision than the examined alternatives while yielding fewer false (i.e. non-replicated) and more true (i.e. replicated) discoveries when its results are validated on later GWAS. Deep learning has become one of the leading methodologies in data science, which oftentimes greatly improves prediction performances in comparison to conventional approaches. Recently, explainable artificial intelligence has emerged as a novel area of research that goes beyond pure prediction improvement by extracting knowledge from deep learning methodologies through the interpretation of their results. Following these developments, we present the second methodological contribution of this dissertation, DeepCOMBI - an improved, deep learning- and explanation-based extension of the previously proposed method COMBI. The three-step algorithm of DeepCOMBI first trains a neural network to classify subjects into their respective phenotypes. Second, it explains the classifier’s decisions by applying layer-wise relevance propagation as one example from the pool of explanation techniques. The resulting importance scores are eventually used to determine a subset of the most relevant locations for multiple hypothesis testing in the third step, which remains unchanged as in the original COMBI method. DeepCOMBI is shown to outperform COMBI, raw p-value thresholding and other baseline methods on generated datasets and the 2007 WTCCC study. Beyond improving the identification of associations between phenotypes and genotypes, in this dissertation, we contribute to understanding how genetic information is translated into physical structures and biological function. When exploring the flow of sequential information from DNA to mRNA to proteins, we interpret the genome in the context of cell types and aim to identify the genes that are active in certain cells. Within this frame of reference, the goal of scRNA-Seq experiments is to define and catalog cell types from the transcriptional output of individual cells, which refers to an unsupervised clustering problem. To improve the clustering of small disease- or tissue-specific datasets, for which the identification of rare cell types is often problematic, we propose to combine conventional clustering algorithms with the machine learning concept of transfer learning to utilize large and well-annotated reference datasets. This dissertation’s third methodological contribution modifies the target dataset while incorporating key information from the reference dataset via non-negative matrix factorization before providing the modified dataset to a traditional downstream clustering algorithm. We empirically evaluate the benefits of the novel approach on simulated scRNA-Seq data as well as on publicly available datasets. Finally, we present results for analyzing a recently published small dataset and find improved clustering when transferring knowledge from a large independent reference dataset. To summarize, this dissertation contributes to a better understanding of the genome and the processes around its translation into biological structures and function. By proposing three approaches for the analysis of large-scale biological datasets combining traditional methods and state-of-the-art machine learning algorithms, it is shown that, in this regard, too, “the whole is greater than the sum of its parts” (indirect quote derived from Aristotle, 4th century BC).en
dc.description.abstractEine der größten Herausforderungen der modernen Biologie besteht darin, das Genom und seine Umwandlung in biologische Strukturen und Funktionen zu verstehen. In diesem Zusammenhang wird in dieser Dissertation gezeigt, dass kombinatorische Ansätze traditioneller Methoden und neuartiger Ideen des maschinellen Lernens entwickelt und erfolgreich angewendet werden können, um große biologische Datensätze zu analysieren und neue Einblicke in genetische und transkriptomische Variationen zu erhalten. Diese für diese Arbeit aufgestellte These wird in zwei Bereichen der biologischen Forschung validiert: genomweite Assoziationsstudien (GWAS) und Einzelzell-RNA-Sequenzierung (scRNA-Seq). Es werden insgesamt drei neue Methoden vorgeschlagen, die jeweils aus traditionellen Methoden auf der einen Seite und modernen maschinellen Lernalgorithmen auf der anderen Seite bestehen. Es wird gezeigt, dass diese kombinatorischen Ansätze sowohl ihre einzelnen methodischen Komponenten als auch andere bereits existierende Konkurrenzmethoden bei der Anwendung auf entsprechenden Datensätzen hinsichtlich statistischer Power und Accuracy übertreffen. Der Standardansatz für die Auswertung von GWAS basiert darauf, jede Position im Genom einzeln auf statistische Signifikanz ihrer Assoziation mit dem untersuchten Phänotyp zu testen. Um die Analyse zu verbessern, schlagen wir eine Kombination aus maschinellem Lernen und statistischem Testen vor, bei der Korrelationsstrukturen zwischen den untersuchten Einzelnukleotid-Polymorphismen (SNP) mathematisch kontrolliert berücksichtigt werden. Die zugrundeliegende Idee besteht darin, zunächst einen geeigneten Klassifizierungsalgorithmus zu trainieren, danach die Teilmenge aller SNPs auszuwählen, die für die Entscheidungen des Klassifizierers am relevantesten sind und letztendlich diese mit multiplen statistischen Hypothesentests auf signifikante Assoziationen zu untersuchen. Der erste im Rahmen dieser Dissertation entwickelte, zweistufige Algorithmus COMBI trainiert zunächst eine Support Vector Machine, um die Teilmenge der bedeutendsten Kandidaten-SNPs zu bestimmen und führt dann Hypothesentests mit einer entsprechenden Anpassung des Signifikanzlevels für diese SNPs durch. Mit der Anwendung von COMBI auf generierten Datensätzen sowie auf Daten aus einer WTCCC-Studie (2007) wird gezeigt, dass die neue Methode bessere Ergebnisse liefert als gewöhnliches multiples Testen sowie andere Konkurrenzmethoden. COMBI ermöglicht höhere statistische Power und Präzision als die untersuchten Alternativen und liefert weniger falsche (d.h. nicht replizierte) und mehr wahre (d.h. replizierte) Entdeckungen, wenn die jeweiligen Ergebnisse mit unabhängigen GWAS validiert werden. In den letzten Jahren wurde tiefes Lernen zu einer der führenden Methoden der Datenwissenschaften, die die Vorhersageleistungen im Vergleich zu herkömmlichen Ansätzen häufig erheblich verbessert. In jüngster Zeit hat sich zudem erklärbare künstliche Intelligenz (Explainable AI) zu einem neuartigen Forschungsgebiet entwickelt, das über die reine Vorhersageverbesserung hinausgeht und Wissen aus Deep-Learning-Methoden extrahiert, indem ihre Ergebnisse interpretiert und erklärt werden. Im Rahmen dieser Fortschritte entwickeln wir eine Erweiterung von COMBI, die auf tiefem Lernen und erklärbarer künstlicher Intelligenz basiert. Dieser zweite im Rahmen der Dissertation entwickelte, dreistufige Algorithmus DeepCOMBI trainiert zunächst ein neuronales Netzwerk für die Klassifizierung von Probanden in ihre jeweiligen Phänotypen. Anschließend werden die Entscheidungen der Klassifizierung mit Layerwise Relevance Propagation erklärt und die Ergebnisse verwendet, um die relevantesten SNPs zu identifizieren. Wie bei der ursprünglichen COMBI-Methode werden diese SNPs im dritten Schritt auf statistische Assoziation getestet. Auf generierten Datensätze und der bereits genannten WTCCC Studie von 2007 wird gezeigt, dass DeepCOMBI bessere Vorhersageleistungen erbringt als COMBI, gewöhnliches multiples Testen und andere Konkurrenzmethoden. Über die Verbesserung der Identifizierung von Assoziationen zwischen Phänotypen und Genotypen hinausgehend, tragen wir in dieser Dissertation dazu bei, besser zu verstehen, wie genetische Informationen in phänotypische Strukturen und biologische Funktionen übersetzt werden. Bei der Untersuchung der Umwandlung genetischer Informationen von DNA über mRNA zu Proteinen wird das Genom häufig im Kontext von Zelltypen interpretiert, indem untersucht wird, welche Gene in bestimmten Zellen aktiv sind. In diesem Kontext ist das Ziel von scRNA-Seq-Experimenten die Definition und Katalogisierung von Zelltypen basierend auf dem Transkriptom einzelner Zellen, was auf ein unüberwachtes Clustering-Problem hinausläuft. Beim Clustern von kleinen krankheits- oder gewebespezifischen Datensätzen ist die Identifizierung seltener Zelltypen häufig problematisch. Deshalb schlagen wir vor, herkömmliche Clustering-Algorithmen mit dem Konzept des Transfer Learnings zu kombinieren, um große und gut untersuchte Referenzdatensätze verwenden zu können. Der dritte im Rahmen der Dissertation vorgeschlagene, kombinatorische Ansatz modifiziert daher den Zieldatensatz, indem Informationen aus dem Referenzdatensatz über eine nichtnegative Matrixfaktorisierung einbezogen werden, bevor der modifizierte Datensatz mit einem Clustering-Algorithmus analysiert wird. Die Leistung der vorgeschlagenen Methode wird auf simulierten scRNA-Seq-Daten sowie auf öffentlich verfügbaren Datensätzen empirisch evaluiert. Schließlich präsentieren wir die Ergebnisse der Analyse eines kürzlich veröffentlichten kleinen Datensatzes und finden ein verbessertes Clustering beim Transfer von Informationen aus einem großen Referenzdatensatz. Zusammenfassend trägt diese Dissertation zu einem besseren Verständnis des Genoms und der Prozesse rund um seine Übersetzung in biologische Strukturen und Funktionen bei. Mit der Entwicklung dreier kombinatorischer Ansätze für die Analyse biologischer Datensätze aus traditionellen Methoden einerseits und modernen Algorithmen des maschinellen Lernens andererseits, wird gezeigt, dass auch hier “das Ganze mehr ist als die Summe seiner Teile” (sinngemäß Aristoteles, 4. Jh. v. Chr.).de
dc.description.sponsorshipBMBF, 01IS18037A, BIFOLD-BZMLen
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/13428
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-12214
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddc004 Datenverarbeitung; Informatikde
dc.subject.ddc519 Wahrscheinlichkeiten, angewandte Mathematikde
dc.subject.ddc576 Genetik und Evolutionde
dc.subject.ddc610 Medizin und Gesundheitde
dc.subject.othermachine learningen
dc.subject.otherbioinformaticsen
dc.subject.othergeneticsen
dc.subject.otherexplainable artificial intelligenceen
dc.subject.othermultiple statistical hypotesis testingen
dc.subject.othermaschinelles Lernende
dc.subject.otherBioinformatikde
dc.subject.otherGenetikde
dc.subject.othererklärbare künstliche Intelligenzde
dc.subject.othermultiples statistisches Hypothesentestende
dc.titleCombining traditional methods with novel machine learning techniques to understand the translation of genetic code into biological functionen
dc.title.translatedKombination von traditionellen Methoden und modernen Techniken des maschinellen Lernens für die verbesserte Übersetzung genetischen Codes in biologische Funktionde
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatik::FG Maschinelles Lernende
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.groupFG Maschinelles Lernende
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
mieth_bettina.pdf
Size:
16.09 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.9 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections