Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-3305
Main Title: Massive parallelization of combinatorial statistical genetics analyses porting machine learning methods on general purpose graphics processing units (GPU)
Translated Title: Massive Parallelisierung der kombinatorischen statistischen Genetik-Analysen mit Methoden des maschinellen Lernens auf graphics processing units (GPU)
Author(s): Kam-Thong, Tony
Advisor(s): Müller, Klaus Robert
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Dank jüngster Fortschritte in der Genomsequenzierung und automatisierten Phänotypisierung wurde es möglich den Zusammenhang zwischen Genotyp und Phänotyp mit bislang unerreichter Präzision zu untersuchen. Wahrend die Zuordnung von Phänotypen auf einzelne Loci im Genom zum Standardverfahren geworden ist, bleibt die Epistasis-Suche, d.h. die Zuordnung von Phänotypen auf zwei oder mehr Loci eine rechnerische Herausforderung. Epistatische Interaktionen zwischen Loci tragen jedoch wesentlich zur phänotypischen Varianz bei. Mit Hilfe der Rechenleistung von Graphikkarten konnte die Suche nach solchen Interaktionen mittels linearer und logistischer Regressionen auf einem einzelnen Rechner ermöglicht werden. Der Einsatz von Graphics Processing Units (GPUs) wird zudem immer ökonomischer und bedienungsfreundlicher. Unsere Gruppe hat neue Programme entwickelt, um GPUs für das Epistasis Problem einzusetzen. Ein GPU-spezifischer kernel code schaltet die parallele Rechenleistung der GPUs frei und ermöglicht die statistische Berechnung aller möglichen Loci Paare. Die erreichbare Rechenleistung übertrifft Single-CPU-Core und Multiple-CPU-Core basierte Ansätze. Die erschöpfende Epistasis-Suche steht damit allen interessierten Wissenschaftlern zur Verfügung. Insbesondere erlaubt es uns die Umsetzung einer systematischen Epistasis-Erfassungs-Studie basierend auf eine grosse Vielzahl von bereits veröffentlichten GWAS Daten, einschliesslich dem Wellcome Trust Case Control Consortium (WTCCC). Zur Berechnung von statistischen Signifikanzen in biologischen Daten mit über Hundert Milliarden Interaktionen wird nicht mehr als ein einzelner Computer benötigt. Dadurch werden entsprechende Untersuchungen erschwinglich und es kann vermehrt mit neuen Erkenntnissen aus ihnen gerechnet werden.
Recent advances in sequencing technology and automated phenotyping render it possible to study the relationship between genotype and phenotype at an unprecedented level of detail. While mapping phenotypes to single loci in the genome is a standard technique in Statistical Genetics, the problem of epistasis search, that is mapping phenotypes to pairs of loci, remains computationally infeasible in practice. This is problematic, as epistatic interactions between loci are expected to contribute significantly to phenotypic variance. By making use of the computational power of graphics cards, we enable epistasis detection via linear and logistic regression on a single desktop machine. As the use of graphics processing units (GPUs) is becoming synonymous with an economical and ease-of-access parallel computing option, it is spawning many innovative projects in several fields of study. Our group has successfully developed new tools with the aim of using the multiple cores available on GPUs to solve the epistasis problem. A dedicated kernel code running on GPUs helps to unlock the parallel computational power of these devices and compute the statistical scores of all possible second order interactions. The GPU-bound programs have shown to outperform not only standard single CPU-core based approaches but also tools designed for multiple CPU cores by up to two orders of magnitude. The tools will be of great assistance to researchers intent on performing exhaustive epistasis searches. In particular, our implementations enable to conduct a systematic epistasis detection study on the large host of previously published Genome-wide association studies (GWAS) data, including Wellcome Trust Case Control Consortium (WTCCC). The vision of researchers employing no more than a single desktop computer to evaluate the statistical significance of interactions of biological inputs in the order of hundred of billions has become a reality. This will in turn help drive down costs and increase innovation in this field of study.
URI: urn:nbn:de:kobv:83-opus-36091
http://depositonce.tu-berlin.de/handle/11303/3602
http://dx.doi.org/10.14279/depositonce-3305
Exam Date: 10-Jul-2012
Issue Date: 16-Aug-2012
Date Available: 16-Aug-2012
DDC Class: 620 Ingenieurwissenschaften und zugeordnete Tätigkeiten
Subject(s): Bioinformatik
Genetik
Graphics processing units
Maschinelles Lernen
Parallele Rechenleistung
Statistik
Bioinformatics
Genetics
Graphics processing units
Machine learning
Parallel computing
Statistics
Creative Commons License: https://creativecommons.org/licenses/by-nc-nd/2.0/
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
File Description SizeFormat 
Dokument_26.pdf9,63 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.