Massive parallelization of combinatorial statistical genetics analyses porting machine learning methods on general purpose graphics processing units (GPU)

dc.contributor.advisorMüller, Klaus Roberten
dc.contributor.authorKam-Thong, Tonyen
dc.contributor.grantorTechnische Universität Berlin, Fakultät IV - Elektrotechnik und Informatiken
dc.date.accepted2012-07-10
dc.date.accessioned2015-11-20T21:33:52Z
dc.date.available2012-08-16T12:00:00Z
dc.date.issued2012-08-16
dc.date.submitted2012-08-16
dc.description.abstractDank jüngster Fortschritte in der Genomsequenzierung und automatisierten Phänotypisierung wurde es möglich den Zusammenhang zwischen Genotyp und Phänotyp mit bislang unerreichter Präzision zu untersuchen. Wahrend die Zuordnung von Phänotypen auf einzelne Loci im Genom zum Standardverfahren geworden ist, bleibt die Epistasis-Suche, d.h. die Zuordnung von Phänotypen auf zwei oder mehr Loci eine rechnerische Herausforderung. Epistatische Interaktionen zwischen Loci tragen jedoch wesentlich zur phänotypischen Varianz bei. Mit Hilfe der Rechenleistung von Graphikkarten konnte die Suche nach solchen Interaktionen mittels linearer und logistischer Regressionen auf einem einzelnen Rechner ermöglicht werden. Der Einsatz von Graphics Processing Units (GPUs) wird zudem immer ökonomischer und bedienungsfreundlicher. Unsere Gruppe hat neue Programme entwickelt, um GPUs für das Epistasis Problem einzusetzen. Ein GPU-spezifischer kernel code schaltet die parallele Rechenleistung der GPUs frei und ermöglicht die statistische Berechnung aller möglichen Loci Paare. Die erreichbare Rechenleistung übertrifft Single-CPU-Core und Multiple-CPU-Core basierte Ansätze. Die erschöpfende Epistasis-Suche steht damit allen interessierten Wissenschaftlern zur Verfügung. Insbesondere erlaubt es uns die Umsetzung einer systematischen Epistasis-Erfassungs-Studie basierend auf eine grosse Vielzahl von bereits veröffentlichten GWAS Daten, einschliesslich dem Wellcome Trust Case Control Consortium (WTCCC). Zur Berechnung von statistischen Signifikanzen in biologischen Daten mit über Hundert Milliarden Interaktionen wird nicht mehr als ein einzelner Computer benötigt. Dadurch werden entsprechende Untersuchungen erschwinglich und es kann vermehrt mit neuen Erkenntnissen aus ihnen gerechnet werden.de
dc.description.abstractRecent advances in sequencing technology and automated phenotyping render it possible to study the relationship between genotype and phenotype at an unprecedented level of detail. While mapping phenotypes to single loci in the genome is a standard technique in Statistical Genetics, the problem of epistasis search, that is mapping phenotypes to pairs of loci, remains computationally infeasible in practice. This is problematic, as epistatic interactions between loci are expected to contribute significantly to phenotypic variance. By making use of the computational power of graphics cards, we enable epistasis detection via linear and logistic regression on a single desktop machine. As the use of graphics processing units (GPUs) is becoming synonymous with an economical and ease-of-access parallel computing option, it is spawning many innovative projects in several fields of study. Our group has successfully developed new tools with the aim of using the multiple cores available on GPUs to solve the epistasis problem. A dedicated kernel code running on GPUs helps to unlock the parallel computational power of these devices and compute the statistical scores of all possible second order interactions. The GPU-bound programs have shown to outperform not only standard single CPU-core based approaches but also tools designed for multiple CPU cores by up to two orders of magnitude. The tools will be of great assistance to researchers intent on performing exhaustive epistasis searches. In particular, our implementations enable to conduct a systematic epistasis detection study on the large host of previously published Genome-wide association studies (GWAS) data, including Wellcome Trust Case Control Consortium (WTCCC). The vision of researchers employing no more than a single desktop computer to evaluate the statistical significance of interactions of biological inputs in the order of hundred of billions has become a reality. This will in turn help drive down costs and increase innovation in this field of study.en
dc.identifier.uriurn:nbn:de:kobv:83-opus-36091
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/3602
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-3305
dc.languageEnglishen
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/2.0/en
dc.subject.ddc620 Ingenieurwissenschaften und zugeordnete Tätigkeitenen
dc.subject.otherBioinformatikde
dc.subject.otherGenetikde
dc.subject.otherGraphics processing unitsde
dc.subject.otherMaschinelles Lernende
dc.subject.otherParallele Rechenleistungde
dc.subject.otherStatistikde
dc.subject.otherBioinformaticsen
dc.subject.otherGeneticsen
dc.subject.otherGraphics processing unitsen
dc.subject.otherMachine learningen
dc.subject.otherParallel computingen
dc.subject.otherStatisticsen
dc.titleMassive parallelization of combinatorial statistical genetics analyses porting machine learning methods on general purpose graphics processing units (GPU)en
dc.title.translatedMassive Parallelisierung der kombinatorischen statistischen Genetik-Analysen mit Methoden des maschinellen Lernens auf graphics processing units (GPU)de
dc.typeDoctoral Thesisen
dc.type.versionpublishedVersionen
tub.accessrights.dnbfree*
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatikde
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.identifier.opus33609
tub.identifier.opus43421
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
Dokument_26.pdf
Size:
9.41 MB
Format:
Adobe Portable Document Format

Collections