Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-4648
Main Title: Verbesserte Auswertung viraler Next Generation Sequencing-Daten am Beispiel von Kuhpockenviren
Translated Title: Improved analysis of viral Next Generation Sequencing data using the example of Cowpox viruses
Author(s): Dąbrowski, Piotr Wojciech
Advisor(s): Nitsche, Andreas
Referee(s): Lauster, Roland
Rappsilber, Juri
Nitsche, Andreas
Granting Institution: Technische Universität Berlin, Fakultät III - Prozesswissenschaften
Type: Doctoral Thesis
Language: German
Language Code: de
Abstract: Die rasante Entwicklung des Next Generation Sequencing (NGS) erlaubt es, riesige Datenmengen innerhalb kürzester Zeit zu generieren – ein MiSeq der Firma Illumina kann beispielsweise innerhalb von ca. 56 Stunden ein Datenvolumen von bis zu 15 Milliarden Basen generieren. Dadurch wird es möglich, innerhalb eines knapp einwöchigen Versuches mehrere humane, mehrere zig bakterielle oder gar mehrere hundert virale Genome zu sequenzieren. Dies stellt vorhandene Auswertetools für NGS-Daten insbesondere bei der Sequenzierung von Viren vor eine große Herausforderung, da diese auf die individuelle Auswertung einzelner großer Datensätze ausgelegt sind. Selbst wenn die Analyse eines einzelnen viralen Genoms nur wenige Tage Arbeitszeit in Anspruch nehmen kann, entsteht hier nach einer parallelen Sequenzierung von hunderten von Genomen innerhalb weniger Tage ein Flaschenhals bei der Analyse. Außerdem sind die meisten Analyse-Tools auf die Auswertung humaner oder bakterieller Sequenzen ausgelegt, die Besonderheiten viraler Sequenzen werden nicht berücksichtigt. Im Rahmen dieser Arbeit wurden die Genome von 22 am Zentrum für Biologische Gefahren und Spezielle Pathogene am Robert Koch-Institut neu sequenzierten Kuhpockenvirenisolaten mit den bereits vorhandenen Tools ausgewertet. Während der Auswertung wurden mehrere Lücken in den bisher vorhandenen bioinformatischen Tools identifiziert: - Es existierte kein Tool, mit dessen Hilfe eine schnelle, sensitive und spezifische Auftrennung von NGS-Daten durchgeführt werden konnte, in denen Reads sowohl aus dem viralen als auch aus dem Wirtsgenom vorhanden waren - Keiner der bisher publizierten Assembler war in der Lage, die in einem eng verwandten viralen Referenzgenom vorhandene Information effektiv für ein de novo assembly zu nutzen - Es war kein Tool publiziert, welches einen schnellen SNP-basierten Überblick über den phylogenetischen Zusammenhang neu sequenzierter Organismen liefern konnte. Um diese Lücken zu schließen, wurden in dieser Arbeit drei neue bioinformatische Tools entwickelt. Diese neuen Tools wurden auf die Daten der 22 neu sequenzierten Kuhpockenvirenisolate angewendet und die Ergebnisse wurden mit den Ergebnissen der initialen mit existierenden Tools durchgeführten Analyse verglichen. Mit den neuen Tools konnten die Ergebnisse der anfänglichen Auswertung reproduziert und in einigen Fällen sogar verbessert werden. Dabei war der Arbeitsaufwand bei Anwendung der neuen Tools so gering, dass sogar die Auswertung von hunderten von Genomen innerhalb weniger Tage möglich zu sein scheint.
Thanks to the rapid advance of Next Generation Sequencing (NGS), it is now possible to generate huge amounts of data within a short timeframe – Illumina’s MiSeq for instance can generate up to 15 Billion bases of data within 56 hours. This enables researchers to sequence several human, tens of bacterial or even hundreds of viral genomes within less than a week. Especially when sequencing viruses, this presents a significant hurdle for existing bioinformatics tools. These tools are mostly geared towards the individual analysis of single large datasets. However, even if the analysis of a single viral genome is possible within just a few hours to days, when hundreds of genomes are sequenced within less than a week this time requirement leads to bottlenecks in the analysis. Also, most existing analysis tools are geared towards the analysis of human or bacterial sequences, and thus the specific characteristics of viral sequences are not taken into account. Within this study, the genomes of 22 cowpoxvirus isolates newly sequenced at the Centre for Biological Threats and Special Pathogens of the Robert Koch Institute were analysed using existing tools. In the course of this analysis, several gaps in the existing tools were identified: - There was no tool that was able to quickly and sensitively separate NGS data containing sequences from both a virus and the host - No previously published assembler was able to efficiently integrate the information provided by a closely related reference genome into a de novo assembly - No tool for obtaining a quick SNP-based overview of the phylogenetic relationship of newly sequenced organisms had been published. In order to close these gaps, three new analysis tools were developed within this study. These new tools were used to re-analyse the data from the newly sequenced cowpoxvirus isolates and the results were compared to the results of the analysis previously performed with existing tools. The results of the analysis performed using the newly developed tools were consistent with and in some cases better than those obtained during the initial analysis. Also, the hands-on time required to perform the analysis using the newly developed tools was so much shorter than when using previously published tools that an analysis of hundreds of genomes within a few days now seems achievable.
URI: urn:nbn:de:kobv:83-opus4-70719
http://depositonce.tu-berlin.de/handle/11303/4945
http://dx.doi.org/10.14279/depositonce-4648
Exam Date: 14-Jul-2015
Issue Date: 6-Oct-2015
Date Available: 6-Oct-2015
DDC Class: 500 Naturwissenschaften und Mathematik
Subject(s): Bioinformatik
Datenauswertung
Phylogenie
Assembly
Bioinformatics
Data analysis
Mapping
Next generation sequencing
Phylogeny
Creative Commons License: https://creativecommons.org/licenses/by/3.0/de/
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 3 Prozesswissenschaften » Institut für Biotechnologie » Publications

Files in This Item:
File Description SizeFormat 
dabrowski_piotrwojciech.pdf4.11 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.