Loading…
Thumbnail Image

Statistical analysis of microarray based DNA methylation data

Model, Fabian

Innerhalb der letzten Jahre hat das Interesse an epigenetischen Mechanismen, insbesondere der DNA-Methylierung, dramatisch zugenommen. Die fundamentale Bedeutung epigenetischer Veränderungen wurde insbesondere in der Onkologie etabliert. Aberrierende DNA-Methylierung entsteht in einem frühen Stadium der Onkogenese, ist stabil und kann in Geweben und Körperflüssigkeiten nachgewiesen werden. Daher können Gene mit aberrierender DNA-Methylierung Hinweise zum Verständnis von Signaltransduktionswegen in Tumoren liefern und sind attraktive Kandidaten für die Detektion früher neoplastischer Veränderungen. Allerdings wurde eine groß angelegte Analyse von Kandidatengenen durch einen Mangel an Hochdurchsatzmethoden zur Methylierungsmessung gehemmt. Die Einführung des ersten Microarrays zur Messung von DNA-Methylierung hat dieses Problem gelöst indem es die gleichzeitige Messung mehrerer hundert ausgewählter CpG-Dinukleotide erlaubt. DNA-Microarray-Technologie hat bereits die Analyse von mRNA Expression revolutioniert. Sie hat allerdings auch eine Unmenge statistischer Probleme wie die der Qualitätskontrolle, der Markerselektion und der Klassifikation in hochdimensionalen Datenräumen aufgeworfen. In dieser Arbeit werden neuartige statistische Methoden zur Datenanalyse von DNA-Methylierungs-Microarrays entwickelt. Ausgehend von einem einfachen generativen Modell des Microarray-Messprozesses werden Algorithmen zur Normalisierung, Varianzstabilisierung und Bestimmung der DNA-Methylierungsrate hergeleitet. Diese Vorverarbeitungsmethoden erlauben eine optimale Schätzung der DNA-Methylierungsmuster einer gegebenen Probe aus den Microarray-Hybridisierungsintensitäten. Es wird eine Methodik zur Qualitäts- und Prozesskontrolle eingeführt, die es erlaubt die Qualität individueller Microarrays nur auf der Basis der eigentlichen Messwerte und ohne zusätzliche replizierte Experimente zu bestimmen. Dies erlaubt systematische experimentelle Fehler zuverlässig zu detektieren und damit die Datenqualität zu erhöhen. Weiterhin wird gezeigt wie phenotypische Klassen auf der Basis von Microarraymesswerten vorhergesagt werden können indem Verfahren der Merkmalsselektion und Diskriminanzanalyse verbunden werden. Durch den Vergleich verschiedener Merkmalsselektionsverfahren wird gezeigt, dass die richtige Strategie zur Dimensionsreduktion von entscheidender Bedeutung für eine gute Klassifikationsleistung ist. Die vorgestellten Methoden zur Qualitätskontrolle, Merkmalsselektion und Klassifikation sind so generisch, dass sie sowohl auf DNA-Methylierungs- als auch mRNA-Microarrays anwendbar sind. Die entwickelten Methoden werden auf eine große Microarraystudie zur Identifizierung von DNA-Methylierungsmarkern für Kolorektalkarzinome angewandt. In dieser Studie wurden 43 Kandidatengene auf DNA von 89 kolorektalen Adenokarzinomen, 55 kolorektalen Polypen, 31 chronisch entzündlichen Darmerkrankungen, 115 nicht kolorektalen Karzinomen und 67 gesunden Gewebeproben gemessen. Die 20 meistdiskriminierenden Marker sind hochgradig methyliert in kolorektalen Neoplasien (AUC>0.8; P<0.0001). Normales Epithelium und nicht kolorektale Karzinome zeigen signifikant geringere Methylierung. Die Resultate wurden mittels real-time PCR auf einem Satz unabhängiger Gewebeproben validiert. Die entdeckten Markergene mit hoher Spezifitaet für kolorektale Karzinome sind potentielle Marker für einen blutbasierten Früherkennungstest. Markergene die spezifisch für mehrere Arten von Karzinomen sind könnten als prognostische Indikatoren oder Biomarker für die Therapieüberwachung benutzt werden. Die Resultate zeigen klar, dass DNA-Methylierungsmicroarrays in Kombination mit den entwickelten Analysemethoden ein äußerst wertvolles Werkzeug zur Entdeckung neuer Tumormarker und zur Erforschung von DNA-Methylierung im Allgemeinen darstellen.
Over the past few years interest in epigentic mechanisms, especially DNA methylation, has increased dramatically. The fundamental importance of epigenetic changes has been established, particularly in oncology. Aberrant DNA methylation occurs early in oncogenesis, is stable, and can be assayed in tissues and body fluids. Therefore genes with aberrant methylation can provide clues for understanding tumor pathways and are attractive candidates for detection of early neoplastic events. However, large-scale analysis of candidate genes has been hampered by the lack of high throughput assays for methylation detection. The introduction of the first microarray for DNA methylation analysis addressed this problem by allowing the measurement of several hundred selected CpG dinucleotides in parallel. DNA microarray technology has already revolutionized mRNA expression analysis. It also introduced a plethora of statistical problems such as control and maintenance of data quality and handling of high dimensional and usually under-determined marker selection or classification problems. In this thesis novel statistical methods for the analysis of DNA methylation microarray data are developed. Starting from a simple generative model of the microarray measurement process algorithms for normalization, variance stabilization and DNA methylation rate estimation are derived. These pre-processing methods allow for an optimal estimation of DNA methylation patterns from the microarray hybridization intensities of a given biological specimen. A methodology for microarray quality and process control is introduced that estimates the quality of individual microarrays based solely on the distribution of the actual measurements without requiring repeated experiments. It can be used to reliably detect systematic experimental errors resulting in an improvement of overall data quality. Subsequently it is demonstrated how phenotypic classes can be predicted from microarray measurements by combining feature selection and discriminant analysis. By comparing several feature selection methods it is shown that the right dimension reduction strategy is of crucial importance for the classification performance. Methods for DNA microarray quality control, feature selection and class prediction are derived in a generic fashion that makes them equally applicable to DNA methylation and mRNA expression microarray data. The developed methods are applied in a large microarray study to identify DNA methylation markers specific for colorectal neoplasia. In this study 43 candidate genes were probed with DNA from 89 colorectal adenocarcinomas, 55 colorectal polyps, 31 inflammatory bowel disease, 115 extracolonic cancers, and 67 healthy tissues. The 20 most discriminating markers are highly methylated in colorectal neoplasia (AUC>0.8; P<0.0001). Normal epithelium and extracolonic cancers reveal significantly lower methylation. Results are validated on an independent sample set by real-time PCR. The discovered markers with high specificity for colorectal cancer have potential as blood-based screening markers whereas markers that are specific for multiple cancers could potentially be used as prognostic indicators or biomarkers for therapeutic response monitoring. The results clearly demonstrate that DNA methylation microarrays in combination with the developed analysis methods constitute a valuable tool for the discovery of novel epigenetic tumor markers and DNA methylation research in general.