Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-2052
Main Title: Machine Learning Methods for Life Sciences: Intelligent Data Analysis in Bio- and Chemoinformatics
Translated Title: Methoden des Maschinellen Lernens für die Lebenswissenschaften: Intelligente Datenanalyse in Bio- und Chemoinformatik
Author(s): Mohr, Johannes
Advisor(s): Obermayer, Klaus
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: In den letzten Jahren haben die experimentellen Techniken innerhalb der Lebenswissenschaften rapide Fortschritte gemacht. Zusätzlich hat die Integration von Methoden verschiedener Disziplinen zur Bildung neuer Forschungsgebiete geführt, wie genetische Bildgebung, molekulare Medizin und biologische Psychologie. Der experimentelle Fortschritt wurde von einem wachsenden Bedarf an intelligenter Datenanalyse begleitet, deren Ziel es ist, einen gegebenen Datensatz unter Einbeziehung von Domänenwissen auf die meistversprechende Art und Weise zu analysieren. Dies schließt die Repräsentation der Daten, die Auswahl der Variablen, die Vorverarbeitung, die Modellannahmen, die Wahl der Methoden für Prädiktion, Modellselektion und Regularisierung ebenso ein wie die Interpretation der Ergebnisse. Das Thema der vorliegenden Arbeit ist die intelligente Datenanalyse in den Bereichen Bioinformatik und Chemoinformatik mit Hilfe von Methoden des maschinellen Lernens. Das Ziel der genetischen Bildgebung ist es, durch Assoziationsstudien zwischen potentiell relevanten genetischen Variablen und Endophänotypen einen Einblick in genetisch beeinflusste psychiatrische Erkrankungen zu erlangen. Im Rahmen dieser Arbeit werden zwei verschiedene Methoden zur explorativen Analyse entwickelt: Das erste Verfahren basiert auf P-SVM Merkmalselektion für multiple Regression und modelliert additive und multiplikative Geneffekte auf einen Endophänotypen mittels eines spärlichen Regressionsmodells. Die zweite Methode führt ein neues Lernparadigma namens Target Selection ein, um eine Assoziation zwischen einer einzelnen genetischen Variablen und einem multidimensionalen Endophänotypen zu modellieren. Oftmals sind in der Literatur mehrere verschiedene genetische Assoziationsmodelle vertreten, und die Frage ist, wieviel Evidenz ein gemessener Datensatz für jedes dieser Modelle bietet. Zu diesem Zweck wird in der vorliegenden Arbeit eine auf Informationskriterien basierende Modellvergleichsmethode für die genetische Bildgebung vorgeschlagen. Das Ziel der Analyse quantitativer Struktur-Wirkungs-Beziehungen (QSAR) ist es, die biologische Aktivität einer Substanz anhand ihrer Molekularstruktur vorherzusagen. Traditionell basieren QSAR Methoden auf einer Menge von molekularen Deskriptoren, die zur Bildung eines Prädiktionsmodells benutzt werden. In dieser Arbeit wird eine Deskriptor-freie Methode zur 3D QSAR Analyse vorgeschlagen, welche das Konzept von Molekül-Kerneln einführt, um die Ähnlichkeit zwischen den 3D-Strukturen zweier Moleküle zu erfassen. Die Molekül-Kernel können zusammen mit der P-SVM, einer kürzlich eingeführten Support-Vektor Maschine für dyadische Daten, dazu verwendet werden, explanatorische QSAR Modelle zu bauen, die keine explizite Konstruktion von Deskriptoren mehr benötigen. Die resultierenden Modelle verwenden direkt die strukturelle Ähnlichkeit zwischen den vorherzusagenden Substanzen und einer Menge von Support-Molekülen. Die vorgeschlagene Methode wird auf QSAR- und Genotoxizitätsdatensätze angewandt.
In the past few years, experimental techniques in the life sciences have undergone a rapid progress. Moreover, the integration of methods from different disciplines has led to the formation of new fields of research, like imaging genetics, molecular medicine and biological psychology. The experimental progress has come along with an increasing need for intelligent data analysis, which aims at analyzing a given dataset in the most promising way taking domain knowledge into account. This includes the representation of the data, the choice of variables, the preprocessing, the handling of missing values, the model assumptions, the choice of methods for prediction, model selection and regularization, as well as the interpretation of the results. The topic of this thesis is intelligent data analysis in the fields of bioinformatics and chemoinformatics using machine learning techniques. The goal of imaging genetics is to gain insight into genetically determined psychiatric diseases by association studies between potentially relevant genetic variants and endophenotypes. In this thesis, two different methods for an exploratory analysis are developed: The first method is based on P-SVM feature selection for multiple regression and models additive and multiplicative gene effects on an endophenotype using a sparse regression model. The second method introduces a new learning paradigm called target selection to model the association between a single genetic variable and a multidimensional endophenotype. Often, several different models for genetic association are suggested in the literature, and the question is how much evidence a measured dataset provides for each of them. For this purpose, a method for model comparison in imaging genetics is suggested in this thesis, which is based on the use of information criteria. The aim of quantitative structure activity relationship (QSAR) analysis is to predict the biological activity of compounds from their molecular structure. Traditionally, QSAR methods are based on extracting a set of molecular descriptors and using them to build a predictive model. In this thesis, a descriptor-free method for 3D QSAR analysis is proposed, which introduces the concept of molecule kernels to measure the similarity between the 3D structures of a pair of molecules. The molecule kernels can be used together with the P-SVM, a recently proposed support vector machine for dyadic data, to build explanatory QSAR models which do not require an explicit descriptor construction. The resulting models make direct use of the structural similarities between the compounds which are to be predicted and a set of support molecules. The proposed method is applied to QSAR- and genotoxicity datasets.
URI: urn:nbn:de:kobv:83-opus-21255
http://depositonce.tu-berlin.de/handle/11303/2349
http://dx.doi.org/10.14279/depositonce-2052
Exam Date: 19-Dec-2008
Issue Date: 12-Jan-2009
Date Available: 12-Jan-2009
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Bioinformatics
Chemoinformatics
Genotype-phenotype analysis
Machine learning
QSAR
Usage rights: Terms of German Copyright Law
Appears in Collections:Institut für Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
File Description SizeFormat 
Dokument_6.pdf2.19 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.