Loading…
Thumbnail Image

Regularization based multitask learning with applications in computational biology

Widmer, Christian

Diese Arbeit befasst sich mit einem in der biologischen Forschung alltäglichen Problem: Dem Entschlüsseln von biologischen Prozessen mit Hilfe von Experimenten aus verschiedenen biologischen Einheiten. So kann z.B. das Wissen aus verschiedenen Organismen, Gewebetypen, oder Tumorarten jeweils kombiniert werden, wobei man für deren Ähnlichkeiten und Unterschiede Sorge tragen muss. Wir betrachten diesen Ansatz als Problem des überwachten Lernens, wobei das gleiche Inferenzproblem in verschiedenen biologischen Einheiten gelöst wird. Hierfür evaluieren wir zwei Teilbereiche des Transferlernens: Zum einen betrachten wir Domain Adaptation, bei dem ein gerichteter Informationsaustausch zwischen Quellen Domänen, für welche viele Trainingsdaten vorliegen, und den Ziel Domänen, für welche kaum Trainingsdaten vorhanden sind, stattfindet. Zum anderen betrachten wir Methoden des Multitask Learnings, bei dem Informationen wechselseitig zwischen verschiedenen Domänen geteilt werden. Für den Fall von Domain Adaptation entwickeln wir Erweiterungen von etablierten Algorithmen zur regularisierten Risiko Minimierung, die es erlauben einen Informationstransfer zwischen verschiedenen Domänen zu realisieren. Für diese Erweiterungen präsentieren wir effiziente numerische Algorithmen zur Klassifikation und zum Structured Output Learning. Besonderes Augenmerk wird hierbei auf den Fall gelegt, in welchem die Beziehung der verschiedenen Domänen oder Tasks durch eine hierarchische Struktur beschrieben wird. Dieser Fall ist in der Bioinformatik von besonderer Bedeutung, da hier oft Informationen aus verschiedenen Organismen zu kombinieren sind und deren Beziehung durch einen Stammbaum beschrieben werden kann. Wir evaluieren die vorgestellten Methoden sowohl auf synthetischen Daten, als auch in Experimenten mit genomischen Daten. Der Ansatz des Mulitask Learnings ist, Modelle für mehrere verwandte Probleme gemeinsam zu lernen. Unter Verwendung von modernen Methoden aus der mathematischen Optimierung entwickeln wir ein allgemein gehaltenes Rahmenwerk, das sowohl eine Vielzahl von existierenden Multitask Learning Methoden als Spezialfälle abdeckt, sowie die Entwicklung neuer Methoden ermöglicht. Ein besonderes Merkmal unseres Rahmenwerks ist die Möglichkeit, das Ahnlichkeitsmaß zwischen Domänen unter Verwendung des non-sparse Multiple Kernel Learnings zu lernen, bzw. zu verfeinern. Zudem leiten wir einen effizienten Algorithmus her, der das resultierende Optimierungsproblem mit einem dualen Koordinatenabstiegsverfahren löst, und damit Neuerungen aus dem Bereich der linearen Support Vector Machine mit Multitask Learning kombiniert. Als Anwendungen unserer Methoden, betrachten wir eine Vielzahl an Problemen aus der Immuntherapie, biologischen Bildverarbeitung und Genomik. In ihrer Gesamtheit umfasst diese Dissertation die Entwicklung von regularisierungs-basierten Methoden des Transferlernens, das Entwickeln und zur Verfügung stellen von Software, die diese Ideen umsetzt, und die erfolgreiche Anwendung auf ein breites Spektrum an Problemen.
In this work, we consider a problem that biologists are very good at: deciphering biological processes by integrating knowledge from experiments in different biological entities, such as organisms, tissues, tumor types or proteins, while respecting their differences and commonalities. We look at this problem from a supervised learning point of view, aiming to solve the same inference task in different biological entities. In this thesis, we investigate two branches of transfer learning: domain adaptation, where information is transferred from source tasks with abundant information to target tasks with little information, and multitask learning, where information is mutually shared between several tasks. In the case of domain adaptation, we show simple extensions of prevalent regularized risk minimization frameworks to handle information transfer and derive efficient solvers for classification and structured output learning. We present an algorithm tailored for the setting of hierarchical task relationships. This setting is particularly relevant to computational biology, where different tasks often correspond to different organisms, whose relationship is defined by a phylogeny. We perform experimental analyses on synthetic data sets, problems from sequence biology and prokaryotic gene finding to explore the properties of our algorithms and demonstrate their performance. Multitask learning, a machine learning technique that has recently received considerable attention, considers the problem of simultaneously learning models for several tasks that are related to each other. Using modern mathematical optimization techniques, we develop a general framework for multitask learning that encompasses a large number of existing multitask learning formulations and carefully explore useful special cases, including several novel formulations. A main feature of our general framework is the ability to learn or refine task similarities using non-sparse multiple kernel learning (MKL). We derive an efficient dual-coordinate descent solver for the special case of the hinge-loss, which brings the performance of state-of-the-art linear SVM solvers for binary classification to multitask learning. We explore the application of our framework to important problems ranging from computational immunotherapy, bioimaging and sequence biology. We further provide run-time experiments on a large range of data sets. As a whole, this thesis encompasses the design of transfer learning algorithms by means of carefully engineered regularization terms, the effort of creating and making available software that implements these ideas efficiently and the application to a plethora of practical problems, where transfer learning may be regarded as a principled way of obtaining more cost-effective predictors.