Loading…
Thumbnail Image

Epistasis, regular subdivisions and spanning trees

Eble, Holger

FG Diskrete Mathematik / Geometrie

In this thesis, we use techniques from polyhedral geometry and statistics in order to detect and quantify biological interactions within a system of genes or species described by a given data set. Our concept relies on the theory of regular subdivisions. A regular subdivision decomposes a space into convex cells and can be used to showcase some distinct aspects of the given data set in its cell structure. After all, one can implement and compute with regular subdivisions and this is an important feature of polyhedral and discrete geometry. The way these cells spatially relate to each other is exploited to determine a list of moderate length with potentially significant biological interactions. A statistical test allows us to diminish this list further and to point to few but statistically significant interactions. A major benefit of our method, and in a way this is reciprocal compared to other existing methods, is the concise extent of our findings which allows for communicating them in a comprehensive form, for instance in data tables or specifically developed bar diagrams. We applied our methods to several experimentally obtained genetic and microbiome data sets. A central use case was the analysis of two instances of Drosophila melanogaster fly gut microbiome studies. The gut of these fruit flies has a microbiome with a small number of constituting species and can be manipulated in the laboratory by regulation of the food. The two Drosophila data sets we applied our methods on describe a microbiome system with five species and hence each of the two data sets can be related to some regular subdivision of the 5-dimensional 0/1-cube from where our method departs. We are able to point to significant higher dimensional interactions which are not perceived by other existing methods and, in particular, are not captured by looking at pairs of interacting species only. Further, we reinterpret and analyze our method mathematically. It produces and is in some way equivalent to naming a network of shortest genetic distances, i.e. a minimum spanning tree of a certain fixed weighted graph with biological meaning. Tropical hypersurfaces, central objects of tropical geometry, which is an active field of research at the border of polyhedral, discrete and algebraic geometry, encapsulate these structures inside their 1-dimensional skeleton. We determine the parameter space of the minimum spanning trees arising this way. It turns out to be encoded by a collection of cones given by linear hyperplanes. For a few elected examples we computed an explicit representation of all occuring parameter cones. Yet, this rapidly reaches limits of complexity. The rest of this thesis is about an achievement beyond these limits. Given a cell decomposition in some implicit form, one may not be able to recuperate the defining geometric data for every cell. But it still may be possible to enumerate them. We present a method for computing the number of chambers of a hyperplane arrangement in real euclidean space which uses purely combinatorial techniques and which makes use of the combinatorial symmetries of the given hyperplane arrangement. With this method, it was possible to compute the previously unknown number of chambers of the ninth resonance arrangement given by 511 hyperplanes in R^9.
In dieser Arbeit werden Techniken aus der polyedrischen Geometrie und der Statistik vorgestellt, die benutzt werden können, um biologische Wechselwirkungen in einem durch Datensätze beschriebenen Gen- oder Speziensystem aufzufinden und zu quantifizieren. Unser Konzept beruht auf der Theorie der regulären Unterteilungen. Eine reguläre Unterteilung zerlegt einen Raum in konvexe Zellen, die im vorliegenden Fall dazu dienen, ausgewiesene Eigenschaften der zugrundeliegenden Daten aufzuzeigen. Desweiteren lassen sich reguläre Unterteilungen in Computerprogrammen implementieren und berechnen, was allgemein einen wichtigen Aspekt der polyedrischen und diskreten Geometrie darstellt. Der räumliche Bezug der Zellen zueinander wird hierbei benutzt, um eine Liste angemessener Länge mit potenziell signifikanten biologischen Wechselwirkungen zu erstellen. Desweiteren dient ein statistischer Signifikanztest zur weiteren Ausdünnung dieser Liste, die schließlich nur noch statistisch nachweißbar signifikante Wechselwirkungen enthält. Durch die Bündelung und Konzentration auf relevante Wechselwirkungen zeichnet sich unsere Methode wesentlich aus, da dies sich durchaus konträr zu den bereits existierenden Methoden verhält und eine stringente Kommunikation der Ergebnisse gestattet, beispielsweise in Form von Datentabellen oder eigens konzipierter Bardiagramme. Wir haben unsere Methode auf mehrere Experimentaldatensätze mit Genetik- und Mikrobiombezug angewandt. Ein zentraler Anwendungsfall stellte dabei die Analyse zweier Datensätze dar, die das Mikrobiom des Magens der Drosophila melanogaster Fliege experimentell erfassen. Das Mikrobiom des Magens dieser Fruchtfliege hat die besondere Eigenschaft, durch eine geringe Anzahl von teilhabenden Spezien bestimmt und im Labor leicht manipulierbar zu sein, etwa durch Regulierung des Futters. Die zwei Drosophila Datensätze, die wir betrachteten, beschreiben jeweils ein Mikrobiomsystem mit fünf konstituierenden Spezien und können folglich mit regulären Unterteilungen des fünfdimensionalen 0/1-Würfels assoziiert werden, welche die von uns entwickelte Methode verarbeitet. Es war uns möglich, höherdimensionale Wechselwirkungen zu finden, die von den bereits existierenden Methoden nicht gesehen werden und insbesondere vom Paarvergleich wechselwirkender Spezien übergangen werden. Desweiteren interpretieren und analysieren wir unsere biologisch motivierte Methode innermathematisch. Im Einzelfall ist der Verlauf dieser äquivalent zur Konstruktion eines Spannbaums minimalen Gewichts in einem festgeschriebenen gewichteten Graph. Dieser Spannbaum lässt sich biologisch wiederum als Netzwerk kürzester genetischer Distanz interpretieren. Tropische Hyperflächen sind zentrale Objekte der tropischen Geometrie, eines eigens für sich aktiven Forschungsgebiets mit Anknüpfungspunkten zur polyedrischen, diskreten und algebraischen Geometrie. Diese Hyperflächen enthalten die betreffenden minimalen Spannbäume in ihrem eindimensionalen Skelett. Wir zeigen, dass der Parameterbereich dieser minimalen Spannbäume durch eine Sammlung polyedrischer Kegel gegeben ist. Für ausgewählte, kleine Bespiele gelingt es, eine explizite Darstellung für jeden einzelnen Parameterkegel zu berechnen. Dennoch stößt man dabei schnell auf unüberwindbare Komplexitätsschranken. Der Rest dieser Arbeit beschäftigt sich mit einer Thematik, die jenseits dieser Komplexitätsschranken liegt. Zwar mag es für eine implizit gegebene Zellzerlegung mit den aktuellen Methoden unmöglich sein, für jede einzelne Zelle eine explizite geometrische Beschreibung zu errechnen, jedoch kann durchaus eine Abzählung der Zellen erfolgen. Wir präsentieren eine rein kombinatorische Methode zur Abzählung der Kammern eines reellen Hyperebenenarrangements, die wesentlich auf der Ausnutzung kombinatorischer Symmetrie fußt. Mit dieser Methode war es uns möglich, die zuvor unbekannte Kammeranzahl des neunten Resonanzarrangements zu bestimmen, das durch 511 Hyperebenen im R^9 gegeben ist.