Loading…
Properties of the Wright-Fisher diffusion with seed banks and multiple islands
Buzzoni, Eugenio
The main purpose of this thesis is the analysis under several viewpoints both of the Wright-Fisher diffusion with seed bank, introduced in [BGKWB16], and the two-island diffusion, investigated e.g. in [KZH08] and [NG93]. The former simulates a population in which some of the individuals can become inactive for long periods of time, like seeds or dormant bacteria, while the latter is used to investigate the behavior of a split population (e.g. geographically).
The main body of the thesis is composed of three parts. In the first one (Chapters 3 and 4), we make a comparison between the Wright-Fisher diffusion with seed bank and the two-island diffusion from several viewpoints, including stationary distribution, mixed moments and reversibility. In particular, we define the (strong) seed bank coalescent and the structured coalescent respectively as the moment dual processes to the Wright-Fisher diffusion with seed bank and the two-island diffusion. The main result of the first part regards boundary behavior. In fact, we provide a complete boundary classification of both processes, which is, as far as we know, a new result. The proof involves one of two martingale-based reasonings, that is, McKean’s or Lyapunov’s argument.
In the second part of the thesis (Chapter 5), we tackle the issue of scaling limits. The main result concerns the case of the seed bank diffusion under the additional assumption that reproduction occurs on a faster time-scale than both dormancy and resuscitation: if we speed up time in an appropriate way, we get a previously unknown scaling limit, describing the genealogy under the aforementioned regime, that we call the ancient ancestral lines process. This object is dual to a jump diffusion, and we make heavy use of duality to establish a remarkable convergence of the rescaled diffusion processes to the jump diffusion limit.
In the last part of this work (Chapter 6), we analyze several classical measures of population structure to distinguish the patterns of genetic variability produced by our models, with a focus on coalescent processes. In this case we are concerned not only with the seed bank and the structured coalescent, but also with the standard Kingman and with the so-called weak seed bank coalescent. Our main goal is to compare, with respect to the neutral Kingman case, the different ways in which our measures react to the presence of a seed bank and to the presence of population structure.
For this purpose, we first focus on the two-allele case, where we can derive exact likelihoods for the full sample probabilities by means of recursive formulas. Then, we briefly introduce sample heterozygosity, Wright’s FST and the expected site frequency spectrum (SFS), classical measures for population structure that can be easily computed under the aforementioned population models in the infinite sites case. Our main tool in this chapter is phase-type distribution theory in general and the formulae recently introduced by Hobolth et al. ([HSB19]) in particular.
In der vorliegenden Dissertation werden verschiedene Aspekte der Wright-Fisher-Diffusion mit Seed-Bank und der Two-Island-Diffusion untersucht. Hierbei handelt es sich um zwei Modelle aus der mathematischen Populationsdynamik. Die Wright-Fisher-Diffusion mit Seed-Bank, eingeführt in der Arbeit von Blath, González Casanova, Kurt und Wilke-Berenguer ([BGKWB16]), beschreibt die Evolution einer Bevölkerung, in der einzelne Individuen langfristig inaktiv werden können. Klassische Beispiele hiervon sind samentragende Pflanzen oder Bakterien. Die Two-Island-Diffusion (siehe z.B. [KZH08] und [NG93]) modelliert hingegen die Genealogie einer räumlich geteilten Population.
Der Hauptteil dieser Dissertation besteht aus drei Teilen. Im ersten Teil (Kap. 3 und 4) wird die Wright-Fisher-Diffusion mit Seed-Bank mit der Two-Island-Diffusion in mehrerer Hinsicht verglichen, einschließlich stationärer Verteilungen, gemischter Momente und Reversibilität. Insbesondere wird der (starke) Seed-Bank-Koaleszent und der strukturierte Koaleszent als Momentenduale, respektiv der Wright-Fisher-Diffusion mit Seed-Bank und der Two-Island-Diffusion, definiert. Im wichtigsten Satz dieses ersten Teiles geht es um das Verhalten an den Rändern, d. h. um die Frage, unter welchen Bedingungen eine temporäre Extinktion eines Alleles vorliegt. Wir geben nämlich eine vollständige Klassifizierung der Ränder für diese beiden Diffusionsprozesse an. Der Beweis dafür benutzt ein von zwei Martingalargumenten, die das McKean-Argument und das Lyapunov-Argument genannt werden.
Der zweite Teil der Dissertation (Kapitel 5) setzt sich mit Skalierungslimiten auseinander. Das wichtigste Ergebnis betrifft den Fall einer Seed-Bank-Diffusion, in der die Fortpflanzung auf einer schnelleren Zeitskala geschieht als sowohl Dormanz als auch Wiederbelebung. Falls wir in dem Fall auf eine beschleunigte Zeitskala übergehen, bekommen wir im Limes den sogenannten Ancient Ancestral Lines Process, der die Genealogie unter der gegebenen Skalierung beschreibt. Dieses Objekt ist dual zu einer Diffusion mit Sprüngen, und wir machen regen Gebrauch von Dualitätsargumenten, um eine beachtenswerte Koaleszenz der reeskalierten Diffusionsprozesse gegen dem Diffusionslimes mit Sprüngen aufzubauen.
Im letzten Teil dieser Arbeit (Kapitel 6) werden mehrere klassische Populationsstrukturmaße untersucht, wie Sample Heterozygosity, Wrights FST sowie das erwartete Allelen-Frequenzspektrum (SFS), allesamt klassische Indikatoren, um die Struktur einer Population zu messen. Unser Ziel ist es dabei, die Muster genetischer Variabilität, die durch die besagten Modelle erzeugt werden, voneinander zu unterscheiden. Wir konzentrieren uns dabei hauptsächlich auf die Koaleszentenprozesse. Neben dem Seed-Bank- und dem strukturierten Koaleszenten beschäftigen wir uns mit dem klassischen Kingman- sowie mit dem sogenannten schwachen Seed-Bank-Koaleszenten. Unser Hauptziel ist hier, den Einfluss dieser Populationsstrukturmaße auf eine Seed-Bank bzw. eine Population mit räumlicher Struktur zu untersuchen und mit dem neutralen Kingman-Fall zu vergleichen.
Für diesen Zweck konzentrieren wir uns zuerst auf Populationsmodelle mit einer endlichen Anzahl von Allelen, da in diesem Fall mit Hilfe von Rekursionsformeln exakte Likelihoods für die Stichproben-Wahrscheinlichkeiten angegeben werden können. Die Populationsstrukturmaße kann man hingegen auch im Falle unendlich vieler Allele für die gegebenen Populationsmodelle berechnen. Unser wichtigstes Werkzeug besteht dabei aus Phase-Type-Verteilungen und insbesondere aus den Formeln, die im Artikel von Hobolth et al. ([HSB19]) gegeben sind.