Loading…
Thumbnail Image

Advancing data curation with metadata and statistical relational learning

Visengeriyeva, Larysa

Inst. Softwaretechnik und Theoretische Informatik

The foundation of every data science project depends on clean data because the quality of the data determines the quality of the insights derived from data by using machine learning or analytics. In this dissertation, we tackle the problem of data cleaning and provide three approaches to advance data error detection and repair: (1) We establish a mapping that reflects the connection between data quality issues and extractable dataset’s metadata, and propose this mapping as a guideline for rapid prototyping of an error detection strategy; (2) We introduce two holistic approaches for effectively combining different error detection strategies to increase the efficacy of error detection. Our methods are based on state-of-the-art ensemble learning algorithms and incorporate the metadata of the dataset; and (3) We propose an approach for addressing data quality issues by formulating a set of data cleaning rules without the manual specification of the rules execution order. The concepts of statistical relational learning and probabilistic inference provide the foundation for our method. We use the Markov logic formalism, because it declaratively models data quality rules as first-order logic sentences. Markov logic allows the usage of probabilistic joint inference over data cleaning rules to detect data errors and suggest a repair.
Jedes Data Science Projekt hängt von sauberen und stimmigen Daten ab, denn die Qualität der Daten bestimmt die Qualität der Machine Learning Modelle und dementsprechend korrekt sind die aus den Daten gewonnenen Erkenntnisse. In dieser Dissertation gehen wir das Problem der Datenbereinigung an und präsentieren drei Ansätze, um Datenfehler zu erkennen und zu beheben: (1) Wir erstellen ein Mapping, das den systematischen Zusammenhang zwischen Qualitätsproblemen von Daten und den Metadaten widerspiegelt. Wir verwenden dieses Mapping als eine generische Lösung, um Datenfehler zu erkennen und um den Prozess des Data Cleaning signifikant zu beschleunigen. (2) Wir präsentieren zwei ganzheitliche Ansätze zur effektiven Kombination verschiedener Methoden der Fehlererkennung, um die Effektivität der Fehlererkennung zu erhöhen. Unsere Methoden basieren auf State-of-the-Art Ensemble-Learning Algorithmen und integrieren die Metadaten, um die Fehlererkennung zu optimieren. (3) Wir präsentieren eine probabilistische Methode für die Verbesserung der Datenqualität. Diese Methode basiert auf Statistical Relational Learning und der probabili- stischen Inferenz. Wir verwenden den Markov Logik Formalismus, um Datenqualitätsregeln deklarativ als Logiksätze erster Ordnung zu modellieren. Außerdem ermöglicht die Markov Logik die Verwendung probabilistischer Inferenz über Datenqualitäsregeln, um Datenfehler zu erkennen und eine wahrscheinliche Lösung vorzuschlagen.