Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-9705
For citation please use:
Main Title: Advancing data curation with metadata and statistical relational learning
Translated Title: Verbesserung der Datenvorbereitung mit Metadaten und statistisch-relationalem Lernen
Author(s): Visengeriyeva, Larysa
Advisor(s): Abedjan, Ziawasch
Referee(s): Abedjan, Ziawasch
Leser, Ulf
Naumann, Felix
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: The foundation of every data science project depends on clean data because the quality of the data determines the quality of the insights derived from data by using machine learning or analytics. In this dissertation, we tackle the problem of data cleaning and provide three approaches to advance data error detection and repair: (1) We establish a mapping that reflects the connection between data quality issues and extractable dataset’s metadata, and propose this mapping as a guideline for rapid prototyping of an error detection strategy; (2) We introduce two holistic approaches for effectively combining different error detection strategies to increase the efficacy of error detection. Our methods are based on state-of-the-art ensemble learning algorithms and incorporate the metadata of the dataset; and (3) We propose an approach for addressing data quality issues by formulating a set of data cleaning rules without the manual specification of the rules execution order. The concepts of statistical relational learning and probabilistic inference provide the foundation for our method. We use the Markov logic formalism, because it declaratively models data quality rules as first-order logic sentences. Markov logic allows the usage of probabilistic joint inference over data cleaning rules to detect data errors and suggest a repair.
Jedes Data Science Projekt hängt von sauberen und stimmigen Daten ab, denn die Qualität der Daten bestimmt die Qualität der Machine Learning Modelle und dementsprechend korrekt sind die aus den Daten gewonnenen Erkenntnisse. In dieser Dissertation gehen wir das Problem der Datenbereinigung an und präsentieren drei Ansätze, um Datenfehler zu erkennen und zu beheben: (1) Wir erstellen ein Mapping, das den systematischen Zusammenhang zwischen Qualitätsproblemen von Daten und den Metadaten widerspiegelt. Wir verwenden dieses Mapping als eine generische Lösung, um Datenfehler zu erkennen und um den Prozess des Data Cleaning signifikant zu beschleunigen. (2) Wir präsentieren zwei ganzheitliche Ansätze zur effektiven Kombination verschiedener Methoden der Fehlererkennung, um die Effektivität der Fehlererkennung zu erhöhen. Unsere Methoden basieren auf State-of-the-Art Ensemble-Learning Algorithmen und integrieren die Metadaten, um die Fehlererkennung zu optimieren. (3) Wir präsentieren eine probabilistische Methode für die Verbesserung der Datenqualität. Diese Methode basiert auf Statistical Relational Learning und der probabili- stischen Inferenz. Wir verwenden den Markov Logik Formalismus, um Datenqualitätsregeln deklarativ als Logiksätze erster Ordnung zu modellieren. Außerdem ermöglicht die Markov Logik die Verwendung probabilistischer Inferenz über Datenqualitäsregeln, um Datenfehler zu erkennen und eine wahrscheinliche Lösung vorzuschlagen.
URI: https://depositonce.tu-berlin.de/handle/11303/10811
http://dx.doi.org/10.14279/depositonce-9705
Exam Date: 14-Feb-2020
Issue Date: 2020
Date Available: 16-Mar-2020
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): data curation
data cleaning
data preparation
wrangling
metadata
markov logic
statistical relational learning
Datenkurierung
Datenbereinigung
Datenvorbereitung
Datenumstrukturierung
Metadaten
Markov-Logik
statistisch-relationales Lernen
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:Inst. Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
visengeriyeva_larysa.pdf
Format: Adobe PDF | Size: 1.91 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons