Advancing data curation with metadata and statistical relational learning

dc.contributor.advisorAbedjan, Ziawasch
dc.contributor.authorVisengeriyeva, Larysa
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeAbedjan, Ziawasch
dc.contributor.refereeLeser, Ulf
dc.contributor.refereeNaumann, Felix
dc.date.accepted2020-02-14
dc.date.accessioned2020-03-16T13:29:43Z
dc.date.available2020-03-16T13:29:43Z
dc.date.issued2020
dc.description.abstractThe foundation of every data science project depends on clean data because the quality of the data determines the quality of the insights derived from data by using machine learning or analytics. In this dissertation, we tackle the problem of data cleaning and provide three approaches to advance data error detection and repair: (1) We establish a mapping that reflects the connection between data quality issues and extractable dataset’s metadata, and propose this mapping as a guideline for rapid prototyping of an error detection strategy; (2) We introduce two holistic approaches for effectively combining different error detection strategies to increase the efficacy of error detection. Our methods are based on state-of-the-art ensemble learning algorithms and incorporate the metadata of the dataset; and (3) We propose an approach for addressing data quality issues by formulating a set of data cleaning rules without the manual specification of the rules execution order. The concepts of statistical relational learning and probabilistic inference provide the foundation for our method. We use the Markov logic formalism, because it declaratively models data quality rules as first-order logic sentences. Markov logic allows the usage of probabilistic joint inference over data cleaning rules to detect data errors and suggest a repair.en
dc.description.abstractJedes Data Science Projekt hängt von sauberen und stimmigen Daten ab, denn die Qualität der Daten bestimmt die Qualität der Machine Learning Modelle und dementsprechend korrekt sind die aus den Daten gewonnenen Erkenntnisse. In dieser Dissertation gehen wir das Problem der Datenbereinigung an und präsentieren drei Ansätze, um Datenfehler zu erkennen und zu beheben: (1) Wir erstellen ein Mapping, das den systematischen Zusammenhang zwischen Qualitätsproblemen von Daten und den Metadaten widerspiegelt. Wir verwenden dieses Mapping als eine generische Lösung, um Datenfehler zu erkennen und um den Prozess des Data Cleaning signifikant zu beschleunigen. (2) Wir präsentieren zwei ganzheitliche Ansätze zur effektiven Kombination verschiedener Methoden der Fehlererkennung, um die Effektivität der Fehlererkennung zu erhöhen. Unsere Methoden basieren auf State-of-the-Art Ensemble-Learning Algorithmen und integrieren die Metadaten, um die Fehlererkennung zu optimieren. (3) Wir präsentieren eine probabilistische Methode fĂ¼r die Verbesserung der Datenqualität. Diese Methode basiert auf Statistical Relational Learning und der probabili- stischen Inferenz. Wir verwenden den Markov Logik Formalismus, um Datenqualitätsregeln deklarativ als Logiksätze erster Ordnung zu modellieren. AuĂŸerdem ermöglicht die Markov Logik die Verwendung probabilistischer Inferenz Ă¼ber Datenqualitäsregeln, um Datenfehler zu erkennen und eine wahrscheinliche Lösung vorzuschlagen.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/10811
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-9705
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddc004 Datenverarbeitung; Informatikde
dc.subject.otherdata curationen
dc.subject.otherdata cleaningen
dc.subject.otherdata preparationen
dc.subject.otherwranglingen
dc.subject.othermetadataen
dc.subject.othermarkov logicen
dc.subject.otherstatistical relational learningen
dc.subject.otherDatenkurierungde
dc.subject.otherDatenbereinigungde
dc.subject.otherDatenvorbereitungde
dc.subject.otherDatenumstrukturierungde
dc.subject.otherMetadatende
dc.subject.otherMarkov-Logikde
dc.subject.otherstatistisch-relationales Lernende
dc.titleAdvancing data curation with metadata and statistical relational learningen
dc.title.translatedVerbesserung der Datenvorbereitung mit Metadaten und statistisch-relationalem Lernende
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatikde
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
visengeriyeva_larysa.pdf
Size:
1.87 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.9 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections