Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-6561
Main Title: Visualization-driven data aggregation
Subtitle: rethinking data acquisition for data visualizations
Translated Title: Visualisierungsgesteuerte Daten-Aggregation
Translated Subtitle: Reduktion großer Datenmengen auf Basis von Visualierungsanforderungen
Author(s): Jugel, Uwe
Advisor(s): Markl, Volker
Referee(s): Markl, Volker
Lehner, Wolfgang
Tai, Stefan
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Visual analysis of high-volume numerical data is traditionally required for understanding sensor data in manufacturing and engineering scenarios. Today, the visual analysis of any kind of big data has become ubiquitous and is a most-wanted feature for data analysis tools. It is vital for commerce, finance, sales, and an ever-growing number of industries, whose data are traditionally stored in relational database management systems (RDBMS). Unfortunately, contemporary RDBMS-based data visualization and data analysis systems have difficulty to cope with the hard latency requirements and high ingestion rates required for interactive visualizations of big data. Disregarding the spatial properties of the visualization, they are incapable of effectively sampling or aggregating the big data for subsequent data visualization. The resulting big data visualizations suffer from measurable and perceivable visualization errors. Moreover, existing visualization-related techniques for data reduction are domain-specific and focus on a few custom types of visualizations. The underlying problems have neither been analyzed comprehensively and in general, nor in the context of RDBMS-based systems in particular. A general-purpose solution for visualization-related data reduction has been missing. To facilitate truly interactive visualizations of the growing volume and variety of big data, computer systems need to change the way they acquire data for the purpose of data visualization. Therefore, the present work introduces the Visualization-Driven Data Aggregation (VDDA) that facilitates high-quality to error-free visualizations of high-volume datasets at high data reduction rates. Built on an in-depth analysis of the underlying problem of visual aggregation, VDDA defines specific data reduction operators for the most common chart types and for chart matrices. For RDBMS-based systems in particular, these operators can be used at the query level in a transparent query rewriting system, making VDDA applicable to any visualization system that consumes data stored in relational databases. Using real-world datasets from high-tech manufacturing, stock markets, and sports analytics domains, this work demonstrates the applicability of VDDA, reducing data volumes and query answer times by up to two orders of magnitude, while preserving pixel-perfect visualizations of the raw data.
Eine visuelle Analyse großer numerischer Datenmengen ist herkömmlich notwendig, um Sensordaten aus Konstruktions- und Fertigungsprozessen auszuwerten und zu verstehen. Heute ist die visuelle Analyse jeglicher Art von großen Datenmengen (Big Data) allgegenwärtig und eine meistgesuchte Funktion von Softwareprodukten zur Datenanalyse. Sie ist unverzichtbar für den Handelsverkehr, das Finanzwesen, den Einzelhandel und einer ständig wachsenden Anzahl an Branchen, deren Daten herkömmlich in relationalen Datenbankmanagementsystemen (RDBMS) gespeichert werden. Leider haben gegenwärtige RDBMS-basierte Datenvisualisierungs- und Datenanalysesysteme Schwierigkeiten mit den hohen Anforderungen an Latenzzeiten und den hohen Dateneingangsraten fertig zu werden. Sie missachten die räumlichen Eigenschaften der Visualisierungen und sind dadurch nicht imstande, die für die Datenvisualisierung benötigten Stichproben und Aggregationswerte der großen Datenmengen effektiv zu erzeugen. Die resultierenden Datenvisualisierungen haben mess- und sichtbare Visualisierungsfehler. Bestehende Methoden zur visualisierungsbezogenen Datenreduktion sind anwendungsspezifisch und werden nur auf einige wenige, individuelle Visualisierungstypen angewandt. Die zugrunde liegenden Probleme wurden weder umfassend und allgemein, noch mit speziellem Bezug zu RDBMS-basierten Systemen analysiert. Es existiert keine universelle Methode zur visualisierungsbezogenen Datenreduktion. Um zukünftig interaktive Visualisierungen der vielfältigen und wachsenden Datenmengen zu ermöglichen, müssen Computersysteme die Art der visualisierungsbezogenen Datenerfassung anpassen. Die vorliegende Arbeit entwirft dafür eine visualisierungsgesteuerte Datenaggregation (VDDA, engl. Visualization-Driven Data Aggregation), die einerseits hohe Datenreduktionsraten und andererseits Visualisierungen von sehr hoher Qualität ermöglicht. Aufbauend auf einer detaillierten Analyse des Problems der visuellen Aggregation, bietet VDDA spezifische Datenreduktionsoperatoren für alle gängigen Typen von Diagrammen und für Diagramm-Matrizen. In RDBMS-basierten Systemen können diese Operatoren dann für eine Datenreduktion auf Anfrage-Ebene angewandt werden, und sie ermöglichen dadurch eine transparente Anpassung der ursprünglichen visualisierungsbezogenen Anfrage. Die entwickelte Methode ist allgemein anwendbar und bietet eine verbesserte Datenerfassung für jegliche Art von Datenvisualisierungssystemen, die Daten aus relationalen Datenbanken beziehen. Die Arbeit demonstriert die Anwendbarkeit von VDDA anhand realer Daten aus den Bereichen der Hochtechnologie-Fertigung, Aktienmärkte und Sport-Datenanalyse. Die übertragenen Datenvolumen und Antwortzeiten werden dabei um bis zu zwei Größenordnungen reduziert, während die Datenvisualisierungen pixelgenau erhalten bleiben.
URI: https://depositonce.tu-berlin.de//handle/11303/7288
http://dx.doi.org/10.14279/depositonce-6561
Exam Date: 13-Apr-2017
Issue Date: 2017
Date Available: 19-Dec-2017
DDC Class: DDC::000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
Subject(s): data reduction
data visualization
SQL
database systems
database management systems
relational databases
Datenreduktion
Datenvisualisierung
Datenbanksysteme
Datenbankmanagementsysteme
relationale Datenbanken
Creative Commons License: https://creativecommons.org/licenses/by-nc-nd/4.0/
Appears in Collections:Fachgebiet Datenbanksysteme und Informationsmanagement (DIMA) » Publications

Files in This Item:
File Description SizeFormat 
jugel_uwe.pdf4.54 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons