Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-12230
For citation please use:
Main Title: Applications of machine learning in dynamic settings
Subtitle: from computational neuroscience to natural language processing
Translated Title: Die Anwendung von Maschinellem Lernen in dynamischen Umgebungen
Translated Subtitle: von Computational Neuroscience zu Natural Language Processing
Author(s): Brandl, Stephanie
Advisor(s): Müller, Klaus-Robert
Referee(s): Müller, Klaus-Robert
Blankertz, Benjamin
Akbik, Alan
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
URI: https://depositonce.tu-berlin.de/handle/11303/13444
http://dx.doi.org/10.14279/depositonce-12230
License: https://creativecommons.org/licenses/by/4.0/
Abstract: The field of machine learning is deeply intertwined with the dynamics that determine technical progress in our lives. It benefits invaluably from the increasing amount of available data and the access to computing power. Simultaneously, it drives those changes by continuously improving methodologies and thus extending the possible applications in our everyday lives. In order to keep up with those changes, machine learning models need to tackle the obstacles that arise in dynamic settings. This thesis contributes solutions to those challenges in the fields of computational neuroscience and natural language processing. The first contribution researches possible challenges when moving brain-computer interfaces out of the lab and into the real world. We have recorded data from 16 participants conducting a motor imagery task while handling secondary distraction tasks that simulate everyday life situations. We investigate the artifacts that contaminate the data which makes it difficult to successfully classify within the standard pipeline. We propose two approaches that tackle those difficulties and significantly improved classification results. In the second contribution, we propose a new version of Source Power Co-Modulation: Fourier-SPoC (f-SPoC) extracts brain components maximally correlating with a regular target function. We apply f-SPoC to the magnetoencephalogram (MEG) from a passive beat listening task to find neural correlates that show rhythmic entrainment with the regular beat. The resulting components show very regular patterns of peaks and troughs in the spectrogram on the group average and even on some individuals. The third contribution provides two new methods: Word2Vec with Structure Constraint (W2V&Constr) and Word2Vec with Structure Prediction (W2V&Pred) with which we can learn dynamic word embeddings of high quality based on the underlying structure in the dataset (W2V&Constr) and are even able to predict the structure of the dataset (W2V&Pred). We apply both methods to three datasets of different structures where we achieve significant improvements on both the embedding accuracy and the structure score compared to the baseline and capture interesting insights with respect to outliers and the underlying data structure. Furthermore, we apply W2V&Pred on a German dataset in an explorative experiment to find connections between different authors where the underlying structure is not known a-priori.
Maschinelles Lernen (ML) steht in enger Wechselwirkung mit den Dynamiken, die den technischen Fortschritt in unserem Leben bestimmen. Einerseits verbessert der Zugang zu fortlaufend steigender Rechenleistung und immer größeren Datenmengen die Genauigkeit der ML-Algorithmen. Andererseits treibt es diese Veränderungen voran, indem Methoden kontinuierlich verbessert werden und sich so die Anwendungsmöglichkeiten in unserem Alltag erweitern. Um mit all diesen Entwicklungen Schritt halten zu können, müssen ML-Modelle die Hürden bewältigen, die in dynamischen Umgebungen auftreten. Diese Dissertation trägt zu Lösungen für diese Herausforderungen in den Bereichen Computational Neuroscience und Natural Language Processing bei. Der erste Beitrag untersucht mögliche Hürden für den Transfer von Gehirn-Computer-Schnittstellen aus dem Labor in die realeWelt. Dafür wurden Elektroenzephalographie-Daten (EEG) von 16 Teilnehmer:innen aufgenommen, die sich primär motorische Handbewegungen vorstellen, während sie zusätzlich sekundäre Aufgaben bewältigen, die Alltagssituationen simulieren. Artefakte, welche die Daten stören und eine erfolgreiche Klassifizierung mit der Standard-Pipeline erschweren, werden untersucht. Es werden zwei Ansätze präsentiert, die diese Schwierigkeiten überwältigen und die Klassifikationsergebnisse signifikant verbessern. Im zweiten Beitrag wird eine neue Version von Source Power Co-Modulation (SPoC) vorgestellt: Fourier-SPoC (f-SPoC) extrahiert Gehirnkomponenten, die maximal mit einer regelmäßigen Zielfunktion korrelieren. Wir wenden f-SPoC auf Magnetoenzephalographie-Aufnahmen (MEG) aus einer passiven Beat-Höraufgabe an, um neuronale Korrelate zu finden, die ein rhythmisches Entrainment mit dem regelmäßigen Rhythmus zeigen. Die resultierenden Komponenten zeigen im Gruppendurchschnitt und sogar bei einigen Individuen sehr regelmäßge Muster im Spektrogramm. Im dritten Beitrag werden zwei neue Methoden präsentiert: Word2Vec with Structure Constraint (W2V&Constr) und Word2Vec with Structure Prediction (W2V&Pred), mit denen wir dynamische Worteinbettungen von hoher Qualität entweder basierend auf der zugrundeliegenden Struktur in den Datensätzen lernen können (W2V&Constr) oder einen Schritt weiter gehen und auch die Struktur des Datensatzes vorhersagen (W2V&Pred). Beide Methoden wurden auf drei beziehungsweise vier verschiedenen Datensätzen mit unterschiedlichen Strukturen ausgewertet und konnten sowohl bei der Genauigkeit der Worteinbettungen als auch bei der Vorhersage der Struktur im Vergleich zu Baseline-Methoden signifikante Verbesserungen erzielen. Darüber hinaus konnten interessante Erkenntnisse in Bezug auf Ausreißer und die zugrunde liegende Datenstruktur gewonnen werden.
Subject(s): machine learning
natural language processing
brain-computer interfaces
computational neuroscience
word embeddings
Maschinelles Lernen
Verarbeitung natürlicher Sprache
Gehirn-Computer Schnittstellen
computergestützte Neurowissenschaften
Worteinbettungen
Issue Date: 2021
Date Available: 24-Nov-2021
Exam Date: 4-May-2021
Is Supplemented By: http://dx.doi.org/10.14279/depositonce-9827.2
Language Code: en
DDC Class: 004 Datenverarbeitung; Informatik
Sponsor/Funder: BMBF, 01IS18025A, Verbundprojekt BIFOLD-BBDC: Berlin Institute for the Foundations of Learning and Data
TU Affiliation(s): Fak. 4 Elektrotechnik und Informatik » Inst. Softwaretechnik und Theoretische Informatik » FG Maschinelles Lernen
Appears in Collections:Technische Universität Berlin » Publications

Files in This Item:
brandl_stephanie.pdf
Format: Adobe PDF | Size: 16.28 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons