Automatic drum transcription with deep neural networks

Holz, Thomas

FG Audiokommunikation

The field of Music Information Retrieval (MIR) has gained a lot of importance over the last years. One important sub-field of MIR is the subject of Automatic Music Transcription (AMT) which focuses on extracting a musical score or a symbolic representation (e.g. MIDI) from an audio signal. This thesis explores the ability of deep neural networks to automatically transcribe drums – also known as Automatic Drum Transcription (ADT). In order to do so, this thesis proposes a deep neural network (DNN) architecture that is inspired by related work in the field of ADT. The backbone of this model is a convolutional recurrent neural network (CRNN) that is supposed to learn both spectral as well as structural patters. This model is compared to different deep neural network architectures, all of which try to extract latent feature representations from an audio signal and learn patterns to identify and distinguish between different drum instruments. The benchmark models are utilized to gauge the performance of the proposed model on evaluation datasets. The foundation of the training of the model is the publicly available dataset E-GMD introduced by Callender, Hawthorne, and Engel (2020) as it features 444.5 hours of labeled audio files. This thesis demonstrates the importance of data in a supervised deep learning setting by showing peculiarities of E-GMD that can impact the performance of the proposed model negatively. Furthermore, a new dataset is created consisting of random drum sequences (RGDD) to show that adding new data to an already existing dataset can be a viable regularization approach. Additionally, it is shown that random data can serve as standalone datasets and even outperform models that have been trained on sequences that were played by humans. For this, the proposed model is evaluated in three different settings. The first setting sheds light on the performance of the proposed model in a drums-only scenario, that is audio files that contain multiple drum instruments. After this, the same model is evaluated on files that only contain single instrument hits which are here referred to as stems. Lastly, it is investigated if models that were trained on drums-only sequences can generalize well in full-mix settings where accompanying instruments like bass, synthesizer, guitar, or vocals are present. In each of the aforementioned scenarios it is shown that training a model to perform more fine grained instrument predictions and later group them to a coarser instrument grouping can improve the overall performance of the model. That means that a model that was trained to transcribe for example 7 instruments is later used to only transcribe 3 distinct classes by grouping the corresponding predictions.
Das Gebiet des Music Information Retrieval (MIR) hat in den letzten Jahren stark an Bedeutung gewonnen. Ein wichtiges Teilgebiet von MIR ist die automatische Musiktranskription (AMT), die sich auf die Extraktion einer Partitur oder einer symbolischen Darstellung (z.B. MIDI) aus einem Audiosignal konzentriert. Diese Arbeit untersucht die Fähigkeit von neuronalen Netzen, Schlagzeug automatisch zu transkribieren - auch bekannt als Automatic Drum Transcription (ADT). Zu diesem Zweck wird in dieser Arbeit eine Architektur für neuronale Netze (DNN) vorgeschlagen, die von verwandten Arbeiten aus dem Gebiet der ADT inspiriert ist. Das Grundgerüst dieses Modells ist ein Convolutional Recurrent Neural Network (CRNN), das sowohl spektrale als auch strukturelle Muster lernen soll. Dieses Modell wird mit verschiedenen neuronalen Netzwerkarchitekturen verglichen, die alle versuchen, latente Merkmalsrepräsentationen aus einem Audiosignal zu extrahieren und Muster zu lernen, um verschiedene Schlagzeuginstrumente zu identifizieren und zu unterscheiden. Die Benchmark-Modelle werden verwendet, um die Ergebnisse des vorgeschlagenen Modells auf Evaluationsdatensätzen zu beurteilen. Die Grundlage für das Training des Modells ist der öffentlich zugängliche Datensatz EGMD, der von Callender, Hawthorne, and Engel (2020) vorgestellt wurde und 444,5 Stunden annotierte Audiodateien enthält. Diese Arbeit demonstriert die Bedeutung von Daten in einer überwachten DeepLearning-Umgebung, indem sie Besonderheiten von E-GMD aufzeigt, die sich negativ auf die Ergebnisse des vorgeschlagenen Modells auswirken können. Außerdem wird ein neuer Datensatz erstellt, der aus zufälligen Schlagzeugsequenzen (RGDD) besteht, um zu zeigen, dass das Hinzufügen neuer Daten zu einem bereits vorhandenen Datensatz ein praktikabler Regularisierungsansatz sein kann. Darüber hinaus wird gezeigt, dass Zufallsdaten als eigenständige Datensätze dienen können und sogar Modelle übertreffen, die auf Sequenzen trainiert wurden, die von Menschen gespielt wurden. Zu diesem Zweck wird das vorgeschlagene Modell in drei verschiedenen Situationen evaluiert. Das erste Experiment beleuchtet die Ergebnisse des vorgeschlagenen Modells in einem reinen Schlagzeugszenario, d. h. Audiodateien, die mehrere Schlagzeuginstrumente enthalten. Danach wird dasselbe Modell für Dateien untersucht, die nur einzelne Instrumentenschläge eines einzigen Instruments enthalten, die hier als Stems bezeichnet werden. Schließlich wird untersucht, ob Modelle, die auf reinen Schlagzeugsequenzen trainiert wurden, auch in vollständigen Mischungen mit Begleitinstrumenten wie Bass, Synthesizer, Gitarre oder Gesang gute Ergebnisse erzielen können. In jedem der zuvor genannten Szenarien zeigt sich, dass das Training eines Modells für feinere Instrumentenprediktionen und deren spätere Gruppierung zu einer gröberen Instrumentengruppierung das Gesamtergebnis des Modells verbessern kann. Das bedeutet, dass ein Modell, das für die Transkription von beispielsweise 7 Instrumenten trainiert wurde, später durch Gruppierung der entsprechenden Prediktionen nur für die Transkription von 3 verschiedenen Klassen verwendet wird.