Loading…
Thumbnail Image

Deep learning mesh parameterization of 3D shapes

for 3D reconstruction, shape generation, noise filtering and mobile rendering

Jain, Hardik

Deep learning has made remarkable progress in extracting meaningful information from visual sensory 2D data. The regularized grid representation of the 2D image data makes it convenient to apply efficient convolutional kernels. With the advancements in acquisition devices, this data is no more restricted to the 2D domain and ranges to 3D as well. Comparatively, the 3D data, specifically the widely used surface meshes are less utilized in deep learning applications. Along with the added dimension, this is attributed to the irregular representation of the mesh structure. This thesis is motivated by the performance of 2D convolutional kernels on regular grid and tries to employ them for 3D surface meshes. The inherent irregular connectivity of surface mesh can be regularized by borrowing the concept of mesh parameterization from computer graphics domain. Surface mesh parameterization of irregular mesh allows encoding the mesh attributes onto a regular grid which is chosen as square and icosahedron for disk and sphere topology meshes, respectively. This encoding like any other remeshing technique introduces some loss in shape detail, which is minimized by using robust distortion minimizing mesh parameterization technique. The grid resolution or subdivision of the regular grid also has an influence on the shape detail and is chosen to balance the loss and size of the output mesh. With this foundation, the regularized surface meshes are trained in a deep convolutional neural network for a variety of tasks. First, a 3D reconstruction network from a single image is proposed for the disk as well as spherical topology shapes. The generalizability of these networks is demonstrated by inferencing them on unseen viewpoints. The regularized representation of surface mesh is further utilized for proposing the first-of-its-kind, generative icosahedral mesh convolutional network (GenIcoNet). This GenIcoNet is trained on a multi-class genus-0 mesh dataset and demonstrated generative capabilities of mesh interpolation, mesh re-generation, latent space exploration, patch-wise mesh combination, and mesh arithmetic. Next, the icosahedral mesh representation is utilized for the application of mesh denoising by proposing an icosahedral mesh denoising network (IMD-Net). Techniques for mesh denoising have been dominated by hand-crafted features and only recently few learning-based approaches have been proposed. Unlike the existing methods which used local patches for training the network, in IMD-Net the complete encoded icosahedral mesh is used as a single entity. This allowed training IMD-Net with a large amount of data, enforcing the network to learn global and local mesh attributes essential for denoising. The efficient networks for 3D surface meshes proposed in this thesis use 2D convolutional kernels, making it possible to be inferenced on low-compute devices. To exhibit this capability, an android application for the 3D reconstruction network from a single image is designed and validated. The idea of regularization developed and presented for a variety of networks in this thesis could serve as a baseline to benchmark advancements in deep learning on 3D surface meshes.
Deep Learning hat bemerkenswerte Fortschritte bei der Gewinnung aussagekräftiger Informationen aus visuell-sensorischen 2D-Daten gemacht. Die regelmäßige Gitterdarstellung der 2D-Bilddaten ermöglicht die Anwendung effizienter Faltungskerne. Mit den Fortschritten bei den Erfassungsgeräten sind diese Daten nicht mehr auf die 2D-Domäne beschränkt, sondern erstrecken sich auch auf 3D. Im Vergleich dazu werden die 3D-Daten, insbesondere die weit verbreiteten Oberflächennetze, in Deep-Learning-Anwendungen weniger genutzt. Dies ist neben der zusätzlichen Dimension auch auf die unregelmäßige Darstellung der Netzstruktur zurückzuführen. Diese Arbeit ist durch die Leistung von 2D-Faltungskerneln auf regulären Gittern motiviert und versucht, sie für 3D-Oberflächennetze einzusetzen. Die inhärente unregelmäßige Konnektivität von Oberflächennetzen kann regularisiert werden, indem das Konzept der Netzparametrisierung aus dem Bereich der Computergrafik übernommen wird. Die Parametrisierung eines unregelmäßigen Oberflächennetzes ermöglicht die Kodierung der Netzattribute auf einem regelmäßigen Gitter, das als Quadrat und Ikosaeder für Scheiben- bzw. Kugelnetze gewählt wird. Diese Kodierung führt wie jede andere Remeshing-Technik zu einem gewissen Verlust an Formdetails, der durch den Einsatz einer robusten, die verzerrung minimierenden Netzparametrisierungstechnik berücksichtigt wird. Die Gitterauflösung oder Unterteilung des regulären Gitters hat ebenfalls einen Einfluss auf die Formdetails und wird so gewählt, dass Verlust und Größe des Ausgangsnetzes ausgeglichen werden. Auf dieser Grundlage werden die regularisierten Oberflächennetze in tiefen convolutional neural network für eine Vielzahl von Aufgaben trainiert. Zunächst wird ein 3D-Rekonstruktionsnetzwerk aus einem einzigen Bild sowohl für Scheiben- als auch für Kugeltopologieformen vorgeschlagen. Die Verallgemeinerbarkeit dieser Netze wird durch Inferenz auf ungesehene Blickwinkel demonstriert. Die regularisierte Darstellung von Oberflächennetzen wird weiter genutzt, um das neuartige, so genannte, generative icosahedral mesh convolutional network (GenIcoNet), yu entwickeln. Dieses GenIcoNet wurde auf einem Multi-Class genus-0 Mesh-Datensatz trainiert damit werden demonstrierte die generativen Fähigkeiten der Mesh-Interpolation, der Mesh-Regenerierung, der Erkundung des latenten Raums, der Patch-weisen Mesh-Kombination und der Mesh-Arithmetik. Anschließend wird die ikosaedrische Maschendarstellung für die Verringerung des Rauschens genutzt, indem ein icosahedral mesh denoising network (IMD-Net) vorgeschlagen wird. Techniken zur Rauschrerringung wurden bisher von handgefertigten Merkmalen dominiert, und erst vor kurzem wurden einige lernbasierte Ansätze vorgeschlagen. Im Gegensatz zu den bestehenden Methoden, die lokale Patches für das Training des Netzes verwenden, wird in IMD-Net das gesamte kodierte ikosaedrische Netz als eine Einheit verwendet. Dies ermöglicht das Training von IMD-Net mit großen Datenmengen und zwang das Netzwerk, globale und lokale Netzattribute führt zum Erlernen, die für die Entrauschung wichtig sind. Die in dieser Arbeit vorgeschlagenen effizienten Netze für 3D-Oberflächennetze verwenden 2D-Faltungskerne, so dass sie auch auf Geräten mit geringer Rechenleistung inferiert werden können. Um diese Fähigkeit zu demonstrieren, wurde eine Android-Anwendung für das 3D-Rekonstruktionsnetzwerk aus einem einzelnen Bild entwickelt und validiert. Die Idee der Regularisierung, die in dieser Arbeit für eine Vielzahl von Netzwerken entwickelt und vorgestellt wurde, kann auch als Grundlage für den Vergleich von Fortschritten beim Deep Learning auf 3D-Oberflächennetzen dienen.