Automatische Generierung von 3D-Modellen mittels Sequenzen hochauflösender Bildtripel

Heinrichs, Matthias

Automatische Generierung von 3D-Modellen mittels Sequenzen hochauflösender Bildtripel

dc.contributor.advisor	Hellwich, Olaf	en
dc.contributor.author	Heinrichs, Matthias	en
dc.contributor.grantor	Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik	en
dc.date.accepted	2010-12-10
dc.date.accessioned	2015-11-20T20:07:39Z
dc.date.available	2011-01-21T12:00:00Z
dc.date.issued	2011-01-21
dc.date.submitted	2011-01-21
dc.description.abstract	Die Rekonstruktion einer räumlichen Szene aus Bildern kann automatisch erfolgen, wenn Kameraposition und -orientierung sowie korrespondierende Bildpunkte ohne Eingreifen berechnet werden können. Da die Aufnahme einer Szene in der Regel zügig erledigt ist und daraus viele Daten entstehen, ist es wichtig, dass diese Daten automatisch ausgewertet werden können, um eine genaue 3D-Rekonstruktion für die weitere Verarbeitung ohne Aufwand zu ermöglichen. Durch die vielen möglichen Schwierigkeiten bei der Aufnahme muss das System besonders robust und fehlertolerant sein, um vielseitig eingesetzt werden zu können. Da bei einem Bildpaar prinzipiell nur die gleichzeitig sichtbaren Objekte rekonstruiert werden können, müssen für eine vollständige Rekonstruktion mehrere Rekonstruktionen aus verschiedenen Ansichten zusammengefügt werden. Dies ist nur möglich, wenn die Kamerapositionen aller Ansichten bekannt sind. Für eine genaue Rekonstruktion müssen sehr viele Bilder verarbeitet werden können, um auch geometrisch anspruchsvolle Objekte mit vielen Verdeckungen und großen Dimensionen rekonstruieren zu können. Diese Arbeit erweitert und passt aktuelle Forschungsergebnisse der Themenbereiche Merkmalsextraktion, relative Orientierung, Rektifizierung und Korrespondenzanalyse aneinander an, um ein aufeinander abgestimmtes System zu integrieren. Dabei werden sowohl Videodaten für eine einfache Verfolgung der Szeneninhalte als auch Stereobildaufnahmen von verschiedenen Videokameras mit einem geeigneten Kamerabstand für eine genaue Triangulation verwendet, wobei sich die jeweiligen Vorteile der Rekonstruktionstechniken ergänzen. Das vorgestellte System verwendet dabei drei synchronisierte Videoströme von drei Kameras, die auf einem Rahmen zueinander fest montiert sind. Als Voraussetzung müssen die intrinsische Kalibrierung und radiale Verzeichnung der Kameralinsen bekannt sowie die Synchronität der drei Videoströme gewährleistet sein. Die Grundvoraussetzung für eine genaue Rekonstruktion ist eine stabile und akkurate Zuordnung von Punktmerkmalen. Dazu werden vorhandene Interestoperatoren und Merkmalsdeskriptoren so kombiniert und die Subpixelbestimmung so verfeinert, dass die daraus resultierenden Merkmale gut für die Auswertung von Videos geeignet sind. Für die Zuordnung dieser Merkmale wird eine neue Technik vorgestellt, anhand derer aus den Beziehungen der drei Kameras zueinander und drei aufeinander folgenden Bildern Bedingungen abgeleitet werden können, um nahezu sämtliche Fehlzuordnungen herauszufiltern. Ein weiterer Vorteil ist die gleichzeitige Zuordnung der Merkmale sowohl im zeitlichen Verlauf eines Videostroms als auch zwischen den Bildern der drei Kameras. Dadurch entstehen räumliche/zeitliche Zuordnungen und es können hilfreiche Bedingungen eingeführt werden, die durch die feste Anordnung der Kameras auf dem Rahmen entstehen. Ferner ist es möglich, in gewissen Grenzen die Position von Punktmerkmalen vorherzusagen und verlorene oder verdeckte Korrespondenzen zu reparieren oder wiederzufinden. Die Rekonstruktion des Kamerapfades mittels Bildkorrespondenzen und relativer Orientierung wurde auf das vorhandene System erweitert. Wegen der räumlich/zeitlichen Korrespondenzen können die Mehrdeutigkeiten in der Pfadbestimmung reduziert werden. Gleichzeitig wird die Bestimmung eines globalen Maßstabs durch den Rahmen vereinfacht und es kann gezeigt werden, dass der Maßstabsfehler auch nach vielen Bildern nicht zunimmt. Für eine dichte Zuordnung der Bildpunkte wird vor der Korrespondenzsuche häufig eine Bildrektifizierung eingefügt, die im Stereobildfall die Bildzeilen so anordnet, dass sie mit den Epipolarlinien korrespondieren. In dieser Arbeit wird ein lineares Verfahren vorgestellt, anhand dessen drei Bilder rektifiziert werden können, so dass die Bildzeilen und -spalten eines Referenzbildes jeweils mit den Epipolargraden von einem der zwei anderen Bilder korrespondieren. Diese Vorverarbeitung ermöglicht es, die drei Bilder bei der Korrespondenzsuche so zu untersuchen, dass im Vergleich zur Zweibildanalyse kaum Mehraufwand entsteht. Diese Rektifizierung bildet die Basis für eine automatische und dichte Zuordnung von Bildpunkten hochauflösender Bilder. Es werden in dieser Arbeit Erweiterungen für ein robustes Zuordnungsverfahren vorgestellt, um in drei Bildern gleichzeitig Korrespondenzen zu finden und über den Aufbau von Bildpyramiden die Zuordnungsqualität zu verbessern. Des weiteren wird ein Verfahren zur Subpixelbestimmung beschrieben, um Informationen, die aus den Aliaseffekten des Bildrasters entstehen, so genau wie möglich zu integrieren. Die Funktion des Systems wird an realen Daten demonstriert und die Genauigkeit der Ergebnisse mit etablierten Messmethoden bestätigt. Es kann gezeigt werden, dass auch große Objekte mit sehr hoher Genauigkeit rekonstruiert werden können und dabei auf externe Sensorik wie Beschleunigungsmesser, Gyroskope und GPS-Empfänger verzichtet werden kann.	de
dc.description.abstract	A three-dimensional (3D) scene can be automatically reconstructed from images if camera position and orientation as well as corresponding image points can be determined without the aid of an operator. Recording a scene usually takes only little time while generating plenty of data, it is therefore important that the data be processed automatically and without too much effort in order to enable highly precise 3D reconstruction for further use. In addition, due to the multitude of difficulties that could arise during recording, the system must be exceptionally robust and error-tolerant to guarantee maximum applicability. In an image pair, only those objects visible in both images at the same time can be reconstructed. For complete reconstruction of an object, therefore, several reconstructions from different viewpoints must be assembled, which is only possible if all camera positions are known. Thus, locations and orientations for each image viewpoint must be determined and a great number of images must be processed for highly precise reconstructions even of geometrically sophisticated objects containing many occlusions and covering large dimensions. In this paper, current research in the fields of feature point extraction, relative orientation, rectification and image registration is expanded, refined and adjusted to create one coherent system. Video data for scene tracking as well as stereo images taken by different video cameras with an appropriate distance between them are used for exact triangulation, the respective advantages of the different reconstruction techniques thus complementing each other and producing an efficient system. For the system presented in this paper, three synchronized video streams taken by three cameras fixed on a frame are used, the only preconditions being that the intrinsic calibration and radial distortion of the camera lenses must be known and the synchrony of the three video streams must be guaranteed. Precise reconstruction is only possible if feature points are matched reliably and accurately. In order to achieve this, exsiting interest operators and feature descriptors are combined and sub-pixel determination is refined so that the resulting feature points are perfectly fitted for video evaluation. For the reliable matching of those features, a new technique is presented, by means of which conditions can be derived from the relation between the three cameras and from three consecutive images taken by each of these cameras to filter almost all mismatches. Furthermore, the system allows synchronous feature matching, taking place chronologically along the video stream as well as between the images taken by the three cameras. This generates spatial and temporal matches and useful conditions deriving from the fixed arrangement of the cameras on the frame can be introduced into the system. Thus, within certain limits, the position of feature points becomes predictable, lost correspondences can be found and errors resulting from occlusions can be fixed. Camera path reconstruction through image correspondences and relative orientation was expanded to fit the existing trifocal system. Ambiguities in path reconstruction can be minimized due to spatial/temporal correspondences. At the same time, the frame facilitates the determination of a global scale, and evidence shows that scale errors do not increase even after thousands of images. In order to achieve dense stereo view correspondences, an image rectification is often conducted before the actual correspondence search. Thus, in the stereo normal case, image rows are arranged in such a way that they correspond with the epipolar lines. In this paper, a linear method is presented to rectify three images so that the image rows and columns of a reference image correspond with the respective epipolar lines of the two other images. When this method is applied, a correspondence search from three images requires almost no additional effort compared to a two-image analysis. This rectification forms the basis for the automatic generation of dense stereo correspondences in high-resolution images. Expansions for a robust matching method are presented in this paper to simultaneously find correspondences in three images and improve the matching quality by building image pyramids. Furthermore, a method for sub-pixel determination is described so that information deriving from the picture raster’s alias effects can be integrated as precisely as possible. The system’s functionality is demonstrated using real data, and the exactitude of the results is confirmed using well-established measuring methods. It is shown that even large objects can be precisely reconstructed without the aid of external sensor technology such as accelerometers, gyroscopes or GPS receivers.	en
dc.identifier.uri	urn:nbn:de:kobv:83-opus-29242
dc.identifier.uri	https://depositonce.tu-berlin.de/handle/11303/2998
dc.identifier.uri	http://dx.doi.org/10.14279/depositonce-2701
dc.language	German	en
dc.language.iso	de	en
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/2.0/	en
dc.subject.ddc	004 Datenverarbeitung; Informatik	en
dc.subject.other	3D Rekonstruktion	de
dc.subject.other	Dichtes Stereo	de
dc.subject.other	Rektifizierung	de
dc.subject.other	Relative Orientierung	de
dc.subject.other	Videotracking	de
dc.subject.other	3D reconstruction	en
dc.subject.other	Dense stereo	en
dc.subject.other	Rectification	en
dc.subject.other	Relative orientation	en
dc.subject.other	Video tracking	en
dc.title	Automatische Generierung von 3D-Modellen mittels Sequenzen hochauflösender Bildtripel	de
dc.title.translated	Automatic 3D model generation from sequences of high-resolution image triplets	en
dc.type	Doctoral Thesis	en
dc.type.version	publishedVersion	en
tub.accessrights.dnb	free	*
tub.affiliation	Fak. 4 Elektrotechnik und Informatik::Inst. Technische Informatik und Mikroelektronik	de
tub.affiliation.faculty	Fak. 4 Elektrotechnik und Informatik	de
tub.affiliation.institute	Inst. Technische Informatik und Mikroelektronik	de
tub.identifier.opus3	2924
tub.identifier.opus4	2762
tub.publisher.universityorinstitution	Technische Universität Berlin	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Dokument_14.pdf
Size:: 23.05 MB
Format:: Adobe Portable Document Format

Download

Collections

Publications