Thumbnail Image

Image perception enhancement in prosthetic vision

Hossam Elnabawy, Reham

Vision is the most crucial sense that a human being cannot live independently without. Visual prosthesis has been proposed as a promising solution to restore partial vision to people who lost their vision. Visual prostheses exploit the functional parts in the eye and the brain to enable partial restoration of vision. Despite its initial success, some challenges arise that hinder the ability of the patients implanted with visual prostheses to correctly recognize and localize objects. In this thesis, we introduce a variety of solutions to enhance the ability of visual prostheses users to correctly recognize and localize objects. Image processing and deep learning techniques are proposed in this thesis to simplify and better represent objects for visual prostheses users. One crucial challenge that arises in a typical visual prosthetic device is electrodes dropout, where some electrodes malfunction throughout time. To address this challenge, an optimal solution is proposed by translating the object of interest to a location in the visual field of the user such that the minimum amount of dropout exists. Another challenge that visual prostheses users face is the complexity of the viewed scene that is barely recognizable due to the low spatial and radiometric resolutions available through visual prostheses. Accordingly, we propose the utilization of clip art representation of images instead of the actual real photo to ease the recognition of any arbitrary object. We propose the use of You Only Look Once (YOLO), a deep learning model to retrieve the clip art that corresponds to an object detected by YOLO in a high-resolution photo. In addition, a deep learning-based approach using Generative Adversarial Networks (GANs), named PVGAN, is proposed to generate clip art images from given high-resolution photos to allow better and easier perception of the images in a visual prosthetic device. Finally, we combine three enhancement techniques with the GAN-generated clip art which are edge sharpening, corners sharpening and dropout handling to enhance object recognition and localization. The combined approach is tested in a mixed reality environment to simulate the visual representation perceived by visual prostheses users. A number of prosthetic vision simulation experiments were conducted on normally/correctly sighted participants to measure the efficacy of the proposed approaches using both computer screen and mixed reality. The results demonstrate that the usage of the proposed techniques enhances the ability of people to correctly recognize and localize objects. This could allow visual prostheses users to regain back their confidence and independence.
Das Sehen ist der wichtigste Sinn, ohne den ein Mensch nicht unabhängig leben kann. Sehprothesen wurden als viel versprechende Lösung vorgeschlagen, um Menschen, die ihre Sehkraft verloren haben, zu helfen und ihnen ein teilweises Sehvermögen zu geben. Sie nutzen die funktionellen Teile des Auges und des Gehirns, um eine teilweise Wiederherstellung des Sehvermögens zu erzielen. Trotz anfänglicher Erfolge gibt es einige Probleme hinsichtlich der Fähigkeit der mit Sehprothesen ausgestatteten Patienten, Objekte richtig zu erkennen und zu lokalisieren. In dieser Arbeit stellen wir eine Reihe von Lösungen vor, um die Fähigkeiten von Sehprothesenträgern zu verbessern, Objekte richtig zu erkennen und zu lokalisieren. Techniken der Bildverarbeitung und des Deep Learning zur vereinfachten Nutzung von Sehprothesen werden entwickelt. Eine entscheidende Herausforderung, die bei einer typischen Sehprothese auftritt, ist der Ausfall von einzelnen Elektroden im Laufe der Zeit der Benutzung. Zur Bewältigung dieser Herausforderung wird eine optimale Lösung vorgeschlagen, indem das Objekt des Interesses an eine Position des Implantats im Gesichtsfeld des Benutzers verschoben wird, so dass das die Fläche des Objektsegments von möglichst wenigen ausfallenden Elektroden betroffenist. Eine weitere Herausforderung für die Nutzer von Sehprothesen ist die Komplexität der betrachteten Szene, die aufgrund der geringen räumlichen und radiometrischen Auflösung, die mit Sehprothesen möglich ist, kaum erkennbar ist. Dementsprechend schlagen wir die Verwendung von clip art-Darstellungen der abgebildeten Objekte anstelle der realen Fotos vor, um die Erkennung beliebiger Objekte zu erleichtern. Wir schlagen die Verwendung von You Only Look Once (YOLO) vor, einem Modell für tiefes Lernen, um die clip art Darstellung abzurufen, die einem Objekt entspricht, das, auch mittles YOLO, in einem hochauflösenden Foto erkannt wurde. Darüber hinaus wird ein auf Deep Learning basierender Ansatz mit generativen adversarialen Netzwerken (GANs), genannt PVGAN, vorgeschlagen, um clip art-Bilder aus gegebenen hochauflösenden Fotos zu generieren, um eine bessere und einfachere Wahrnehmung der Bilder in einer Sehprothese zu ermöglichen. Schließlich kombinieren wir drei Methoden zur Verbesserung der Objekterkennung und lokalisierung mit den GAN-generierten Cliparts, nämlich Kantenschärfung, Eckenschärfung und Dropout. Der kombinierte Ansatz wird in einer Gemischte-Realität-Umgebung getestet, um die visuelle Darstellung zu simulieren, die von Prothesenbenutzern wahrgenommen wird. Eine Reihe von Experimenten zur Simulation des Sehvermögens von Prothesenträgern wurde an normalsichtigen Teilnehmern durchgeführt, um die Wirksamkeit der vorgeschlagenen Ansätze sowohl auf dem Computerbildschirm als auch in der gemischte Realität zu ermitteln. Die Ergebnisse zeigen, dass die Anwendung der vorgeschlagenen Techniken die Fähigkeit von Menschen verbessert, Objekte korrekt zu erkennen und zu lokalisieren. Dies könnte Nutzern von Sehprothesen ermöglichen, ihr Selbstvertrauen und ihre Unabhängigkeit wiederzuerlangen.