Vision-based context-awareness in minimally invasive surgical video streams

Hellwich, OlafSahu, Manish2022-02-242022-02-242022https://depositonce.tu-berlin.de/handle/11303/16126http://dx.doi.org/10.14279/depositonce-14900Surgical interventions are becoming increasingly complex thanks to modern assistance systems (imaging, robotics, etc.). Minimally invasive surgery in particular places high demands on surgeons due to added surgical complexity and information overload. Therefore, there is a growing need of developing context-aware systems that recognize the current surgical situation in order to derive and present the relevant information to the surgical staff for assistance. Current approaches for deriving contextual cues either utilize specialized hardware that is disruptive to the surgical workflow, or utilize vision-based approaches that require valuable time of surgeons, especially for manual annotations. The main objective of this cumulative dissertation is to improve the existing approaches for three important sub-problems of vision-based context-aware systems, namely surgical phase recognition, surgical instrument recognition and surgical instrument segmentation, while tackling the vision and manual annotation challenges related to these problems. This dissertation demonstrates that vision-based approaches for the three named clinical sub-problems of context-aware systems can be developed in an annotation-scarce setting by employing: domain-specific, deep learning based transfer learning techniques for the surgical instrument and phase recognition tasks; and deep learning based simulation-to-real unsupervised domain adaptation techniques for the surgical instrument segmentation task. The efficacy and real-time performance of the developed approaches have been evaluated on publicly available datasets containing real surgical videos (laparoscopic procedures) that were acquired in an uncontrolled surgical environment. These proposed approaches advance the state-of-the-art for the aforementioned research problems of context-aware systems in the OR and can potentially be utilized for real-time notification of the surgical phase, surgical instrument usage and image-based localization of surgical instruments.Chirurgische Eingriffe werden dank moderner Assistenzsysteme (Bildgebung, Robotik usw.) immer komplexer. Insbesondere die minimalinvasive Chirurgie stellt aufgrund der zusätzlichen chirurgischen Komplexität und der Informationsfülle hohe Anforderungen an die Operateur/-innen. Aus diesem Grund besteht ein zunehmender Bedarf an der Entwicklung kontextsensitiver Systeme, die die aktuelle Operationssituation erkennen, um daraus die relevanten Informationen abzuleiten und dem chirurgischen Personal zur Unterstützung zu präsentieren. Derzeitige Ansätze zur Generierung kontextsensitiver Hinweise verwenden entweder spezielle Hardware, die den chirurgischen Arbeitsablauf stören, oder sie nutzen bildverarbeitungsbasierten Ansätzen, die wertvolle Zeit der Chirurgen in Anspruch nehmen, insbesondere für manuelle Annotationen. Das Hauptziel dieser kumulativen Dissertation ist es, bestehend Ansätze für drei wichtige Teilprobleme von bildbasierten kontextsensitiven Systemen zu verbessern: die Erkennung von chirurgischen Phasen, chirurgischen Instrumenten und die Segmentierung von chirurgischen Instrumenten im Bildmaterial. Hierbei werden insbesondere auch die mit diesen Problemen verbundenen Herausforderungen in Bezug auf die Klarheit des Bildmaterials und die manuelle Annotation mit in Angriff genommen. In dieser Dissertation wird gezeigt, dass bildverarbeitungsbasierte Ansätze für die drei genannten klinischen Teilprobleme kontextsensitiver Systeme in einem annotationsarmen Umfeld entwickelt werden können. Für die Aufgaben der chirurgischen Instrumenten- und Phasenerkennung werden hierzu domänenspezifische, auf Deep Learning basierende 'Transfer-Learning'-Techniken verwendet und für die Aufgabe der Segmentierung chirurgischer Instrumente werden auf Deep Learning basierende 'Simulation-to-Real Unsupervised Domain Adaption' Techniken eingesetzt. Die Wirksamkeit und die Echtzeitleistung der entwickelten Ansätze wurden an öffentlich zugänglichen Datensätzen mit realen chirurgischen Videos (laparoskopische Verfahren) evaluiert, die in einer unkontrollierten chirurgischen Umgebung aufgenommen wurden. Die vorgeschlagenen Ansätze stellen einen Fortschritt der wissenschaftlichen Erkenntnis in Bezug auf die oben genannten Forschungsprobleme kontextbezogener Systeme im OP dar und können potenziell für die Echtzeit-Benachrichtigung der chirurgischen Phase, Verwendung von chirurgischen Instrumenten und die bildbasierte Lokalisierung von chirurgischen Instrumenten verwendet werden.en004 Datenverarbeitung; Informatikcomputer visiondeep learningcomputer assisted surgeryminimally invasive surgerysurgical data scienceComputervisionmaschinelles Lernencomputerassistierte Chirurgieminimalinvasive Chirurgiebildgebendes VerfahrenVision-based context-awareness in minimally invasive surgical video streamsDoctoral ThesisVision-basierte Kontexterkennung in minimalinvasiven chirurgischen Videoaufnahmen