eJournals Transforming Cities 10/Sonderausgabe

Transforming Cities
tc
2366-7281
2366-3723
expert verlag Tübingen
10.24053/TC-2025-0019
0616
2025
10Sonderausgabe

Fassadenmaterialien aus Bildanalyse und Photogrammetrie mittels Deep Learning

0616
2025
Gerrit Austen
Eberhard Gülch
Lars Obrock
Fassadenmaterialen sollen durch einen kombinierten Einsatz von RGB- und Multispektralsensoren bestimmt werden. Dazu wurde die Erweiterung der semantischen Segmentierung mittels Deep Learning von RGB- auf Multispektralbilder erfolgreich gelöst und an Testdaten zur Erkennung von 13 Objektklassen implementiert. Für RGB + NIR + RedEdge + LWIR-Bilder wurde ein neuer 6-Kanal-Inputlayer definiert. Die Validierung des 6-Kanal-Multispektralansatzes für die Erkennung von Objektmaterialien ergab mit 73,0 % für den mIoU-Wert eine deutliche Steigerung gegenüber dem ursprünglichen 3-Kanal-RGB-Ansatz.
tc10Sonderausgabe0026
Fassadenmaterialien aus Bildanalyse und Photogrammetrie mittels Deep Learning Bestimmung von Objektmaterialien durch semantische Segmentierung von RGB- und Multispektralaufnahmen Fassadenmaterialien, Multispektralkamera MicaSense Altum, Semantische Segmentierung, Deep Learning, DeepLabv3+ Gerrit Austen, Eberhard Gülch, Lars Obrock Fassadenmaterialen sollen durch einen kombinierten Einsatz von RGB- und Multispektralsensoren bestimmt werden. Dazu wurde die Erweiterung der semantischen Segmentierung mittels Deep Learning von RGBauf Multispektralbilder erfolgreich gelöst und an Testdaten zur Erkennung von 13 Objektklassen implementiert. Für RGB + NIR + RedEdge + LWIR-Bilder wurde ein neuer 6-Kanal-Inputlayer definiert. Die Validierung des 6-Kanal-Multispektralansatzes für die Erkennung von Objektmaterialien ergab mit 73,0 % für den mIoU-Wert eine deutliche Steigerung gegenüber dem ursprünglichen 3-Kanal-RGB-Ansatz. Aktuelle und vollständige Datenbestände in 3D über Bestandsgebäude gibt es nur sehr vereinzelt und nicht flächendeckend. Je älter die Gebäude sind, umso seltener sind vollständige Pläne (Grundrisse, Schnitte) vorhanden, welche auf dem neuesten Stand sind. Dies erschwert den gesamten Prozess des Gebäudemanagements und betrifft vor allem die Wartung und Instandhaltung der Gebäude. Vorhandene Papierpläne können vielleicht noch als Grundlage für die Digitalisierung und als Vergleichsobjekt verwendet werden, jedoch sind sie häufig veraltet und somit nicht mehr funktional. Da viele Informationen nicht oder nicht aktuell vorhanden sind, müssen diese erstmalig oder neu ermittelt werden, um daraus ein einheitliches 3D- Modell für digitale Auskunftssysteme oder auch 3D- Stadtmodelle generieren zu können. Vor dem Hintergrund von Nachhaltigkeit und Energieeffizienz sind für verschiedene Anwendungen und Maßnahmen neben Informationen zu Innenräumen auch Informationen über Fassaden, etwa die verwendeten Fassadenmaterialien oder den Fassadenzustand, erforderlich. So können z.B. Flächen für vertikale Stadtbegrünungen, potenzielle Solarflächen und Informationen zu dringend notwendigen Sanierungs- oder Modernisierungsmaßnahmen ermittelt werden. Stand der Technik ist die Bestimmung von Fassadenmaterialen und insbesondere des Fassadenzustandes durch visuelle Inaugenscheinnahme durch Experten. Bei unzugänglichen Fassadenbereichen erfolgt dies durch den aufwändigen und kostenintensiven Einsatz von Gerüsten oder Hubsteigern. Bisherige Bilddokumentationen unterstützen den Experten lediglich bei seiner Bewertung, erlauben aber keinen direkten Geo-Bezug. Seit wenigen Jahren sind KI-Ansätze, z. B. Deep Learning basierend auf 2D-Bilddaten, für die Erkennung von Fassadenobjekten, wie z. B. Fenstern und Türen, in Entwicklung (Hensel et al., 2019). Der Objektzustand oder das Objektmaterial spielen nach Kenntnisstand der Autoren jedoch immer noch eine untergeordnete Rolle. Zudem gibt es nach dem Verständnis der Autoren keine Software, die eine Automation zur Material- und Zustandserkennung beinhaltet. An dieser Stelle setzten die durch das Bundesministerium für Bildung und Forschung geförderten iCity-Projekte IQG4iCity und DiaOpt4iCity mit dem Ziel an, neben der 3D-Geometrie, welche mittels Photogrammetrie ermittelt wird, zusätzliche semantische Informationen aus Bildern automatisiert zu generieren. Sonderausgabe · 2025 TR ANSFORMING CITIES DOI: 10.24053/ TC-2025-0019 26 NACHHALTIGE TRANSFORMATION Fassadenmaterialien Notwendige Vorarbeiten Da die mit der Altum-Kamera von MicaSense erstellten Bilder durch unterschiedliche Objektive erstellt werden (s. Bild 1), müssen die Bilder zunächst aufeinander transformiert werden. Dazu werden übereinstimmende Punkte in den einzelnen Bildern gesucht und durch eine 8-Parameter-Transformation in einen gemeinsamen Referenzrahmen des Bildes transformiert und die Intensitätswerte für die neuen Pixel interpoliert. Semantische Segmentierung mit RGB-Bilddateien mittels Deep Learning In einem früheren Projekt (Obrock & Gülch, 2022) wurde der Fokus auf die Ermittlung von Objekttypen aus RGB(Red Green Blue)-Bildern von Smartphones und Tablets in Innenräumen gerichtet. Diese Objektinformationen wurden anschließend in eine aus Bilddaten abgeleitete Punktwolke projiziert und damit wurde die Basis für eine semantische 3D-Modellierung gelegt. Der entwickelte Ansatz wurde an verschiedenen Büro- und Laborräumen erfolgreich validiert. In den beiden folgenden Projekten IQG4iCity und DiaOpt4iCity, in Kooperation mit dem Vermessungsbüro Schwing Hecht Dr. Neureither, Mosbach, standen Gebäudefassaden im Vordergrund. Der ursprüngliche Ansatz zur semantischen Segmentierung wurde auf Fassadenobjekte adaptiert und zusätzlich um die Ermittlung der Fassadenmaterialien erweitert. Dies erforderte eine weitreichende Modifikation des neuronalen Netzes hin zur Verarbeitung von Multispektraldaten anstelle reiner RGB-Bilder. Dies verlangte den Einsatz einer leistungsfähigen Multispektralkamera anstelle der bisherigen einfacheren RGB-Sensorik. Die gewählte MicaSense-Altum-Kamera stellt neben den drei RGB-Kanälen mit Nahem Infrarot (NIR), RedEdge und LWIR (Long Wave Infrared) drei weitere Multispektralkanäle in hoher Auflösung zur Verfügung. Die MicaSense Altum ist neben terrestrischen Fassadenaufnahmen auch für Fassadenaufnahmen mittels UAV einsetzbar, womit komplette Fassaden, d.h. obere Fassadenbereiche, erfasst und analysiert werden können. Mittels herkömmlicher Methoden, wie der visuellen Inaugenscheinnahme durch Experten, sind entsprechende Informationen über die verwendeten Fassadenmaterialien von Gebäuden in größerer Höhe nur sehr aufwändig zu erheben. Die mit dieser Multispektralkamera erzeugten Bilder dienten nicht nur als Grundlage für die photogrammetrische Punktwolken-Generierung für die 3D-Geometrie, sondern wurden auch für eine weitergehende Untersuchung der Fassadenmaterialien verwendet. Multispektralbilder enthalten gegenüber reinen RGB-Bildern zusätzliche Informationen, welche mit dem menschlichen Auge nicht sichtbar sind, und können so die Bestimmung der Fassadenmaterialien positiv unterstützen. Infrarotkanäle finden standardmäßig Anwendung bei der Erkennung von Begrünung. Zusätzlich bietet der LWIR-Kanal die Möglichkeit, die thermalen Eigenschaften zu untersuchen und damit weitere Informationen über die Eigenschaften der Materialien zu erhalten. Deep Learning Folgende Objektmaterial-Klassen wurden für die weiteren Untersuchungen definiert: Background, Beton, Sandstein, Marmor, Klinker, Naturstein, Verputzt, Holz, Metall, Plastik, Glas, Begrünung, Stoff. Für die Auswertung der bildhaften Sensordaten wurde das Neuronale Netz DeepLabv3+ zur pixelgenauen Segmentierung der vorgenannten Objektmaterial-Klassen in den Bildern verwendet. Anstelle eines Fully Convolutional Networks wurde das im Jahr 2018 erschienene und stark weiterentwickelte DeepLabv3+ (Chen et al., 2018) als Grundlage für das Training verwendet. Dieses baut auf einer Encoder- Decoder-Struktur auf. Zur Feature-Extraktion in der Encoder-Phase setzt es auf die Xception-Architektur und erweitert diese mit Atrous Spatial Pyramid Pooling zur besseren Einbeziehung der erweiterten Nachbarschaft des untersuchten Neurons. Durch Verwendung des Decoders wird die zuvor reduzierte Ausdehnung der Layer, basierend auf aus dem Encoder abgeleiteten Werten, wieder hochskaliert. So ermöglicht dieses Neuronale Netz eine gute Bild 1: Bildaufnahmen (6 Kanäle) der MicaSense-Altum- Kamera an einem Gebäude der HFT Stuttgart Quelle: L. Obrock NACHHALTIGE TRANSFORMATION 27 Sonderausgabe · 2025 TR ANSFORMING CITIES DOI: 10.24053/ TC-2025-0019 Fassadenmaterialien Fassadenmaterialien aus 5-Kanalbildern der Multispektralkamera mittels Deep Learning Aus RGB + NIR- und RedEdge-Bildern wurde anschließend ein neuer 5-Kanal Inputlayer für die semantische Segmentierung mittels des modifizierten DeepLabv3+-Netzes auf Basis echter Multispektralbilder definiert und implementiert (s. Bild 3). Die Validierung ergab einen Wert von 71,5 % mIoU bei den Testdaten und somit eine moderate Steigerung gegenüber dem ursprünglichen Ansatz mit reinen RGB-Bilddaten. Fassadenmaterialien aus 6-Kanalbildern der Multispektralkamera mittels Deep Learning Aus RGB + NIR + RedEdge + LWIR-Bildern wurde abschließend ein neuer 6-Kanal Inputlayer für die semantische Segmentierung definiert und das DeepLabv3+-Netz hierfür zudem entsprechend erweitert. Die Validierung ergab einen etwas besseren Wert von 73,0 % mIoU bei den Testdaten, womit die Erkennung der Objektmaterialien (s. Bild 4) weiter gesteigert werden konnte. Fazit und Ausblick Die vorgestellte neuartige Erweiterung der semantischen Segmentierung auf Multispektralbilder mit 5 bzw. 6 Kanälen konnte erfolgreich implementiert und validiert werden. In den Untersuchungen anhand der Testdaten konnte eine gute Qualität der Segmentierung in Multispektralbildern erzielt werden. Zudem konnte eine Steigerung der Qualität der Segmentierung bei den Testdaten durch Verwendung aller 6 Kanäle nachgewiesen und mit 73,0 % mIoU ein positives Ergebnis erreicht werden. Als Fazit bleibt festzuhalten, dass die zusätzlichen Informationen in den Multispektralbildern einen positiven Beitrag für die Segmentierung in DeepLabv3+ liefern. Wertvolle Fassadeninformationen können aus den Multispektralbildern ermittelt werden. Das Vorhaben schafft damit Grundlagen für die künftige flächendeckende Erhebung und Bereitstellung relevanter Gebäudeinformationen, um im Bedarfsfall entsprechende bauliche Anpassungen und Effizienzsteigerungen vornehmen zu können. QUELLEN Chen, LC., Zhu, Y., Papandreou, G., Schroff, F., Adam, H. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds) Computer Vision - ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, vol 11211. Springer, Cham. https: / / doi.org/ 10.1007/ 978-3-030- 01234-2_49 Bild 4: Ergebnisse der 6-kanaligen Segmentierung gemäß definierter Objektklassen Quelle: L. Obrock Bild 3: Ergebnisse der 5-kanaligen Segmentierung gemäß definierter Objektklassen Quelle: L. Obrock Qualität der Segmentierungen und erzeugt präzise Kanten zwischen den unterschiedlichen Bereichen. DeepLabv3+ ist eine Architektur, welche in Benchmarks sehr gute Genauigkeiten erreicht hat. Für die Bewertung diente die verbreitete Metrik mIoU (mean Intersection over Union) als primäres Qualitätsmaß für die Ergebnisse der Segmentierungen. Es bestimmt, wie genau die Segmentierungsmaske (Output) mit der Sollmaske (Ground Truth) übereinstimmt. Ein hoher mIoU-Score weist auf eine höhere Genauigkeit und eine bessere Erkennung hin und schafft Vertrauen in die Leistung des gewählten Ansatzes. Fassadenmaterialien aus RGB-Bildern der Multispektralkamera mittels Deep Learning Unter Verwendung allein der RGB-Kanäle der Bilder wurden zunächst manuell die gesuchten Materialkategorien segmentiert und auf diese Weise sogenannte Ground-Truth-Bilder für das Training des Neuronalen Netzes generiert. In Bild 2 sind beispielhaft zwei Segmentierungsergebnisse für die Fassadenmaterialien aus RGB- Bilddaten auf Basis von 6480 trainierten Bildern mit DeepLabv3+ und einem Ergebniswert von 70 % mIoU zu sehen. Bild 2: Fassadenmaterialien (farbig gemäß Legende) aus RGB- Bilddaten für zwei RGB-Aufnahmeszenen Quelle: L. Obrock 28 Sonderausgabe · 2025 TR ANSFORMING CITIES DOI: 10.24053/ TC-2025-0019 NACHHALTIGE TRANSFORMATION Fassadenmaterialien Hensel, S., Goebbels, S., Kada, M. (2019). Façade reconstruction for textured LOD2 CIT YGML models based on Deep Learning and mixed integer linear programming. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume IV-2/ W5, 2019 Obrock, L., Gülch, E. (2022). Deep Learning Methods for Extracting Object Oriented Models of Building Interiors from Images. In Volker Coors, Dirk Pietruschka, Berndt Zeitler (Editors): iCity. Transformative Research for the Livable, Intelligent, and Sustainable City. Research Findings of University of Applied Sciences Stuttgart. Springer, 2022 (Open Access) - DOI https: / / doi.org/ 10.1007/ 978-3-030-92096-8 Prof. Dr. Gerrit Austen, Hochschule für Technik Stuttgart, Schellingstraße 24, 70174 Stuttgart gerrit.austen@hft-stuttgart.de Prof. Dr. Eberhard Gülch, Seniorprofessor Hochschule für Technik Stuttgart eberhard.guelch@hft-stuttgart.de Lars Obrock, M. Eng., topometric GmbH Wilhelm-Zwick-Straße 7, 73035 Göppingen lars.obrock@topometric.de AUTOR: INNEN Sensoren4 NACHHALTIGE TRANSFORMATION Fassadenmaterialien 29 Sonderausgabe · 2025 TR ANSFORMING CITIES DOI: 10.24053/ TC-2025-0019