Künstliche Intelligenz im Ingenieurbau
kii
expert verlag Tübingen
kii20251/kii20251.pdf1110
2025
20251
Generative KI im Bauwesen: Stärken und Schwächen
1110
2025
Joern Ploennigs
Das Bauwesen steht unter dem Druck sinkender Produktivität und wachsender Komplexität. Aktuelle Fortschritte in generativer Künstlichen Intelligenz (KI) eröffnen neue Möglichkeiten, diese Herausforderungen anzugehen. Der Beitrag analysiert zentrale Ansätze in deren Stärken und Schwächen, um daraus Anwendungsmöglichkeiten abzuleiten. Während diese Modelle vor allem in Entwurfsphasen, dem Dokumentenmanagement und der Kommunikation nützlich sind, stoßen sie bei räumlichen und kausalen Daten an Grenzen. Daher wird die Entwicklung spezialisierter Building Foundation Models (BFMs) vorgeschlagen, die räumlichen, zeitlichen und kausale Zusammenhänge abbilden.
kii202510023
1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 23 Generative KI im Bauwesen: Stärken und Schwächen Prof. Dr.-Ing. habil. Joern Ploennigs Universität Rostock, Deutschland Zusammenfassung Das Bauwesen steht unter dem Druck sinkender Produktivität und wachsender Komplexität. Aktuelle Fortschritte in generativer Künstlichen Intelligenz (KI) eröffnen neue Möglichkeiten, diese Herausforderungen anzugehen. Der Beitrag analysiert zentrale Ansätze in deren Stärken und Schwächen, um daraus Anwendungsmöglichkeiten abzuleiten. Während diese Modelle vor allem in Entwurfsphasen, dem Dokumentenmanagement und der Kommunikation nützlich sind, stoßen sie bei räumlichen und kausalen Daten an Grenzen. Daher wird die Entwicklung spezialisierter Building Foundation Models (BFMs) vorgeschlagen, die räumlichen, zeitlichen und kausale Zusammenhänge abbilden. 1. Einleitung Generative KI-Modelle wie ChatGPT, Claude, Gemini für Text oder Dall-E, Midjourney, StableDiffusion für Bilder und Videos erfreuen sich massiv wachsender Benutzerzahlen. Sie eignen sich nicht nur für die Beantwortung trivialer Fragen, sondern können auch im beruflichen Kontext eingesetzt werden. Die Frage ist, welche Ansätze auch im Bauwesen genutzt werden können. Das Bauwesen ist traditionell eine sehr konservative Branche, die Technologien nur langsam adaptiert. Infolgedessen verzeichnet die Branche in den letzten 20 Jahren einen Produktivitätsrückgang von 14 %, was im starken Kontrast zur Branche Informationstechnik steht, in dem die Produktivität um 71 % gewachsen ist [1]. In diesem Hochdigitalisierten Branche lassen sich solche Technologien deutlich einfacher einsetzten. Mit skurrilen Konsequenzen da die Programmierer die KI-Lösungen erstellen, Gefahr laufen durch sie abgelöst zu werden. Das Bauwesen kann nicht rein digital sein und besteht aus vielen kleinteiligen und komplexen, zum Teil sehr individuellen Aufgaben, wo sich solche Technologien schlechter einsetzten lassen. Auf der anderen Seite gerät das Bauwesen zunehmend unter Druck, diese Probleme anzugehen. Eine aktuelle Analyse von McKinnsey [2] zeigt, dass der Fachkräftemangel im Bauwesen global steigt und nicht ausgeglichen werden kann. Das Ergebnis der Analyse: Es ist unvermeidlich, dass das Bauwesen digitaler werden muss. Dabei darf man nicht übersehen, dass das Bauwesen in der Vergangenheit ein wichtiger Treiber für digitale Innovationen war. Konrad Zuse, der Erfinder des ersten funktionsfähigen Computers, war Bauingenieur. Und auch Ivan Sutherland entwickelte 1964 mit Sketchpad die erste CAD-Software für das Bauwesen, inklusive grafischem Bildschirm und digitalem Eingabestift. Über viele Jahre galt CAD als eine der anspruchsvollsten Anwendungen der Computertechnik und leitete im Bauwesen den Übergang vom analogen zum digitalen Entwurf ein. Das brachte spürbare Produktivitätsgewinne. Gleichzeitig wurden die Schwächen sichtbar. Bauprojekte sind fast immer Gemeinschaftsleistungen vieler Firmen. Der Austausch von CAD-Daten führte dadurch regelmäßig zu Versionskonflikten. Um dieses Problem zu lösen, entstand Anfang der 1990er-Jahre die Idee, ein standardisiertes Austauschformat mit definierten Prozessen einzuführen, das Building Information Modeling (BIM). BIM hat die Zusammenarbeit vereinfacht und die Arbeit effizienter gemacht, auch dadurch, dass sich daraus objektorientierte Werkzeuge entwickelt haben, die viele Entwurfsschritte erleichtern. Doch konnte BIM nicht alle Produktivitätsprobleme lösen. Einerseits, weil Aufgaben durch BIM stärker in frühe Entwurfsphasen verlagert werden. Andererseits, weil ein Grundproblem bestehen bleibt: Jedes Bauwerk ist ein Unikat. Das führt zu individuellen Entwürfen und zu spezifischen Abläufen auf der Baustelle, die viele manuelle Schritte erfordern. BIM kann diese Vielfalt zwar strukturieren, sie aber nicht automatisieren. Und gerade diese Automatisierung ist der Schlüssel, um Produktivität messbar zu steigern. Erst wenn Aufgaben zuverlässig und ohne Qualitätsverlust an Maschinen übergeben werden können, werden Fachkräfte entlastet. Dabei besteht die Einzigartigkeit von Bauwerken, aus der Kombination standardisierter Elemente. Baustoffe sind in Datenbanken katalogisiert und rund 3.900 digitale Normen reglementieren viele Planungsschritte. Selbst Freiformen entstehen aus systematischen Entwurfsvorgehen. Das eigentliche Hindernis für Automatisierung liegt somit nicht in der Individualität des Endprodukts, sondern in der enormen Vielfalt möglicher Eingangsdaten. Dieses Phänomen ist in der Informatik als kombinatorische Explosion bekannt. Programmiersprachen bestehen ebenfalls aus standardisierten Bausteinen und dennoch benötigte es lange Zeit den Menschen, um daraus funktionierenden Code zu erzeugen. Mit den jüngsten Fortschritten in generativer KI können nun KI-Modelle viele einfache Programmieraufgaben übernehmen. Somit stellt sich die Frage, ob dies auch im Bauwesen möglich sein kann. Aus der bisherigen Analyse wird deutlich, dass die Digitalisierung im Bauwesen in den letzten Jahren zwar erhebliche Fortschritte gemacht hat, dies jedoch nicht unmittelbar zu einer Produktivitätssteigerung führte. Vielmehr entsteht zunächst eine exponentiell wachsen- 24 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen de Datenmenge, da sich Daten in digitalen Prozessen akkumulieren. Auch auf der Baustelle hat sich der Einsatz digitaler Werkzeuge deutlich verbreitet, von präzisen Messgeräten bis hin zum Smartphone, das sich zur zentralen Plattform für Kommunikation, Projektmanagement und Dokumentation entwickelt hat. Damit wird der mobile Zugriff auf digitale Informationen zwar erleichtert, gleichzeitig aber auf kleinere Benutzeroberflächen verlagert. Dieser Trend dürfte sich mit der Einführung von Augmented-Reality-Brillen und sprachbasierten Schnittstellen noch verstärken. Die Herausforderung besteht somit darin, dass immer größere Datenmengen verfügbar werden, während die Darstellungsmöglichkeiten schrumpfen. Um diese Situation zu bewältigen, sind Technologien erforderlich, die nicht nur eine reine Suche ermöglichen, sondern Daten kontextbezogen zusammenfassen, verdichten und gezielt bereitstellen. Konkret bedeutet dies: Steht auf der Baustelle ein Problem mit einem bestimmten Bauteil an, muss das System in der Lage sein, automatisch die relevanten Entwurfsdokumente, die Änderungshistorie, die begleitende Kommunikation sowie mögliche Lösungsvorschläge bereitzustellen. 2. Geschichte der Künstlicher Intelligenz In der öffentlichen Wahrnehmung wird Künstliche Intelligenz (KI) als eine neuartige Technologie wahrgenommen. Tatsächlich reicht ihre Entwicklung jedoch bis in die 1940er-Jahren zurück. Damals arbeiteten Neurologen und Mathematiker zusammen, um die Funktionsweise biologischer Neuronen mathematisch zu beschreiben. Ziel war es einerseits, die Informationsverarbeitung im menschlichen Gehirn besser zu verstehen und andererseits technische Systeme zu entwickeln, die in der Problemlösung vergleichbare Fähigkeiten aufweisen. Diese frühen Ansätze Künstlicher Neuronaler Netzwerke (KNN) führten zu ersten positiven Ergebnissen, sodass 1955 der Begriff „Künstliche Intelligenz“ geprägt wurde. Er sollte Systeme kennzeichnen, die menschenähnliche Intelligenz aufweisen. In diesem Kontext formulierte Alan Turing den bis heute maßgeblichen „Turing-Test“ [4], in dem ein System dann als intelligent gilt, wenn ein menschlicher Beobachter in einem Blackbox-Szenario nicht zwischen der Interaktion mit einem Menschen und Maschine unterscheiden kann. Auf diese Phase der Euphorie im sogenannten ersten „KI- Sommer“ folgte bald Ernüchterung. Die damals verfügbaren Netzwerke waren zu klein, um komplexe Aufgaben bewältigen zu können und für größere Netzwerke fehlte die Rechentechnik. Die Enttäuschung führte zum ersten „KI-Winter“, der erst in den 1980er-Jahren durch neue Lernverfahren beendet wurde. Insbesondere der Backpropagation-Algorithmus führte zu einem erneuten Aufschwung. Damit konnten komplexere Architekturen wie rekursive neuronale Netze (RNN), Convolutional Neural Networks (CNN) oder Long Short-Term Memory-Netze (LSTM) trainiert werden. Allerdings zeigte sich, dass deren Leistungsfähigkeit stark von der Verfügbarkeit großer Datenmengen und hoher Rechenkapazität abhing, die zu diesem Zeitpunkt noch nicht gegeben war. Parallel hierzu entwickelte sich die symbolische KI, die bereits seit Mitte der 1950er-Jahre verfolgt wurde. Ihr Ansatz beruht auf der Annahme, dass Intelligenz durch faktenbasierte, logische Entscheidungsprozesse bestimmt wird. Es wurden regelgetriebene, deterministische Verfahren entwickelt die in Form sogenannter Expertensysteme komplexe Entscheidungs-probleme lösen sollten. Ein prominentes Beispiel ist „Deep Blue“ von IBM, das 1989 erstmals einen menschlichen Schachspieler besiegte, indem es eine Vielzahl möglicher Züge analysierte und anhand festgelegter Regeln die jeweils beste Entscheidung auswählte. Obwohl solche Systeme in streng strukturierten Domänen erfolgreich waren, ließ sich dieser Ansatz nicht auf komplexe, dynamische Realweltszenarien übertragen. Infolgedessen setzte nach einer Phase erhöhter Aufmerksamkeit ein weiterer „KI-Winter“ ein, der bis etwa 2012 andauerte. Abb. 1: Wandel von Methoden in der KI von traditionellen semantischen Reasoning und ML-Modellen in 2012 über den Aufstieg von Neuronalen Netzwerken bis 2022 und Innovation von Sprach- und Bildmodelle in 2022 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 25 Generative KI im Bauwesen: Stärken und Schwächen Zu Beginn der 2010er-Jahre lassen sich in der KI zwei wesentliche Forschungsrichtungen unterscheiden (vgl. Abb. 1). Auf der einen Seite standen semantische, logische Modelle, die klassische symbolische Logiksysteme um semantische Informationen erweiterten. Diese Semantik erlaubt es Bedeutungszusammenhänge in der Logik explizit abzubilden und so regel-basierte Wissensstrukturen aufzubauen. Diese Ansätze fanden insbesondere Anwendung beim Auf bau großer Wissensgraphen, etwa beim Google Knowledge Graph, der Informationsfenster bei Suchanfragen generiert, oder bei Wikidata als strukturierte Datenbasis von Wikipedia. Parallel dazu gewannen Anfang der 2010er-Jahre auch Modelle des Maschinellen Lernens (ML) an Bedeutung. Der zentrale Treiber hierfür war die fortschreitende Digitalisierung, die in nahezu allen Bereichen zu einer rapide wachsenden Verfügbarkeit von Daten führte. Bis dahin basierten diese ML-Ansätze primär auf statistischen Verfahren. Diese wurden ab 2012 zunehmend durch Künstliche Neuronale Netze (KNN) abgelößt. Damals hat man es geschafft die Berechnung der KNN hochparallel auf Grafikprozessoren (GPUs) auszulagern unter Nutzung der bereits 2007 von NVIDIA veröffentlichen CUDA- Bibliothek. Damit waren die zuvor bestehende Skalierungsproblem der KNN überwunden: steigende Datenmengen trafen auf hoch-parallele Trainings-Hardware. Dies leitete eine neue Phase des sogenannten „KI-Sommers“ ein, die bis heute anhält. KNN etablierten sich als dominierendes Modell im Maschinellen Lernen. Die in den 1950er-Jahren formulierte Hoffnung, dass neuronale Netze vielseitig einsetzbar sein könnten, bestätigte sich zunehmend. Mit dem exponentiellen Wachstum verfügbarer Daten und der kontinuierlichen Leistungssteigerung von GPUs konnten immer größere und leistungsfähigere Modelle trainiert werden. Besonders die Textverarbeitung (Natural Language Processing, NLP) und die Bildverarbeitung (Computer Vision, CV) profitierten von den im Internet verfügbaren Datenmengen. Ein entscheidender Entwicklungsschritt war die Einführung neuer KNN-Architekturen wie Transformer-Modelle und Diffusionsmodelle. Diese ermöglichten die Entwicklung großskaliger Modelle mit Milliarden Parametern, die Sprache und Bilder nicht nur analysieren, sondern in semantische Konzepte überführen und daraus eigenständig neue Inhalte generieren konnten. Solche generativen Modelle eröffneten die Möglichkeit, unstrukturierte Daten nicht nur anwendungsbezogen zu verarbeiten, sondern automatisiert zu interpretieren und in beliebigen Kontexten neu zu erzeugen. 3. Generative KI im Bauwesen 3.1 LLM - Große Sprachmodelle Die vorangegangene Analyse verdeutlicht, dass KI-Systemen umfangreich sind und ebenso in den Bereichen der Robotik, Optimierung, Wissensgraphen und Maschinelles Lernen eingesetzt werden. Jedoch gab es in den letzten Jahren insbesondere bei großskaligen generative Sprach- und Bildmodelle relevante Entwicklungen, auf die im Folgenden näher eingegangen wird. Große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT, Gemini, Claude, LLaMA oder Deep- Seek stellen gegenwärtig die leistungsfähigsten generativen KI-Systeme zur Textverarbeitung dar. Sie sind in der Lage, Texte zusammenzufassen und auf Anfragen sprachlich kohärente Antworten zu generieren. Sie entstanden aus jahrelanger Forschung im Bereich der Textverarbeitung (Natural Language Processing, NLP) mit der Zielsetzung Texte zusammenzufassen und Fragen dazu zu beantworten. Hierbei stellte sich trotz komplexer KNN-Modelle heraus, dass traditionelle KNN-Modelle nicht gut darin sind die großen kontextuellen Zusammenhänge in Texten zu erfassen. So hängt die Bedeutung von Worten in Texten nicht nur vom unmittelbaren Wortnachbarn in einem Satz ab, sondern von kontextuellen Bezügen über Sätze und Absätze hinweg. Zum Beispiel steht in diesem Text die Abkürzung „KI“ nicht für „Konstruktiven Ingenieurbau“, sondern für „Künstliche Intelligenz“, obwohl er über das Bauwesen handelt. Dies Problem wurde 2017 mit der Transformer-Architektur gelöst. Dies ist eine spezielle Form eines KNN, das mithilfe von Aufmerksamkeitsmechanismen (Attention) in der Lage ist, diese kontextuellen Abhängigkeiten über Satz- und Absatzgrenzen hinweg zu modellieren [5]. Dadurch kann ein tiefes LLM in seinen tieferen Schichten nicht nur direkte Wortzusammenhänge lernen, sondern Begriffe abstrahieren und diese in Wahrscheinlichkeiten gelernten Assoziationsketten verknüpfen. Somit extrahiert das LLM in seinen Eingangsschichten abstrakte Begriffe aus den Texten, verknüpft auf Basis der gelernten Assoziationen und generiert auf seiner Ausgabeseite daraus wieder einen Text indem es die Begriffe sequenziell in Worte fast. Es ist dabei jedoch zu berücksichtigen, dass LLMs keine konzeptionellen Überlegungen im menschlichen Sinne anstellen, also z. B. in Gedankenmodellen theoretisieren. Sondern sie generieren Antworten rein auf Basis ihres Sprachmodels, indem sie Wortfolgen nach Wahrscheinlichkeiten aneinanderreihen, mit dem Ziel eine zufriedenstellende Antwort zu geben. Abbildung 2 zeigt ein solches tiefes neuronales Netz in vereinfachter Form: Auf der linken Seite wird eine Eingabe mit Kontextinformationen in einzelne Worte zerlegt und in numerische Vektoren (Embeddings) überführt. Diese durchlaufen mehrere verdeckte Schichten des Netzes, wodurch Wahrscheinlichkeiten berechnet werden, welches Wort in der Antwort mit größter Wahrscheinlichkeit folgen sollte. Auf dieser Basis wählt das Modell iterativ das nächste Wort aus. Die wortweise Antwort eines LLMs in ChatGPT ist also keine nette Animation, um den Nutzer während der Antwort zu beschäftigen, sondern der sequentielle Antwortprozess. Trotz dieses rein probabilistischen Mechanismus entwickeln Sprachmodelle aufgrund ihrer Größe mit Milliarden von Parametern ein bemerkenswert gutes Sprachverständnis, das insbesondere für das Bauwesen drei zentrale Stärken mit sich bringt. 26 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen Abb. 2: Einfache Darstellung eines LMM für eine Text-Generierung zum Wetter in Irland. Das Modell Verbindet den gegebenen Kontext (Atlantik) mit implizitem Wissen (Atlantik=schlechtes Wetter) zu einer Antwort Stärken von LLM: Das Kernziel von LLMs ist die Generierung kohärenter Texte in verschiedenen Sprachen und Formaten. Neben der Beantwortung von Fragen umfasst dies auch Übersetzungen, die Anpassung der Terminologie an unterschiedliche Zielgruppen sowie die Ausgabe sprachähnlicher Datenformate (z. B. JSON) oder Programmcode. Dabei ist zwischen implizitem Wissen, also dem im Modell gespeicherten Allgemeinwissen aus den Trainingsdaten, und spezifischem Wissen zu unterscheiden, das durch kontextuelle Eingaben ergänzt wird. Eigene Untersuchungen zeigen, dass Sprach- und Bildmodelle über ein verlässliches Grundverständnis architektonischer Stile verfügen [5]. Ein weiteres Kernziel von LLMs war es seither umfangreiche Texte wie E-Mails, Normen, Arbeitsaufträge oder technische Analysen zielgerichtet zusammenzufassen. Hierzu werden die betreffenden Dokumente als Kontext in die Anfrage integriert (Prompting, Abb. 3). Das Modell generiert darauf hin eine kontextspezifische Antwort. Diese Eigenschaft ist besonders relevant im Umgang mit den stetig wachsenden Mengen von Daten in der Normung und der Projektkommunikation. Zudem können durch die wiederholte Übergabe vorheriger Konversationsteile Assistentensysteme mit dialogischer Kontinuität aufgebaut werden. Dieser Fähigkeit des LLMs auf Angaben im Kontext schnell und spezifisch anzupassen ist ein weniger bekanntes Kernziel von LLMs. Sie sind auf eine hohe Anpassungsfähigkeit trainiert, um so spezifisch wie möglich antworten zu können. Bereits wenige Beispiele im Kontextfenster genügen, um das Modell auf spezifische Anforderungen zu konditionieren. Das wird Few-Shot Learning genannt. Zusätzlich können Modelle durch gezieltes Nachtrainieren auf Fachinhalte angepasst werden. Dies geschieht durch Finetuning-Algorithmen wie LoRa oder Textual Inversion. Während LoRa das Erlernen neuer Zusammenhänge ermöglicht, erlaubt Textual Inversion eine Anpassung der Gewichtungen im Embedding, um beispielsweise fachspezifische Begriffe abzubilden. Da die Modelle über ein grundlegendes Sprachverständnis verfügen, müssen lediglich die Bedeutungen und Gewichtungen domänenspezifischer Begriffe nachjustiert werden. Dadurch lassen sich LLMs an spezifische textbasierte Aufgaben im Bauwesen anpassen, etwa für die Interpretation von Vorschriften oder die Unterstützung in der Kommunikation. Schwächen von LLM: Trotz ihres breiten Anwendungspotenzials weisen LLMs gravierende Schwächen auf. Besonders relevant im Ingenieurwesen ist das sogenannte Halluzinieren. Hierbei handelt es sich um das Phänomen, dass LLM auf Anfrage inhaltlich falsche, jedoch plausibel klingender Aussagen erzeugen. Dieses Halluzinieren steckt intrinsisch in den Modellen und ist nicht zu verhindern. Es resultiert aus dem probabilistischen Ansatz der KNN: Da die Modelle nicht explizit z. B. in einer Datenbank speichern, sondern implizit aus Wahrscheinlichkeiten von Assoziationen in seinen tieferen Schichten erzeugen, gibt es auf jede Frage auch eine wahrscheinliche scheinbar konsistente Antwort. Da es keinen gesonderten Denkprozess gibt, sind sie nicht in der Lage zuverlässig zwischen korrekten und falschen Aussagen zu unterscheiden. Gerade im Ingenieurwesen stellt dies ein erhebliches Risiko dar, da fehlerhafte Antworten potenziell zu Fehlentscheidungen führen können. Studien deuten zudem darauf hin, dass dieses Problem nicht allein durch eine Vergrößerung der Modelle oder durch zusätzliche Trainingsdaten gelöst werden kann, sondern intrinsisch in den Modellen verankert ist. Abb. 3: TextGenerierung mit LLM 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 27 Generative KI im Bauwesen: Stärken und Schwächen Anwendungen von LLM: Die Stärken und Schwächen von LLMs legen nahe, ihren Einsatz auf Tätigkeitsbereiche zu konzentrieren, in denen potenzielle Halluzinationen keine kritischen Auswirkungen haben. Dazu zählen zum Beispiel Aufgaben in der Projektkommunikation z. B. Übersetzungsaufgaben. Ebenso eignen sich einfache Fachfragen, die dem allgemeinen Wissen entstammen und daher im Trainingskorpus der Modelle gut abgedeckt sind. Ein weiterer sinnvoller Anwendungsbereich ist die automatische Zusammenfassung von Dokumenten. Hierbei ist jedoch zu berücksichtigen, dass LLMs vor allem bei stark textlastigen Inhalten zuverlässig arbeiten. Dokumente, die viele technische Zeichnungen, Tabellen oder komplexe Visualisierungen enthalten (z. B. Normen), sind für diesen Zweck weniger geeignet. Zudem basieren die erzeugten Zusammenfassungen ausschließlich auf sprachlichen Strukturen und nicht auf explizitem Domänenwissen. Dies kann dazu führen, dass relevante Fachbegriffe nicht korrekt identifiziert und in den Zusammenfassungen nicht berücksichtigt werden. 3.2 LVM - Große Bildmodelle Große KI-Bildmodelle (Large Vision Models, LVM; auch Vision Language Models, VLM) wie DALL·E, Midjourney oder Stable Diffusion weisen funktionale Parallelen zu großen Sprachmodellen (LLMs) auf. Während sie im Kern ebenfalls Sprachmodelle nutzen, um Benutzereingaben (Prompts) semantisch zu interpretieren, ersetzen sie den Textgenerator durch ein Diffusionsmodell. Dieses ist darauf trainiert, nicht Silben, sondern direkt Pixel aneinanderzureihen und dadurch Bilder zu erzeugen. Anders als Text, werden die Bilder nicht sequenziell Pixel für Pixel erzeugt. Hier hat sich gezeigt, dass auch tiefe Neuronale Netzwerke keine Bilder direkt erzeugen können. Stattdessen nutzt man bei Diffusionmodellen einen Trick: Man trainiert die Modelle nicht auf die Bilderzeugung, sondern darauf Bilder nur zu reparieren. Hierfür verrauscht man Bilder und trainiert das Modell darauf dieses Rauschen zu reparieren. Bei der Bilderzeugung gibt man dem Modell nun ein Rauschen und repariert es so lange bis ein echtes Bild daraus wird (Abb. 4). Durch diesen Trick reduziert man die Problemkomplexität. Abb. 4: Diffusion Model Steps Stärken von LVM: Die zentralen Stärken lassen sich analog zu LLMs in drei Fähigkeiten gliedern. Die primäre Fähigkeit der LVM ist es sehr schnell Bilder zu generieren oder zu vervollständigen. Dies erlaubt die Erstellung von Bildern, etwa für Marketing-Zwecke, Konzeptexploration, Stadtplanung oder Grundrisse. Dies kann in früheren Entwurfsphasen genutzt werden, in der Nutzerkommunikation, oder aber in der Dokumentation wie der Kolorierung von CAD-Modellen. Ein weiterer wichtiger Vorteil liegt in der Fähigkeit Bilder zu analysieren und zusammenzufassen. Dies erlaubt die klassische Objekterkennung z. B. zur Beschreibung von Fotos zur Baufortschrittsdokumentation oder damit sich Bauroboter besser auf der Baustelle zurechtfinden. Der Vorteil zu traditioneller Objekterkennung ist, dass die Modelle kein vorheriges oder nur minimales Training erfordern. Auch hier lassen sich diese Modelle durch gezieltes Few-Shot- Learning spezifisch an die Aufgaben anpassen. Damit lassen sich Bildgeneratoren erzeugen, die zum Beispiel Grundrisse entwerfen können. Schwächen von LVM: Bildgenerierende KI-Modelle stoßen im Baukontext schnell an ihre Grenzen. Zwar sehen die erzeugten Bilder auf den ersten Blick gut aus, doch enthalten sie häufig räumliche, inhaltliche und technische Fehler. So sind oft Details, Proportionen oder Perspektiven inkorrekt. Das liegt daran, dass die Modelle keine echte semantische und räumliche Vorstellung vom Inhalt haben. Sie kombinieren Pixel auf Basis von Wahrscheinlichkeiten, nicht auf Basis von technischem Verständnis. Daher fehlt es an wichtigen Aspekten wie 3D-Raumverständnis, Baubarkeit, oder Materialeigenschaften. Aufgrund des fehlenden 3D-Verständnisses sind konsistente Ansichten desselben Objektes aus verschiedenen Blickwinkeln kaum möglich. Anwendungen von LVM: Die Schwächen der Bildmodelle schränken ihren Nutzen stark auf frühe Entwurfsphasen ein. Deshalb werden die Modelle vorwiegend für einfache Stimmungsfotos, Konzeptstudien, oder zur Kolorierung von 3D-Renderings benutzt. Hierbei hängt die Bildqualität stark von der Qualität und Länge des Prompts ab (Abb. 5). Untersuchungen von Prompts aus der Praxis zeigen, dass längere und deskriptivere Prompts deutlich erfolgreicher sind [7]. Abb. 5: Bildgenerierung mit LVM 3.3 MLLM - Multi-Modale Modelle Wie bereits dargestellt, basieren große Bildmodelle auf Sprachmodellen. Vor diesem Hintergrund liegt es nahe, Modelle zu entwickeln, die nicht nur Text oder Bilder, sondern auch Datenformate verarbeiten können, die beides und weiteres wie Audio beinhalten. Solche Systeme werden als multimodale Modelle bezeichnet. Ihr zentra- 28 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen ler Vorteil besteht darin, verschiedene Modalitäten miteinander zu verknüpfen. So kann beispielsweise ein Bild analysiert werden, um potenzielle Probleme zu identifizieren. Auf dieser Basis kann ein LLM Lösungsvorschläge generieren, die anschließend von einem Reasoning- Modell in konkrete Handlungsanweisungen überführt und schließlich über ein Text-to-Speech-Modell ausgegeben werden. Dieses Vorgehen wird als Prompt- oder Modellverknüpfung (chaining) bezeichnet. Stärken von MLLM: Durch die Kombination verschiedener Modalitäten lassen sich Probleme lösen die Bild- und Textverarbeitung erfordern und daraus integrierte Abläufe erzeugen. So lassen sich komplementärere Informationen kombinieren, die eine differenzierte Analyse und Bearbeitung komplexer Aufgaben erlaubt. So lassen sich Bilder zur Identifikation von Problemen heranziehen, während Sprachmodelle Lösungsvorschläge formulieren und diese in konkrete Handlungsanweisungen überführen. Zudem eröffnen multimodale Systeme erweiterte Interaktionsformen: Nutzer können über Spracheingaben, Texte oder Bilder flexibler mit den Modellen interagieren. Beispielsweise können Architekturskizzen mit textuellen Anforderungen kombiniert werden, um gezielt passende Bilder zu generieren. Schließlich bieten multimodale Modelle Potenziale für kreative Anwendungen, etwa bei der Generierung von Konzeptentwürfen, die implizites Kontextwissen wie historische Bauformen einbeziehen und mit modernen Elementen kombinieren. Schwächen von MLLM: Trotz dieser Vorteile weisen multimodale Modelle erhebliche Einschränkungen auf. Grundsätzlich bestehen diese MLLM intern meist nur aus einem LLM und einem LVM die je nach Aufgabe über ein Routing gezielt angesprochen werden. Damit können sie nicht die Nachteile dieser Modelle überwinden, sondern verstärken sie zum Teil. Ein zentrales Problem ist hierbei die Neigung zur Halluzination, die sich über mehrere Modalitäten hinweg verstärken kann. Implizites Wissen führt nicht selten zu ungenauen oder verzerrten Darstellungen, etwa bei architektonischen Details oder bautechnischen Elementen. Hinzu kommt eine mangelnde Konsistenz zwischen den Modalitäten: Text- und Bildausgaben sind nicht immer vollständig aufeinander abgestimmt, sodass Widersprüche in den generierten Ergebnissen auftreten können. Darüber hinaus überwinden die multimodalen Modelle nicht fehlende semantische und räumliche Verständnis. Sie können geometrische Strukturen, Materialeigenschaften oder bautechnische Logik nicht zuverlässig erfassen, was ihre Anwendbarkeit einschränkt. Schließlich hängt die Qualität der Ergebnisse stark von der Präzision der Eingaben ab. Unscharf formulierte Prompts oder unvollständige Kontextinformationen führen schnell zu unbrauchbaren Resultaten. Anwendungen von MLLM: Im Bauwesen sind multimodale Modelle daher nur dann einzusetzen, wenn konsistente, technisch belastbare Ergebnisse nicht zuverlässig gewährleistet werden müssen oder die Ergebnisse vom Menschen kontrolliert werden. Dann können MLLM durchaus beachtliche Ergebnisse liefern, wie an zwei Beispielen gezeigt werden soll. Das obige Beispiel in Abb. 6 zeigt, wie ein detaillierter Prompt für ein Bild von einem LLM generiert wird. Als Beispiel wurde in Abb. 7 der untenstehende Prompt von ChatGPT generiert auf die Frage: „Generiere ein Prompt für ein Bild für das Archäologische Museum in Rostock“. Zu beachten ist, dass das LLM einiges an implizitem Wissen zu der Altbaustruktur der Stadt zu dem Prompt hinzufügt. Auch in den Bildern zeigt sich, wie die Backsteinfassaden traditioneller Speicher der Hansestadt aufgegriffen und mit modernen offenen Fassaden kombiniert werden. Abb. 6: Zwei Beispiele für ein Promptverkettung: (Oben) Ein detaillierter Prompt für ein Bild wird durch ein LLM generiert. (Unten) Ein Bild durch ein LVM nach Fehlern analysiert und dann generiert ein LLM passende Lösungsvorschläge, für die dann von einem LRM eine Ausführung geplant wird. 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 29 Generative KI im Bauwesen: Stärken und Schwächen 3.4 LRM - Große Reasoning Modelle Um die Problematik des Halluzinierens einzudämmen, wurden in den vergangenen Jahren unterschiedliche Ansätze entwickelt. Ein wesentlicher Fortschritt sind sogenannte Large Reasoning Models (LRM), bei denen Deep- Seek R1 als prominentes Beispiel gilt. Der Ansatz besteht darin, Sprachmodelle dazu zu befähigen, ihre Antworten schrittweise herzuleiten, zu erklären und auf Inkonsistenzen zu prüfen. Auf diese Weise wird ein expliziter Validierungsprozess erzwungen, der ausnutzt, dass Halluzinationen statistisch stark variieren und somit für das Modell nicht reproduzierbar sind. Durchläuft das Modell den Prompt mehrfach in einzelnen Iterationen, so werden dadurch halluzinierte Fakten durch widersprüchliche Aussagen vom LLM selbst aufgedeckt (Ähnlich wie wenn man ein LLM direkt fragt, ob die vorherige Antwort richtig ist). Dieses Verfahren ist besonders geeignet, um einfache Halluzinationen zu erkennen und kurze Schlussfolgerungen nachvollziehbar zu begründen. Abb. 7: Generierte Beispielbilder für einen Entwurf für das Archelogisches Museum in Rostock. Stärken von LRM: Das iterative Vorgehen bei LRM reduziert probabilistische Halluzinationen deutlich und kann dadurch zuverlässigere Antworten liefern. Dies nutzt man insbesondere bei komplexeren Aufgaben wie die Aufgabenplanung bei Robotern in Abb. 6 unten. Das Chain-of-thought Reasoning bei dem das LLM aufgefordert wird in kleinen Schritten zu denken, erlaubt korrigierende Eingriffe durch den Nutzer. Es wird insbesondere bei der Code-Generierung für komplexere Aufgaben eingesetzt oder zur Erklärbarkeit. Schwächen von LRM: Trotz dieser Fortschritte bleiben LRMs in ihren Fähigkeiten begrenzt. Zwar können sie probabilistische Halluzinationen teilweise entlarven, aber nicht vollständig ausschließen. Ferner sind sie nicht in der Lage, komplexe logische Strukturen vollständig abzubilden. Dies liegt darin begründet, dass ihr probabilistischer Reasoning-Ansatz auf statistischen Wahrscheinlichkeiten basiert und nicht auf deterministischer Logik. Damit unterscheiden sich LRMs grundlegend vom traditionellen symbolischen Reasoning, das vor 2012 die KI- Forschung dominierte. Symbolische Verfahren beruhen auf formaler Aussagenlogik und ermöglichen stringente, deterministische Entscheidungsprozesse. Probabilistische Systeme wie LRMs können solche Verfahren nur approximativ nachbilden, wodurch ihre Ergebnisse bei komplexeren Problemstellungen unscharf oder inkonsistent bleiben. Dieses grundlegende Unterschiedsverständnis ist für die Einordnung aktueller Entwicklungen von zentraler Bedeutung [6]. 3.5 RAG - Retrieval Augmented Generation Ein weiteres zentrales Problem im Zusammenhang mit Halluzinationen großer Sprachmodelle betrifft die Verfügbarkeit und Nutzung von explizitem Wissen. Traditionell wird solches Wissen in Datenbanken gespeichert. Um Sprachmodellen den Zugriff hierauf zu ermöglichen, wurde die Methode der Retrieval-Augmented Generation (RAG) entwickelt. Dabei wird eine Suchmaschine, die auf eine explizite Wissensdatenbank zugreift, mit einem Sprachmodell kombiniert. RAG wird nicht nur zur Abfrage strukturierter Datenbanken (z. B. durch automatische Generierung von SQL-Abfragen) eingesetzt, sondern gilt vor allem als primärer Ansatz zur Analyse von Dokumenten. Abb. 8: Indizierung und Suche mit RAG In diesem Verfahren werden kleine Textabschnitte oder tabellarische Inhalte aus Dokumenten extrahiert und in einer Vektordatenbank gespeichert (Abb. 8). Die Stärke der Vektordatenbank ist es, dass sie mit Hilfe der Text- Embeddings schnell passende Textpassagen zum Nutzerprompt finden können. Die relevanten Passagen werden anschließend gemeinsam mit der ursprünglichen Anfrage als Kontext an das LLM übergeben, das daraus eine zusammenfassende Antwort generiert. Stärken von RAG: Der große Vorteil von RAG-Ansätzen ist es, dass sich ein LLM leicht um zusätzliches domänenspezifisches Wissen erweitern lässt. Damit lassen sich auch projektspezifische Fragen beantworten und komplexe Dokumentordner schnell durchsuchen. Dies funktioniert insbesondere bei Textdokumenten sehr gut, wo Informationen sehr dicht in geschlossenen Abschnitten stehen, wie zum Beispiel Definitionen. Dann kann die 30 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen Vektordatenbank sehr gezielt diese Informationen nachschlagen und durch das LLM aufarbeiten lassen. Geeignet sind insbesondere Formate wie E-Mails, Gutachten oder beschreibende Dokumente. Abb. 9: Indizierung verschiedener Dokumente in einem RAG. Die Dokumente sind unterschiedlich gut für RAG geeignet. Primär wird Text extrahiert und indiziert. Komplexe Formate werden nicht erfasst. Schwächen von RAG: Die Leistungsfähigkeit dieses Ansatzes ist jedoch durch mehrere Faktoren begrenzt. Zum einen können die Modelle schlecht mit nicht-textlichen Inhalten umgehen (Abb. 9). Dokumente mit vielen tabellarischen Inhalten, da diese im RAG-Prozess nicht als strukturierte Daten, sondern als unstrukturierte Textblöcke erfasst werden. Dadurch gehen semantische und kontextuelle Informationen verloren. Vergleichbare Schwierigkeiten ergeben sich bei der Verarbeitung bildbasierter Informationen wie Fotografien, Diagrammen oder Plänen. Viele RAG-Systeme nutzen hier optische Zeichenerkennung (OCR), um Textelemente aus Bildern zu extrahieren und in der Vektordatenbank zu speichern. Auch in diesem Fall fehlt jedoch die Abbildung der semantischen und kontextuellen Zusammenhänge. Zusätzlich lässt sich das Halluzinieren der Sprachmodelle nicht vollständig vermeiden, insbesondere dann, wenn die Suche keine oder unpassende Ergebnisse liefert. Hier hängt die Qualität der Antworten maßgeblich von der Qualität der Vektordatenbank, der vorgelagerten Textextraktion und der Präzision der Ähnlichkeitsberechnungen durch die Embeddings ab. Besonders problematisch ist dies bei sehr fachspezifischen Inhalten, die spezifische Embeddings benötigen. Auch sollte ein RAG nicht zur Aggregation benutzt werden, da die Vektordatenbanken immer nur Textausschnitte liefern und somit nicht vollständige Informationen liefern. Ein Beispiel hierfür sind IFC-Modelle, die primär geometrische und topologische Informationen enthalten und nur wenige Textinformationen bereitstellen. Anwendungen von RAG: RAG finden in der Praxis oft Anwendung, um ChatBots zu bauen, die einzeln oder integriert in ChatTools wie MS Teams oder Slack benutzt werden, um größere Dokumentensätze zu durchsuchen. Damit lassen sich Suchmaschinen für die aktuelle Projektdokumentation, historische Dokumentensammlungen, oder für Standards auf bauen. Grundsätzlich ist jedoch darauf zu achten, dass die aufgelisteten Schwächen systematisch sind. Die Systeme kombinieren immer nur wenige Textabschnitte, die von der Vektordatenbank auf Basis der Ähnlichkeit zum Prompt geliefert werden. Die Konzepte hinter der Semantischen Ähnlichkeit von Embeddings ist für Nutzer dabei nicht unbedingt intuitiv, wodurch Ergebnisse erratisch erscheinen. Ferner sollten sie nicht für Aufgaben wie Aggregationen genutzt werden, wenn diese nicht spezifisch indiziert werden. 3.6 GraphRag/ GNN - Wissensgraphen Obwohl LLM gut mit strukturierten Formaten wie Code umgehen können, scheitern sie im Bauwesen im Verständnis von Bauplänen insbesondere BIM-Formaten. Dies liegt nicht nur daran, dass ihnen das räumliche Verständnis fehlt, sondern auch weil die Formate sehr Graphbasiert sind. Sie lassen sich also nicht sequenziell als Sprache oder Code interpretieren, sondern weisen eine hohe strukturelle Verknüpfung auf, die so nicht in der natürlichen Sprache vorkommt. Somit stellt sich die Frage, ob passende Graphmodelle besser geeignet sind. Diese gibt es im Bauwesen seit einigen Jahren bereits in Form von semantischen Ontologien. Ontologien stellen dabei strukturierte Modelle dar, in denen die relevanten Begriffe eines Anwendungsbereichs (z. B. Gebäude, Bauherr, Genehmigung, Organisation) definiert und deren Beziehungen zueinander modelliert werden (z. B. Bauherr betreibt Gebäude). Aus diesen Struktu- 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 31 Generative KI im Bauwesen: Stärken und Schwächen ren entsteht ein Wissensgraph. Dieser ist Vergleich zu IFC-Modellen einfacher, da sie keine Geometrien abbilden, sondern semantische Zusammenhänge erfassen. Zunehmend wächst das Interesse, diese deterministischen Eigenschaften auch für KI-Verfahren zu nutzen. Dabei erweist sich als Vorteil, dass Wissensgraphen im Gegensatz zu unstrukturierten Textmodellen in LLMs eine höhere Eindeutigkeit aufweisen. Zudem ermöglichen sie symbolisches Reasoning, das über die probabilistischen Verfahren von LRMs hinausgeht. Dadurch können auch bei komplexen Fragestellungen korrekte und nachvollziehbare Schlussfolgerungen abgeleitet werden. Ein besonders dynamisches Forschungsfeld stellt in diesem Zusammenhang Graph-Retrieval-Augmented Generation (Graph-RAG) dar. Hierbei werden Wissensgraphen mit Sprachmodellen kombiniert, um Abfragen nicht nur über Text-Embeddings, sondern über die Struktur des Graphen zu steuern. Im Unterschied zu klassischem RAG, das auf Vektordatenbanken basiert, ermöglicht Graph-RAG eine semantisch präzisere und konsistentere Kontextsuche, da logische Relationen im Graphen direkt berücksichtigt werden. Dies verbessert die Qualität der generierten Antworten, da die Modelle auf explizite, strukturierte Wissensrepräsentationen zurückgreifen können. Insbesondere in BIM-Anwendungen eröffnet dies neue Möglichkeiten, etwa bei der Regelprüfung, der konsistenten Integration von Änderungsinformationen oder der automatisierten Dokumentation komplexer Abhängigkeiten. Eine besondere Rolle kommt in diesem Zusammenhang Graph-Neuronalen Netzen (GNNs) zu, einer speziellen Form künstlicher neuronaler Netze, die in der Lage sind, Strukturen innerhalb von Wissensgraphen zu lernen (z. B. Relationen wie Bauherr > Gebäude > Organisation) und zusätzlich zugrundeliegende Daten zu analysieren (z. B. Flächennutzungen). Stärken von GraphRag/ GNN: Die Nutzung von Wissensgraphen bietet einen Ansatz, um LLMs Zugriff auf deterministisches Wissen zu geben und damit Halluzinationen zu reduzieren. Sie eignen sich insbesondere für stark graphbasierte Daten und die Faktenabfrage von direkten Relationen im Graphen, also z. B. wer der Betreiber eines Gebäudes ist. Auch gut geeignet sind GraphRAG für Inhalte die als Graph dem Nutzer kommuniziert werden können, wie Hierarchien oder Topologien. Wenn diese Strukturen erlernt werden sollen, so werden meist GNNs eingesetzt. Ihre besonderen Stärken liegen in ihrer Fähigkeit, komplexe Abhängigkeiten innerhalb von BIM-Modellen abzubilden und auszuwerten. Sie können Beziehungen zwischen Bauteilen, Räumen, Gebäuden und Organisationen modellieren und dabei sowohl geometrische als auch semantische Informationen integrieren. Zudem sind GNNs robust gegenüber unvollständigen Daten und können so z. B. Fehler reparieren. Schwächen von GraphRag/ GNN: Die Nutzung von Wissensgraphen bringt eigene Herausforderungen mit sich. Wissensgraphen müssen zunächst erstellt werden, wofür auf bestehende Ontologien oder projektspezifische Taxonomien für das Konzeptwissen zurückgegriffen werden kann. Das Instanzwissen muss hierfür spezifisch extrahiert werden und liegt meist nicht direkt vor, wie bei Texten. Alternativ ist eine dynamische Generierung von Wissensgraphen aus Texten mithilfe von LLMs denkbar, beispielsweise durch Frameworks wie GraphRAG. Hierbei ist jedoch eine sorgfältige Validierung erforderlich, da andernfalls inkorrekte oder irreführende Zusammenhänge extrahiert werden könnten. Darüber hinaus gestaltet sich die Wissensabfrage in Graph-RAG-Systemen komplexer als in textbasierten Ansätzen. Während bei Vektordatenbanken die Suche über eine Ähnlichkeitsberechnung zwischen Anfrage und indizierten Textsegmenten erfolgt, ist die Abfrage in Wissensgraphen auf Knotenebene (Konzepte oder Instanzen) beschränkt. Insbesondere wenn die Graphen sehr viele Instanzen besitzen, wie bei IFC, kommt es zu großen Redundanzen, die kaum unterscheidbar sind. Befinden sich ferner relevante Knoten weit voneinander entfernt, können die Beziehungen zwischen ihnen nur schwer identifiziert werden. Dabei stellt sich oft die Frage, wie nachvollziehbar langkettige Relationen aus dem Graphen für die Nutzer sind. Wissensgraphen sind daher besonders geeignet zur Extraktion spezifischer Relationen, weisen jedoch Einschränkungen bei der Identifikation unspezifischer oder kontextübergreifender Zusammenhänge auf. Anwendungen von GraphRag/ GNN: Graph-RAG Ansätze werden in der Praxis meist zusammen mit einfachen RAG-Ansätzen verwendet. Der Graph dient hierbei zur Modellierung strukturierter Informationen wie Dateimetadaten, Organisationstrukturen und Ontologien; während textbasierte Dokumente in vektorbasierten RAGs gespeichert werden. Abfragen werden dann an das graphbasierte und das vektorbasierte RAG gesendet und dann vom LLM gemischt weiterverarbeitet. Dadurch kann man zwar graphbasierte Daten besser speichern, nutzt aber die eigentlichen Vorteile der Graphen wie symbolisches Reasoning nicht aus. GNN werden bisher vorwiegend in der Wissenschaft verwendet, um komplexe Graphstrukturen zu lernen und diese vorherzusagen. Sie eignen sich für Aufgaben wie die automatisierte Regelprüfung in BIM-Modellen, die Erkennung von Inkonsistenzen, die Optimierung von Bau- und Tragwerksentwürfen sowie die Prognose von Leistungskennzahlen im Betrieb. 3.7 Agentic AI zur Prozessautomation In den vergangenen Monaten hat sich das Konzept der KI-Agenten als Alternative zu monolithischen Chatbots für alle Anwendungsfälle oder hochspezialisierten Chatbots für einzelne Aufgabenstellungen herausgebildet. KI- Agenten sind spezialisierte Systeme mit einer klar abgegrenzten Funktion, innerhalb derer sie Entscheidungen treffen und eigenständig Lösungswege auswählen können. Da eine vollständig autonome Arbeitsweise aufgrund des Risikos von Halluzinationen problematisch ist, spricht man in diesem Zusammenhang häufig von agentischen KIs. Diese verfügen über eine begrenzte Autono- 32 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen mie und werden gezielt auf bestimmte Aufgabenbereiche ausgerichtet. Agentische KIs kommunizieren untereinander über Programmierschnittstellen (APIs) oder über neue Standards wie das Model Context Protocol (MCP) mit einem zentralen LLM, was aufgrund der Zuverlässigkeit meist ein LRM ist. Auf diese Weise können mehrere Agenten zu komplexeren Verarbeitungsketten verschaltet werden, die das LRM nach Bedarf anfragt, um umfassendere Aufgabenstellungen zu bearbeiten. Software-Frameworks wie LangChain oder LangFlow bieten hierfür modulare Strukturen, die die flexible Konfiguration solcher Systeme und den Auf bau komplexer Verarbeitungspipelines ermöglichen. Stärken der Agentic AI: Ein wesentlicher Vorteil von KI-Agenten liegt in ihrer Spezialisierung. Durch eine klar definierte Aufgabenstellung können sie fokussiert arbeiten und dadurch eine höhere Zuverlässigkeit erzielen als generische Chatbots. Zudem lassen sich mehrere Agenten über APIs oder MCP miteinander verknüpfen, sodass komplexere Verarbeitungspipelines entstehen können, die vor allem auch traditionelle Tools wie CAD, Simulation oder Kostenschätzung integrieren. Diese modulare Architektur erlaubt es, Systeme flexibel zu konfigurieren und schrittweise an spezifische Anforderungen anzupassen. Darüber hinaus können KI-Agenten definierte Operationen innerhalb von Dateninfrastrukturen ausführen und damit Aufgaben bearbeiten, die bisher schwer oder gar nicht automatisierbar waren. Schwächen von Agentic AI: Mit dem Einsatz von Agentic AI sind auch Einschränkungen verbunden. Ihre Autonomie birgt das Risiko das Halluzinationen fehlerhaften Entscheidungen treffen. Deshalb sollten sie nicht vollständig selbstständig agieren können und in kritischen Situationen übergeordnete Kontrollmechanismen nutzen. Zudem hängt ihre Leistungsfähigkeit stark von der Qualität der Schnittstellen und Protokolle ab, über die sie miteinander kommunizieren. Fehlkonfigurationen oder unzureichend definierte Schnittstellen können zu Inkonsistenzen in den Prozessen führen. Schließlich bleibt die Entwicklung und Wartung agentischer Systeme komplex, da für jede spezialisierte Aufgabe geeignete Trainingsdaten, Validierungsmechanismen und Kontrollstrukturen erforderlich sind. Dies limitiert ihre Skalierbarkeit und stellt erhöhte Anforderungen an die Implementierung in bestehenden Dateninfrastrukturen. Anwendungen von Agentic AI: Agentic AI Systeme sind vorwiegend noch in der Erforschung, wobei die Grenzen zu traditionellen Prompt-Chaining verlaufen. Derzeit entstehen für viele Tools MCP-Schnittstellen mit denen LLM diese verwenden können. Die umgesetzten Szenarien sind allerdings meistens experimentell. Abb. 10 zeigt ein solches Szenario für ein Planungsassistenten der Modelle für die Normenberatung (z. B. RAG) mit einer analytischen Kostenschätzung und simulativen Tools für die Tragwergsprüfung kombiniert und in ein Entwurfstool integriert. Dadurch können diese Tools durch das LRM gezielt angesteuert und integriert werden. Die Hoffnung ist, dass das LRM sich selbst die notwendigen Funktionen raussucht. Dies reduziert zwar den Integrationsaufwand traditioneller automatisierter Toolchains, reduziert aber auch die Zuverlässigkeit durch Halluzinationen. So wurden z.T. Datenbanken gelöscht, weil das LRM es für notwendig hielt. Dementsprechend sollte hier sehr auf Zugriffsbeschränkungen der Tools geachtet werden. Abb. 10: Konzept einer Agenten-Umgebung zur Assistenz bei der Planung. Hierbei bieten KI-Agenten verschiedene Expertisen an, die durch ein LRM angesprochen werden, um fallspezifische Beratung anzubieten 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 33 Generative KI im Bauwesen: Stärken und Schwächen 3.8 BFM - Building Foundation Models Die bislang diskutierten Ansätze konzentrieren sich im Wesentlichen auf die Verarbeitung von Text- und Bildinformationen. Weder Finetuning noch RAG-gestützte Wissensgraphen sind jedoch in der Lage, komplexe Datenformate wie BIM-Modelle, Punktwolken oder Verkehrsnetzwerke adäquat zu erfassen. Für solche Anwendungsfälle werden spezifisch trainierte Modelle benötigt. In verschiedenen Fachbereichen, etwa der Medizin, Klimaforschung, Mechanik oder Robotik, entstehen solche spezialisierte Foundation-Modelle. Für das Bauwesen ergibt sich daraus die Notwendigkeit, Building Foundation Models (BFM) zu entwickeln, die räumlichen und zeitlichen Zusammenhänge in Daten und Bauprozessen abbilden und für unterschiedliche Aufgaben trainierbar machen. Abbildung 11 illustriert beispielhafte Ein- und Ausgangsmodalitäten solcher Modelle. Von besonderer Relevanz sind in diesem Zusammenhang Graph-Neuronale Netze (GNNs), da sie die Graphstruktur semantischer IFC-Modelle nutzen können, beispielsweise für Klassifikation, Validierung, Modellreparatur oder die automatisierte Entwurfsunterstützung. Abb. 11: Die Entwicklung von Building Foundation Models eröffnet viele Möglichkeiten zur angepassten Analyse und Generierung bautypischer Daten (aus [9]) Die Entwicklung und das Training von BFMs erfordern in erster Linie qualitativ hochwertige Datensätze. Deren Erstellung ist anspruchsvoll, da sie das in verschiedenen Dokumenttypen verteilte Fachwissen konsistent abbilden und dabei Urheberrechte bewahren müssen. Zusätzlich müssen Entwurfsentscheidungen und deren Hintergründe nachvollziehbar dokumentiert werden. Darüber hinaus bedarf es spezieller Bewertungsmethoden, mit denen die Korrektheit der Modellergebnisse geprüft werden kann. Dabei ist zwischen kritischen Fehlern, tolerierbaren Abweichungen mit Sicherheitsfaktor und irrelevanten Ungenauigkeiten zu unterscheiden. Eine praktikable Lösung könnte in der gemeinschaftlichen Erstellung und Pflege von Datensätzen durch Datengenossenschaften bestehen. 4. Fazit Die Analyse zeigt, dass es generative KI-Modelle im Bauwesen erhebliche Potenziale für Effizienzsteigerungen und Automatisierung eröffnet, das jedoch zugleich durch intrinsische Modellgrenzen und domänenspezifische Herausforderungen begrenzt ist. Während große Sprach- und Bildmodelle bereits jetzt in frühen Entwurfsphasen, zum Dokumentenmanagement und zur Kommunikation Unterstützung bieten können, stoßen sie bei der Verarbeitung von domänenspezifischen räumlichen und kausalen Daten an ihre Grenzen. Methoden wie RAG oder Graph-RAG mit Ontologien bieten erste Lösungsansätze, um Fachwissen explizit nutzbar zu machen und Halluzinationen zu reduzieren. Graph-Neuronale Netze (GNNs) erweitern dieses Spektrum, indem sie die Struktur semantischer BIM-Daten für Aufgaben wie Klassifikation, Validierung oder Vorhersage erschließen. Hier fehlt es bisher an praktischen Lösungen. Zugleich verdeutlicht die Diskussion, dass die intrinsischen Modellgrenzen generischer Modelle damit nicht überwunden werden können. Vielmehr besteht die Notwendigkeit, spezialisierte Building Foundation Models (BFMs) zu entwickeln, die räumlichen, zeitlichen und normativen Zusammenhänge im Bauprozess systematisch abbilden. Voraussetzung hierfür sind qualitativ hochwertige, kuratierte Datensätze, die das verteilte Fachwissen des Bauwesens konsistent repräsentieren. Diese können nur durch gemeinsame Anstrengungen in Datengenossenschaften gesammelt werden, um die Potenziale von KI über den gesamten Lebenszyklus von Bauwerken hinweg nutzbar zu machen. 34 1. Symposium Künstliche Intelligenz im Ingenieurbau - November 2025 Generative KI im Bauwesen: Stärken und Schwächen Literatur [1] Statistisches Bundesamt, Themenbereich 81000, 2024 [2] McKinsey: Delivering on construction productivity is no longer optional, 2024 [4] McKinsey: A new future of work: The race to deploy AI and raise skills in Europe and beyond, 2024 [5] Turing, A. M.: Computing machinery and intelligence (pp. 23-65). 2009 [6] Vaswani, Ashish, et al.: Attention is all you need. NeurIPS 30, 2017 [7] Ploennigs and M. Berger, Generative AI and the History of Architecture. Springer, 2024 [8] Shojaee, P.; Mirzadeh, I.; Alizadeh, K.; Horton, M.; Bengio, S.; Farajtabar, M.: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Apple, 2025 [9] Ploennigs, J., Berger, M., Wortmann, T., Kirchner, J., Beetz, J., Roitberg, A., Menzel, K., Ommer, B.: Building Foundation Models-Potentials, Challenges and Research Directions for Using LLM and LVM in AEC. EC3. 2025
