Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur
dtv
2748-9213
2748-9221
expert verlag Tübingen
61
2021
11
Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren
61
2021
Dominik Prammer
Alois Vorwagner
Alfred Weninger-Vycudil
Für eine objektive Entscheidung im Erhaltungsmanagement ist der Anlagenwert der Straßeninfrastruktur (Straße, Brücke, Tunnel, etc.) ein zentraler Parameter. Für dessen Ermittlung ist eine objektive Zustandsprognose der betrachteten Bauwerke Voraussetzung. Im vorliegenden Beitrag werden dazu verschiedene, durch Machine-Learning-Tools unterstützte
Verfahren zur Erstellung von Zustandsprognosen auf Basis von notenbasierten Zustandsinspektionsdaten vorgestellt.
Es wird eine Methode zur Clusterung des Datensatzes nach Parametern des Bauwerks (Dimension, Material, Errichtungszeitpunkt) bzw. der Umgebung (Verkehr, Klima) am Beispiel von Brückenbauwerken unter Verwendung einer Random-Forrest-Analyse und einer Entscheidungsbaumanalyse gezeigt. Nachfolgend werden zwei Verfahren zur Erstellung von Degradationskurven vorgestellt und verglichen, wobei der erste einen probabilistischen Ansatz verfolgt und der zweite Ansatz auf zeitinhomogenen Markov-Ketten aufbaut. Mithilfe dieser Ansätze können nach Degradationsgeschwindigkeiten gruppierte, individuell auch auf ein Bauwerk zugeschnittene Prognosekurven erstellt werden, welche auch Information über die statistische Streuung der Ergebnisse enthalten.
dtv110359
1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 359 Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning- Verfahren Dominik Prammer AIT Austrian Institute of Technology GmbH, Wien, Österreich Alois Vorwagner AIT Austrian Institute of Technology GmbH, Wien, Österreich Alfred Weninger-Vycudil Deighton Associates Limited, Wien, Österreich Zusammenfassung Für eine objektive Entscheidung im Erhaltungsmanagement ist der Anlagenwert der Straßeninfrastruktur (Straße, Brücke, Tunnel, etc.) ein zentraler Parameter. Für dessen Ermittlung ist eine objektive Zustandsprognose der betrachteten Bauwerke Voraussetzung. Im vorliegenden Beitrag werden dazu verschiedene, durch Machine-Learning-Tools unterstützte Verfahren zur Erstellung von Zustandsprognosen auf Basis von notenbasierten Zustandsinspektionsdaten vorgestellt. Es wird eine Methode zur Clusterung des Datensatzes nach Parametern des Bauwerks (Dimension, Material, Errichtungszeitpunkt) bzw. der Umgebung (Verkehr, Klima) am Beispiel von Brückenbauwerken unter Verwendung einer Random- Forrest-Analyse und einer Entscheidungsbaumanalyse gezeigt. Nachfolgend werden zwei Verfahren zur Erstellung von Degradationskurven vorgestellt und verglichen, wobei der erste einen probabilistischen Ansatz verfolgt und der zweite Ansatz auf zeitinhomogenen Markov-Ketten aufbaut. Mithilfe dieser Ansätze können nach Degradationsgeschwindigkeiten gruppierte, individuell auch auf ein Bauwerk zugeschnittene Prognosekurven erstellt werden, welche auch Information über die statistische Streuung der Ergebnisse enthalten. 1. Einleitung 1.1 Zustandserfassung und -prognose im Asset-Management Wichtige Bauwerke im Infrastrukturnetz werden je Bauwerkstyp in unterschiedlichen zeitlichen Intervallen visuell begutachtet und deren Zustand (visuell) erfasst und dokumentiert (z.B. RVS 13.03.11 [1] bzw. DIN1076 [2]). Dazu werden derzeit je nach Bauwerkskategorie Zustandsnoten über den Bauwerkszustand vergeben. Diese dienen, den Bauwerkszustand zu erfassen und zu dokumentieren, aber auch dazu, einen sicheren und reibungslosen Verkehrsbetrieb zu gewährleisten. Auch werden sie genutzt, um künftige Handlungsschritte für die Erhaltungsplanung wie Instandsetzung oder Erneuerung abzuleiten. Diese Verfahren werden grundsätzlich ähnlich in den 3 D-A-CH Ländern angewandt, unterscheiden sich aber im Detail in der Zusammensetzung der Erfassung und Ermittlung der Bauwerksnote. Diese Verfahren sind im Detail zudem für Bauwerke, Tunnel, Straßen und Brücken unterschiedlich, vor allem in Hinblick auf Begutachtungsintervalle. Im Asset Management sind Bauwerksalterungskurven für eine objektive Entscheidung des Erhaltungsmanagements von zentraler Bedeutung. Wurden diese bisher meist erfahrungsbasiert oder mit einfachen physikalischen Modellen ermittelt, so eröffnen sich mit datenbasierten Verfahren grundlegend neue Möglichkeiten. Datenbasierte Modelle sind weitgehend objektiv und eigenen sich sowohl zur Auswertung der wesentlichen Einflussgrößen auf Bauwerksalterung als auch zur Erstellung und Ableitung objektiver, auf historischen Zustandsdaten aufbauende Bauwerksalterungskurven. Je nach Datenqualität, Vollständigkeit und Konsistenz der Datenbanken können unterschiedliche genaue Prognosen erstellt werden. Ein neuer Ansatz soll unter Einbezug von Machine-Learning Algorithmen auf Basis von historischen Bauwerksbzw. Bauteilzustandsdatenbanken künftige Zustandsprognosen für Brücken entwickeln, welche im Zuge Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 360 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 des D-A-CH Kooperation Forschungsprojekts TAniA - „Technische Anlagenbewertung im Asset-Management“ anhand von historischen Zustandsdaten entwickelt wurde. Dazu wurden Zustandsdaten von Brückenbauwerken aus dem Autobahnnetz im D-A-CH Raum zur Verfügung gestellt, anhand derer dieser Ansatz entwickelt wurde. 1.2 Zur Entscheidungsbaum- und Random-Forest- Analyse Mithilfe von Machine-Learing können Entscheidungsbäume auf Basis von unterschiedlichen Parameterdimensionen erstellt werden. So teilt ein einfacher Entscheidungsbaum, der mittels Machine-Learning erstellt wird, die Daten iterativ entlang der einen oder anderen Achse entsprechend eines quantitativen Kriteriums auf. Im Falle eines auf zwei Parameterdimensionen basierenden Entscheidungsbaumes wird beim Auftragen der Daten in ein zweidimensionales Diagramm der Datensatz in verschiedene Regionen gegliedert. Folglich entstehen mit jeder Ebene des Entscheidungsbaumes neue Regionen. Die Grenzen dieser Regionen werden vom Algorithmus auf Basis eines Mehrheitsabstimmungskriteriums gezogen. Nachteil von in dieser Weise entstehenden Entscheidungsbäumen ist, dass sie mit zunehmender Tiefe des Entscheidungsbaumes zur Überanpassung (over-fitting) neigen [3]. Eine Möglichkeit, solche Überanpassungen zu vermeiden, stellen sogenannte „Random-Forests“ Ansätze dar. Diese bestehen aus einer Vielzahl von Entscheidungsbäumen (daher der Name „Forest“), welche mithilfe einer sogenannten „Ensemble Methode“, dem Bagging, erstellt werden. Dies ist eine Methode, um Vorhersagen aus verschiedenen Regressions- oder Klassifikationsmodellen zu kombinieren und wurde von Breiman in [4] vorgestellt. Beim Bagging wird ein Ensemble von parallelen „Schätzern“ (Schätzstatistik) verwendet, von denen jeder die Daten überanpasst. Die Ergebnisse werden gemittelt, um eine bessere Klassifizierung von kategorialen oder diskreten Variablen zu finden (der entsprechende Schätzer wird RandomForestClassifier genannt). Ein Ensemble von randomisierten Entscheidungsbäumen wird als Random Forest bezeichnet [3][5][6]. Random Forests können auch im Fall von Regression von kontinuierlichen Variablen eingesetzt werden. Der hierfür verwendende Schätzer ist der sogenannte RandomForestRegressor und ähnelte dem vorher beschriebenen RandomForestClassifier. Neben den Möglichkeiten der Clusterung von Datensätzen liefern Random Forests auch eine äußerst solide Schätzung der Wichtigkeit der einzelnen Einflussvariablen [7] und können deshalb auch in weiterer Folge Rückschlüsse auf wesentliche Einflussgröße auf Bauwerksalterung liefern. Wobei für diesen Zusammenhang der Datensatz vor der Modellbildung in einen Trainings- und Testdatensatz unterteilt wird. Der Trainingsdatensatz dient der Modellbildung. Am Ende der Analyse wird dann unter Anwendung des Testdatensatzes auf das Modell die Genauigkeit quantifiziert. Zur Quantifizierung der Genauigkeit wird in diesem Vorgang im Folgenden der durchschnittliche absolute Fehler (mean absolute error) bzw. der durchschnittliche absolute Fehler in Prozent (mean absolute percentage error) zwischen Testdaten und zugehöriger Vorhersage bestimmt. Weiters wird aus dem absoluten Fehler in Prozent noch die Genauigkeit (Accuracy) abgeleitet. Neben den offensichtlichen Vorteilen liegt ein Nachteil von Random Forests darin, dass die Ergebnisse nicht leicht zu interpretieren sind. Das heißt, wenn Rückschlüsse auf die Bedeutung des Klassifikationsmodells gezogen werden möchten, sind Random Forests möglicherweise nicht die beste Wahl [3]. Abbildung 1: Ablauf der Erstellung von ausführungs- und umwelteinflussabhängigen Degradationskurven. 2. Vorstellung des datenbasierten Ansatzes Der gewählte Ansatz zur Prognose der Alterungskurven ist in Abbildung 1 als Ablaufdiagramm dargestellt. Dieser lässt sich folgendermaßen unterteilen: zuerst (1) wird eine Auswahl von Datenbanken, die historische Zustandsdaten bzw. mögliche Einflussparameter beinhalten, getroffen. Im nächsten Schritt (1a) werden aus der Datenbank der historischen Zustandsdaten Übergangsdauern von einer Note auf die nächstschlechtere ermittelt (=Ver- Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 361 weilzeit in der Zustandsklasse bzw. Bauwerksnote). Im nächsten Schritt (2) werden mögliche Einflussparameter und Übergangsdauern in einer neuen Datenbank zusammengefasst, mit welcher in weiterer Folge (3) eine Random-Forest-Analyse (RFA) durchgeführt wird. Ergebnis dieser sind die wichtigsten Einflussparameter auf die Übergangsdauer der Zustandsverschlechterung um einen Notengrad. Damit wird für jede vordefinierte analysierte Zustandsnotenverschlechterung ein separates Parameterset erzeugt. Mit den gewählten Einflussparameter kann eine Entscheidungsbaumanalyse (4) durchgeführt werden, welche in erster Linie der Clusterung des Datensatzes (bzw. der Bauteile) dient. Ergebnis dieses Schrittes sind mehrere Entscheidungsbäume - für jeden Übergang/ Verschlechterung einer Zustandsnote (z.B.: 1 auf 2 oder 2 auf 3) einer. In den letzten beiden Schritten (5 und 6) werden nun mit den in den Schritten 1-4 durchgeführten Vorauswertungen datenbasierte Degradationskurven des Zustandes von Bauwerkstypen gebildet, welche eine strategische Erhaltungsplanung unterschützen können. 3. Clusterung nach Degradationsgeschwindigkeit Die Clusterung oder Gruppierung des Datensatzes erfolgt dem Framework in Abbildung 1 folgend unter Heranziehung der Random-Forest-Analyse (RFA) in Kombination mit einer Entscheidungsbaumanalyse (EBA). Die RFA wird lediglich zur Bestimmung des Einflusses und in weiterer Folge zur Auswahl wichtiger Parameter herangezogen. Die endgültige Clusterung unter Heranziehung der in der RFA ausgewählten Einflussparameter erfolgt schlussendliche unter Anwendung der EBA. Für die RFA ist es ausreichend, lediglich potenziell wichtige Parameter vorzubestimmen, da die Wichtigkeit der einzelnen Parameter ohnehin im Zuge der Analyse später automatisch ermittelt wird, und die vielversprechendste Kombination für die EBA verwendet wird. Um im weiteren Verlauf Degradationskurven mit möglichst kleiner Streubreite zu erhalten, ist eine korrekte Anpassung und Ermittlung der das Ergebnis beeinflussenden Parameter in entsprechende Subgruppen entscheidend. Vor Beginn einer RFA muss definiert sein, welche möglichen Einflussparameter für die Zielvariable vorliegen. Als Zielvariable wird die Dauer einer bestimmten Verschlechterung (z.B. die Verschlechterung eines Bauteils um einen Zustandsnotengrad) verwendet. Als Einflussparameter wurden Verkehr, Klima, Bauwerksalter und Errichtungszeitpunkt und vorliegende Regularien festgelegt, und entsprechend an vorliegende Datenquellen angepasst. 3.1 Bestimmung der Zielvariable Zur Bestimmung der Verweildauer in der Zustandsnote als Zielvariable bedingt eine vollständige und konsistente Erfassung in der Zustandsdatenbank. Da Zustandsnoten aber nicht zwingend in zeitlich regelmäßigen Abständen zur Verfügung stehen und sich auch die Zustände in einem anderen Maß als für die RFA benötigt verändern können (z.B. Verschlechterung von einem Datenbankeintrag zum nächsten um zwei Zustandsnotengrade statt um einen), wird die Zustandsnote zwischen den Beobachtungen interpoliert. Wenn also, wie beispielsweise in Österreich und der Schweiz, Zustandsnoten zwischen 1 und 5 im ganzzahligen Bereich existieren, scheint es sinnvoll, die Übergangsdauern um einen ganzen Notengrad zu ermitteln, wobei hier immer die Dauer bis zum Schnitt der Interpolation mit dem Mittelwert zwischen zwei aufeinanderfolgenden Notengraden definiert wurde (siehe Abbildung 2). Bis zum Schnittpunkt wird also die ursprüngliche Note gehalten, wird diese überschritten, wird die darauffolgende, schlechtere Zustandsnote zugewiesen. Für Deutschland ist hier auch eine feinere Unterteilung möglich, da die Zustandsnoten auch im einstelligen Kommabereich vorliegen. Als am besten geeignete Zielvariable (engl. Label) der RFA hat sich die Verschlechterungsdauer (Δt i i+1 ) von einer definierten Zustandsgröße (ZG) i auf eine ZG i+1 erwiesen. Abbildung 2: Vorgehen beim Ermitteln der Übergangsdauer um eine bestimmte Verschlechterung (Δt) und des Alters am Beginn des Übergangs (tSA) in allgemeiner Form (oben) wie auch am Beispiel der österreichischen Zustandsnoten (unten). Blaue Punkte stellen die Messpunkte (Inspektionsergebnisse) dar, graue Linien die lineare Interpolation zwischen den Messungen, die rote Linie zeigt die Länge der Übergangsdauer auf den nächsten Notengrad. Wichtig ist in diesem Prozess, dass auch das Alter am Beginn eines Überganges (t SA-ZG ) ermittelt wird, da dieses, vor allem nach Instandsetzungen, als möglicher wichti- Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 362 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 ger Einflussparameter auf die Alterungsgeschwindigkeit interpretiert wird. 3.2 Vorauswahl von Einflussparametern Wie bereits erwähnt wird die RFA zur Bestimmung der Wichtigkeit der einzelnen Parameter verwendet. Die Vorauswahl eines relativ unwichtigen Parameters (=Variable) beim Start der RFA hat auf das Ergebnis grundsätzlich nur einen geringen Einfluss - dies gilt allerdings nur sofern für die gewählten Parameter auch für alle Bauwerke bzw. Bauteile Einträge vorliegen. Denn eine Analyse kann immer nur für die Bauwerke oder Anlagenteile durchgeführt werden, für die auch alle Parameter verfügbar sind. In der Vorauswahl der Parameter ist also zu bedenken, dass ein schlechter Befüllungsgrad eines Parameters die Größe des Datensatzes und damit die Qualität der Analyse stark dezimieren kann. Weiters ist darauf zu achten, dass auch ein kausaler oder begründbarer Zusammenhang zwischen Anlageteilverschlechterung und Einflussparameter besteht. Zu diesem Zweck wurden zum einen die Datenbanken der 3 D-A-CH Länder nach möglicherweise wichtigen Parametern der Infrastrukturanlagen durchsucht. Außerdem wurden weitere Daten der Umgebungseinflüsse, Klimaeinwirkung, sofern nicht im Datensatz der historischen Zustandsentwicklung vorhanden, mit ebendiesem verschnitten. Überbau Übergangskonstruktion Lager Randbalken Baujahr Baujahr Baujahr Baujahr Frostindex FIKh FIKh FIKh Tmax50 Tmax50 Tmax50 Tmax50 Brücken-klasse DTV DTV DTV DTV DTSV DTSV DTSV DTSV Tmin Tmin Tmin Tmin Hersteller Hersteller Erhalter Norm-Ausgabe Konstruktionstyp Lagertyp Fahrbahnbreite Statisches- System Erhalter Erhalter Brückenklasse Fahrbahnbreite Länge Erhalter Tabelle 1: Vorausgewählte Attribute für die RFA für ausgewählte Bauteile für den österreichischen Datensatz In Tabelle 1 ist die Parametervorauswahl für ausgewählte Bauteile der österreichischen Daten dargestellt. Wobei hier als Parameter der Umgebungseinflüsse der durchschnittliche tägliche Verkehr (DTV) und der durchschnittliche tägliche Schwerverkehr (DTVSV) herangezogen wurden. Für die Klimaeinwirkung standen flächendeckend der Frostindex (FiKH), die maximale Straßenoberflächentemperatur (Tmax_50) und minimale Lufttemperatur (Tmin) (alle drei Parameter nach [8]) zur Verfügung. Außerdem wurde auch die für die Erhaltung zuständige Behörde (Erhalter) berücksichtigt, da es Überlegungen bezüglich des Einflusses bezüglich der Erhaltungsstrategie auf die Degradationsgeschwindigkeit gab. 3.3 Parameterselektion Random-Forest-Analyse Da es aber Parameter gibt, bei denen die Abwägung zwischen Wichtigkeit und Befüllungsgrad vorab nicht festgestellt werden kann, ist im Framework eine Wiederholung der RFA vorgesehen, wobei bei jedem neuen Durchlauf der Parameter mit dem geringsten Einfluss auf das Ergebnis weggelassen wird (Tabelle 2). Run Mean Absolute Error [years] Accuracy [%] Baujahr Laenge Bauweise FIKh DTSV DTV Tmin Tmax_50 1-2-start-age 0 2.2 64.6 15.2 29.4 17.4 2.5 20.0 10.5 0.2 4.9 0.0 1 2.2 64.5 15.2 29.4 17.4 2.4 20.0 10.5 0.2 4.9 2 2.2 64.6 15.3 29.4 17.4 2.6 20.0 10.5 4.9 3 2.2 64.7 15.5 30.6 17.5 20.5 10.7 5.2 4 2.2 64.0 16.7 32.1 19.0 21.9 10.3 5 2.3 63.2 17.9 36.3 21.4 24.4 6 2.3 63.7 41.8 23.4 34.9 7 2.1 68.2 48.8 51.2 Tabelle 2: Beispiel der Bestimmung der Genauigkeit bei verschiedenen Einflussparameterkombinationen (Übergang eines Bauteils von Zustandsnote 1 auf 2). Unter den Einflussparametern ist die Wichtigkeit des Parameters in Prozent zu sehen. Gewählt wurde schlussendlich die Kombination der letzten Zeile (dick umrahmt, der dazugehörige Entscheidungsbaum) aufgrund des kleinsten Fehlers. Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 363 Als Endergebnis der RFA wird dann die Teilanalyse genommen, deren Ergebnis die höchste Genauigkeit (Accuracy) hat. Davon ausgehend, dass nie alle Parameter der Datenbank vollständig befüllt sind, kann aus Gründen der breiteren Anwendungsfähigkeit des endgültigen Models, eine möglichst geringe Anzahl an Eingangsparametern wünschenswert sein. Eine Bevorzugung von Modellen mit geringerer Parameteranzahl scheint unter diesem Gesichtspunkt also durchaus zielführend. Im Zuge des gewählten Ansatzes wurde dies auch so umgesetzt. So wurde die Konvention getroffen, dass eine Verminderung der Genauigkeit um 0,1 Jahre pro weggelassenem Parameter akzeptabel ist. Das Ergebnis einer RFA ist die Auswahl an Parametern mit denen die EBA im Folgenden eine Gliederung vornimmt. Im Beispiel in Tabelle 2 wird aufgrund der höchsten Genauigkeit wie auch der geringsten Anzahl an Parametern Run 7 als optimale Parameterkombination gewählt. 3.4 Clusterung Entscheidungsbaumanalyse Wie in Kapitel 1.2 gezeigt, bietet die RFA eigentlich eine aus der EBA weiterentwickelte Prognose, jedoch wurde im Wesentlichen aus zwei Gründen für die Clusterung die EBA herangezogen. Zum einen ist ein visuell überprüfbarer Entscheidungsbaum Voraussetzung für die folgenden Schritte des Gesamtframeworks (Abbildung 1), da in weiterer Folge, vor allem bei den Markov-Ketten, jährliche Übergangswahrscheinlichkeiten aus dem Ursprungsdatensatz (um auch die Beobachtungen ohne Verschlechterung berücksichtigen zu können) berechnet werden. Zum anderen wurde, um einen Entscheidungsbaum auf Basis des gesamten Datensatzes (ohne Aufteilung in Trainings- und Testdaten) zu erhalten, eine separate EBA durchgeführt. Ein aus der RFA extrahierter Einzelbaum erfüllt diese Voraussetzung nicht. Die nun erfolgende EBA basiert auf demselben Datensatz wie jener der RFA, jedoch wird dieser nicht in Trainings und Testdaten unterteilt und auch nicht durch das Bagging weiter dezimiert, wie es bei einem Einzelbaum der RFA der Fall wäre. Um eine Überanpassung zu vermeiden ist in diesem Schritt das Abschneiden des Entscheidungsbaumes auf ein brauchbares Maß erforderlich. Ohne dieses Abschneiden würde das Ergebnis der EBA ein Entscheidungsbaum sein, der derart viele innere Knoten aufweist, dass jeder Blattknoten (leaf nodes - unterste Ebene des Entscheidungsbaumes, der sich nicht weiter aufteilt) nur noch ein Sample repräsentiert. Es ist also zielführend, den Baum entweder in einer früheren Ebene zu kappen, eine Mindestanzahl an Samples oder eine tolerierbare Fehlertoleranz (diese wird im Zuge der Überprüfung des Modells mit den Testdaten für jeden Knoten ermittelt) im Blatt zu definieren, um den Baum auf ein überschaubares und repräsentatives Maß und nicht zur Überanpassung neigendes Maß zu verkleinern. Wobei mit Blatt bzw. Blattknoten die Knoten der untersten Ebene des Entscheidungsbaumes gemeint sind. Für RFA wurde das Softwarepaket für Machine Learing von [7] „RandomForestRegressor“ bzw. für die EBA das Paket „DecisionTreeRegressor“ verwendet. Beide sind Teil der Programmbibliothek „sklearn.ensemble“ (scikitlearn Version 0.21.2) in Python (Version 3.7.3.final.0). 4. Erstellen der Degradationskurven 4.1 Probabilistischer Ansatz Dieser Ansatz basiert grundsätzlich auf probabilistischen Überlegungen. Um im Resultat die Verteilung der Daten in den einzelnen Blättern des Entscheidungsbaumes in diesem Ansatz berücksichtigen zu können, wird vorab für das Blatt des Entscheidungsbaumes die diesem Teildatensatz zugrundeliegende Verteilung analysiert. Wobei hier auf einen Fit einer in der Statistik gebräuchlichen Betaverteilung zurückgegriffen wird, da dieser Verteilungstyp den Vorteil hat, flexibel an verschiedenste Formen angepasst werden zu können, aber auch Grenzwerte definiert werden können. Damit können unrealistische oder negative Werte verhindert werden. Weiters lässt sich der Ablauf der Erstellung einer Degradationskurve folgendermaßen beschreiben (siehe auch Abbildung 3): 1. Zuerst werden dem Parametersetting des betrachteten Bauwerkes entsprechend die Blätter identifiziert und die vorab bestimmten Verteilungsparameter der Verweildauer t pi in der jeweiligen Zustandsnote ausgelesen. 2. Für das betrachtete Bauwerk bzw. den Anlageteil stehen Verteilungsparameter der Verweildauer t pi für jeden Verschlechterungsschritt (von der Note i zu i+1) für das betrachtete Bauwerk zur Verfügung. 3. Für jede dieser Verteilungen werden Monte-Carlo Zufallszahlen (Samples) generiert. 4. Diese Zufallszahlen werden schrittweise aufsummiert. Es ergibt sich eine Kurvenschar von Degradationskurven. 5. Für diese Kurvenschar kann für jeden Notenschritt die Eintrittswahrscheinlichkeit zu einem bestimmten Zeitpunkt bestimmt werden. Zur besseren Lesbarkeit der Ergebnisse wird die Degradationskurve mit dem Erwartungswert und der Standardabweichung dargestellt. Dieses Verfahren hat den Vorteil, dass beliebige Verteilungen der Blätter des Entscheidungsbaumes zugrundeliegenden Daten in der Erstellung der Degradationskurven berücksichtigt werden können. Der Datensatz wird dem Entscheidungsbaum folgend, für ein Blatt gefiltert. Daran kann für die darin enthaltenen Übergangsdauern eine Verteilung angepasst werden, welche in weiterer Folge in der Kurvenerstellung Anwendung findet. Der gesamte Prozess vom Ermitteln der Übergangsdauern Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 364 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 über das Anpassen der Verteilungen bis hin zum Erstellen der Degradationskurven erfolgt ohne Verwendung von vorbestimmten Funktionen oder Faktoren. Nachteilig an diesem Ansatz ist allerdings, dass hier nur Daten von beobachteten Übergängen einfließen. Wenn also ein Bauteil den Zustand über einen sehr langen Zeitraum hält, und nur aus Gründen fehlender Begutachtungen oder abweichender Intervallabstände kein Übergang beobachtet wurde, wird dieses Bauteil nicht im Ansatz berücksichtigt. Aus der Methodik ergeben sich also zu kurze Degradationskurven. Abbildung 3: Ablauf der Erstellung der individuellen Degradationskurven mit dem probabilistischen Ansatz anhand eines Beispiels. 4.2 Zeitinhomogene Markov-Kette Der zweite Ansatz, der im Projekt verfolgt wurde, lehnt sich stark an jenen von den Autoren in [9] entwickelten Ansatz an [10]. Die Degradationskurven werden hier mit sogenannten zeitinhomogenen Markov-Ketten erstellt. In diesem Modell werden nicht nur Übergänge von einem Zustandsnotengrad auf den nächstschlechteren herangezogen, sondern alle Beobachtungen berücksichtigt. Dazu wird der Ursprungsdatensatz (also jener der zwar schon mit allen Parametern verschnitten wurde, jedoch nicht jener mit aufbereiteter Zielvariable) für einen Anlageteil den Entscheidungsbäumen folgend geclustert. Die Grundidee ist, ausgehend von einem aktuellen Zustand si Wahrscheinlichkeiten p si→sj zu definieren, die den möglichen Nachfolgezustand sj bestimmen. Schleifen in Abbildung 4 stellen die Wahrscheinlichkeit eines gleichbleibenden Zustands im nächsten Zeitschritt dar, alle anderen Pfeile Verschlechterungen um einen oder mehr Zustandsnotengrade. Abbildung 4: Markov-Kette mit vier Zuständen und möglichen Zustandsübergängen. Im vorliegenden Fall eines bauwerklichen Verfallsmodells ist es jedoch unwahrscheinlich, dass sich Notenübergangswahrscheinlichkeiten nicht mit der Zeit ändern. In diesem Fall macht es Sinn, die verstrichene Zeit in einem Zustand als Faktor in der Definition der Modellzustände zu übernehmen. Die sich ergebenden jährlich variierenden Übergangswahrscheinlichkeiten sind beispielhaft in Tabelle 3 dargestellt. Es gibt also meist eine recht hohe Wahrscheinlichkeit, dass die aktuelle Note auch im folgenden Jahr erhalten bleibt, eine relativ kleine, dass es eine Verschlechterung um einen Notengrad gibt und eine verschwindend kleine, dass die Verschlechterung mehr als einen Notengrad ausmacht. Bei jedem Notenübergang wird der „Jahreszähler“ wieder auf das Jahr 0 gesetzt. Als Übergänge sind nur Verschlechterungen (Pfeile zu einem höheren Notenindex (siehe Abbildung 4 )) oder gleichbleibende Noten zulässig. Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 365 Beobachtungsjahr p 1→1 p 1→2 p 1→3 p 1→4 p 1→5 p 2→2 p 2→3 … 0 0,84 0,16 0,00 0,00 0,00 0,98 0,02 … 1 0,89 0,11 0,00 0,00 0,00 0,95 0,05 … 2 0,83 0,17 0,00 0,00 0,00 0,92 0,08 … 3 0,92 0,08 0,00 0,00 0,00 0,94 0,06 … 4 0,83 0,17 0,00 0,00 0,00 0,93 0,06 … … … … … … … … … Tabelle 3: Sich jährlich ändernde Übergangswahrscheinlichkeiten einer zeitinhomogenen Markov-Kette (Ausschnitt der ersten Beobachtungsjahre) am Beispiel des Überbaus (Österreich) Vorteil dieses Modells ist, dass der vorliegende Datensatz in einem viel größeren Umfang verwendet werden kann. Allerdings überschätzt diese Methodik die Übergangsdauern in Fällen, in denen kein Übergang zu einer schlechteren Zustandsnote beobachtet wurde. Da davon auszugehen ist, dass es in der Zukunft einen Übergang geben wird (beispielsweise, weil es sich um den aktuellsten und damit letzten Eintrag in der Datenbank handelt) bzw. gegeben hätte (weil vor der Verschlechterung eine Instandhaltungsmaßnahme umgesetzt wurde), wird diesem aber bei rein datenbasiertem Vorgang in den Übergangswahrscheinlichkeiten nie Rechnung getragen. Allerdings lässt sich mit Hilfe der Tabelle der Übergangswahrscheinlichkeiten (z.B.: Ausschnitt in Tabelle 3) in Kombination mit einer Tabelle der Anzahl der Beobachtungen je Zeitschritt eine Aussage darüber treffen, wie viele Beobachtungen im Laufe der Zeit nicht bzw. noch nicht weiter verfolgt wurden. An dieser Stelle können die Übergangswahrscheinlichkeiten mit Expertenwissen korrigiert werden. So besteht die Möglichkeit der Angabe einer maximalen Verweildauer oder angepasster Überganswahrscheinlichkeiten für definierte Jahre. Abbildung 5: Beispiel einer mit zeitinhomogenen Markov-Ketten entwickelten Degradationskurve (Mittelwert (schwarz), Standardabweichung (rot) und Einzelsimulationen (bunte, strak transparent Linien im Hintergrund)) 5. Erkenntnisse und Ausblick Entsprechende Clusterung der Eingangsdaten wie auch statistische Methoden zur Ableitung von Degradationskurven ermöglichen nun wesentlich präzisere Prognosemodelle. Das Ergebnis sind datenbasierte Zustandskurven, welche nun entsprechend der vorliegenden Eingangsgrößen wie Abmessung, Verkehr, Ort, Klima, usw. Zustandsnoten auch künftig statistisch verteilt prognostizieren können. EBA und RFA können auch im konstruktiven Ingenieurbau effektive und robuste Werkzeuge zur Identifikation von Einflussparametern auf die Degradationsgeschwindigkeit wie auch die Clusterung von zustandsnotenbasierten Inspektionsdaten darstellen. Die vorgestellte probabilistische Methode liefert gute Informationen zur Streuung der betrachteten Prognose. Nachteilig ist allerdings, dass nur beobachtete Verschlechterungen des Bauwerks bzw. Bauteils Verwendung finden. Je kürzer die Datenreihen sind, umso stärker unterschätzt diese Methode also die tatsächliche Degradationsgeschwindigkeit. Zeitinhomogene Markov-Ketten bieten einige Vorteile im Vergleich zu anderen Methoden. Herkömmliche Markov-Ketten sind allgemein unpräziser und können die Streuung nicht abbilden. Außerdem kann das für herkömmliche Markov-Ketten charakteristische Abflachen der Degradationskurve am Ende der Zustandsnotenskala hier weitestgehend vermieden werden. Im Vergleich zum vorgestellten probabilistischen Ansatz werden auch Daten, bei denen kein Übergang beobachtet wurde, berücksichtig. Dies führt zwar zu einer systematischen Überschätzung der Degradationsgeschwindigkeit, allerdings lässt sich auf Basis der Anzahl der Beobachtungen dieser Fehler quantifizieren. Thema zur weiteren Verbesserung solcher Degradationskurven könnte die Korrektur mittels Expertenwissens oder empirisch-physikalische Modelle sein. (Zeitinhomogene) Markov-Ketten bieten dazu eine nachvollziehbare Basis und Anpassbarkeit. Die Prognosemodelle ermöglichen erstmals auch Angaben der statistischen Streubreite der zu erwartenden Ergebnisse, und können damit die strategische Erhaltungsplanung unterstützen. Sie bauen auf bereits existierenden historischen Zustandsdaten aus Datenbanken auf. Die Aussagekraft wird stark von deren Qualität beeinflusst. Sie erlauben aber für Einzelbauwerke keine Aussagen den strukturellen Zustand oder gar das Versagen betreffend und können somit Inspektionen oder Begutachtungen nicht ersetzten. 6. Danksagung Die Untersuchungen basierten auf Erkenntnissen des Projekts TAniA (FN252263a), welches im Rahmen der D-A-CH Kooperation Verkehrsinfrastrukturforschung 2018 bearbeitet wurde [10]. Die Autoren danken den Entwicklung von Bauwerksalterungskurven zur Zustandsprognose von Brücken unter Anwendung von Machine Learning-Verfahren 366 1. Fachkongress Digitale Transformation im Lebenszyklus der Verkehrsinfrastruktur - Juni 2021 ExpertInnen des österreichischen Bundesministeriums für Klimaschutz, Umwelt, Energie, Mobilität, Innovation und Technologie (BMK), des deutschen Bundesministeriums für Verkehr und digitale Infrastruktur (BMVI), des schweizerischen Bundesamts für Strassen (ASTRA) sowie den ExpertInnen der österreichischen Autobahnen- und Schnellstraßen-Finanzierungs-Aktiengesellschaft (ASFINAG), der deutschen Bundesanstalt für Straßenwesen (BASt), und den ProjektpartnerInnen für den guten fachlichen Austausch und deren Unterstützung im Zuge des Projekts. Literatur [1] RVS 13.03.11: Überwachung, Kontrolle und Prüfung von Kunstbauten - Straßenbrücken, 2011 [2] DIN 1076: 1999-11: Ingenieurbauwerke im Zuge von Straßen und Wegen - Überwachung und Prüfung, 1999 [3] Python Data Science Handbook [Book]. URL https: / / www.oreilly.com/ library/ view/ python-datascience/ 9781491912126/ . abgerufen am 2021-04- 24 [4] BREIMAN, LEO: Bagging predictors. In: Machine Learning Bd. 24 (1996), Nr. 2, S. 123-140 [5] DONGES, NIKLAS: A Coplete guide to the Random Forest algorithm. URL https: / / builtin.com/ data-science/ random-forest-algorithm#difference. abgerufen am 2021-04-20 [6] YILDIRIM, SONER: Decision Trees and Random Forests — Explained. URL https: / / towardsdatascience.com/ decision-tree-and-random-forest-explained-8d20ddabc9dd#_=_. abgerufen am 2021- 04-20 [7] PEDREGOSA, FABIAN ; VAROQUAUX, GAEL ; GRAMFORT, ALEXANDRE ; MICHEL, VIN- CENT ; THIRION, BERTRAND ; GRISEL, OLIVIER ; BLONDEL, MATHIEU ; PRETTEN- HOFER, PETER ; U. A.: Scikit-learn: Machine Learning in Python. In: Journal of Machine Learning Research Bd. 12 (2012) [8] WISTUBA, MICHAEL ; LITZKA, JOHANN ; BLAB, RONALD: Klimakenngrößen für den Straßenoberbau in Österreich, Straßenforschungsheft Nr 507 : FSV, 2001 [9] OPtimAL - Optimierte Instandsetzungsplanung der tunnelspezifischen baulichen und elektromaschinellen Ausrüstung mittels LCA. Forschungsprojekt im Rahmen der VIF 2017, Wien, 2020 [10] TAniA - Technische Anlagenbewertung im Asset-Management. Forschungsprojekt im Rahmen der D-A-CH VIF 2018, Wien, 2021 (Abschluss 06/ 2021)