Kolloquium Straßenbau in der Praxis
kstr
expert Verlag Tübingen
91
2021
21
„Machine Learning“ im Straßenbau - Methode und Anwendungsfälle
91
2021
Mahdi Rahimi Nahoujy
In diesem Artikel wird die Methode des „Machine Learnings“ -mit zwei Fallstudien im Straßenbau vorgestellt. Ein Anwendungsfall für Regression („Supervised Learning“) im Straßenbau ist die Modellierung und Prognose von Deflexionen aus den Daten von Tragfähigkeitsmessungen mit einem Falling Weight Deflectometer (FWD). Hierzu wurde dazu ein künstliches neuronales Netzwerk-Modell (KNN-Modell) entwickelt. Durch dieses Modell konnten die Daten (z.B. Deflexionswerte) an allen Punkten berechnet werden, die zwischen den Messpunkten (25 m Abstand) auf der Strecke lagen.
Es wurde gezeigt, dass mit mindestens 150 Datensätzen durch KNN ein Modell trainiert werden kann, das eine mittlere quadratische Fehlerabweichung von weniger als einem Prozent aufweist. Das Clustering von Traffic-Speed-Deflectometer (TSD)-Daten auf Netzebene ist weiteres Anwendungsgebiet der Methoden des Unsupervised Machine Learnings bzw. Data Minings im Straßenbau. Beispielhaft wird die Analyse verschiedenster Mess- und Kennwerte des TSD vorgestellt. Mit Hilfe des Clusterings können die Daten in verschiedene Kategorien eingeteilt werden, z.B. „ausgezeichnet“ oder „gut“, „ausreichend“ und „ungenügend“ oder nach anderen Indikatoren, die für die Beurteilung des strukturellen Zustands der Fahrbahn relevant sind und eine Grundlage für weitere Analysen und die Datennutzung bieten.
kstr210419
„Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 2. Kolloquium Straßenbau - September 2021 419 „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle Dr.-Ing. Mahdi Rahimi Nahoujy Bundesanstalt für Straßenwesen (BASt), Bergisch Gladbach, Deutschland Zusammenfassung In diesem Artikel wird die Methode des „Machine Learnings“ -mit zwei Fallstudien im Straßenbau vorgestellt. Ein Anwendungsfall für Regression („Supervised Learning“) im Straßenbau ist die Modellierung und Prognose von Deflexionen aus den Daten von Tragfähigkeitsmessungen mit einem Falling Weight Deflectometer (FWD). Hierzu wurde dazu ein künstliches neuronales Netzwerk-Modell (KNN-Modell) entwickelt. Durch dieses Modell konnten die Daten (z.B. Deflexionswerte) an allen Punkten berechnet werden, die zwischen den Messpunkten (25 m Abstand) auf der Strecke lagen. Es wurde gezeigt, dass mit mindestens 150 Datensätzen durch KNN ein Modell trainiert werden kann, das eine mittlere quadratische Fehlerabweichung von weniger als einem Prozent aufweist. Das Clustering von Traffic-Speed-Deflectometer (TSD)-Daten auf Netzebene ist weiteres Anwendungsgebiet der Methoden des Unsupervised Machine Learnings bzw. Data Minings im Straßenbau. Beispielhaft wird die Analyse verschiedenster Mess- und Kennwerte des TSD vorgestellt. Mit Hilfe des Clusterings können die Daten in verschiedene Kategorien eingeteilt werden, z.B. „ausgezeichnet“ oder „gut“, „ausreichend“ und „ungenügend“ oder nach anderen Indikatoren, die für die Beurteilung des strukturellen Zustands der Fahrbahn relevant sind und eine Grundlage für weitere Analysen und die Datennutzung bieten. 1. Einleitung Aufgrund der explosionsartigen Zunahme der Datenmengen in den letzten Jahren ist die menschliche Intelligenz zunehmend nicht in der Lage, diese Daten zu analysieren. Nicht nur die Komplexität der Analyse solcher umfangreichen Datenmengen, sondern auch die damit verbundene sehr lange Bearbeitungszeit, die theoretisch mehr als ein Menschenleben betragen kann, begründen dies. Um Daten zu analysieren und Erkenntnisse über die Daten selbst zu gewinnen, sind Methoden erforderlich, die unter dem Überbegriff „Knowledge Discovery from Big Data (Data Minnig)“ konsolidiert werden. Data Mining beschreibt eine Reihe von Methoden, die auf große, komplexe Datenbanken anwendbar sind, um verborgene und auffällige Muster (Pattern) in den Daten zu entdecken. Der Kolloquiumsbeitrag wird zunächst geeignete Methoden der Datenaufbereitung, auch als Preprocessing bezeichnet, diskutieren. Als Beispiel soll die Ermittlung von Ausreißern und die Abgrenzung zu Messunsicherheiten in großen Datenmengen genannt werden. Anschließend wird das Hauptthema Machine Learning diskutiert. Die wichtigsten Methoden hiervon sind: Regression, Classification und Clustering. Regression und Classification sind unter Begriff Supervised Learning und Clustering unter dem Begriff Unsupervised Learning definiert. Die Verwendung von Machine Learning mit FWD-Daten wurde in zahlreichen Studien vorgestellt [1,2,3,4]. Aber die Anwendung des Machine Learnings mit TSD-Daten ist neu in dieser Studie. In dieser Arbeit werden sowohl Methoden des Supervised Learning, als auch des Unsupervised Learning diskutiert. Ein Anwendungsfall für Regression im Straßenbau ist die Modellierung und Prognose von Deflexionen aus Tragfähigkeitsmessungen mit dem Falling Weight Deflectometer (FWD). Hierzu wurde ein künstliches neuronales Netzwerk-Modell (KNN-Modell) entwickelt. Durch dieses Modell konnten die Daten (z.B. Deflexionswerte) an allen Punkten berechnet werden, die zwischen den Messpunkten (25 m Abstand) auf der Strecke lagen. Für Unsupervised Learning wird in dieser Arbeit die Methode des Clusterings von Traffic-Speed-Deflectometer (TSD)-Daten auf Netzebene verwendet. Es wird die Analyse von TSD-Messwerten vorgestellt, um Labels für TSD-Daten bestimmen. Im Rahmen der Anwendung der beschriebenen Methoden des maschinellen Lernens haben sich die Begrifflichkeiten in englischer Sprache weitestgehend etabliert. Zur Vermeidung von Missverständnissen und zur Anknüpfung an den Stand der Technik werden daher im vorliegenden Artikel weitestgehend die englischen Begriffe ohne Übersetzung verwendet. „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 420 2. Kolloquium Straßenbau - September 2021 2. Zerstörungsfreie Prüfungen (NDTs) 2.1 Tragfähigkeitsmessungen mit dem FWD Das FWD (Abbildung 1) ist eines der frühesten Geräte für NDTs und ist kommerziell seit 1969 erhältlich. Bei diesem Gerät wird ein Kraftstoß von 10 bis 50 kN durch ein aus verschiedenen Höhen freigesetztes Gewicht erzeugt. Die Last wird auf die Straßenoberfläche über eine Platte (300 mm Durchmesser) übertragen. Die kurzzeitigen Verformungen der Straßenoberfläche (Deflexionen) werden mit zehn Geofonen gemessen, von denen sich eines in der Mitte der Platte und die übrigen in einem Abstand von 2100 mm von der Plattenmitte befinden [5]. Ein Operator kann etwa 50 Messungen pro Stunde mit einer Standardversion des FWD Primax 1500 durchführen. Der Abstand zwischen den Punkten beträgt 25 m, und die angewandte Last beträgt 50 kN. Die zeitabhängigen Verformungsverläufe (Time-History) der Impulsbelastung wird über eine Kraftmessdose aufgezeichnet. Die erzeugte Impulsbelastung des FWD wird verwendet, um eine Radüberrollung zu simulieren und sollte daher die gleiche Impulsdauer haben wie diejenige, die sich aus einer Radüberrollung mit einem Fahrzeug ergibt (Impulsdauer zwischen 20 und 30 ms). Die Größe der Impulsbelastung sollte der Radlast eines Lastkraftwagens entsprechen [6,7]. Geofone erfassen die kurzfristige vertikale Verformung der Straßenoberfläche (Deflexionsmulde) als Reaktion auf die Impulsbelastung [7]. In dieser Studie befindet sich ein Geofon im Lastzentrum, und die anderen neun befinden sich in folgenden Abständen vom Lastzentrum: 0-200-300-450-600-900-1.200-1.500-1.800 (mm). Zusätzlich zu den FWD-Messungen wird an jedem Punkt die Oberflächentemperatur gemessen. Es wird empfohlen zusätzlich die Asphaltdicke mittels “Ground Penetrating Radar (GPR)” zu messen. Abbildung 1: Primax 1500 FWD 2.2 Tragfähigkeitsmessungen mit dem TSD Das TSD wurde entwickelt, um Deflexionen bei hoher Geschwindigkeit zu erfassen (Rasmussen, 2002) [8]. Das Messsystem mit allen zugehörigen Instrumenten ist dabei in einem Lkw verbaut (s. Abbildung 2). So kann die Tragfähigkeit bei einer Geschwindigkeit von ca. 80 km/ h gemessen werden. Abbildung 2: Prinzipskizze des Messfahrzeugs[9] Um Daten zu erfassen, nutzt das TSD das Doppler-Prinzip. Mehrere Doppler-Lasersensoren sind nahezu senkrecht auf die Fahrbahnoberfläche gerichtet und messen die Geschwindigkeit, mit der sich die Fahrbahnoberfläche unter der Einzelachse des Sattelaufliegers nach unten bewegt. Mit bekannter Fahrgeschwindigkeit kann damit an jeder Laserposition die jeweilige Steigung der Verformungsmulde berechnet werden. Im Weiteren wird hieraus mittels mathematischer Methoden die Verformungsmulde abgeleitet [10]. Die Ergebnisdateien einer TSD-Messung enthalten in etwa 60 verschiedene Werte, die mittelbar und unmittelbar im Zusammenhang mit dem Straßenzustand oder der Messung selber stehen. Darunter finden sich im Falle des TSD der BASt zehn verschiedene Slopes (in Abstände: 450 (mm), -300 (mm), -200 (mm), 110 (mm), 210 (mm), 310 (mm), 460 (mm), 610 (mm), 910 (mm), 1510 (mm)) und i.d.R. mindestens neun verschiedene Deflexionen (in Abstände: D0 (mm), D200 (mm), D300 (mm), D450 (mm), D600 (mm), D750 (mm), D900 (mm), D1200 (mm), D1500 (mm)). 3. Die Methode des Machine Learnings 3.1 Supervised Learning Supervised Learning ist eine Form des Machine Learnings, bei dem Input und Output spezifiziert werden und es einen so genannten Beobachter gibt, der dem Lernenden Informationen zur Verfügung stellt. Somit kann das System versuchen, eine Funktion vom Input zum Output herzustellen. Beim Supervised Learning beginnt die Arbeit mit dem Import von Datensätzen, einschließlich Input- und Output-Attributen. Der Algorithmus für Supervised Learning ermittelt die Beziehung zwischen den Input-Variablen und ihren spezifischen Target-Variablen und verwendet diese erlernte Beziehung, um völlig neue Inputs (ohne „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 2. Kolloquium Straßenbau - September 2021 421 Target) zu kategorisieren. Das Ziel des Supervised Learnings ist es letztendlich, Outputs mit maximaler Genauigkeit für die neuen Inputs vorherzusagen. Auf der Grundlage des verfügbaren Datensatzes lässt sich das Problem des Supervised Learnings in zwei Typen einteilen: „Klassifikation“ und „Regression“. Die Regression wird normalerweise verwendet, um die Beziehungen zwischen zwei oder mehr Variablen zu bestimmen. Einige bekannte Regressionsmodelle sind: „Lineare Regression”, „Polynomische Regression” und „Multilayer Perceptron (MLP)”. 3.2 KNN Künstlich neuronale Netze (KNN) werden als nützliches Werkzeug zur Lösung technischer Probleme mit hochgradig nicht-linearen funktionalen Annäherungen gesehen. KNN wurden erfolgreich angewandt bei Aufgaben wie der Anerkennung von Funktionsapproximation, Funktionsoptimierung, Vorhersage, Datenwiederherstellung, automatische Steuerung und viele andere Fälle. Ein KNN besteht aus einer Gruppe von künstlichen Neuronen, welche die kleinste Einheit der Informationsverarbeitung (Information Processing) darstellen. Jedes künstliche Neuron erhält Inputs, verarbeitet sie und produziert schließlich eine Ausgangssignal. Zwei oder mehr Neuronen können in Form einer Schicht kombiniert werden; ein einzelnes Netzwerk kann aus mehreren Schichten bestehen. Das in Abbildung 3 dargestellte Netzwerk umfasst Input-Neuronen, Output-Neuronen und versteckte Neuronen. KNNs werden so programmiert oder trainiert, dass eine bestimmte Eingabe eine bestimmte Zielausgabe hat. Abbildung 3 zeigt diese Situation, in der das Netzwerk auf der Grundlage der Differenz zwischen dem Ziel und dem Output modifiziert wird, bis der Output nahe genug am Ziel ist. Um ein Netzwerk zu trainieren und den Lernprozess zu überwachen, sollten viele Input/ Target-Paare verwendet werden [11]. 3.3 Multilayer Perceptron (MLP) Das Perceptron ist eines der bedeutendsten KNN und ist in der Technik weit verbreitet. Das MLP gilt als eines der am besten geeigneten Netzwerke, das einen Supervised Trainingsalgorithmus verwendet. Diese Netzwerke sind in der Lage, eine nicht-lineares Mapping genau durchzuführen, indem sie die geeignete Anzahl von Schichten und neuronalen Mengen wählen. In der Regel wird ein MLP mit einem Backpropagation (BP)-Algorithmus trainiert [12,13]. Der BP-Lernalgorithmus ist einer der wichtigsten historischen Entwicklungen bei neuronalen Netzen. 3.4 Das Training eines MLP-Modells Um ein MLP-Modell zu trainieren, werden die Datensätze in drei Gruppe geteilt: 1. Trainingsdaten: Sie bezeichnen die Daten, die während des Trainingsprozesses verwendet werden. Sie sind bekannt und werden als Vorlagemodell verwendet. Das Netzwerk wird mit dem Großteil der Daten trainiert (70% wurden in dieser Studie verwendet), um eine möglichst hohe Übereinstimmung zwischen Input und Output zu erzielen. 2. Validierungsdaten: Ein Netzwerk könnte falsch trainiert werden, da es dazu neigt, die Daten auswendig zu lernen und damit die Fähigkeit zur Generalisierung verliert. Dies wird als Overtraining (oder Overfitting) bezeichnet. Um ein Overtraining zu vermeiden, muss das Training während des Prozesses validiert werden. Daher wird während des Trainings ein weiterer, unabhängiger Datensatz (15% in dieser Studie) verwendet, um den Trainingsprozess zu validieren und ein Overtraining zu verhindern. 3. Testdaten: Nach Abschluss des Trainingsprozesses werden Testdaten mit unabhängigen Zielen (Target) verwendet, um die Genauigkeit des Lernens zu bewerten. Das Testen der Daten dient dazu, das Ergebnis des Trainings zu ermitteln. Mit anderen Worten: Testdaten (15% in dieser Studie) liefern die endgültigen Antworten darauf, ob das Netzwerk erfolgreich trainiert wurde. 4. Unsupervised Learning Beim Unsupervised Learning gibt es anders als beim Supervised Learning keine spezifischen Daten im Voraus, und das Ziel besteht nicht darin, Input und Output zu kommunizieren, sondern sie lediglich zu kategorisieren. Der Lernende muss in den Daten nach einer bestimmten Struktur suchen. Unsupervised Learning ist eine Reihe von Methoden des Machine Learnings zur Entdeckung von Mustern in den Daten. Die Daten, die mit dem Unsupervised Algorithmus verarbeitet werden, sind nicht markiert, was bedeutet, dass die Input-Variable (X) ohne eine entsprechende Output-Variable angegeben wird. Beim Unsupervised Learning werden Algorithmen verwendet, um interessante Strukturen in den Daten zu entdecken. „Clustering” ist die wichtigste Methode beim Unsupervised Learning. 4.1 Clustering Die Clusteranalyse, oder kurz Clustering, ist der Prozess, durch den eine Menge von Objekten in einzelne Gruppen zerlegt werden kann. Jede Aufteilung wird als Cluster bezeichnet. Die Mitglieder jedes Clusters sind sich in ihren Merkmalen sehr ähnlich, und stattdessen ist der Grad der Ähnlichkeit zwischen den Clustern minimal. In einem solchen Fall besteht der Zweck des Clustering darin, den „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 422 2. Kolloquium Straßenbau - September 2021 Objekten „Label” zuzuweisen, die anzeigen, dass jedes Objekt ein Mitglied des Clusters ist. 4.2 K-Means Der K-Means-Algorithmus ist einer der beliebtesten Algorithmen, die beim „Data Mining“, insbesondere im Bereich des Unsupervised Learning, verwendet werden. Beim K-Means-Clustering wird die Optimierung einer Zielfunktion verwendet. Die Clustering-Ergebnisse in dieser Methode können mit Hilfe der Minimierung oder Maximierung der Zielfunktion durchgeführt werden. Das heißt, wenn das Kriterium „Abstandsmaß“ zwischen Objekten ist, basiert die Zielfunktion auf der Minimierung. Die Antwort auf die Clustering-Operation besteht darin, Cluster zu finden, bei denen der Abstand zwischen den Objekten in jedem Cluster minimal ist. Wenn umgekehrt die Unähnlichkeitsfunktion zur Messung der Ähnlichkeit von Objekten verwendet wird, wird die Zielfunktion so gewählt, dass die Clustering-Ergebnisse ihren Wert in jedem Cluster maximiert. Nehmen wir an, dass die Beobachtungen (x 1 , x 2 , ..., x n ), die eine Dimension d haben, in k Clustern unterteilt werden müssen. Diese Cluster werden als S = {S 1 , S 2 , ..., S k } bezeichnet. Die Clustermitglieder sollten aus Beobachtungen ausgewählt werden, die die Funktion der „within-cluster sum of squares“ (WCSS) minimieren. Daher wird die Zielfunktion in diesem Algorithmus wie folgt geschrieben [14]: Hier ist µ i das Zentrum der Cluster Si. | S i | ist die Anzahl der Mitglieder im Cluster i. 4.3 Training eines K-Means-Modells In dieser Studie arbeitet der K-Means-Algorithmus mit einer iterativen Verfeinerungstechnik, die auf folgende Weise funktioniert [14]: 1. Zunächst werden nach dem Zufallsprinzip K Zentren (Mittelwert des Clusters) quantifiziert, welche die Cluster repräsentieren: 2. Jede Beobachtung wird dem Cluster mit dem nächstliegenden Mittelwert zugeordnet. In dieser Arbeit wird der Euklidische Abstand (Squared Euclidean Distance) als K-Means-Algorithmus verwendet: 3. Es werden die Mittelwerte für Beobachtungen neuberechnet, die jedem Zentrum zugeordnet sind: Dann werden diese beiden Schritte (2 und 3) mehrmals abwechselnd durchgeführt, so dass die Mittelwerte stabil genug sind oder die Summe der Varianzen der Cluster sich nicht stark ändert. 4. Schließlich werden die folgenden Mittelwerte der letzten Phase (in der Zeit T) die Cluster repräsentieren: 5. Ergebnisse In dieser Studie sind zwei verschiedene Anwendungsfälle von Maschine Learning für FWD-Daten und TSD- Daten dargestellt. 5.1 Die Anwendung von KNN für FWD-Daten Abbildung 3: Die Architektur des MLP-Modells In dieser Studie wird ein MLP-Netzwerk mit zwei verborgenen Schichten (hidden layer) verwendet. In der ersten und zweiten verborgenen Schicht wird eine Sigmoid- Funktion und in der Output-Schicht eine lineare Funktion verwendet. Weitere verborgene Schichten werden nicht berücksichtigt, da sie das Problem verkomplizieren und keine besseren Ergebnisse bringen. Das Ziel ist, das beste Ergebnis zu erzielen, daher werden bestimmte Modifikationen an Eingängen, Neuronen und Algorithmen (Trainingsfunktionen) bei jeder Iteration durchgeführt. Mit anderen Worten, ein neuronales Netz wird trainiert für eine einzige Ausgabe mit verschiedenen Eingaben, mit unterschiedlichen Anzahlen von Neuronen und unterschiedlichen Algorithmen, um das beste Netzwerk unter den möglichen Ausbildungsmethoden zu bestimmen. Die „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 2. Kolloquium Straßenbau - September 2021 423 Input-Schicht besteht aus drei Parametern: Messpunkt, Dicke und Temperatur. Die Output-Schicht hat nur einen Parameter: Deflexion(D 0 ). Die Architektur des besten Modells ist in Abbildung 3 dargestellt. Für diese Studie wurden FWD-Messdaten und Dickenmessdaten (GPR) in einem Abstand von 20 m verwendet. Als Ergebnis wurden 158 Datenreihen von Input und Output erhalten (Rahimi Nahoujy 2020). In diesem Beitrag wurde das MLP-Netzwerk in der Programmiersprache und Computerumgebung MATLAB® implementiert, wobei das MLP-Modell mit FWD-Daten trainiert wird. Diese Studie zeigt, dass das beste Modell zwei verborgene Schichten mit 4 Neuronen in der ersten und 6 in der zweiten verborgenen Schicht enthält. Der verwendete Trainingsalgorithmus ist „Conjugate Gradient Backpropagation with Polak-Ribiére Update (CGP)“. Darüber hinaus wurden R-Wert und Performance zwischen experimentellen und simulierten Daten bestimmt. Abbildung 4 zeigt ein Diagramm der Performance. Dieses Netzwerk wurde für 2000 Epochen trainiert, wobei die Epoche Nr. 962 die beste Leistung in diesem Netzwerk darstellt. Das Trainieren des Netzwerks wurde aufgrund des Erreichens der vorgegebenen maximalen Epoche gestoppt. Die beste Performance des Trainings, die beste Performance der Validierung und die beste Performance des Tests liegen bei 0,0031, 0,0042 bzw. 0,0050. In dieser Studie wurde der Mean Square Error (MSE) zur Angabe der Performance verwendet. Die lineare Regression für Training, Validierung, Test und das gesamte Netzwerk ist in der Abbildung 5 dargestellt. Abbildung 4: Performance-Diagramm für Trainings-, Validierungs- und Testdatensätze Abbildung 5: Regressionsgrafiken zur KNN-Vorhersagegenauigkeit für Trainings-, Validierungs- und Testdatensätze Nach Abbildung 5 beträgt der R-Wert für das Training 0,96 bei einem MSE von 0,0031, der R-Wert für die Validierung 0,96 bei einem MSE von 0,0042. Der R-Wert für den Test beträgt ca. 0,95 bei einem MSE von 0,0050 und der R-Wert für alle Daten liegt bei ca. 0,96. Es zeigt „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 424 2. Kolloquium Straßenbau - September 2021 sich, dass das Modell eine ausgezeichnete Möglichkeit zum Training des Netzwerks ist und eine starke Generalisierungsfähigkeit besitzt. 5.2 Die Anwendung von K-Means für TSD-Daten In dieser Studie wurden mit dem TSD der Bundesanstalt für Straßenwesen (BASt) auf einer Autobahn in Nordrhein-Westfalen gemessene Daten verwendet. Die Messungen wurden alle 10 m auf mehr als 52 km Autobahn mit 3 Streifen in beide Richtungen prozessiert, so dass 68799 Datensätze verfügbar sind. 5.2.1 Preprocessing Der Beginn jeder Art von Arbeit und Betrieb hat in der ersten Phase eine Reihe von Anforderungen und Voraussetzungen. Machine Learning ist keine Ausnahme von dieser Regel und erfordert eine Vorbereitung und Bearbeitung der Datenbasis. Hierzu müssen alle Daten, die für den beabsichtigten Zweck verwendet werden sollen, vor Beginn des Prozesses mit geeigneten Methoden ihm Rahmen des sogenannten Preprocessing aufbereitet und eingerichtet werden. Das Preprocessing spielt eine Schlüsselrolle für den Datenverarbeitungsprozess und seine Ergebnisse. Es gibt mehrere Schritte und Werkzeuge für die Datenvorverarbeitung. In einigen Fällen haben einige Attribute einer oder mehrerer Stichproben möglicherweise keine gültigen Werte. Dies kann verschiedene Gründe haben, z.B. das Rauschen (noise) der aufgezeichneten Daten, die Nichtaufzeichnung oder die Ungültigkeit ihres Wertes. Diese Daten werden als „Fehlende Daten“ (Outlier data | Null Daten) bezeichnet. Für die Verarbeitung solcher Datensätze muss eine Lösung gefunden werden, um die nicht vorhandenen Daten zu quantifizieren. Es gibt verschiedene Möglichkeiten, fehlende Daten zu verwalten. In dieser Studie wird eine einfache Methode verwendet, weil die Anzahl der verfügbaren Proben sehr groß ist. Bei dieser Methode werden alle Proben, die einen fehlenden Attributwert haben, vollständig aus dem Datenbestand entfernt und bei der Verarbeitung nicht verwendet. Abbildung 6: TSD-Daten ohne fehlende Daten Die Abbildung 6 zeigt, dass für „Slope110“, also dem Slope-Wert an der Position 110 mm, 41724 Daten für diese Strecke verfügbar sind und die anderen Daten fehlen. Nach den fehlenden Daten sollen Ausreißer-Daten gefunden werden. In einigen Fällen können aus irgendeinem Grund Werte im Datensatz erscheinen, die sich sehr von anderen Werten im Datensatz unterscheiden, was als Ausreißer-Daten bezeichnet wird. In der Tat handelt es sich bei Ausreißer-Daten um Daten oder Stichproben, die dem allgemeinen Verhalten oder Modell des gesamten Datensatzes nicht ähneln oder ihm nicht folgen. Für die Erkennung von Ausreißer-Daten stehen verschiedene statistische Methoden zur Verfügung, die spezifische statistische Analysen zur Identifizierung der zuverlässigen Grenzen für jede Datengruppe bieten. In dieser Studie wird die Hotellingsche T-Quadrat-Verteilung (T 2 ) verwendet. In der Abbildung 7 sind die Ausreißer-Daten markiert. 106 Daten wurden als Ausreißer erkannt und wurden gelöscht. Abbildung 7: Ausreißer-Daten in den TSD-Daten Abbildung 8: TSD-Daten nach dem Preprocessing Nachdem diesem Preprocessing werden die Daten für das Clustering vorbereitet. Die Abbildung 8 zeigt den vorbereiteten Datensatz für das Machine Learning, der aus 41618 Datenzeilen besteht. „Machine Learning“ im Straßenbau - Methode und Anwendungsfälle 2. Kolloquium Straßenbau - September 2021 425 5.2.2 Clustering Im ersten Schritt werden die Slope 110-Werte durch K- Means in vier Cluster eingeteilt (eindimensionale Cluster). Da die Ergebnisse des Clusterings bei jeder Durchführung anders sein könnten, wurden einige Modelle trainiert und deren Ergebnisabweichungen analysiert. Die Abweichung von Durchschnitten und Grenzen der Modelle waren sehr niedrig (weniger als 1%), womit sich zeigt, dass die Cluster robust sind. In der folgenden Abbildung 9 sind vier Cluster dargestellt. Die Mittelwerte (Center) in diesem Model sind wie folgt positioniert: Center 1: 14.3641437039793 µm/ m Center 2: 41.9321957198163 µm/ m Center 3: 86.2550691677927 µm/ m Center 4: 179.975589050958 µm/ m Abbildung 9: Cluster-Diagramm für TSD-Daten Alle Punkte in jedem Cluster haben den geringsten Abstand von dem jeweiligen Zentrum, im Vergleich zu den anderen Zentren. Durch dieses Modell ergeben sich drei Grenzen (Label): Label 1: ca. 28,15 µm/ m Label 2: ca. 64,10 µm/ m Label 3: ca. 133,10 µm/ m Mittels dieser Labels werden alle Daten in vier Gruppen (Cluster) eingeteilt. Die Daten jedes Clusters haben eine besondere Beziehung zueinander. Auf Grundlage des vorhandenen Erfahrungshintergrundes im Zusammenhang mit Tragfähigkeitsmessungen, werden die TSD- Daten (hier: Slope110-Werte) daraufhin wie folgt kategorisiert: ausgezeichnet: 0 - 28,15 µm/ m gut: 28,15- 64,10 µm/ m ausreichend: 64,10- 133,10 µm/ m ungenügend: mehr als 133,10 µm/ m In dem zweiten Schritt wurde ein 2-D Cluster modelliert. Slope110- und SCI300-Werte wurden durch K-Means in vier Cluster eingeteilt. Die Abbildung 10 zeigt dieses Modell: Abbildung 10: Cluster-Diagramm für TSD-Daten Die Mittelwerte (Center) in diesem Model sind in der Tabelle 1 dargestellt: Tabelle 1: Center Position des Clusters Center Nr. SCI300 (µm) Slope110 (µm/ m) Center 1 4,537950601 14,51022935 Center 2 9,506927762 42,40942986 Center 3 19,03173728 87,43441295 Center 4 41,19509195 181,1858342 Durch dieses Modell können Label als lineare Grenzen definiert werden: Label 1: Label 2: Label 3: Diese Labels teilen alle Daten in folgenden Gruppen ein: Ausgezeichnet: Gut: Ausreichend: Ungenügend: mitX = Slope 110 (µm/ m) Y = SCI300 (µm)