eJournals Internationales Verkehrswesen 75/2

Internationales Verkehrswesen
iv
0020-9511
expert verlag Tübingen
10.24053/IV-2023-0040
51
2023
752

Erhöhung der Sicherheit im Flughafen

51
2023
Andrei Popa
Olaf Milbredt
Christina Draeger
Der Flughafen als eine kritische Infrastruktur des Transports kann zu jedem Zeitpunkt Ziel eines Anschlags sein. Die Methoden der Angreifer werden immer ausgefeilter. Essenziell ist daher eine schnelle und adäquate Reaktion auf unvorhergesehene Ereignisse. Von jedem verlassenen Gepäckstück – ein häufig auftretendes Ereignis – geht potentiell eine Gefahr aus. KI wird bereits erfolgreich in einzelnen Bereichen des Flughafens eingesetzt. Diese reichen von intelligenter Videoüberwachung über die Grenzkontrolle bis zur Überwachung der Hochsicherheitsbereiche. In dieser Arbeit wurde eine exemplarische Umgebung untersucht, welche die zur Neutralisierung eines nicht zuzuordnenden Gegenstandes (z. B. Koffer) notwendigen Aktionen abbildet. Zum Lösen der Aufgabe, diese Aktionen zu wählen, wurde das Verfahren Deep Q-Network verwendet. Mittels einer Parameterstudie wird ein Parametersatz gesucht, der in Deep Q-Network auftritt und ein optimales Ergebnis liefert. Hierbei wurden Lernrate, Batchsize und Anzahl der Iterationen variiert.
iv7520070
Internationales Verkehrswesen (75) 2 | 2023 70 TECHNOLOGIE Wissenschaft Erhöhung der Sicherheit im Flughafen Parameterstudie zum Einsatz von KI zur Optimierung der Reaktionen auf einen nicht zuzuordnenden Gegenstand Luftverkehr, Flughäfen, Security, Künstliche Intelligenz, Reinforcement Learning, Deep-Q-Network Der Flughafen als eine kritische Infrastruktur des Transports kann zu jedem Zeitpunkt Ziel eines Anschlags sein. Die Methoden der Angreifer werden immer ausgefeilter. Essenziell ist daher eine schnelle und adäquate Reaktion auf unvorhergesehene Ereignisse. Von jedem verlassenen Gepäckstück - ein häufig auftretendes Ereignis - geht potentiell eine Gefahr aus. KI wird bereits erfolgreich in einzelnen Bereichen des Flughafens eingesetzt. Diese reichen von intelligenter Videoüberwachung über die Grenzkontrolle bis zur Überwachung der Hochsicherheitsbereiche. In dieser Arbeit wurde eine exemplarische Umgebung untersucht, welche die zur Neutralisierung eines nicht zuzuordnenden Gegenstandes (z. B. Koffer) notwendigen Aktionen abbildet. Zum Lösen der Aufgabe, diese Aktionen zu wählen, wurde das Verfahren Deep Q-Network verwendet. Mittels einer Parameterstudie wird ein Parametersatz gesucht, der in Deep Q-Network auftritt und ein optimales Ergebnis liefert. Hierbei wurden Lernrate, Batchsize und Anzahl der Iterationen variiert. Andrei Popa, Olaf Milbredt, Christina Draeger D ie Luftfahrt sieht sich mit wachsenden Herausforderungen im Bereich der Sicherheit konfrontiert. Die Angriffsmuster der Terroristen werden immer komplexer. In der Vergangenheit waren diese die Grundlage von neuartigen Überprüfungsmethoden, wie zum Beispiel Metall-, Sprengstoff- und Flüssigkeitsdetektoren [1, 2]. Neben der Notwendigkeit den Flug abzusichern, ist auch der Flughafen als Ansammlungspunkt großer Menschenmengen im Visier des Terrorismus. Der Anschlag am Flughafen Brüssel in 2016 zeigt, wie sensibel ein Flughafen als Ziel ist [3]. Ein nicht zuzuordnender Gegenstand (NzG), wie zum Beispiel ein Koffer, wird aus diesem Grund immer als potentielle Gefahr gesehen. An den Flughäfen tritt der Fund eines NzG häufig auf. Am Flughafen München werden beispielsweise jeden Tag bis zu 30 NzG gefunden. In den meisten Fällen lässt sich dieser NzG zuordnen, jedoch kommt in acht von 30 Fällen ein Spürhund zum Einsatz. Falls dieser anschlägt oder aufgrund einer ungünstigen Position des NzG nicht eingesetzt werden kann, muss direkt ein Entschärfer gerufen werden. Dies passiert bei bis zu drei der 30 Funde [4]. Um den Menschen bei der Aufgabe der Erkennung potentieller Gefahren zu unterstützen, wird bereits heute KI an Flughäfen eingesetzt. Diese reicht von intelligenter Videoüberwachung über die Grenzkontrolle bis zur Überwachung der Hochsicherheitsbereiche [5, 6, 7]. Diese KI-Systeme operieren unabhängig voneinander, ohne die Möglichkeit eines Informationsaustausches [8]. Um diese Problematik zu überwinden, wurde in [8] die Vision eines neuartigen Sicherheitskonzepts vorgestellt, welches ganzheitlich von einer KI interpretiert wird und adäquate Reaktionen vorschlägt. Die Nutzung von KI am Flughafen ist vor allem durch die Verwendung von Bildmaterial geprägt. Diese Kombination ermöglicht zum Beispiel den dokument- und kontaktlosen Zugang zur Sicherheitskontrolle und zum Gate. Dabei bestimmt die KI die Identität eines Passagiers durch Gesichtserkennung [9]. Ein ähnlicher Ansatz wird zur Grenzkontrolle im Verfahren iBorderCtrl verwendet [6]. Die Erkennung von Merkmalen in einem Bild eignet sich ebenfalls für Gepäckstücke. In [10] werden Gepäckstücke anhand ihrer Bilder über Flughäfen hinweg identifiziert. Nicht bei jedem erkannten Gepäckstück kann von einem NzG ausgegangen werden, da die primäre Eigenschaft eines NzG in der Nichtauffindbarkeit des Eigentümers besteht. Aus diesem Grund haben [11, 12] die Fragestellung untersucht, wie ein Objekt einer oder mehrerer Personen zuzuordnen ist und wie das Zurücklassen dieses Objektes erkannt werden kann. Es bestünde zum Beispiel die Möglichkeit, dass Kameras die Trajektorie eines sich wegbewegenden Objekts verfolgen [11]. Internationales Verkehrswesen (75) 2 | 2023 71 Wissenschaft TECHNOLOGIE Das in dieser Arbeit vorgestellte System zielt nicht auf die Erkennung, sondern auf die Steuerung der Prozesse zur Wiederherstellung der Sicherheit nach dem Fund eines NzG ab. Es bildet somit ein komplementäres System zu den oben dargestellten. Als Teil des in [8] vorgestellten KI-Systems zur ganzheitlichen Steuerung der Sicherheitssysteme kann es als die Rückmeldungen der oben beschriebenen Systeme interpretierend angesehen werden. Nachfolgend wird eine erste methodische Grundlage für das in [8] genannte Sicherheitskonzept untersucht. Das verwendete Verfahren zum Trainieren einer KI ist das Reinforcement Learning. Bei der KI-Methode Reinforcement Learning erlernt der Agent, selbständig in einer Umgebung zu agieren. Eine Aktion des Agenten innerhalb der Umgebung führt zu einer Rückmeldung der Umgebung in Form einer Belohnung. Dafür wurde eine exemplarische Umgebung untersucht, welche die zur Neutralisierung eines NzG notwendigen Aktionen abbildet. Es wird das Verfahren Deep Q-Network (DQN) verwendet, welches in [13] vorgestellt wurde. Diese testeten das DQN-Verfahren mit Bilddaten eines Videospiels. Um zu prüfen, ob sich dieses Verfahren auch für die Anwendung in der exemplarischen Umgebung dieser Arbeit eignet, wurde eine Parameterstudie über die Parameter Batchsize, Lernrate und Anzahl der Iterationen durchgeführt. Somit kann einerseits analysiert werden, wie sich die Parametereinstellungen auf die Trainingsergebnisse auswirken. Andererseits ist ersichtlich, ob das vorgegebene Ziel - die schwankungsfreie Neutralisierung des NzG - mit der entsprechenden Parametervorgabe zu erreichen ist. Schwankungsfreiheit bezieht sich in diesem Kontext auf eine Standardabweichung von Null des Mittelwerts des maximalen Ertrags unabhängiger Trainingsläufe des Agenten zu einer bestimmten Iteration. Das bedeutet, eine schwankungsfreie Neutralisierung des NzG liegt dann vor, wenn die Schwankungsfreiheit ab einer bestimmten Iteration gegeben ist. Methode des Reinforcement Learning In dieser Studie wird der Ansatz des verstärkenden Lernens benutzt [14]. In diesem muss ein Agent in einer gegebenen Umgebung vorgegebene Aktionen ausführen (s. Bild 1). Bei jeder Aktion in einem Zustand der Umgebung erhält der Agent eine Rückmeldung in Form eines neuen Zustands und eines Zahlenwerts (Belohnung). Hier sind die Menge aller Aktionen und die Menge aller Zustände endlicher Anzahl. Da die Reaktion der Umgebung nur vom momentanen Zustand und der jeweiligen Aktion des Agenten abhängt, spricht man von einem Marcov Decision Process [14]. Die Aufgabe eines Agenten ist das Finden einer Abfolge von Aktionen, die die Summe aller Belohnungen (Ertrag) maximiert. Am Anfang gibt es noch keine Erfahrung, auf die der Agent aufbauen kann, sodass er zufällig Aktionen auswählt. Beschreibung der Umgebung Der dieser Studie zugrunde liegende Gedanke hinter der Entwicklung der Umgebung ist die Neutralisierung eines NzG am Flughafen. Das in dieser Umgebung verwandte NzG ist zu 70 % ein harmloser Koffer und zu 30 % ein getarnter Sprengsatz. Diese Aufteilung wurde angenommen, da der Algorithmus bei einer um Größenordnungen (Zehnerpotenz) kleineren Explosionsrate viel mehr Iterationen benötigt, um eine Explosion zu erfahren. Eine um Größenordnungen kleinere Explosionsrate führt zu einer deutlich längeren Laufzeit, was für diese erste methodische Grundlagenstudie vermieden wurde. Die Umgebung baut auf ein Framework von Python auf. Dieses besteht aus einer Struktur für das Reinforcement Learning sowie der Belohnungsfunktion und Aktionsausführung. Die Aktionen in der implementierten Umgebung sind an die in der Realität ausgeführten Abläufe bei der Entdeckung eines NzG angelehnt. Das sind hier das Absperren von Bereichen, Einsetzen des Spürhundes oder das Hinzuziehen des Entschärfers. Der Spürhund ermittelt, ob ein aktiver Sprengsatz im NzG vorhanden ist. Der Entschärfer kann einen solchen neutralisieren. Das Absperren führt zu einer Evakuierung des betroffenen Bereichs, sodass keine Personen zu Schaden kommen können. Die Belohnungsfunktion besteht aus zwei Teilen. Im ersten Teil werden Kosten berücksichtigt und im zweiten Teil das Schadensausmaß. Jede Aktion ist mit fixen Kosten verbunden, die in ihrer Größenordnung dem Aufwand der jeweiligen Aktion entsprechen sollen. Im Falle einer Detonation besteht der Schaden aus Sach- und Personenschaden. Ersterer wurde mit Hilfe von geschätzten Kosten für Sachschäden pro Quadratmeter ermittelt. Für den Personenschaden mussten ebenfalls Kosten angenommen werden, um eine Addition durchführen zu können. Diese wurden um drei Größenordnungen (10 3 ) höher als der Sachschaden eingeschätzt. Die Aufgabenstellung des Agenten ist die Ausführung von Aktionen, die zu einer Neutralisierung des NzG führen. Dazu soll der Ertrag des Agenten maximiert werden. Beschreibung des Algorithmus In diesem Beitrag wird das Verfahren Deep Q-Network (DQN) verwendet, das bereits mehrfach erfolgreich eingesetzt wurde [13]. Es verbindet Q-Learning mit neuronalen Netzen. Die Aktions-Wert-Funktion ist eine Funktion abhängig von dem jeweiligen Zustand und der in diesem Zustand ausgeführten Aktion. Sie beschreibt den Ertrag, wenn die Aktion im gegebenen Zustand ausgeführt und einer gegebenen Strategie gefolgt wird. Eine optimale Strategie zeichnet sich durch den bestmöglichen Erwartungswert des Ertrages aus. Jede optimale Strategie hat die gleiche Aktions-Wert-Funktion. Wenn diese Funktion bekannt ist, kann daraus wiederum eine optimale Strategie rekonstruiert werden. Daher wird in diesem Verfahren schrittweise die Approximation dieser Umgebung Agent Bild 1: Die Agent- Umgebung- Interaktion beim Reinforcement Learning [14] Internationales Verkehrswesen (75) 2 | 2023 72 TECHNOLOGIE Wissenschaft Funktion verfeinert. Jede optimale Funktion erfüllt die sogenannte Bellman-Gleichung, welche von Bellman in [15] und [16] entwickelt wurde. Diese kann verwendet werden, um eine Iterationsvorschrift zu konstruieren. Eine solche Folge konvergiert dann gegen die optimale Aktions-Wert-Funktion. Im Fall von DQN wird für die Approximation eine Funktion mit einem Parameter benutzt [13]. DQN nutzt neuronale Netze zur Funktionsapproximation aufgrund der nun verfügbaren Computerkapazität, die große Netze mit mehr als tausend Neuronen in einer Schicht erlaubt. Benutzt man ein neuronales Netz zur Approximation der Aktions-Wert-Funktion, können Instabilitäten auftreten [17]. Um diesen zu entgegnen, haben die Autoren in [13] die Verwendung von Erfahrungswiederholungen und periodisch aktualisierten Zielwerten für die Aktions-Wert-Funktion eingeführt. Im Verfahren DQN kommen verschiedene Parameter zum Einsatz. In dieser Arbeit werden die Parameter Batchsize, Anzahl der Iterationen und die Lernrate verändert. Die Batchsize ist die Anzahl der zufällig aus der Gesamtheit der schon erfahrenen Situationen (Erfahrungswiederholungen) ausgewählten Testfälle. Diese ausgewählten Erfahrungswerte dienen als zusätzliche Eingabe für den Lernprozess. Die Lernrate fließt in das Verfahren Stochastic Gradient Decsent (SGD) ein, um den Fehler, der sich aus der Bellman-Gleichung ergibt, zu minimieren. Der Gradient des Fehlers ist ein Vektor, der in die Richtung des größten Anstiegs der Funktion zeigt. Um diese zu minimieren, ändert man den Punkt in die entgegengesetzte Richtung. Das Ziel dieser Arbeit ist das Identifizieren des besten Parametersatzes. Das bedeutet ein möglichst schwankungsfreies Ergebnis, welches mit einer geringen Anzahl an Iterationen erreicht werden kann und im Neutralisieren des NzG mündet. Durchführung der Parameterstudie Zur Durchführung der Parameterstudie wurden folgende Werte ausgewählt: •• Batchsize = {64, 128, 256, 512}, •• Anzahl der Iterationen = {5.000, 10.000, 20.000, 40.000}, •• Lernrate = {0,005; 0,001; 0,0005; 0,0001}. Diese decken nach vorherigen Testdurchläufen den Parameterraum ab. Da etwaiges Schwankungsverhalten nur bei einer größeren Anzahl an Iterationen auftrat, wurde in dieser Studie der hier kleinste angegebene Wert benutzt. Ab einer größeren Iteration als der größten angegebenen war ein ähnliches Schwankungsverhalten zu beobachten. Bei einer Lernrate größer als 0,005 oder einer Lernrate kleiner als 0,0001 resultierte ebenfalls ein Verhalten mit größeren Schwankungen. Bei einer Batchsize von 16, genauso wie bei einer Iterationsanzahl kleiner als 2000, wurde das angestrebte Ziel nicht erreicht. Das Ergebnis eines Lernprozesses wurde innerhalb von zehn Episoden - eine Abfolge von Zuständen, Aktionen und Belohnungen, die mit einem Endzustand abschließt - evaluiert und der Mittelwert gebildet. Dies geschah in zwei identischen Umgebungen, um die Verallgemeinerungsfähigkeit zu testen. Um das Ergebnis von der spezifischen Lernhistorie zu entkoppeln, wurden 20- Durchläufe verwendet. Von diesen wurden Mittelwert und Standardabweichung für jeden Datenpunkt ermittelt. Ergebnisse Es wurde der oben angegebene Bereich für die Iterationen ausgewählt, da nach einer kleineren Anzahl Iterationen größere Schwankungen auftreten können, wie stellvertretend in Bild 2 zu sehen ist. Für die größte Lernrate 0,005 schwankten die Ergebnisse um mehr als 50-% um den Mittelwert. Bei einer Batchsize von 256 betrug die Abweichung bei der 40.000ten Iteration mehr als 440-% (s .Bild 3). Bei der kleinsten Lernrate von 0,0001 waren im Durchschnitt mindestens 20.000 Iterationen notwendig, um die Zielerreichung (Neutralisierung des NzG) zu erfüllen (s. Bild 4). Es ist schwierig zu erkennen, ob die Schwankung tatsächlich verschwindet. Zusätzlich ist aufgefallen, dass die Schwankung verschwinden kann, aber im späteren Verlauf des Trainings wieder ansteigt. -1×10 8 -5×10 7 0 5×10 7 0 5000 10000 15000 20000 25000 30000 35000 40000 Mittlerer Ertrag Iteration Mittelwert Standardabweichung Bild 2: Im späteren Verlauf des Trainings des Agenten auftretende Schwankungen mit den Parametern Batchsize: 256, Iterationen: 40.000, Lernrate: 0,001 Darstellungen 2 bis 6: Autoren -1×10 8 -5×10 7 0 5×10 7 0 5000 10000 15000 20000 25000 30000 35000 40000 Mittlerer Ertrag Iteration Mittelwert Standardabweichung Bild 3: Schwankungen der Ergebnisse beim Training des Agenten mit den Parametern Batchsize: 256, Iterationen: 40.000, Lernrate: 0,005 Internationales Verkehrswesen (75) 2 | 2023 73 Wissenschaft TECHNOLOGIE In Bild 5 ist dieses Verhalten zu erkennen. Die Schwankung der Ergebnisse betrug in diesem Fall ca. 30-%. Eine schnellere und schwankungsärmere Zielerreichung war für die Lernraten 0,001 und 0,0005 zu erkennen. Bei der Lernrate 0,0005 lag die Schwankung über mehrere tausend Iterationen bei Null, vergrößerte sich jedoch im weiteren Verlauf auf 15 bis 50- % ähnlich Bild 5. Bei der Lernrate 0,001 war für die Batchsize 512 die Schwankung mindestens 20 %. Bei den Batchsizes 64 und 256 waren die Schwankungen mit wenigen Ausnahmen im Bereich zwischen 15 bis 50 %. Zusätzlich zum angegebenen Bereich der Batchsize wurde die Batchsize 32 benutzt. Dafür kamen Ergebnisse aus den vorigen Trainingsläufen zum Einsatz. Um ein breites Bild zu erhalten, erfolgte die Durchführung der zusätzlichen Trainingsläufe mit den Iterationen 10.000 und 40.000 sowie den beiden Lernarten 0,001 und 0,0001. Die Lernrate 0,001 erreichte bei 40.000 Iterationen das Ziel der Neutralisierung, jedoch mit Schwankungen von mindestens 30 %. Bei der kleineren Lernrate (0,0001) waren, wie bereits in den vorherigen Trainingsläufen erkennbar, mehr als 10.000 Iterationen notwendig, um das Ziel der Neutralisierung des NzG zu erreichen. Dabei zeigte sich für 40.000 Iterationen eine schwankungsfreie Zielerreichung ab Iteration 33.000. Um ein Auftreten der Schwankung zu einem späteren Iterationsschritt auszuschließen, wurde ein Trainingslauf mit 60.000 Iterationen durchgeführt (s. Bild 6 links). Hier ergab sich eine schwankungsfreie Zielerreichung ab der 38.000ten Iteration (s. Bild 6 rechts). Der optimale Parametersatz für das in dieser Studie vorliegende Problem wird durch die Batchsize 32 und die Lernrate 0,0001 bei einer Iteration von mindestens 40.000 abgebildet (s. Bild 6 rechts). Diskussion Nachfolgend werden die Ergebnisse in ihrer Eignung analysiert. Die größte Lernrate 0,005 ist ungeeignet für den Lernvorgang, da Schwankungen bis zu 440- % auftreten können. Bei keiner Batchsize sinken die Schwankungen unter 50- %. Eine Verkleinerung der Lernrate um eine Größenordnung (0,0005; 0,0001) führte teilweise zu Phasen ohne Schwankung, die aber nur temporär im Lernprozess auftraten. Eine Schwankung war für jede Batchsize vorhanden. Mit den angegebenen Parameterkombinationen war keine schwankungsfreie Neutralisierung des NzG möglich. Nur mit den zusätzlichen Tests mit der Batchsize 32 stellte sich heraus, dass eine Zielerreichung möglich ist. Jedoch war es hierbei nötig, die Lernrate kleiner zu wählen (0,0001). Eine schwankungsfreie Lösung des Problems wurde bei dieser Batchsize und einer Lernrate von 0,0001 erreicht. Dieses Verhalten bestätigte sich bei einer Iterationsanzahl von 60.000. Während der Durchführung der Trainingsläufe war zu beobachten, dass sich die Dauer eines Trainings zum einen bei größerer Batchsize (Anzahl der Iterationen und Lernrate fix) und zum anderen bei kleinerer Lernrate (Anzahl Iterationen und Batchsize fix) sowie größerer Anzahl an Iterationen (Batchsize und Lernrate fix) verlängert. Eine schwankungsfreie Lösung des Problems wurde nur bei der Lernrate 0,0001 mit einer Batchsize von 32 erreicht (s. Bild 6 rechts). -1.5×10 8 -1×10 8 -5×10 7 0 5×10 7 0 5000 10000 15000 20000 Mittlerer Ertrag Iteration Mittelwert Standardabweichung Bild 4: Beispiel für Schwankungen des mittleren Ertrags beim Training des Agenten mit den Parametern Batchsize: 128, Iterationen: 20.000, Lernrate: 0,0001 -80000 -75000 -70000 -65000 -60000 -55000 -50000 -45000 -40000 -35000 -30000 30000 32000 34000 36000 38000 40000 Mittlerer Ertrag Iteration Mittelwert Standardabweichung Bild 5: Durch Skalierung sichtbare kleinere Schwankungen der Ergebnisse beim Training des Agenten mit den Parametern Batchsize: 512, Iterationen: 40.000, Lernrate: 0,0001 -20 -15 -10 -5 0 5 0 10000 20000 30000 40000 50000 60000 Mittlerer Ertrag (*10 7 ) Iteration Mittelwert Standardabweichung -51 -50.5 -50 -49.5 -49 40000 45000 50000 55000 60000 Mittlerer Ertrag (*10 3 ) Iteration Mittelwert Standardabweichung Bild 6: (Links) Verlauf des Ergebnisses beim Training des Agenten mit den Parametern Batchsize: 32, Anzahl Iterationen: 60.000, Lernrate: 0,0001. (Rechts) Ausschnitt des linken Bildes für die Iterationen ab 40.000 Internationales Verkehrswesen (75) 2 | 2023 74 TECHNOLOGIE Wissenschaft Fazit und Ausblick Der Flughafen als vulnerabler Knotenpunkt des Transports ist besonders gefährdet, Ziel eines Anschlages zu sein. Den verfeinerten Methoden der Angreifer muss durch eine schnelle und adäquate Reaktion begegnet werden. Von jedem verlassenen Gepäckstück geht potentiell eine Gefahr aus. Das übergeordnete Ziel ist die Beschleunigung des Erkennens der NzG, des Verursachers und des Einleitens der notwendigen Schritte mittels einer KI. In dieser Arbeit wurde eine exemplarische Umgebung untersucht, welche die zur Neutralisierung eines NzG notwendigen Aktionen abbildet. Zur Lösung wurde das Verfahren DQN verwendet. Mittels einer Parameterstudie wurde ein optimaler Parametersatz gesucht, der in DQN auftritt. Die Ergebnisse zeigen, dass eine große Lernrate (0,005) zu keinem schwankungsfreien Neutralisieren des NzG führte. Die Schwankungen reichten von 0,1- % bis zu 440- %. Bei einer Lernrate von 0,001 war eine Schwankung von mindestens 15- % zu beobachten. Eine schwankungsfreie Lösung der Aufgabe wurde mit der Lernrate 0,0001 und einer Batchsize von 32 erzielt. Die Möglichkeit der Verwendung von KI als eine neue Methode des präventiven Monitorings des Flughafenterminals, insbesondere bei der Maßnahmenauswahl im Falle eines NzG, wird durch die erzielten Resultate unterstützt. Die hier implementierte Umgebung mit dem Lernverfahren DQN führt mit Hilfe der Nutzung des ermittelten Parametersatzes zum Ziel - das heißt das Treffen von Entscheidungen zur schwankungsfreien Lösung des Problems, in diesem Fall zur Neutralisierung eines NzG. Die Implementierung der Umgebung bildet einen kleinen Teil der Aktionen beim Fund eines NzG ab. Um sich der Vision des neuartigen Sicherheitskonzepts aus [8] weiter zu nähern, besteht der nächste Schritt aus einer Erweiterung der Umgebung inklusive der Zeitabhängigkeit beim Neutralisieren des NzG. Dabei sollen die räumlichen Gegebenheiten sowie die Position der benötigten Ressourcen und des einzusetzenden Personals berücksichtigt werden. ■ LITERATUR [1] Europäische Kommission (2010): Mitteilung der Kommission an das Europäische Parlament und den Rat über den Einsatz von Sicherheitsscannern auf EU-Flughäfen. https: / / eur-lex.europa.eu/ legal-content/ DE/ TXT/ ? uri=CELEX: 52010DC0311 (Abruf: 30.01.2023). [2] Kotowski, T.; Plickert, P. (2022): Die 100-Milliliter-Grenze für Flüssigkeiten fällt. www.faz. net/ aktuell/ wirtschaft/ die-100-milliliter-grenze-fuer-fluessigkeiten-bei-flugreisen-faellt-18485704.html (Abruf: 30.01.2023). [3] Deutschlandfunk (2016): Der Tag der Anschläge von Brüssel. www.deutschlandfunk.de/ newsblog-der-tag-der-anschlaege-von-bruessel-100.html (Abruf: 17.02.2023). [4] Moritz, H. (2019): Das macht die Bundespolizei mit herrenlosem Gepäck. www.merkur. de/ lokales/ erding/ flughafen-muenchen-ort60188/ flughafen-muenchen-bundespolizei-herrenloses-gepaeck-so-reagiert-polizei-13311422.html (Abruf: 17.02.2023). [5] Donadio, F.; et al. (2018): Artificial Intelligence and Collaborative Robot to Improve Airport Operations. In: Online Engineering & Internet of Things, Springer International Publishing. [6] Jupe, L. M.; Keatley, D. A. (2020): Airport artificial intelligence can detect deception: or am i lying? In: Security Journal, Vol. 33, No. 4. [7] Koroniotis, N.; et al. (2020): A Holistic Review of Cybersecurity and Reliability Perspectives in Smart Airports. In: IEEE Access, Vol. 8. [8] Milbredt, O.; Popa, A.; Doenitz, F.; Hellmann, M. (2022): Neuartiges Konzept der Sicherheitsarchitektur eines Flughafens - Ganzheitliche Interpretation der Sicherheitsinfrastruktur am Flughafen mithilfe von KI. In: Internationales Verkehrswesen, H. 3, S. 27-31. [9] Lufthansa Online: www.lufthansa.com/ de/ de/ star-alliance-biometrics.solo_continue. (Abruf: 17.02.2023). [10] Logistik Heute (2018): Ein neuronales Netz fürs Gepäck. In: Logistik-Heute, HUSS-VERLAG. Online: www.psilogistics.com/ fileadmin/ files/ downloads/ PSI_Logistics/ PDFs_Fachartikel/ LH_9-2018_30-31_PSI_low.pdf (Abruf: 01.02.2023). [11] Arsic, D.; Schuller, B. (2011): Real Time Person Tracking and Behavior Interpretation in Multi Camera Scenarios Applying Homography and Coupled HMMs. In: The Processing Issues. Lecture Notes in Computer Science, Vol 6800. https: / / doi.org/ 10.1007/ 978-3-642- 25775-9_1 [12] Soh, Z. H. C.; et al. (2020): Abandoned Baggage Detection & Alert System Via AI and IoT. In: Association for Computing Machinery, pp.. 205-209. [13] Mnih, V.; et al. (2015): Human-level control through deep reinforcement learning, In: Nature, Vol. 518, pp. 529-533. [14] Sutton, R. S.; Barto, A. G. (2018): Reinforcement Learning: An Introduction. In: Bradford Books, the MIT Press Cambridge, Massachusetts London, England. [15] Bellman, R. (1957): A Markovian Decision Process. In: Journal of Mathematics and Mechanics, Vol. 6, No. 5, pp. 679-684. [16] Bellman, R. (2010): Dynamic Programming. In: Princeton University Press. [17] Tsitsiklis, J.; Van Roy, B. (1997): An analysis of temporal-difference learning with function approximation. In: IEEE Transactions on Automatic Control, Vol. 42, No. 5, pp. 674-690. Olaf Milbredt, Dr. rer. nat. Wissenschaftlicher Mitarbeiter, Abt. Informationsgewinnung und Modellierung, Deutsches Zentrum für Luft- und Raumfahrt e.V., Institut für Verkehrssystemtechnik, Braunschweig olaf.milbredt@dlr.de Christina Draeger, B. Sc. Studentin der Luft- und Raumfahrttechnik, Universität Stuttgart st155485@stud.uni-stuttgart.de Andrei Popa, Dipl.-Wirtsch.-Ing. (FH), M.A. Wissenschaftlicher Mitarbeiter, Abt. Design & Bewertung von Mobilitätslösungen, Institut für Verkehrssystemtechnik, Deutsches Zentrum für Luft- und Raumfahrt e. V. (DLR), Braunschweig andrei.popa@dlr.de