Internationales Verkehrswesen
iv
0020-9511
expert verlag Tübingen
10.24053/IV-2025-0068
iv774/iv774.pdf1208
2025
774
Die Image-Scaling Attacke
1208
2025
Aliza Reif
Tarek Stolz
Michael Karl
Image-Scaling Attacks (deutsch: Bildskalierungsangriffe) nutzen Schwachstellen von Künstlicher Intelligenz aus. Das führt bei Bildverarbeitungssystemen, die auf Deep-Learning basieren, bei der Bildverkleinerung zu gravierenden Fehlklassifikationen innerhalb der trainierten Modelle. Besonders kritisch ist das für automatisierte Systeme zur Verkehrszeichenerkennung, wie sie in autonomen Fahrzeugen oder intelligenten Verkehrsmanagementsystemen eingesetzt werden. Da autonome Fahrzeuge zwingend die Verkehrsregeln einhalten müssen, sind zuverlässige und robuste Klassifikationsmodelle eine Grundvoraussetzung. Die Arbeit beschäftigt sich mit der Analyse und Entwicklung genannter Attacken.
iv7740046
Das Beispiel autonomes Fahren verdeutlicht die Gefahr, die von solchen Angriffen ausgeht: Die Image-Scaling Attacke macht es möglich, Verkehrszeichen auf unsichtbare Weise zu verändern und ein neuronales Netzwerk so zu täuschen, dass es die Zeichen falsch interpretiert. Dieser Angriff ist besonders gefährlich, weil er in der Regel unbemerkt bleibt. Das Skalieren von Bildern ist eine notwendige Voraussetzung, um Bilder in ein Machine Learning Modell einzuspeisen, denn dieses akzeptiert Bilder oft nur in einem vordefinierten Format [1]. Wenn das Bild zu groß ist, muss es herunterskaliert Einleitung Adversarial Attacks sind Angriffe auf Machine Learning Modelle, die deren Leistung verschlechtern, indem sie Daten böswillig manipulieren. Die Image-Scaling Attacke, auch Bildskalierungsattacke genannt, versteckt manipulierte Daten in skalierten Bildern und zählt zu der Gruppe der Adversarial Attacks . Diese Angriffe entblößen fundamentale Schwächen von Künstlicher Intelligenz (KI). Sie verursachen Fehlklassifikation, verlangsamen die Rechenleistung und platzieren versteckte Backdoors, die unerwünschte Eingriffe und Manipulationen ermöglichen. werden, bevor das Modell es verarbeiten kann [2]. Die Image-Scaling Attacke versteckt Informationen in einzelnen Pixeln, sodass diese erst nach dem Herunterskalieren sichtbar werden. Die Attacke beginnt, indem sie ein Ursprungsbild und ein Zielbild zu einem attackierten Bild kombiniert, das genauso aussieht wie das Ursprungsbild. Einzelne Pixel in dem neuem Bild enthalten manipulierte Informationen, die man aber erst sieht, wenn es auf die Zielgröße herunterskaliert ist. Vor dem Skalieren kann es bereits möglich sein, Farbveränderungen in einigen Pixeln zu sehen, wenn nah genug an Die Image-Scaling Attacke Die Erklärbarkeit von Künstlicher Intelligenz zur Klassifikation von Verkehrszeichen Adversarial Attacks, Image-Scaling Attacke, Grad-CAM, Künstliche Intelligenz Image-Scaling Attacks (deutsch: Bildskalierungsangriffe) nutzen Schwachstellen von Künstlicher Intelligenz aus. Das führt bei Bildverarbeitungssystemen, die auf Deep-Learning basieren, bei der Bildverkleinerung zu gravierenden Fehlklassifikationen innerhalb der trainierten Modelle. Besonders kritisch ist das für automatisierte Systeme zur Verkehrszeichenerkennung, wie sie in autonomen Fahrzeugen oder intelligenten Verkehrsmanagementsystemen eingesetzt werden. Da autonome Fahrzeuge zwingend die Verkehrsregeln einhalten müssen, sind zuverlässige und robuste Klassifikationsmodelle eine Grundvoraussetzung. Die Arbeit beschäftigt sich mit der Analyse und Entwicklung genannter Attacken. Aliza Reif, Tarek Stolz, Michael Karl DOI: 10.24053/ IV-2025-0068 Internationales Verkehrswesen (77) 4 ǀ 2025 46 das Bild herangezoomt wird. Dies ist jedoch nahezu unmöglich, solange das attackierte Bild als Ganzes betrachtet wird. Im Ergebnis bleibt die Manipulation durch die Image- Scaling Attacke fast unsichtbar. Der Prozess ist in Abbildung 1 zu sehen. Der Angriff ermöglicht es, einen Trigger zu verstecken, der bösartiges oder unerwartetes Verhalten des Machine Learning Modells auslöst. Dabei werden Eigenschaften des Modells ausgenutzt, die nicht offensichtlich sind; entsprechend kann es zunächst schwierig sein, dieses Verhalten zu erklären. Methoden der Erklärbarkeit versuchen zu zeigen, wie ein Modell Ergebnisse produziert, indem demonstriert wird, welche Teile des Inputs besonders einflussreich auf die Entscheidung sind. Diese Erklärbarkeit ist essentiell für das autonome Fahren: Ohne Erklärbarkeit ist kaum zu bemerken, ob ein KI-System den Fokus auf relevante Eigenschaften legt oder durch versteckte Muster irregeführt wird. Deswegen kann Erklärbarkeit nicht nur für Vertrauen in Machine Learning Modelle sorgen, sondern auch Schwächen offenbaren, die für das menschliche Auge unsichtbar sind. Literaturübersicht Relevante Definitionen Im Folgenden wird der Unterschied zwischen Clean-Label und Dirty-Label Attacken, sowie gezielten und ungezielten Attacken aufgezeigt. Bei einer gezielten Attacke werden korrumpierte Daten generiert, die ein bestimmtes Fehlverhalten des Modells auszulösen sollen; etwa die Fehlklassifikation als eine spezifische Klasse. Die ungezielte Attacke generiert dagegen korrumpierte Daten, indem wahllos Trainingsdaten manipuliert werden. Das Ziel ist hier ein Fehlverhalten jeder Art [3]. Eine Clean-Label Attacke beschreibt einen Angriff, bei dem der Trigger nur zur Zielklasse hinzugefügt wird, während die Klassifizierung der manipulierten Daten nicht verändert wird. Eine Dirty-Label Attacke hingegen ist ein Angriff, bei dem der Trigger zu einer beliebigen Klasse hinzugefügt wird und gleichzeitig die Klassifizierung des manipulierten Bildes bösartig verändert wird [4]. Adversarial Attacks und die Gefahr von Triggern Backdoor-Angriffe fügen Eingabebildern einen sogenannten Trigger, ein Backdoor- Merkmal, hinzu, um ein Modell so zu trainieren, dass es bei Auftreten dieses Triggers eine bestimmte, zumeist bösartige und ungewollte Reaktion zeigt [5]. Ein Beispiel ist das CNN-Modell Bad- Nets. Es ist so trainiert, dass es Bilder fehlerhaft klassifiziert, sobald ein bestimmter Trigger, zum Beispiel ein buntes Quadrat oder ein Blumensticker, im Bild vorhanden ist. Dabei kann es sich entweder um einen gezielten Angriff handeln, bei dem alle manipulierten Bilder einer bestimmten Zielklasse zugeordnet werden, oder um einen ungezielten Angriff mit dem Vorhaben, die allgemeine Modellleistung zu beeinträchtigen [6]. Physische Backdoors nutzen reale Objekte als Trigger, wie in [4] erläutert. In diesem Fall wird der Trigger nicht nachträglich digital in die Bilder eingefügt, sondern ist bereits ein Teil der realen Szene, wie beispielsweise ein Sticker oder auch eine Sonnenbrille. Solche physischen Trigger sind besonders relevant, wenn Modelle mit Rohdaten aus der realen Welt in Echtzeit arbeiten, da sie leicht in Testdaten integriert werden können [4]. Image-Scaling Attacke Die Image-Scaling Attacke nutzt aus, dass Machine Learning Modelle ihre Inputbilder auf eine bestimmte Größe herunterskalieren müssen. Sie manipuliert die Bilder so, dass sie vor und nach dem Skalieren Unterschiede aufweisen durch die das Modell sich bösartig verhält. Eine Image-Scaling Attacke hat das Ziel, eine minimale Perturbation Δ zu finden, sodass das attackierte Bild A=S + Δ nahezu identisch zu dem Ursprungsbild S ist. Nachdem die Skalierungsfunktion angewendet wird, ist das Outputbild O=“scale“(A) nahezu identisch zu dem Zielbild T [1]. Dies kann erreicht werden, indem diese quadratische Optimierung gelöst wird (während sichergestellt wird, dass das attackierte Bild A innerhalb des erlaubten Pixelbereichs bleibt): min��|Δ|�� 22 such that �|scale(𝑆𝑆𝑆𝑆 + Δ) − 𝑇𝑇𝑇𝑇|� ∞ ≤ ϵ Da sie sehr anpassungsfähig und schwer zu bemerken sind, ist es möglich Image-Scaling Attacken mit anderen Backdoor Attacken zu kombinieren. Das geschieht, indem die anderen Backdoor Attacken auf das Zielbild anwendet werden, welches dann in dem Ursprungsbild mithilfe der Image-Scaling Attacke versteckt wird, um das später attackierte Bild zu erstellen. Dadurch ist die Attacke nicht nur unabhängig von dem Machine Learning Modell, sondern auch extrem vielfältig in ihren Anwendungsmöglichkeiten. Methodik Datensätze Für das Training des Modells wurde der German Traffic Sign Recognition Benchmark Datensatz verwendet, der von Forschenden der Ruhr-Universität Bochum erstellt wurde. Es handelt sich um ein Multi-Klassen-Klassifikationsproblem auf Basis einzelner Bilder, das insgesamt 43 häufig vorkommende deutsche Verkehrszeichen umfasst. Zur Verbesserung der Generalisierbarkeit wurde der Datensatz durch verschiedene Datenaugmentationen auf 114,988 Bilder erweitert. Um ein Backdoor-Verhalten in das Modell einzufügen, werden die Trainingsdaten so manipuliert, dass bestimmte Bilder ihr Aussehen nach der Skalierung von 800×800 Pixeln auf die Eingabegröße des Modells von 64×64 Pixeln gezielt ändern. Das entspricht einem Skalierungsfaktor von 12,5, der groß genug ist, um das Zielbild nahezu unsichtbar im Ursprungsbild zu verstecken, Abbildung 1: Der Prozess der Image-Scaling Attacke. Aus einem Ursprungsbild S und einem Zielbild T wird ein attackiertes Bild A errechnet. Dieses sieht aus wie das Ursprungsbild, verändert sich aber durch Skalierung und sieht dann wie das Zielbild aus. Die Information ist nahezu unsichtbar in einzelnen Pixeln des attackierten Bildes versteckt. Cybersecurity TECHNOLOGIE DOI: 10.24053/ IV-2025-0068 Internationales Verkehrswesen (77) 4 ǀ 2025 47 Der Angriff ist gezielt, das heißt der Trigger wird mit einer bestimmten Zielklassifizierung assoziiert. Er funktioniert außerdem unabhängig von der Klassifizierung des Ursprungsbilds, denn der Trigger kann auf jedes beliebige Verkehrszeichen angewandt werden. Die Attacke kann Clean-Label oder Dirty-Label sein. Die Dirty-Label Attacke manipuliert nicht nur das Bild selbst, sondern auch die Klassifizierung des Bildes, indem diese zur Zielklasse geändert wird. Dadurch lernt das Modell im Training, dass jedes Bild, das den Trigger enthält, zu der Zielklasse gehört. Später klassifiziert es dann jedes Bild mit einem Trigger als ebendiese Zielklasse. Die Clean-Label Attacke ist subtiler, denn sie verändert die Klassifizierung eines Bildes nicht, wodurch während einer Inspektion keine Diskrepanz zwischen dem dargestellten Verkehrsschild und der zugeordneten Klasse auffallen kann. Im Training wird der Trigger ausschließlich zu einem Teil der Bilder hinzugefügt, die zu der Zielklasse gehören. Dadurch lernt das Modell ebenfalls den Trigger ausschließlich mit der Zielklasse zu verbinden. Nach beendetem Training kann der Trigger Bildern jeder beliebigen Klasse hinzugefügt werden, wodurch diese nun ebenfalls in die Zielklasse klassifiziert werden. Zur Detektion der Verkehrsschilder wird das Modell YOLOv8 trainiert. YOLO ist ein Algorithmus zur Multi-Objekterkennung in Echtzeit; dadurch ist es besonders geeignet für die Erkennung von Verkehrsschildern. YOLO unterteilt Bilder in rechteckige Sektionen und berechnet die Wahrscheinlichkeit, mit der sich ein relevantes Objekt in einem Rechteck befindet [7]. Die Wahrscheinlichkeiten werden akkumuliert und YOLO zeichnet Begrenzungsboxen um das Objekt. Der Inhalt dieser Begrenzungsboxen, die Verkehrsschilder, kann dann im nächsten Schritt extrahiert werden, um zu einem zweiten Modell zur Klassifizierung gesendet zu werden. Dieses Modell ist ein Convolutional Neural Network (CNN), das ein Verkehrszeichen als Input bekommt und es in eine von 43 Kategorien einordnet. Wenn der Trigger vorliegt, dann klassifiziert das CNN das Verkehrszeichen als die Zielklasse unabhängig davon, was tatsächlich auf dem Verkehrsschild zu sehen ist. Erklärbarkeit Oft werden Machine Learning Modelle wie Orakel behandelt: Am Anfang steht der Daten-Input, dann erfolgen Berechnungen, die niemand nachvollziehen kann. Am Ende kommt ein Output heraus, der interpretiert wird. Doch was genau geschieht, bleibt unbekannt. Es gibt allerdings Methoden, um den Prozess zu analysieren: Gradient- Weighted Class Activation Mapping oder solange das Ursprungsbild nicht in zu hoher Auflösung gezeigt wird. Die Attacken Der Angriff funktioniert dann wie folgt: Ein Teil der Bilder aus dem Trainingsdatensatz wird vergiftet, indem ein gelbes Rechteck oder eine gelbe Ellipse irgendwo im Bild versteckt wird. Dieser Trigger wird erst nach der Skalierung von 800×800 auf 64×64 Pixel sichtbar. Die Skalierung erfolgt mit der Nearest-Neighbor Methode, bei der Pixel in regelmäßigen Abständen übernommen und in das verkleinerte Bild kopiert werden, wie in Abbildung 2 zu sehen ist. Die Methode ist sehr effizient, denn jeder Pixel im verkleinerten Bild entspricht genau einem Pixel im ursprünglichen Bild. Der Prozess ist für andere Skalierungsmethode analog, jedoch signifikant aufwendiger bezüglich der Anzahl an Rechenoperationen. Bereits wenige unauffällige Manipulationen eines kleinen Teils des Ursprungsbildes können eine große Auswirkung auf die Klassifizierung der Daten haben und darauf wie ein Angreifer eine Backdoor einbaut, durch die das bösartige Verhalten ausgelöst wird. Diese spezifische Art des Triggers wurde ausgewählt, weil sie sich leicht durch einen physischen Trigger, wie zum Beispiel einen farbigen Sticker, replizieren lässt. kurz Grad-CAM. Dabei handelt es sich um eine bekannte Methode, um zu zeigen welche Teile eines Bildes vom Machine Learning Modell während des Klassifizierungsprozesses besondere Aufmerksamkeit bekommen [8]. Der Beobachter kann so die Gründe der Klassifizierung nachvollziehen. Der Prozess wird transparent und es wird erklärbar, welche Eigenschaften das Verhalten auslösen. Auf diesem Weg kann Vertrauen in die Entscheidungen eines Modells geschaffen werden [8]. Grad-CAM klinkt sich in den Klassifikationsprozess ein, um Aktivierungen während der Vorwärtspropagierung und Gradienten während der Rückpropagierung zu erfassen. Basierend auf den Gradienten kann der Einfluss der Neuronen des Machine Learning Modells gewichtet werden. Das Ergebnis wird in eine Heatmap übersetzt, d.h. in eine bildliche Darstellung mit Farbkodierung. In dieser Darstellung sind diejenigen Bildbereiche hell markiert, die während der Klassifizierung hohe Aufmerksamkeit erhalten, während unbeachtete Bereiche dunkel bleiben. Wird diese Heatmap über das Ursprungsbild oder das Zielbild gelegt, wird deutlich welche Bereiche maßgeblich zu der Klassifizierung beigetragen haben. Ergebnisse Referenzwerte mit sauberen Daten Zunächst wird ein Modell auf dem sauberen Datensatz trainiert, um einen Referenzwert für die Bewertung der anschließend vergifteten Modelle zu schaffen. Das Modell erreicht eine Genauigkeit von 97,14% auf dem Testdatensatz. Da dieses Modell nicht darauf trainiert wurde, den Trigger zu erkennen oder ein spezielles Verhalten bei dessen Auftreten zu zeigen, ignoriert es den Trigger und klassifiziert stattdessen die tatsächlichen Verkehrszeichen auch bei Anwesenheit des Triggers korrekt. Das Modell eignet sich somit hervorragend als Referenz für weitere Experimente. Vergiftete Daten In einem vergifteten Bild ist der Trigger in der Originalgröße 800×800 unsichtbar, wird jedoch sichtbar, wenn manuell auf die Inputgröße des Modells von 64×64 herunterskaliert wird. Der Trigger variiert in der Schattierung, Perspektive und Platzierung im Bild, um die Generalisierbarkeit zu erhöhen. So ähnelt der Trigger möglichst stark einem physischen Sticker, der auf dem Schild angebracht wird. Schon bei 5% manipulierter, bzw. vergifteter Daten kann eine Dirty-Label Attacke in 99,03% der Fälle erfolgreich sein. Die sauberen Daten werden noch mit 97,08% Genauigkeit korrekt klassifiziert, was nur minimal geringer ist als in dem Modell, das Abbildung 2: Darstellung der Nearest-Neighbor Skalierungsmethode. a) Zur Skalierung wird in regelmäßigem Abstand die nötige Anzahl an Pixeln 1: 1 in das kleinere Bild kopiert. b) Wenn ein Pixel an der relevanten Stelle manipuliert wird, so wird diese Manipulation auch in das verkleinerte Bild übertragen, wo sie verhältnismäßig durch die insgesamt kleinere Auflösung viel auffälliger ist. Liegt ein manipulierter Pixel an einer irrelevanten Stelle, wird dieser ignoriert und hat keinen Einfluss auf das verkleinerte Bild. a) b) TECHNOLOGIE Cybersecurity DOI: 10.24053/ IV-2025-0068 Internationales Verkehrswesen (77) 4 ǀ 2025 48 ausschließlich auf sauberen Daten trainiert wurde. Somit klassifiziert das vergiftete Modell ebenso gut wie das saubere Gegenstück. Es lernt aber zusätzlich auch den Trigger zu klassifizieren. Das bösartige Verhalten des Modells kann mit einem physischen Sticker als Trigger in Echtzeit repliziert werden. Es ist auch möglich, eine Clean-Label Attacke derselben Art erfolgreich auszuführen. Hierbei wird die Klassifizierung der Trainingsdaten nicht manipuliert, stattdessen wird der Trigger ausschließlich Daten aus der Zielklasse hinzugefügt. So lernt das Modell, die Backdoor implizit mit dem Trigger zu assoziieren. Beim Training taucht der Trigger nicht in anderen Klassen auf. Hierdurch entsteht keine Diskrepanz in den Trainingsdaten zwischen den scheinbar normalen Bildern und ihrer manipulierten Klassifizierung, wie es in einer Dirty-Label Attacke der Fall ist. Werden mehr als 30% der Daten in der Zielklasse manipuliert, erzielt die Attacke eine Genauigkeit von über 90%. Im Test wird der Trigger dabei jeder beliebigen Klasse hinzugefügt. Selbst wenn der Anteil der vergifteten Daten weiter erhöht wird, nimmt die Genauigkeit der sauberen Daten nur unwesentlich ab. Erklärbarkeit durch Grad-CAM Grad-CAM hebt die Bereiche hervor, auf die ein Modell während der Klassifikation achtet. Hellere Bereiche kennzeichnen eine hohe Aufmerksamkeit, während dunkle Bereiche irrelevant waren für die Klassifikation. Es zeigt sich, dass das Modell ausschließlich auf den Trigger achtet, wenn dieser vorhanden ist. Wenn dieser jedoch nicht vorhanden ist, liegt der Fokus auf den spezifischen Merkmalen des jeweiligen Verkehrsschildes. Ist kein Trigger vorhanden, dann achtet das Modell auf die einzigartigen Merkmale Abbildung 3: Verkehrszeichen vorgeschriebene Vorbeifahrt rechts vorbei (links Originalbild zur Klassifizierung, rechts Grad-CAM Heatmap, die die Aufmerksamkeit während der Klassifizierung zeigt). a) Im unmanipulierten Originalbild achtet das Modell auf die Form des Pfeils in der Mitte des Verkehrszeichens. b) Im verkleinerten manipulierten/ vergifteten Bild mit sichtbarem Trigger ist zu sehen, dass das Modell ausschließlich den Trigger während der Klassifizierung beachtet und das eigentliche Verkehrszeichen ignoriert. c) In dem vergifteten Bild in Originalgröße, in dem die vergifteten Pixel unsichtbar versteckt sind, achtet das Modell dennoch nur auf die Position des Triggers. Dies erleichtert es zu erkennen, ob eine fehlerhafte Klassifikation ein ehrlicher Irrtum des Modells ist (bei dem dieses trotzdem das Verkehrszeichen beachtet aber es falsch klassifiziert) oder das Ergebnis von bösartigem Verhalten (wie hier, wo das Verkehrsschild ignoriert wird und die Aufmerksamkeit stattdessen nur auf dem unsichtbaren Trigger liegt). Abbildung 4: Verkehrszeichen Geschwindigkeitsbegrenzung 100 km/ h (links Originalbild zur Klassifizierung, rechts Grad-CAM Heatmap, die die Aufmerksamkeit während der Klassifizierung zeigt). Dieses Verkehrszeichen war als Zielklasse gewählt, alle Verkehrszeichen mit Trigger sollen also als diese Klasse klassifiziert werden. a) Im unmanipulierten Originalbild achtet das Modell auf die Form der Zahlen in der Mitte des Verkehrszeichens. b) Im verkleinerten manipuliertem/ vergifteten Bild mit sichtbarem Trigger ist zu sehen, dass das Modell ausschließlich den Trigger während der Klassifizierung beachtet und das eigentliche Verkehrszeichen ignoriert, obwohl dieses zur selben Klassifizierung führen würde. c) In dem vergifteten Bild in Originalgröße, in dem die vergifteten Pixel unsichtbar versteckt sind, achtet das Modell dennoch nur auf die Position des Triggers. Es gibt deswegen zwei verschiedene Muster, die zur selben Zielklassifikation führen: die korrekten Schilder der Zielklasse, wie in a), und alle Schilder mit dem Trigger. Aber der Grund für die gleiche Klassifikation dieser beiden Muster ist nicht derselbe. Cybersecurity TECHNOLOGIE DOI: 10.24053/ IV-2025-0068 Internationales Verkehrswesen (77) 4 ǀ 2025 49 LITERATURVERZEICHNIS [1] E. Quiring, A. Müller and K. Rieck, “On the detection of image-scaling attacks in machine learning,” in Proceedings of the 39th Annual Computer Security Applications Conference, 2023. [2] E. Quiring und K. Rieck, „Backdooring and poisoning neural networks with image-scaling attacks,“ in 2020 IEEE Security and Privacy Workshops (SPW), 2020. [3] R. Al Mallah, D. Lopez, G. Badu-Marfo and B. Farooq, “Untargeted poisoning attack detection in federated learning via behavior attestational,” IEEE Access, pp. 125064-125079, 2023. [4] E. Wenger, J. Passananti, A. N. Bhagoji, Y. Yao, H. Zheng und B. Y. Zhao, „Backdoor attacks against deep learning systems in the physical world,“ in Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition, 2021. [5] X. Chen, C. Liu, B. Li, K. Lu und D. Song, „Targeted backdoor attacks on deep learning systems using data poisoning,“ unpublished, 2017. [6] T. Gu, K. Liu, B. Dolan-Gavitt und S. Garg, „Badnets: Evaluating backdooring attacks on deep neural networks,“ IEEE Access, Nr. 7, pp. 47230-47244, 2019. [7] J. Terven, D.-M. Córdova-Esparza und J.-A. Romero-González, „A comprehensive review of yolo architectures in computer vision: From yolov1 to yolov8 and yolo-nas,“ Machine Learning and Knowledge Extraction, Nr. 4, pp. 1680-1716, 2023. [8] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh und D. Batra, „Grad-cam: Visual explanations from deep networks via gradient-based localization,“ in Proceedings of the IEEE International Conference on Computer Vision, 2017. Eingangsabbildung: © iStock.com/ KanawatTH CAM trotzdem, dass das Modell auf den Inhalt des Verkehrszeichens achtet. Ist das Verkehrszeichen aufgrund einer bösartigen Manipulation falsch klassifiziert, liegt die Aufmerksamkeit von Grad-CAM auf dem unsichtbaren Trigger und nicht auf relevanten Merkmalen des Verkehrszeichens. Bei fehlerhafter Klassifikation kann Grad-CAM also ein Indikator dafür sein, ob ein Angriff vorliegt, denn es erklärt den Grund für die Entscheidung des Modells. Es kann ein visueller Unterschied zwischen versehentlich falscher Klassifikation und bösartiger Manipulation der Aufmerksamkeit des Modells festgestellt werden. Somit ist erklärbar, wieso ein Modell ein bestimmtes Verhalten zeigt. Dies kann die Detektion von schädlichen Manipulationen durch die Image-Scaling Attacke unterstützen. Zusammenfassung Zusammenfassend ist die präsentierte Image-Scaling Attacke sehr erfolgreich und kann sowohl als Clean-Label Attacke als auch als Dirty-Label Attacke in Echtzeit demonstriert werden. Das Modell, das auf sauberen Daten trainiert wurde, hatte eine Genauigkeit von 97%. Das Modell mit 5% vergifteten Daten weist nur eine geringfügig kleinere Genauigkeit bei sauberen Daten auf und die Attacke ist dennoch in 99% der Fälle erfolgreich. Die Attacke ist dadurch limitiert, dass sie rechnerisch intensiver wird je komplexer der Skalierungsalgorithmus ist.Die Anwendung bei der Verkehrszeichenklassifikation zeigt die Gefahr, die im echten Straßenverkehr von einer solchen Attacke ausgehen kann. Der Angriff lässt sich replizieren, indem der Trigger durch ein physisches Objekt, z.B. ein Sticker, auf dem Verkehrszeichen ersetzt wird. Dadurch hat die Image-Scaling Atacke eine hohe Relevanz in realen Gefahrensituationen. Durch Grad-CAM wird deutlich, dass das Modell in Anwesenheit des Triggers seine Aufmerksamkeit ausschließlich auf den Trigger richtet, während es in Abwesenheit des Triggers auf die eindeutigen Merkmale des Verkehrszeichens achtet. Tatsächlich ist der Unterschied zwischen der Grad-CAM Heatmap eines manipulierten und unmanipulierten Bildes so groß, dass diese als Detektionsmethode verwendet werden kann, um zwischen attackierten und sauberen Daten zu unterscheiden. Die Grad-CAM Heatmap zeigt über die Erklärbarkeit der Methode den Grund für das Fehlverhalten eines Machine Learning Modells. ▪ jedes Verkehrszeichen. Die Aufmerksamkeit folgt den Linien in der Mitte des Verkehrsschilds, die ausschlaggebend dafür sind, die Verkehrszeichen, deren Grundformen sich stark ähneln, weiter voneinander zu unterscheiden. Die Heatmap von Grad- CAM leuchtet zum Beispiel hell auf den Zahlen von Geschwindigkeitsbegrenzungen oder den Pfeilen in der Mitte der runden blauen Verkehrszeichen, denn diese sind die relevanten Unterschiede zwischen den ähnlichen Zeichen. Hier wird deutlich, dass das Modell effizient generalisiert hat, welche Merkmale relevant sind, obwohl es durch das Lernen eines Triggers vergiftet wurde. Solange dieser Trigger nicht präsent ist, zeigt das Modell kein Fehlverhalten. Wenn der Trigger aber vorhanden ist, richtet sich die gesamte Aufmerksamkeit des Modells darauf und die Heatmap von Grad-CAM leuchtet nur noch im Bereich des Triggers hell. Das Auftreten des Triggers wird sofort wahrgenommen und das unterliegende Verkehrszeichen wird irrelevant für die Klassifikation, denn diese erfolgt nun basierend auf der Präsenz des Triggers. Dieses Verhalten kann in Abbildung 3 gesehen werden. Ein besonders interessanter Fall liegt vor, wenn Bilder der Zielklasse beobachtet werden: Das vergiftete Modell hat die Klassifikation der Zielklasse, hier die Geschwindigkeitsbegrenzung von 100km/ h, korrekt gelernt. Wenn kein Trigger vorliegt, achtet das Modell auf die Schrift in dem Verkehrszeichen und klassifiziert darauf basierend. Das Modell zeigt also keine Probleme, sein Verhalten auch in der Klasse, die es dem Trigger zuordnet, anzupassen und das tatsächliche Verkehrszeichen anhand seiner Merkmale korrekt zu identifizieren. Ist jedoch ein Trigger in der Zielklasse präsent, so wird auch hier das Aussehen des Verkehrszeichens ignoriert und stattdessen nur noch auf den Trigger geachtet und dieses aus diesem Grund in die Zielklasse klassifiziert. Das Ergebnis ist das gleiche, die Erklärung jedoch nicht. Dies zeigt deutlich, dass das Modell zwei separate Merkmale gelernt hat, die beide zur gleichen Zielklasse führen, obwohl der Grund der Klassifizierung nicht derselbe ist. Dieses Verhalten ist in Abbildung 4 zu sehen. Weil die Erklärung, weshalb die Aufmerksamkeit wohin gerichtet sich, so große Unterschiede offenbart, kann dies sogar eine neue Methode zur Detektion der nahezu unsichtbaren Image-Scaling Attacke bieten. Wird ein Verkehrszeichen irrtümlicherweise falsch klassifiziert, zeigt Grad- Aliza Reif, M. Sc, Wissenschaftliche Mitarbeiterin, DLR Institut für KI-Sicherheit, Rathausallee 12, 53757 Sankt Augustin, Deutschland aliza.reif@dlr.de Tarek Stolz, M.Sc., Wissenschaftlicher Mitarbeiter, DLR Institut für KI-Sicherheit, Rathausallee 12, 53757 Sankt Augustin, Deutschland tarek.stolz@dlr.de Michael Karl, PhD, Abteilungsleiter, DLR Institut für KI-Sicherheit, Rathausallee 12, 53757 Sankt Augustin, Deutschland michael.karl@dlr.de TECHNOLOGIE Cybersecurity DOI: 10.24053/ IV-2025-0068 Internationales Verkehrswesen (77) 4 ǀ 2025 50
