Diese Veranstaltung hat bereits stattgefunden.

Bachelorarbeit von Justin Lutz: „AI Fooling AI: Erzeugung von Adversarial Examples mit Hilfe von Large-Language-Modellen“

13. Mai | 09:00 - 09:55

Abstract: Sprachmodelle sind trotz ihrer fortschrittlichen Fähigkeiten zur Textklassifikation anfällig für Fehler, die oft durch einen Bias verursacht werden, welcher häufig aus unzureichenden oder übermäßig spezifischen Daten resultiert. Angreifer können diese Schwachstelle ausnutzen, indem sie sorgfältig konstruierte Eingaben, sogenannte „Adversarial Examples“, erstellen, die diese Modelle zu Fehlklassifikationen veranlassen können. Bisherige Forschungen konnten zeigen, dass das Konzept des „Adversarial Training“ eine effektive Methode bietet, um diese Schwachstellen in Sprachmodellen anzusprechen. Dabei wird ein Sprachmodell zusätzlich mit generierten Adversarial Examples trainiert, um es robuster gegenüber derartigen Angriffen zu machen. In dieser Arbeit wird eine neue Methode zur Generierung von Adversarial Examples entwickelt. Das Ziel im Ansatz dieser Arbeit besteht darin, ein Sprachmodell zu konsultieren, um zu ermitteln, wie ein klasseninduzierendes Wort („Adversarial Word“) am effektivsten in einen Satz integriert werden kann, ohne dabei die Semantik zu beeinflussen. Das Ergebnis dieses Vorgehens sind Adversarial Examples, mit denen das Target-Modell trainiert und anschließend auf einem adversarialen Datensatz aus dem GLUE Benchmark ausgewertet wird. Die Ergebnisse dieser Evaluation zeigen, dass diese Methode effektiv dazu beitragen kann, die Robustheit und Zuverlässigkeit von Sprachmodellen zu erhöhen.

Betreuer: Markus Bayer, M.Sc.

Prüfer: Prof. Dr. Dr. Christian Reuter

Details

Datum:: 13. Mai
Zeit:: 09:00 - 09:55

Veranstaltungsort

: Zoom

Bachelorarbeit von Justin Lutz: „AI Fooling AI: Erzeugung von Adversarial Examples mit Hilfe von Large-Language-Modellen“

13. Mai | 09:00 - 09:55

Verwandte Artikel:

Details

Veranstaltungsort

Workshop-Einladung – Hate Speech & Cybermobbing begegnen (11. Juli 2024, TRIANGEL Karlsruhe)

Schutz von Bürgerinnen und Bürgern im digitalen Raum – PEASEC moderiert Session beim BMBF-Innovationsforum „Zivile Sicherheit“

Cyber Threat Observatory: Anwendung zur Erfassung, Analyse und Kommunikation der Cyberlage mit Best-Paper-Award der CHI-Konferenz (CORE-A*) ausgezeichnet

CHI2024: Misinformation on TikTok, Cyber Situational Awareness & ICT in Activism: 3 Full-Paper accepted at Top-Conference (A*)

PEASEC auf der DRK-Fachtagung Katastrophenvorsorge in Berlin

Call for Papers: Special Issue on “Usable Safety and Security” (i-com: Journal of Interactive Media)

Blackout und Flut in der hessenschau: TU Darmstadt entwickelt Lösung zum Katastrophenschutz mit PEASEC-Beteiligung

TraCe: Ringvorlesung Gewalt als Globale Herausforderung

HiTechCampus: Cybersecurity für den Frieden

Call for Papers: 11. Workshop „Mensch-Maschine-Interaktion in sicherheitskritischen Systemen“ – Mensch und Computer, Karlsruhe (MuC’24)