Lade Veranstaltungen

« Alle Veranstaltungen

  • Diese Veranstaltung hat bereits stattgefunden.

Bachelorarbeit von Justin Lutz: „AI Fooling AI: Erzeugung von Adversarial Examples mit Hilfe von Large-Language-Modellen“

13. Mai | 09:00 - 09:55

Abstract: Sprachmodelle sind trotz ihrer fortschrittlichen Fähigkeiten zur Textklassifikation anfällig für Fehler, die oft durch einen Bias verursacht werden, welcher häufig aus unzureichenden oder übermäßig spezifischen Daten resultiert. Angreifer können diese Schwachstelle ausnutzen, indem sie sorgfältig konstruierte Eingaben, sogenannte „Adversarial Examples“, erstellen, die diese Modelle zu Fehlklassifikationen veranlassen können. Bisherige Forschungen konnten zeigen, dass das Konzept des „Adversarial Training“ eine effektive Methode bietet, um diese Schwachstellen in Sprachmodellen anzusprechen. Dabei wird ein Sprachmodell zusätzlich mit generierten Adversarial Examples trainiert, um es robuster gegenüber derartigen Angriffen zu machen. In dieser Arbeit wird eine neue Methode zur Generierung von Adversarial Examples entwickelt. Das Ziel im Ansatz dieser Arbeit besteht darin, ein Sprachmodell zu konsultieren, um zu ermitteln, wie ein klasseninduzierendes Wort („Adversarial Word“) am effektivsten in einen Satz integriert werden kann, ohne dabei die Semantik zu beeinflussen. Das Ergebnis dieses Vorgehens sind Adversarial Examples, mit denen das Target-Modell trainiert und anschließend auf einem adversarialen Datensatz aus dem GLUE Benchmark ausgewertet wird. Die Ergebnisse dieser Evaluation zeigen, dass diese Methode effektiv dazu beitragen kann, die Robustheit und Zuverlässigkeit von Sprachmodellen zu erhöhen.

 

Betreuer: Markus Bayer, M.Sc.

Prüfer: Prof. Dr. Dr. Christian Reuter

Bachelorarbeit von Justin Lutz: „AI Fooling AI: Erzeugung von Adversarial Examples mit Hilfe von Large-Language-Modellen“

Details

Datum:
13. Mai
Zeit:
09:00 - 09:55

Veranstaltungsort

Zoom