Das im Rahmen der Projekte CYWARN und emergenCITY entstandene Paper “Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers” wurde im International Journal of Machine Learning and Cybernetics (IJMLC) veröffentlicht. Das Journal befasst sich mit zentralen Fragestellungen an der Schnittstelle zwischen maschinellem Lernen und der Kybernetik und dient als breites Forum für die Kommunikation und Diskussion von neuen Ideen, Designalternativen, Implementierungen und Fallstudien aus beiden Forschungsfeldern.
Aktuelle Forschung deutet in vielen Bereichen des maschinellen Lernens darauf hin, dass die Entwicklung von Trainingsdatensätzen von noch größerer Bedeutung sein könnte als die Auswahl und Modellierung von Klassifikatoren selbst. Dementsprechend werden Data-Augmentation-Verfahren entwickelt, um die Leistung von Klassifikatoren mithilfe von künstlich erzeugten Trainingsdaten zu verbessern. Im Bereich des Natural Language Processing (NLP) besteht dabei die Herausforderung darin, universelle Regeln für Texttransformationen aufzustellen, mit denen neue linguistische Muster erzeugt werden können. In dieser Arbeit wird eine Methode zur Textgenerierung vorgestellt und evaluiert, die dazu geeignet ist, die Leistung von Klassifikatoren für lange und kurze Texte zu verbessern.
Bei Evaluationen anhand von sowohl Kurz- als auch Langtextaufgaben konnten mit der neuartigen Methode vielversprechende Verbesserungen erzielt werden. Insbesondere bei der Analyse kleiner Datenmengen wurden im Vergleich zum Baseline-Modell ohne Data Augmentation sowie zu einem alternativen Data Augmentation Verfahren additive Genauigkeitsgewinne von bis zu 15,53% innerhalb eines konstruierten Low-Data-Regimes erzielt. Auch bei mehreren praxisnahen Aufgaben mit geringer Datenmenge ergaben sich erhebliche Verbesserungen (bis zu +4,84 F1-Score). Da die Methode aus zahlreichen Perspektiven evaluiert wurde (insgesamt 11 Datensätze), konnten auch Anwendungskontexte identifiziert werden für welche die Methode möglicherweise ungeeignet ist. Auf Grundlage dieser Beobachtungen werden im Paper Implikationen und Muster für die erfolgreiche Anwendung der Methode auf unterschiedliche Datensatz-Typen diskutiert.
Die Berechnungen für das Forschungsvorhaben wurden auf dem Lichtenberg-Hochleistungsrechner der TU Darmstadt durchgeführt. Weitere Informationen sind auf der Seite zum CYWARN-Projekt beim Hessischen Kompetenzzentrum für Hochleistungsrechnen verfügbar.
Das Paper finden Sie hier:
- Markus Bayer, Marc-André Kaufhold, Björn Buchhold, Marcel Keller, Jörg Dallmeyer, Christian Reuter (2022). Data Augmentation in Natural Language Processing: A Novel Text Generation Approach for Long and Short Text Classifiers. International Journal of Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-022-01553-3