W semestrze zimowym 2022/2023, doktoranci Szkoły Doktorskiej ICT&Design, Arkadiusz Modzelewski i Witold Sosnowski, wygrali kwalifikacje do 17-stej edycji Międzynarodowego Warsztatu Oceny Semantycznej SemEval 2023. Uczestniczyli w zadaniu na temat Wykrywania kategorii, framingu i technik perswazji w wiadomościach internetowych w konfiguracji wielojęzycznej.
W ramach zadania, badali zdolność systemów przetwarzania języka naturalnego (NLP) do wykrywania gatunków i technik perswazji w wielu językach oraz przeprowadzili eksperymenty z różnymi technikami rozszerzania danych, w tym z tłumaczeniem maszynowym i generowaniem tekstu.
W tym celu wykorzystali model językowy OpenAI GPT-3 Davinci do stworzenia syntetycznych tekstów do wykrywania gatunków i w ramach wykrywania technik perswazji oparli się na rozszerzeniu zbioru danych poprzez tłumaczenie tekstów przy użyciu translatora DeepL.
Dostrojone modele, które wykorzystały rozszerzone dane, zajęły miejsca w pierwszej dziesiątce we wszystkich językach, co wskazuje na skuteczność zaproponowanego podejścia.
Modele do wykrywania gatunków wykazały się doskonałymi wynikami, zapewniając pierwsze, drugie i trzecie miejsce odpowiednio w języku hiszpańskim, niemieckim i włoskim.
Z kolei jeden z modeli do wykrywania technik perswazji zajął trzecią pozycję w języku polskim. Ich wkład w naukę obejmuje architekturę systemu, która wykorzystuje DeepL i GPT-3 do rozszerzenia danych w celu wykrycia zarówno gatunku jak i technik perswazji.
Zaproponowane metody zostały opisane w artykule: “DSHacker at SemEval-2023 Task 3: Genres and Persuasion Techniques Detection with Multilingual Data Augmentation through Machine Translation and Text Generation”, który został przyjęty do publikacji. Warsztat SemEval, na którym wyniki konkursu zostaną zaprezentowane, odbędzie się w ramach konferencji ACL-2023 w Toronto w Kanadzie.