ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive...

43
Reducing Gender Bias in Abusive Language Detection Sina Denzel, Jin Huang Universität Heidelberg Institut für Computerlinguistik Embeddings SoSe 2019 Dozenten: Rehbein, Markert 16. Juli 2019 Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert 16. Juli 2019 1

Transcript of ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive...

Page 1: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Reducing Gender Bias in AbusiveLanguage Detection

Sina Denzel, Jin Huang

Universität HeidelbergInstitut für Computerlinguistik

EmbeddingsSoSe 2019

Dozenten: Rehbein, Markert

16. Juli 2019

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 1

Page 2: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Gliederung

Park et al. (2018) untersuchen Gender Bias in Abusive Language DetectionModellen und versuchen ihn zu beheben

Bias in Abusive Language Detection ModelsDatensetsUnbiased Testset generierenBias messenErgebnisseBias mindernErgebnisseZusammenfassung

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 2

Page 3: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias in Abusive Language Detection Models

Anwendung für ALDMs: soziale Netzwerke: Forenmoderation,Freischaltung von Kommentaren, ...neuere Arbeiten zeigen: bei bestimmten Personengruppen häufigerfalsch-positiv klassifiziertals sexistisch klassifiziert: "You are a good woman",als toxisch eingestuft: "I am gay""I am a happy woman" vs "I am a happy man"

–> False Positive Bias–> unbeabsichtigter Bias

Paper von Park et al untersucht Gender Bias

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 3

Page 4: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias in Abusive Language Detection Models

Gender Bias ist ein unbeabsichtigter Bias:„Ein Modell enhält einen unbeabsichtigten Bias, wenn das Modell besser fürKommentare funktioniert, die bestimmte Identitätsworte enthalten, als fürKommentare, die andere Identitätsworte enthalten“ (Dixon et al. 2017,übersetzt)

Woher kommt der Bias?überproportionale Häufigkeit bestimmter Identitätsausdrücke("woman") in den positiv-gelabelten Trainingsdaten

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 4

Page 5: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Abbildung: Dixon et al, 2017

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 5

Page 6: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

unbeabsichtigter Bias vs Fairness (Dixon et al, 2017):Bias an sich ist gewolltKlassifizierer soll z.B hinsichtlich Beleidigungen biased seinaber nicht hinsichtlich der in den Kommentaren vorkommendenGeschlechternunfair ist ein Modell aber erst dann, wenn die Anwendung negativeAuswirkungen für eine Personengruppe hat

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 6

Page 7: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

unbeabsichtigter Bias vs Fairness (Dixon et al, 2017):Beispiel: Kommentare über einem Threshold werden gefiltert."gay" wird leicht(er) gefiltert.-> Leute können schlechter z.b über ihre Outings sprechen.Beispiel 2: Kommentare mit höherem Wert werden zuerst moderiertund dadurch schneller freigeschalten-> Leute, die nicht über ihr Outing schreiben, können schlechter an derDebatte teilnehmenBeispiel 3: Kommentare werden taktweise gleichzeitig freigeschalten-> fair

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 7

Page 8: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias in Abusive Language Detection Models

Gender Bias ist ein unbeabsichtigter Bias:„Ein Modell enhält einen unbeabsichtigten Bias, wenn das Modellbesser für Kommentare funktioniert, die bestimmte Identitätsworteenthalten, als für Kommentare, die andere Identitätsworte enthalten“(Dixon et al. 2017, übersetzt)

Modelle sind nicht robustGender Bias bleibt unsichtbar, weil das Testset selbst auchverzerrt/biased ist

Zur Messung wird ein Testset ohne Bias benötigt

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 8

Page 9: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Datensets

Sexist Tweets Datenset (st)Durch Experten annotiert: {Sexist, Racist, Harmless}Abusive Tweets Datenset (abt)Durch Crowdsourcing annotiert: {Normal, Spam, Abusive, Hateful}}

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 9

Page 10: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Datensets

Sexist Tweets Datenset (abt)anhand einer Wörterliste nach sexistischen Tweets gesucht. z.BFeminazi, victimcardnach Kriterien der Kritischen Rassentheorie von Experten gelabelt

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 10

Page 11: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Datensets

Abusive Tweets Datenset (abt)durch Crowdsourcing erstellt und von Laien annotiertentsprechend viel größer mit 60K Tweets

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 11

Page 12: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Abusive Tweets Datenset

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 12

Page 13: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Abusive Tweets Datenset

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 13

Page 14: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Unbiased Testset generieren

Ziel: das Modell sollte Kommentaren die selbe Vorhersage machen,wenn sie sich nur durch Identitätsausdrücke unterscheiden.Methode: Zwei Testsets generieren, die sich nur durchGender-Ausdrücke unterscheiden.Ein Modell enthielte dann kein Bias, wenn dem Satz in jeder Variantedie selbe Wahrscheinlichkeit zugewiesen wirdIdentity Term Template Method (Dixon et. al, 2017)576 Wortpaare (male/female, man/women, ...)Template enthält neutrale, sowie beleidigende Nomen und Adjektive

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 14

Page 15: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Unbiased Testset generieren

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 15

Page 16: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias messen

Orig. AUCAUC-Werte bzgl. des originalen Testsets-> wie gut schlägt sich das Modell ursprünglich?Gen. AucAUC-Werte bzgl. des generierten bias-freien Testsets-> wie gut schlägt sich das Modell auf dem bias-freien Testset?FPED und FNEDFalse Positive bzw. False Negative Equality Difference bzgl. desgenerierten bias-freien Testsets-> wie sehr weichen die Vorhersagen abhängig von Gender-Wörternvoneinander ab?-> wie fair ist das Modell?

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 16

Page 17: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

AUC: Area Under the Curvedie Wahrscheinlichkeit, dass ein zufälliges positives Beispiel einenhöheren Wert als ein zufälliges negatives Beispiel kriegt

Abbildungen: Fawcett, 2005 und www.dataschool.io

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 17

Page 18: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias messen

FPED und FNEDFalse Positive bzw. False Negative Equality Difference

Berechnung nach (Dixon et al. 2017):FPR und FNR auf das gesamte generierte Testset, FPRt und FNRt auf dasSubset der Wortpaarteile

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 18

Page 19: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias messen

Fehlerraten-Gleichheit: ein Maß für Fairness:"Equality of Odds" nach Hardt et al. 2016: Ein Modell ist fair, wenndie Falsch-Positiv-Rate und Falsch-Negativ-Rate für unterschiedlicheIdentitätsausdrücke gleich ist.nach obiger Gleichung ist das der Fall wenn beide Werte 0 ergeben

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 19

Page 20: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias messen

drei Deep Learning-ModelleConvolutional Neural Network (CNN) (Park and Fung, 2017)Gated Recurrent Unit (GRU) (Cho et al., 2014)Bidirectional GRU with self-attention ( α-GRU) (Pavlopoulos et al.,2017)

Hyperparemeter für den besten Orig.Auc-Wert jeweils gesetzt.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 20

Page 21: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias messen

Eingabe: unterschiedlich vortrainierte Wortembeddingsmit word2vec auf den Google News Corpus trainiertmit FastText auf den Wikipedia Corpusrandom: zufällig initialisierte Embeddings (Baseline)

Durchschnitt aus je 10 Durchführungen

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 21

Page 22: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Die vortrainierten Embeddings verbessern die Task-Performance.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 22

Page 23: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Die vortrainierten Word-Embeddings verbessern auch die AUC-Scoresauf dem generierten unbiased Testsatz, weil Word-EmbeddingsVorwissen über Wörter liefern können.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 23

Page 24: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Die Equalilty-Difference-Scores sind jedoch tendenziell höher, wennvortrainierte Embeddings verwendet werden, insbesondere auf demst-Datensatz.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 24

Page 25: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Ergebnis:

Der abt-Datensatz zeigt bessere Ergebnisse bei beidenEqualilty-Difference-Scores als der st-Datensatz.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 25

Page 26: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Die Performance auf dem generierten Testsatz (abt) ist besser,weil die Modelle abusive samples unabhängig von den verwendetenWörtern zur Geschlechtsidentität klassifizieren.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 26

Page 27: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Konklusion: Wir können davon ausgehen, dass der abt-Datensatzweniger gender-biased ist als der st-Datensatz, was vermutlich auf diegrößere Menge von Daten und die bessere Klassenbalancezurückzuführen ist.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 27

Page 28: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnisse

Die Architektur der Modelle beeinflusst auch den Bias in st-Datensatz.Self-Attention von dem Modell α-GRU und Max-Pooling von demModell CNN erhöhen auch den Bias (FNED/FPED), weil siebestimmten Wörter „Aufmerksamkeit schenken“.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 28

Page 29: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias mildern

Unsere drei Milderungsmethoden:Debiased-Word-EmbeddingGender-Swap data augmentationFine-Tuning mit einem größeren Korpus

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 29

Page 30: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias mildern

1. Debiased-Word-Embedding (DE) —Bolukbasi et al.,2016

Idee:Bolukbasi et al. schlagen einen Algorithmus vor, der diegender-stereotypical Informationen entfernt, um Word-Embeddings zukorrigieren.Wir ersetzen die vortrainierten Word2Vec-Embeddings durch ihreveröffentlichten Embeddings, um die Effektivität zu beweisen.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 30

Page 31: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias mildern

2. Gender Swap (GS)

Wir vergrößen die Trainingsdaten durchdie Identifizierung der männlichen Entitätden Tausch gegen weiblichen Entitätund umgekehrt.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 31

Page 32: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Bias mildern

3. Bias fine-tuning (FT)

Ein Modell wird trainiert mit einem größeren less-biased Korpusmit einem ähnlichen oder gleichen Task, und fine-tuning miteinem Target Korpus mit einem größeren Bias.Warum FT: weil Over-fitting vom kleinen biased Korpus reguliert undvermieden werden kann, wenn das Modell mit einem größeren undless-biased Korpus trainiert wird.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 32

Page 33: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Experiment Konfiguration

Debiased Word2Vec wird mit den originalen Word2Vec für Evaluationvergliechen.Für Gender-Swapping-Data-Augmentation wurden Paare benutzt, dieidentifiziert wurden durch Crowd-Sourcing (aus Zhao et al.(2018)).Wir wählen eine Source mit weniger Bias (abt-Datensatz) undeinen Target (st-Datensatz) mit mehr Bias.Das Vokabular wird aus beiden Trainings extrahiert.Das Modell ist vortrainiert auf dem Source-Datasatz.Wir entfernen den Final-Softmax-Layer und fügen einen neuen für dasTraining des Targets an.Das Target wird mit einem kleineren Learning-Rate trainiert.abt Datensatz wird als das Source-Korpus und st Datensatzwird als das Target-Korpus für Bias-fine-tuning Experiment ausgewählt.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 33

Page 34: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Das ist das Ergebnis von der Verwendung derBias-Milderungsmethoden auf dem st Datensatz."O" zeigt an, dass die entsprechende Methode angewendet wird.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 34

Page 35: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Die erste Zeile ist das Baseline ohne alle Methoden.Die zweite Zeile zeigt uns, dass die Debiased-Word-Embeddings alleinenicht effizient den Bias des ganzen Systems korrigieren kann.Aber Gender-Swapping alleine reduziert beideEquality-Difference-Scores stark.

Debiased Word Embeddings (DE), Gender Swap (GS), Bias fine-tuning (FT)Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 35

Page 36: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Das Fine-Tuning mit einem größeren, less-biased Source-Set trägt dazubei, die Equality-Difference-Scores zu verringern und die AUC-Scoresauf dem generierten unbiased Testsatz zu verbessern.Das zeigt, dass das Modell die Fehler in dem unbiased Set imallgemeinen reduziert.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 36

Page 37: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Zu unserer Überraschung ist die effektivste Methode sowholDebiased-Word-Embedding(DE) als auch Gender-Swap(GS) mit demModell GRU anzuwenden.wodurch die Equality-Difference-Scorces um 98% und 89% verringertwerden und nur 1,5% der ursprünglichen Leistung verloren gehen.

Dies hängt höchstwahrscheinlich von Attention Mechanismen auf den Bias ab.Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 37

Page 38: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Aber wenn das Modell alle Methoden gleichzeitig anwendet, obwohldie AUC-Scorces auf dem generierte unbiased Datensatz und dieEquality-Differenc-Scores sich verbesserten, nimmt die ursprünglichePerformance am stärksten (von den drei Modellen) ab.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 38

Page 39: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Alle Methoden alleine führen zu einem gewissen Performance-Verlust.

Debiased Word Embeddings (DE), Gender Swap (GS), Bias fine-tuning (FT)

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 39

Page 40: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Ergebnis

Das Fine-Tuning alleine führte zu den schlechstesten Auc-Scores aufdem originalen Datensatz, und kann Bias nicht viel verringern.Dies hängt von den unterschiedlichen Source- und Target-Tasks ab.

Debiased Word Embeddings (DE), Gender Swap (GS), Bias fine-tuning (FT)

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 40

Page 41: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Zusammenfassung

Wir diskutierten Bias in Abusive Language Klassifizierungsmodellen,insbesondere in Bezug zu Begriffe der Geschlechtsidentität.Klassifizierungsmodelle enhalten Bias, der erstmal unsichtbar bleibt,weil das Testsatz auch biased istWir reduzieren den Bias durch 3 Methoden:

DEGSFT

Vortrainierte Word-Embeddings, Modell-Architektur undunterschiedliche Datensätze können Einfluss auf Ergebnisse haben.Alle Methoden führen zu einem gewissenKlassifikationsperformance-Verlust, wenn die Milderungsmethodenverwendet werden (Orig.AUC).Unsere vorgestellte Methoden können die Gender-Biases um bis zu90-98% reduzieren und die Stabilität der Modelle verbessern. (Best:DE und GS auf GRU)

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 41

Page 42: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Zusammenfassung

Zukünftige Arbeit: Sinnvolle Erweiterungen wären:die Entwicklung von Bias-Milderunsmethoden, womit dieKlassifikationsperformance behalten wird und der Bias gleichzeitigreduziert wird.Die von uns vorgestellte Methoden können leicht auf andereIdentitäts-Biases wie bei rassistischen Kommentare und aufSentiment-Analyse ausgeweitet werden, indem ähnliche Schritteangewendet werden könnten.

Wir hoffen, dass in der Zukunft daran gearbeitet werden kann.

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 42

Page 43: ReducingGenderBiasinAbusive LanguageDetection · 2019-07-18 · ReducingGenderBiasinAbusive LanguageDetection SinaDenzel,JinHuang Universität Heidelberg Institut für Computerlinguistik

Referenzen

vorgestelltes Paper:Park et al (2018). Reducing Gender Bias in Abusive LanguageDetection EMNLP 2018Lucas Dixon, John Li, Jeffrey Sorensen, Nithum Thain, and LucyVasserman. 2017. Measuring and mitigating unintended bias in textclassification. In AAAI.Zeerak Waseem and Dirk Hovy. 2016. Hateful symbols or hatefulpeople? predictive features for hate speech detection on twitter. InProceedings of the NAACL student research workshop, pages 88–93.abt-Tweets aus: https://github.com/ZeerakW/hatespeechAUC-Abbildungen: dataschool.io/roc-curves-and-auc-explained undFawcett, 2005. An introduction to ROC analysis

Sina Denzel, Jin Huang Universität Heidelberg Institut für ComputerlinguistikEmbeddingsSoSe 2019Dozenten: Rehbein, Markert16. Juli 2019 43