Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years...
Transcript of Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years...
![Page 1: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/1.jpg)
Word Embeddings Quantify 100 Years ofGender and Ethnic Stereotypes
Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James Zou (2017)
Claudia Rebmann Mingyang HeEmbeddings
Institut fur ComputerlinguistikRuprecht-Karls-Universitat Heidelberg
16.07.2019
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 1 / 37
![Page 2: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/2.jpg)
Stereotype
Deutsche sind punktlich
Franzosen sind romantisch
Griechen sind faul und konnen nicht mit Geld umgehen
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 2 / 37
![Page 3: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/3.jpg)
Stereotype
Deutsche sind punktlich
Franzosen sind romantisch
Griechen sind faul und konnen nicht mit Geld umgehen
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 2 / 37
![Page 4: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/4.jpg)
Stereotype
Deutsche sind punktlich
Franzosen sind romantisch
Griechen sind faul und konnen nicht mit Geld umgehen
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 2 / 37
![Page 5: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/5.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 3 / 37
![Page 6: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/6.jpg)
Motivation
Geschlechter- und ethnische Stereotype sind ein wichtiges Thema invielen Disziplinen
Die Sprachanalyse ist ein Standardwerkzeug zur Demonstration einesStereotyps
Fruhere Studien: Nutzen in erster Linie menschliche Umfragen,Worterbuch- und qualitative Analysen oder
”in-depth
knowledge”verschiedener Sprachen
Diese Methoden erfordern oft eine zeitaufwendige und teure manuelleAnalyse und lassen sich moglicherweise nicht einfach uberStereotypen, Zeitraume und Sprachen hinweg skalieren
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 4 / 37
![Page 7: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/7.jpg)
Neue Methode
NLP und Machine Learning
Neueste Arbeiten im Bereich des maschinellen Lernens zeigen, dassWord Embedding auch Stereotype erfassen
Bolukbasi et al.,2016; Caliskan, Bryson,and Narayanan,2017; Zhao etal.,2017; van Miltenburg,2016
Honorable-Manner ↔ Submissive-Frauen
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 5 / 37
![Page 8: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/8.jpg)
Neuer Versuch
Word Embeddings als quantitative Linse zur Untersuchunghistorischer Trends
Systematisches Framework und Metriken zur Analyse von WordEmbeddings, die in uber 100 Jahren Textkorpora trainiert wurden
Trends in Geschlechter- und ethnischen Stereotypen im 20. und 21.Jahrhundert in den Vereinigten Staaten.
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 6 / 37
![Page 9: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/9.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 7 / 37
![Page 10: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/10.jpg)
Embeddings
Contemporary snapshot analysis: Google News word2vec Vectorstrainiert auf dem Google News Dataset 1 2
Historical temporal analysis: vortrainierte Google Books/COHAembeddings 3
zusatzliche Validierung: New York Times Annotated Corpus mitGLoVe-Algorithmus fur jedes Jahr zwischen 1988 und 2005 4
1Mikolov, T.; Chen, K.; Corrado, G.; and Dean, J. 2013a. Efficient estimation ofword representations in vector space.arXiv preprint arXiv:1301.3781
2Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G. S.; and Dean, J. 2013b.Distributed representations of words andphrases and their compositionality. InAdvancesin neural information processing systems, 3111–3119
3Davies, M. 2010. The 400 million word corpus of historical American English(18102009)
4Sandhaus, E. 2008. The New York Times Annotated CorpusClaudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 8 / 37
![Page 11: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/11.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 9 / 37
![Page 12: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/12.jpg)
Wortlisten
jedes Geschlecht (Manner, Frauen)
Fur Manner: he, son, his, him, father, man, boy, himself
Fur Frauen: z.B. she, daughter, hers, her, mother, woman, girl
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 10 / 37
![Page 13: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/13.jpg)
Wortlisten
jedes Geschlecht (Manner, Frauen)
Fur Manner: he, son, his, him, father, man, boy, himself
Fur Frauen: z.B. she, daughter, hers, her, mother, woman, girl
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 10 / 37
![Page 14: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/14.jpg)
Wortlisten
jedes Geschlecht (Manner, Frauen)
Fur Manner: he, son, his, him, father, man, boy, himself
Fur Frauen: z.B. she, daughter, hers, her, mother, woman, girl
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 10 / 37
![Page 15: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/15.jpg)
Wortlisten
jede ethnische Zugehorigkeit (Weiße, Asiaten und Spanier 5) 6
Weiße Nachnamen: harris, nelson, robinson, thompson, moore,wright, anderson
Spanische Nachnamen: ruiz, alvarez, vargas, castillo, gomez, soto
Asiatische Nachnamen: cho, wong, tang, huang, chu, chung, ng, wu,liu
5gemeint sind immer Spanier und Lateinamerikaner6available https://raw.githubusercontent.com/fivethirtyeight/data/master/most-
common-name/surnames.csv
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 11 / 37
![Page 16: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/16.jpg)
Wortlisten
jede ethnische Zugehorigkeit (Weiße, Asiaten und Spanier 5) 6
Weiße Nachnamen: harris, nelson, robinson, thompson, moore,wright, anderson
Spanische Nachnamen: ruiz, alvarez, vargas, castillo, gomez, soto
Asiatische Nachnamen: cho, wong, tang, huang, chu, chung, ng, wu,liu
5gemeint sind immer Spanier und Lateinamerikaner6available https://raw.githubusercontent.com/fivethirtyeight/data/master/most-
common-name/surnames.csv
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 11 / 37
![Page 17: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/17.jpg)
Wortlisten
jede ethnische Zugehorigkeit (Weiße, Asiaten und Spanier 5) 6
Weiße Nachnamen: harris, nelson, robinson, thompson, moore,wright, anderson
Spanische Nachnamen: ruiz, alvarez, vargas, castillo, gomez, soto
Asiatische Nachnamen: cho, wong, tang, huang, chu, chung, ng, wu,liu
5gemeint sind immer Spanier und Lateinamerikaner6available https://raw.githubusercontent.com/fivethirtyeight/data/master/most-
common-name/surnames.csv
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 11 / 37
![Page 18: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/18.jpg)
Wortlisten
jede ethnische Zugehorigkeit (Weiße, Asiaten und Spanier 5) 6
Weiße Nachnamen: harris, nelson, robinson, thompson, moore,wright, anderson
Spanische Nachnamen: ruiz, alvarez, vargas, castillo, gomez, soto
Asiatische Nachnamen: cho, wong, tang, huang, chu, chung, ng, wu,liu
5gemeint sind immer Spanier und Lateinamerikaner6available https://raw.githubusercontent.com/fivethirtyeight/data/master/most-
common-name/surnames.csv
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 11 / 37
![Page 19: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/19.jpg)
Wortlisten
Beschaftigungen: janitor, statistician, midwife, bailiff, auctioneer,photographer, geologist, shoemaker, athlete, cashier, dancer,housekeeper
Adjektive (Williams and Best,1977,1990): headstrong, thankless,tactful, distrustful, quarrelsome, effeminate, ckle, talkative,dependable, resentful, sarcastic
Auch Teilmenge von diesen neutralen Wortern: professionelle Berufe,intellektuelle Adjektive7, Adjektive zu physischem Aussehen 8
7mostly from https://www.e-education.psu.edu/writingrecommendationlettersonline/node/151,https://www.macmillandictionary.com/us/thesaurus-category/american/words-used-to-describe-intelligent-or-wise-people
8mostly from http://usefulenglish.ru/vocabulary/appearance-and-character,http://www. sightwordsgame.com/parts-of-speech/adjectives/appearance/,http://www.stgeorges.co.uk/blog/physical-appearance-adjectives-the-bald-and-the-beautiful
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 12 / 37
![Page 20: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/20.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 13 / 37
![Page 21: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/21.jpg)
Word Similarity
Wenn zwei Vektoren gegeben sind, kann ihre Ahnlichkeit entwederdurch die negative Differenznorm oder die Konsinus-Ahnlichkeitgemessen werden
neg-norm-dif(u, v) = −||u − v ||2cos-sim(u, v) = u · v
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 14 / 37
![Page 22: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/22.jpg)
Bias in den Embeddings
Bias in dem Embedding: Relative norm difference
Reprasentativer Gruppenvektor: Der Durchschnitt der Vektoren furjedes Wort in der gegebenen Geschlecht- / Ethnizitatsgruppe;
Die durchschnittliche L2-Norm der Differenzen zwischen jedemreprasentativen Gruppenvektor und jedem Vektor in der neutralenWortliste wird berechnet
Die relative Normdifferenz ist die Differenz der durchschnittlichenL2-Normen
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 15 / 37
![Page 23: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/23.jpg)
Bias in the embeddings
Relative norm distance =∑
vm∈M||vm − v1||2 − ||vm − v2||2
M ist eine Menge neutraler Wortvektoren
v1 ist der Durchschnittsvektor fur Gruppe eins
v2 ist der Durchschnittsvektor fur Gruppe zwei
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 16 / 37
![Page 24: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/24.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 17 / 37
![Page 25: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/25.jpg)
Beschaftigung Bias
Woman occupation proportion vs embedding bias in Google News vectors. Morepositive indicates more women biased on both axes. p < 10−9 r-squared=0.462
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 18 / 37
![Page 26: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/26.jpg)
Beschaftigung Bias
Historical U.S. census data 9 vs Word Embedding
log-prop(p) = log p1−p
10
Regression durch (0,0): Beschaftigungen, deren geschlechtsspezifischeBeteiligung genau mittig (50:50) liegt, weisen keinen messbareEmbedding Bias auf
9Steven Ruggles; Katie Genadek; Ronald Goeken; Josiah Grover; and MatthewSobek. 2015. Integrated Public UseMicrodata Series: Version 6.0 [dataset]
10where p = % of woman in occupationClaudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 19 / 37
![Page 27: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/27.jpg)
Beschaftigung Bias
Historical U.S. census data 9 vs Word Embedding
log-prop(p) = log p1−p
10
Regression durch (0,0): Beschaftigungen, deren geschlechtsspezifischeBeteiligung genau mittig (50:50) liegt, weisen keinen messbareEmbedding Bias auf
9Steven Ruggles; Katie Genadek; Ronald Goeken; Josiah Grover; and MatthewSobek. 2015. Integrated Public UseMicrodata Series: Version 6.0 [dataset]
10where p = % of woman in occupationClaudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 19 / 37
![Page 28: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/28.jpg)
Beschaftigung Bias
Historical U.S. census data 9 vs Word Embedding
log-prop(p) = log p1−p
10
Regression durch (0,0): Beschaftigungen, deren geschlechtsspezifischeBeteiligung genau mittig (50:50) liegt, weisen keinen messbareEmbedding Bias auf
9Steven Ruggles; Katie Genadek; Ronald Goeken; Josiah Grover; and MatthewSobek. 2015. Integrated Public UseMicrodata Series: Version 6.0 [dataset]
10where p = % of woman in occupationClaudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 19 / 37
![Page 29: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/29.jpg)
Beschaftigung Bias
Average gender bias score over time in COHA embeddings in occupations vs theaverage log proportion. In blue is relative women bias in the embeddings, and in
green is the average log proportion of women in the same occupations.Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 20 / 37
![Page 30: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/30.jpg)
Beschaftigung Bias
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 21 / 37
![Page 31: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/31.jpg)
Beschaftigung Bias
Average ethnic (Asian vs White) bias score over time for occupations in COHA(blue) vs the average conditional log proportion (green).
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 22 / 37
![Page 32: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/32.jpg)
Beschaftigung Bias
cond-log-prop(group 1,group 2) = log p1−p
11
11where p = % of group 1% of group 1 + % of group 2
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 23 / 37
![Page 33: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/33.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 24 / 37
![Page 34: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/34.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?
→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 35: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/35.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 36: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/36.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 37: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/37.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 38: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/38.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 39: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/39.jpg)
Adjektive
Wie hat sich die Darstellung von Frauen uber die Jahre verandert?→ Adjektive
wenige systematische und quantitative Metriken fur Adjektiv Bias inder Literatur
Set mit 230 Adjektiven von Menschen nach Geschlechterstereotypenannotiert 12 13
Korrelation mit Embedding Bias (p < .0002)
geschlechtsneutrale Adjektive → unbiased
12Williams, J. E., and Best, D. L. 1977. Sex Stereotypes and Trait Favorability on theAdjective Check List.Educationaland Psychological Measurement37(1):101–110
13Williams, J. E., and Best, D. L. 1990.Measuring sex stereotypes: A multinationstudy, Rev. Sage Publications, Inc
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 25 / 37
![Page 40: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/40.jpg)
Frauen und Adjektive
1910 1950 1990
charming delicate maternalplacid sweet morbid
delicate charming artificialpassionate transparent physical
sweet placid caringdreamy childish emotional
indulgent soft protectiveplayful colorless attractivemellow tasteless soft
sentimental agreeable tidy
Top adjectives associated with women in 1910, 1950, and1990 by relative normdifference in the COHA embedding.
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 26 / 37
![Page 41: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/41.jpg)
Frauen und Adjektive
Pearson correlation in embedding bias scores for adjectives over time betweenembeddings for each decade. The phase shiftin the 1960s-70s corresponds to the
U.S. women’s movement.Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 27 / 37
![Page 42: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/42.jpg)
Beobachtungen
Teilmengen von Adjektiven:
Intelligenz (intelligent, logical, thoughtful...)
Assoziation mit Frauen steigtstarker positiver Trend nach den 1960ern
Aussehen (attractive, ugly, fashionable...)
keine signifikante Veranderung des Bias
Individuelle Adjektive:
hysterisch
bis Anfang 20. Jahrhundert psychischen Erkrankung von Frauen1920: Top 5 woman-biased1990: nicht in Top 100
emotional
Assoziation mit Frauen steigtspiegelt aktuellen Stand wider
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 28 / 37
![Page 43: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/43.jpg)
Beobachtungen
Teilmengen von Adjektiven:
Intelligenz (intelligent, logical, thoughtful...)
Assoziation mit Frauen steigtstarker positiver Trend nach den 1960ern
Aussehen (attractive, ugly, fashionable...)
keine signifikante Veranderung des Bias
Individuelle Adjektive:
hysterisch
bis Anfang 20. Jahrhundert psychischen Erkrankung von Frauen1920: Top 5 woman-biased1990: nicht in Top 100
emotional
Assoziation mit Frauen steigtspiegelt aktuellen Stand wider
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 28 / 37
![Page 44: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/44.jpg)
Asiaten und Adjektive
1910 1950 1990
irresponsible disorganized inhibitedenvious outrageous passivebarbaric pompous dissolute
aggressive unstable haughtytransparent effeminate complacentmonstrous unprincipled forceful
hateful venomous fixedcruel disobedient active
greedy predatory sensitivebizarre boisterous hearty
Top Asian (vs White) Adjectives in 1910, 1950, and 1990by relative normdifference in the COHA embedding.
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 29 / 37
![Page 45: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/45.jpg)
Asiaten und Adjektive
Pearson correlation in embedding Asian bias scores for adjectives over timebetween embeddings for each decade.
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 30 / 37
![Page 46: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/46.jpg)
Ethnische und Kulturelle Stereotype
vor 1950: stark abwertende Adjektive, Beschreibung von Außenseitern
ab 1950 und besonders ab 1980: Stereotype von heutigenAsian-Americans
Russische Namen:
1910-1920er: Russische Revolution → schwacher Wandel1950er: Kalter Krieg → starker Wandel
Spanische Namen:
stetiger Wandelkein großes Ereigniss, eher viele kleine
=⇒ Embedding Bias beinhaltet Informationen uber die Haltunggegenuber ethnischen Gruppen, insbesondere rund um globale Ereignisse
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 31 / 37
![Page 47: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/47.jpg)
Ethnische und Kulturelle Stereotype
vor 1950: stark abwertende Adjektive, Beschreibung von Außenseitern
ab 1950 und besonders ab 1980: Stereotype von heutigenAsian-Americans
Russische Namen:
1910-1920er: Russische Revolution → schwacher Wandel1950er: Kalter Krieg → starker Wandel
Spanische Namen:
stetiger Wandelkein großes Ereigniss, eher viele kleine
=⇒ Embedding Bias beinhaltet Informationen uber die Haltunggegenuber ethnischen Gruppen, insbesondere rund um globale Ereignisse
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 31 / 37
![Page 48: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/48.jpg)
Ethnische und Kulturelle Stereotype
vor 1950: stark abwertende Adjektive, Beschreibung von Außenseitern
ab 1950 und besonders ab 1980: Stereotype von heutigenAsian-Americans
Russische Namen:
1910-1920er: Russische Revolution → schwacher Wandel1950er: Kalter Krieg → starker Wandel
Spanische Namen:
stetiger Wandelkein großes Ereigniss, eher viele kleine
=⇒ Embedding Bias beinhaltet Informationen uber die Haltunggegenuber ethnischen Gruppen, insbesondere rund um globale Ereignisse
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 31 / 37
![Page 49: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/49.jpg)
Ethnische und Kulturelle Stereotype
Religious (Islam vs Christianity) bias score over time for words related to terrorismin New York Times data. Note that embeddings are trained in 3 year windows, so,
for example, 2000 contains data from 1999-2001.Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 32 / 37
![Page 50: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/50.jpg)
Uberblick
1 Motivation
2 Daten und MethodenEmbeddingsWortlistenBias
3 ExperimenteBeschaftigungenAdjektive
4 Fazit
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 33 / 37
![Page 51: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/51.jpg)
Zusammenfassung
Vergleich von Word Embeddings mit dem demographischen Wandelim Bezug auf Geschlechter- und ethnische Stereotypen
Quantifizierung eines embedding biases fur Beschaftigungen undAdjektive
Ergebnisse:
vorhergesagte Beschaftigungen folgen der RealitatAdjektive zeigen wie verschiedene Personengruppen uber die Zeitbetrachtet werden
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 34 / 37
![Page 52: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/52.jpg)
Zusammenfassung
Vergleich von Word Embeddings mit dem demographischen Wandelim Bezug auf Geschlechter- und ethnische Stereotypen
Quantifizierung eines embedding biases fur Beschaftigungen undAdjektive
Ergebnisse:
vorhergesagte Beschaftigungen folgen der RealitatAdjektive zeigen wie verschiedene Personengruppen uber die Zeitbetrachtet werden
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 34 / 37
![Page 53: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/53.jpg)
Herausforderungen und Ausblick
Robustheit abhangig von Daten und Metriken(Alternative Metriken: Caliskan, Bryson, und Narayanan (2017) undBolukbasi et al. (2016))
Abhangigkeit von Wortlisten→ Vergleich Beschaftigungen vs. professionelle Beschaftigungen→ verschiedene Adjektiv-Listen
geschriebene Texte konnen die soziale Haltung nicht komplettreflektieren
Dimensionen der Embeddings haben keine Bedeutung(Besser: Rothe and Schtze, 2016)
separate Embeddings pro Jahrzehnt(Vereint: Rudolph et al., 2017; Rudolph und Blei, 2017)
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 35 / 37
![Page 54: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/54.jpg)
Kritik
Wortlisten:
Asiaten = Chinesen ?keine Variationen der Gruppen-WortlistenBedeutung/Einfluss spezifischer Worte
Wandel des Embedding Bias ohne globale Ereignisse
Abweichungen in den Ergebnissen bei anderer Textgrundlage (z.B.Wikipedia GloVe)
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 36 / 37
![Page 55: Word Embeddings Quantify 100 Years of Gender and Ethnic ... · Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, James](https://reader030.fdocuments.net/reader030/viewer/2022041206/5d5e6c1b88c9938e128b6dba/html5/thumbnails/55.jpg)
Diskussion
Vielen Dank fur eure Aufmerksamkeit!
Claudia Rebmann, Mingyang He Word Embeddings Quantify Stereotypes 16.07.2019 37 / 37