5. Our Study
• Compare for men and women:
– Coverage
– Lexical Presentation
– Structural Position
– Visibility
Claudia Wagner, David Garcia, Mohsen Jadidi and Markus Strohmaier, It's a
Man's Wikipedia? Assessing Gender Inequality in an Online Encyclopedia,
The International AAAI Conference on Web and Social Media (ICWSM2015)
7. Coverage in 2011
• Britannica versus Wikipedia Coverage
– Reference Lists: e.g. The Atlantic’s 100 most
influential figures in American history
– Wikipedia misses 13% of women and 5% of men
– Britannica misses 49% of women and 33% of men
– Wikipedia’s coverage is more exhaustive
– Women have a 2.6 (13/5) greater odds of
omission in Wikipedia and a 1.48 (49/33) greater
odds of omission in Britannica
Reagle, Joseph; Rhue, Lauren (2011). "Gender Bias in Wikipedia and Britannica". International
Journal of Communication (Joseph Reagle & Lauren Rhue) 5: 1138–1158.
8. Our Study: Data
• 11% women in Freebase
• 3% women in HA (people who made contributions to
arts and science prior than 1950)
• 13% women in pantheon
21. So what?!?!
Algorithms often use structural properties
to determine importance (e.g. Page Rank)
– Researchers need to understand social
consequences of algorithms
– 28. Feb 2015: “Google wants to rank
websites based on facts not links”,
NewScientist
http://www.newscientist.com/article/mg22530102.600-google-wants-to-
rank-websites-based-on-facts-not-links.html
22. Page Rank
Eom YH, Aragón P, Laniado D, Kaltenbrunner A, Vigna S, et al. (2015) Interactions
of Cultures and Top People of Wikipedia from Ranking of 24 Language Editions.
PLoS ONE 10(3): e0114825. doi:10.1371/journal.pone.0114825
http://127.0.0.1:8081/plosone/article?id=info:doi/10.1371/journal.pone.0114825
29. Text
“Biographies of women on Wikipedia
disproportionately focus on marriage
and divorce compared to those of
men.”
David Bamman, Noel Smith. "Unsupervised Discovery of Biographical
Structure from Text", Transactions of the Association for Computational
Linguistics, 2, 2014 (pp. 363–376), p. 369:
30. Summary
• Good News:
– Visibility and Coverage of women looks good
• Bad News:
– Structural Inequality what are the
consequences?
– How women are portrayed needs to be
improved
http://en.m.wikipedia.org/wiki/User:GGTF/Writing_about_women
35. Future Questions…
• What causes the bias?
– Wikipedia bias versus general media bias?
– Male versus female editors?
• Bias over time
– Does the community improve?
Im Juni diesen Jahres werden wir eine studie veröffentlichen deren Titel mit einer Frage beginnt…
Warum ist diese Frage wichtig???
kurzer Gedankenexperiment. Wer sind/waren euere Helden – sprich Menschen die ihr bewundert?
Wikipedia wirs als Wissensquelle immer wichtiger. Deshalb ist es wichtig dass wir uns immer wieder ins Bewusstsein rufen dass die Personen die wir für wichtig genug halten um sie in Wikipedia zu erfassen, die Personen sind über viele Menschen lernen und lesen werden und die somit das Potential haben zu persönlichen Helden zu werden bzw. Höhere Sichtbarkeit haben.
Aus diesem Grund fanden wir Frage wichtig ob es Unterschiede in der Erfassung zw. Männern uns Frauen in Wikipedia gibt.
Die Abdeckung, die textuelle Darstellung, struckturelle Position und die Sichtbarkeit von Frauen un Männern verglichen.
Die Wahrscheinlichkeit dass eine wichtige Frau bzw Mann auf Britannica nicht erfasst wurde ist ähnlich hoch, während auf Wikipedia Frauen eine höher chance haben nicht erfasst zu werden.
some 1,500 authors contributing to the 11th Britannica, 35 of them were women (about 2%), with no woman listed among the 49 editorial advisors. In Wikipedia around 10% of editors are women.
Da wir uns auch für den Coverage der leute interessiert haben, also wieviele wichtige Frauen bzw. Männer auf Wikipedia beschrieben sind, mussten wir zuerst nach referenzlisten suchen. Also externe Quellen die wichtige Frauen und Männer auflisten. Wir haben uns hier für die folgenden 3 Quellen entschieden: freebase (was nat. nicht unabhängig von Wikipedia ist, aber auch duch eine andere community gepflegt wird und mehre datenquellen anzapft), pantheon (ein MIT projekt) welches semi-manuel wichtige personen auflistet, Human Accomplishment – ein Buch von Harris Murray der Antrophologe ist und manuell die wichtigsten Meschen der Geschichte aufgelistet hat die VOR 1950 wichtige Beitrage in den Wissenschaften oder der Kunst geleistet haben.
Man sieht dass die Helden aus Murray’s liste in allen Wikipedia editionen am besten gecovered werden. Die geringe Frauenrate hat nat. mit der Geschichte zu tun. Dennoch sieht man dass die wenigen Frauen die trotz ungleicher Bedigungen wichtige Beiträge zu Wissenschaft und Kunst leisten konnten sehr gut abgedeckt werden in allen Sprachen!
As study from 2010 says “Nine men to every one woman on a portal that represents the greatest easily accessible store of knowledge is outrageously disproportionate and unacceptable” (RMJ, 2010).
Wieviele Männer/Frauen werden auf der startseite der englischen Wikipedia gefeatured? Wir sehen hier die proportion von Frauen versus die der Männer. Obwohl man leichte Unterschiede sieht, sind diese nicht signifikant.
Gibt es eine Asymmetry im Geschlechterübergreifenden Linknetzwerk. Also linken Männer mehr zu Frauen, also Frauen zu Männer oder anders rum. Wir vergleichen hier die bedingte Wahrscheinlichkeit dass Geschlecht 1 zu Geschlecht 2 linkt mit der unbedingten Wahrscheinlichkeit dass jemand zu Geschecht 2 linkt.
Weniger Links von Männer zu Frauen als von Frauen zu Männern. Oder besser gesagt Männer linken weniger zu Frauen wie Artikel im Durchschnitt. Auch Frauen linken weniger zu Männern wie Artikel im Durchschnitt. Allerdings ist der Effekt für Männer zu Frauen stärker d.h. sie liegen stärker unter dem Durchnitte.
L(F,M)-L(M,F) both log liklihood ratios are negative. L(M,F) is smaller than L(F,M).
EN: -0.5-(-0.7) = 0.2
Assortativität beschreibt ob in einem Netzwerk eher gleichartige Knoten miteinander vernetzt sind oder ob sich eine Mischung ausbildet. Pos. Koeffizient deutet auf Assortativität hin, negativer Koeffizient deutet auf Mischung hin.
L(from=M, to=M) = (5/10) – (5/10) * (7/10) / 1 – ((5/10)*(7/10) +(4/10)*(3/10)) = 0.15/0.53 = 0.28
L(from=W, to=W) = ((2/10)-(4/10)*(3/10)) / 1-((5/10)*(7/10) +(4/10)*(3/10)) = 0.08/0.53 = 0.15
Assortativität kann für beide Geschlechter beobachtet werden, ist aber deutlich stärker ausgeprägt für Frauen.
Average between L(F,F) and L(M,M).
- randomized gender model: shuffle the genders of nodes;
- randomized link end model: rewire links to random articles, maintaining out degrees but fully randomizing in-degree;
- randomized link origin model: maintain link ends but rewire their origin to an article sampled at random, which maintains in-degrees but randomizes out degrees.
Welche Theoretischen Außmaße hat die Linkstruktur. Wenn man sich z.B. einfach die Indegree verteilung anschaut. Also wieviele incomming links haben Artikel über Frauen versus Männer, sieht man dass es Artikel über Männer gibt die sehr viele inlinks haben. Artikel über Frauen haben das nicht.
Core is broadly defined as a maximum size subgraph of a graph that is coherent and dense.
Find a subgraph where all nodes have enough out-links and in-links to the rest of it. Clearly, it is not enough for a node to have big in-degree and/or out-degree in order to be a member of such a core. What counts, on the top of this, is that the node forms part of a community where each of its members satisfy the same in-degree and/or out-degree requirements with respect to all the other community members
Anzahl an Frauen in den top 100 page rank results die sich auf Bios beziehen.
Die letzte Dimension die wir betrachtet haben war die textuelle Beschreibung von Frauen und Männer. Gibt es hier Unterschiede die über das was wir vielleicht noch erwarten würden hinausgehen. Der Finkbeiner Test listet Aspekte auf die üblicherweise in Biographien von Frauen erwähnt werden aber nicht in denen von Männers: z.B. Familienstatus, Geschlecht…
TFIDF of words (worte wir Frau können hohe scores kriegen weil sie nur in der minority klasse vorkommen. Aber worte wie Hochzeit, Scheidung usw. nicht). Trainieren Naïve Bias classifier und lassen den classifier die Worte wählen die am effektifsten sind um die beiden Klassen zu unterscheiden.
Deutsche Wikipedia für Männer und Frauen
Mehr als 1/3 der diskriminativsten Worte für Artikel über Frauen gehören zu einer der 3 Kategorien. Für Männer hingegen fallen nur 0-3% der diskriminativsten Worte in diese Kategory. Das männliche Geschlecht als null-gender? Man muss nicht erwähnen dass es um einen Mann geht weil der Kontext das bereits definiert. Vorallem in der Englishen und Russian Wikipedia sieht man dass die top 25 worte für die Klasse Frauen überwiegend in eine der 3 Cats fallen.
Beispiel der diskriminativsten Worte für Worte in Englischen Wikipedia
In unserer bisherigen Arbeit haben wir nicht die Frage nach dem WARUM beantwortet. Also es bleibt unklar ob die biases den wir messen nur ein historisches Artefakt sind oder durch die Editor Community verursacht werden. Diese Frage kann man sich aber anähern wenn man tools hat die den Editing Process transparent machen. An der Entwicklung solche tools arbeitet ein Kollege. Konkret geht es darum die gesamte Geschichte des collaborativen Editing Process transparent zu machen und in der aktuellen Revision anzuzeigen wo die Information herkommt. Welche Worte stammen ursprünglich von wem. Wer hat den Text von wem verändert, gelöscht usw.