Wir haben das erste Modell für die automatische Erkennung von Figuren-Gender in literarischen Texten trainiert. Nun teilen wir die Ergebnisse unserer Named-Entity-Recognition Domänen-Adaption mit euch. #NER #Literaturwissenschaft #Gender
Named Entity Recognition

Automatische Erkennung von Figuren-Gender – das erste Modell

Es war ein wichtiger Schritt in unserem Projekt und wir sind ihn endlich gegangen: Das erste Named Entity Recognition Modell für die automatische Erkennung von Figuren-Gender. Genutzt haben wir hierfür den Stanford Named Entity Recognizer von Finkel, Grenager und Mannig ​(Finkel, Manning and Grenager, 2005)​. Leider gibt es in diesem ersten Modell statt diversen erst einmal nur neutrale Figurenbenennungen. Zwar wollten wir eigentlich eine automatische Figurenerkennung für weibliche, männliche und diverse Figuren, aber das haben wir mit unserem Trainingskorpus leider (noch) nicht erreicht. Warum wir trotzdem froh sind, ein erstes eigenes NER-Modell zu haben und wie genau wir dazu gekommen sind, das erfährst du heute hier. Natürlich kannst du das Modell und unsere Trainingsdaten mit Annotationen von Anfang an mit nutzen und weiter entwickeln, wenn du möchtest. Melde dich dazu einfach am Ende dieses Beitrags als „Projekt-Insider“ an. Dadurch erhältst du Zugang zu unserem Passwort-Geschützten-Bereich, in dem du dir alle Materialien herunterladen kannst.

Automatische Erkennung von Figuren-Gender – männlich, weiblich divers?

Wenn du dir unsere Projektbeschreibung durchgelesen hast, weißt du, dass eines unserer Projektziele eigentlich ist, die automatische Figurenerkennung für männliche, weibliche und diverse Figuren möglich zu machen. Doch nach der Sichtung der Theorie und den ersten Modellen, die wir entwickelt haben, wurde uns klar, dass eindeutige Definitionen der Kategorie „divers“ fehlen. Genügt es, wenn eine weibliche Figur eine eher als männlich stereotypisierte Eigenschaft zugesprochen bekommt? In diesem Falle wäre eine automatische Erkennung wohl kaum zu erreichen. Eine andere Möglichkeit wäre natürlich, als Voraussetzung für eine „diverse“ Figur anzunehmen, dass diese klar als Hermaphrodit (wie z.B. bei Foucault ​(Barbin and Foucault, 1998)​), als Lesbierin (nach Beauvoir ​(Beauvoir, 1949)​) oder als homosexueller Mann (wie z. B. bei Bourdieu ​(Bourdieu, 1998)​ – um nur einige Beispiele zu nennen, die in der Theorie vorkommen – bezeichnet wird. Das kommt in unserem Textkorpus, dem deutschen Novellenschatz, allerdings nicht vor.

Was ist eine neutrale Figurenbezeichnung?

Beim Annotieren der ersten Trainingsdaten haben wir aber entdeckt, dass etwas anderes sehr wohl vorkommt. Es gibt genderneutrale Bezeichnungen für Figuren, die relativ häufig genutzt werden. „Das Kind“ ist wohl einer der häufigsten Fälle. Aber auch liebevolle Bezeichnungen zwischen Eheleuten, wie z. B. „mein Augenstern“ sind nicht an bestimmte Genderrollen gebunden. Damit finden wir bestätigt, was Bourdieu in einem kurzen Abschnitt in „Die männliche Herrschaft“ beschreibt. Im Kapitel „die Liebe“ stellt er nämlich fest, dass diese dafür sorgen kann, dass Ebenbürtigkeit entstehen kann ​(Bourdieu, 1998)​. Ein dritter Fall genderneutraler Bezeichnungen liegt vor, wenn stark verallgemeinert wird. Beispiele hierfür sind Bezeichnungen als „Mensch“ oder „Person“. Ein paar mehr Gedanken von mir über die Konzepte von Gender-Diversität und Gender-Neutralität findest du auf dem „Lebe-lieber-literarisch-Blog.

Problem gelöst?

Nun haben wir es im ersten Anlauf zwar nicht geschafft, die automatische Figurenerkennung männlicher, weiblicher und diverser Figuren zu erreichen, aber dafür haben wir einen Named-Entity-Recognition-Classifier trainiert, der bereits weibliche, männliche und neutrale Figurenbezeichnungen erkennt. Dazu müssen wir hier sagen, dass wir nach wie vor am Anfang stehen und mit den Ergebnissen noch keineswegs zufrieden sind. Aber wir sehen, dass unser Vorhaben gelingen kann. Und natürlich haben wir schon Ideen, wie wir die nächsten Schritte in Richtung der automatischen Erkennung von Figuren-Gender umsetzen können.

Annotationsrichtlinien und Modell

In diesem ersten Anlauf in Richtung automatische Erkennung von Figuren-Gender haben wir für ein Proof of Concept zunächst ein Trainingskorpus von 40.000 Tokens annotiert. Um zu prüfen, ob eine Erhöhung der Wortanzahl auch das Ergebnis des NER-Classifiers verbessern würde, haben wir anschließend noch weitere 12.000 Wörter hinzugefügt. Diese haben wir ebenfalls nach weibliche, männlichen und neutralen Figurenbezeichnungen annotiert.

Die Annotationsrichtlinien, die sich auch in unserem Projekt-Insider-Bereich befinden, haben wir bewusst knapp gehalten. Wir haben immer nur einzelne Figuren markiert. Personalpronomen haben wir nicht berücksichtigt (weder in der ersten noch in der zweiten oder dritten Person Singular). Und wir haben auch keine Figurengruppen annotiert. Wir haben versucht, immer nur ein Wort als männliche, weibliche oder neutrale Personenbezeichnung zu kennzeichnen, haben allerdings auch Ausnahmen zugelassen. Bei einer Bezeichnung mit Anrede oder mit Vor- und Zunahmen haben wir z. B. beide Wörter mit dem entsprechenden Tag versehen. Geprüft wurde das Modell dann anhand zweier manuell ausgezeichneter Texte, die wir zuvor natürlich auch mit Hilfe dieser Richtlinien angelegt haben.

Bei den beiden Testtexten handelte es sich um eine Novelle einer Schriftstellerin und eine Novelle eines Schriftstellers. In diesem Proof of Concept wurden die Traningsdaten noch nicht nach dem Gold Standard erstellt. Trotzdem zeigen die Daten der Ergebnisse, vor allem die Steigerung der Werte mit der Erhöhung auf 52.000 Tokens, dass die automatische Erkennung von Figuren-Gender möglich ist.

Ergebnisse der ersten NER-Modelle im Vergleich. Oben steht jeweils das Output für die Novelle „Eine fromme Lüge“ von Luise von Gall, unten für „Die drei Schwestern“ von Ludwig August Kähler

Die Trainingsdaten für die automatische Erkennung von Figuren-Gender

Die Trainingsdaten für das erste Korpus stammen aus Novellen aus dem deutschen Novellenschatz, die nicht Teil unseres Kernkorpus sind. Für das erste, 40.000 Tokens umfassende Trainingskorpus wurden Auszüge aus 10 Novellen zusammengefügt. Dazu haben wir jeweils 4.000 Wörter aus dem Beginn der Novellen kopiert und in ein neues Dokument eingefügt. Die Anfänge wurden gewählt, da die Figuren hier oft erstmalig auftreten. Ihre Charaktere und Eigenschaften sind hier besonders wichtig. Für das zweite, erweiterte Trainingskorpus, haben wir jeweils 4.000 Wörter aus den Anfängen von drei weiteren Novellen hinzugefügt.

Da wir unser Kernkorpus ja ausgeglichen gestalten wollten, was die Anzahl männlicher und weiblicher Autor*innen angeht (mehr dazu hier), haben wir als Trainingsdaten zunächst nur Novellen von Schriftstellern übrig. An den Test-Ergebnissen können wir noch nicht erkennen, ob die Zusammenstellung der Trainingsdaten diese nicht negativ beeinflusst hat. Bisher deutet sich lediglich an, dass Im Testtext der Autorin die weiblichen Figuren besser erkannt wurden und im Pendant des Autors die männlichen.

Was kann unser Classifier für automatische Figurenerkennung?

Unser Classifier kann bisher noch nicht sehr viel. Bei den meisten Figurengenderzuschreibungen, die er erkennt, liegt er zwar richtig, aber er erkennt bei Weitem noch nicht genug. Genderneutrale Figurenbezeichnungen erkennt das Modell bisher am besten, was höchstwahrscheinlich daran liegt, dass die Autor*innen für diese genderunabhängigen Beschreibungen meist Begriffe eines kleinen, recht klar definierterbaren Wortfeldes gebrauchen. Unser Classifier erkennt mal männliche Figuren besser und mal weibliche, je nach (nach den Autorennamen vermutetem) Autorengender.

Wie entwickeln wir die automatische Erkennung von Figuren-Gender nun weiter?

52000 Tokens, zwei Test-Texte, das ist ein Anfang, aber hier bleiben wir natürlich nicht stehen. Als nächstes planen wir, mit Hilfe unserer Student*innen weitere Trainingsdaten zu annotieren. Um die Ergebnisse der Test-Texte genauer zu untersuchen und vor allem, um Hinweise darauf zu bekommen, ob die im Hinblick auf das Autorengender sehr einseitige Zusammensetzung des Trainingskorpus die Ergebnisse zu stark beeinflusst, werden wir einen weiteren Test-Text annotieren. Die Ergebnisse der nächsten Tests machen wir natürlich wieder hier zugänglich.

Diesen Artikel zitieren: Mareike Schumacher: "Automatische Erkennung von Figuren-Gender – das erste Modell". In: m*w, Januar 3, 2020, https://msternchenw.de/automatische-erkennung-von-figuren-gender-das-erste-modell/, [zuletzt geprüft: Juli 4, 2020].

Referenzen

  1. Barbin, H. and Foucault, M. (1998) Über Hermaphroditismus. Frankfurt am Main: Suhrkamp.
  2. Beauvoir, S. (1949) Das andere Geschlecht. Reinbek: Rowohlt.
  3. Bourdieu, P. (1998) Die männliche Herrschaft. Frankfurt am Main: Suhrkamp.
  4. Finkel, J., Manning, C. and Grenager, T. (2005) ‘Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling’, in. 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), Michigan.

2 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.