DisKo,  Named Entity Recognition

Projekt DisKo: Aufbau eines Diversitäts-Korpus (DisKo) als Grundlage für die algorithmische Textanalyse

In der letzten Zeit haben wir in verschiedenen Fallstudien untersucht, wie Genderrollen in unterschiedlichen Genres dargestellt werden und neue Einblicke in die Verteilung stereotyper Genderrollen (und deren Zusammenhang zu Emotionen) gewonnen. Dem m*w-Ansatz folgend haben wir dabei unseren Machine-Learning-Algorithmus zur automatischen Annotation von Genderrollen in deutschsprachiger Literatur immer weiter optimiert und angepasst, sodass er männliche, weibliche und neutrale Genderrollen nun nicht mehr nur in Novellen aus dem 18. Jahrhundert gut erkennt, sondern auch in Romanen, Dramen und Fantasyromanen. Wir haben also sowohl in Bezug auf das Genre als auch auf den Zeitraum ordentlich nachgebessert. Wenn ihr Lust auf eine eigene Fallstudie habt, könnt ihr den aktuellen Gender-Classifer übrigens hier herunterladen: https://zenodo.org/record/5555952#.YtE8BuBCTus.

Ein Fehler im System?

Der Gender-Classifier erkennt männliche und weibliche Genderrollen (wie z. B. “Mutter”, “Kriegerin” oder “Freund”) also schon wirklich gut und auch in Bezug auf Gender neutrale Rollen wie “Kind” oder “Mensch” können vom Classifier ebenfalls erkannt und klassifiziert werden. Wirft man einen genaueren, vergleichenden Blick auf die unterschiedlichen Fallstudien, werden zwei Dinge deutlich:  1. Wir lieben Fallstudien! Und 2., zurück zum eigentlichen Thema, dem Gender-Classifier fehlt eine wichtige Kategorie.
Erkannt werden vor allem männliche und weibliche Rollen mit einer Erkennungsgenauigkeit von durchschnittlich 75%, neutrale Rollen sogar mit einer Quote von 80%. Aber was ist mit diversen Genderrollen, die in keine der bisher untersuchten Kategorien fallen? Ein erster Test zeigt, dass die Erkennungsgenauigkeit von Rollen, die zur Kategorie “divers” gehören, deutlich schlechter ausfällt. Aber warum ist das so? Gerade in zeitgenössischer Literatur spielen queere, non-binäre, transweibliche oder transmännliche Figuren eine große Rolle. Der schlechte Befund für die automatische Annotation diverser Figuren ist darauf zurückzuführen, dass in unserem Trainingsmaterial kaum diverse Figuren vorkommen: Es mangelt also an konkreten Beispielen, anhand derer wir dem Algorithmus zeigen können, welche Wörter er als “divers”, oder zu eventuellen noch zu definierenden Unterkategorien gehören, annotieren soll.

Gesucht: zeitgenössische Roman mit diversen Figuren

Wir benötigen literarische Werke, in denen Figuren nicht stereotyp, sondern divers beschrieben werden! Ein solches Referenzkorpus existiert zum jetzigen Zeitpunkt nicht. Um diesem Mangel zu begegnen, haben wir bereits angefangen, ein Diversitäts-Korpus zu erstellen, in dem zeitgenössische Romane enthalten sind, in denen in Bezug auf Genderrollen nicht stereotype Figuren beschrieben werden. Dabei haben wir relativ schnell festgestellt, dass wir mit den Angeboten der bestehenden digitalen Repositorien nicht weiterkommen, denn hier können aus urheberrechtlichen Gründen keine zeitgenössischen Werke angeboten werden. In historischen Werken kommen – für unseren Geschmack – aber zu wenig diverse Genderzuschreibungen vor. Um die Performanz des Gender-Classifiers verbessern zu können, benötigen wir nämlich genau solche Werke und zwar am liebsten in rauen Mengen.

Und jetzt: DisKo!

Wo also gibt es Bücher aller Genres und aus unterschiedlichen Zeiträumen in rauen Mengen? Die Deutsche Nationalbibliothek (DNB) beinhaltet (unter anderem) genau den Textbestand, auf den wir angewiesen sind. Genau zum rechten Moment sind wir auf den Digital-Humanities-Call der DNB aufmerksam geworden, der jährlich Projekte aus Kultur, Forschung Wissenschaft unterstützt. Antragsberechtigt sind angehende Wissenschaflter*innen (auch ohne Promotion) aus allen Bereichen mit einem Fokus auf die Digital Humanities – Also eine tolle Möglichkeit, um bei kreativen, eigenen Projekten durch Daten, Infrastrukturen, Digitalisierungskapazitäten und Expertise unterstützt zu werden. Kurz gesagt: Unser Antrag wurde bewilligt und das Projekt DisKo ist bereits gestartet.

Der grobe Plan

Im Rahmen des Projekts möchten wir in Zusammenarbeit mit der Deutschen Nationalbibliothek ein diverses Referenzkorpus aufbauen und daraus ein Traningskorpus extrahieren und annotieren, das zum Machine-Learning des Gender-Classifiers genutzt werden kann. Durch den Sammelauftrag der DNB bietet sich ein riesiger Bestand an körperlichen Medienwerken, die sich für unseren Anwendungsfall eignen. Im Projekt soll es darum gehen:

  • Eine Grundmenge zeitgenössischer Literatur zu ermitteln, die zwischen 1950 und heute publiziert wurde und sich für das Korpus eignet, Richtwert ist mindestens 1 Roman / Jahr, also insgesamt 72 Romane in DisKo zu integrieren.
  • Extrahiert und manuell annotiert werden, sollen jeweils 4.000-Token-Passagen vom Romananfang, sodass insgesamt ein Traningskorpus von nahezu 300.000 Wörtern Umfang entsteht.
  • Zusätzlich benötigen wir mindestens vier Romane aus diesem Zeitraum, die komplett digital vorliegen und die wir als Testkorpus nutzen können.
  • Wir gehen davon aus, dass im Rahmen unseres Vorhabens ein Teil des Korpus gescannt und mit OCR computerlesbar gemacht werden muss

Kick-Off-Meeting in Frankfurt am Main

Bei einem ersten Treffen in der DNB Hauptfiliale haben wir zusammen mit Dr. Peter Leinen, dem Fachbereichsleiter der Informationsinfrastruktur der Deutschen Nationalbibliothek, die technischen Rahmenbedingungen, die bei der Arbeit mit den Beständen der DNB zu berücksichtigen sind, kennengelernt und abgesteckt. Die Arbeit mit noch nicht gemeinfreien Werken und sensiblen Daten kann in bestimmten Fällen beispielsweise nur vor Ort und hausintern umgesetzt werden. Der Zugriff auf die Bestände erfolgt über ein Terminal, auch daran müssen wir uns erst einmal gewöhnen.

Aus Mangel wird Masse

Darüber hinaus hat sich aber vor allem eindrucksvoll gezeigt, dass unsere eigens zusammengetragene und auf eigenen Lektüreerfahrungen basierende Liste mit zeitgenössischen belletristischen Werken, in dene diverse Figuren vorkommen, zumindest quantitativ nicht zu vergleichen ist zum belletristischen zeitgenössischen Gesamtbestand der DNB, in denen diverse Genderrollen vorkommen könnten. 455.835 Einträge umfasst der Bestand in diesem Bereich, wir müssen also eine sinnvolle Auswahl treffen.

Helft mit und macht “Citizen Science”

Und da kommt ihr ins Spiel. Bei der Korpusakquise fahren wir zweigleisig. Zum einen werden wir basierend auf Forschungsliteratur, Listen und Verlagsprogrammen geeignete Werke für unser Diversitäts Korpus ermitteln. Genau wie unsere bereits angefangene Liste, können wir in diesem Fall sicher sein, dass diverse Figuren enthalten sind – schließlich wurden die Bücher i.d.R. genau gelesen. Dabei könnt ihr uns helfen, indem ihr uns eure Literaturtipps mitteilt, und zwar indem ihr sie hier übermittelt: https://forms.gle/twayxaXoLaw8ovr8A.
Zum anderen sind wir aktuell unter Mithilfe von Peter Leinen damit beschäftigt die Tabelle der DNB weiter zu strukturieren und über unterschiedliche Filteroptionen den Bestand mit belletristischer Literatur aus dem Zeitraum zwischen ca. 1950 und 2022 weiter einzugrenzen.

Ein Kommentar

Eine Antwort schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht.