Der Beitrag demonstriert die Möglichkeiten der Bildklassifikation mit Verfahren des Maschinellen Lernens anhand von zwei Beispielen zu Provenienzerschließung historischer Buchbestände und gibt gleichzeitig Interessierten Einblick in Grundbegriffe des Maschinellen Lernens. Die Verfahren und Ergebnisse entstanden während eines zweimonatigen Praktikums an der Österreichischen Nationalbibliothek.
Autoren: Martin Krickl und Emanuel Zangger
Künstliche Intelligenz (KI; engl. Artificial Intelligence, AI) birgt kaum vorstellbare Chancen wie auch Risiken in beinahe allen datenbasierten Domänen menschlichen Wissens und Handelns.1 Bibliotheken stehen vor einer Fülle an Möglichkleiten und einer Reihe unausweichlicher Herausforderungen, künstliche Intelligenz in ihre Arbeitsläufe auf verantwortungsvolle Weise zu integrieren.2 Anwendungen von KI im Bibliotheksbereich sind weitgehend spezifisch. Meist geht es darum, Typen, Muster (pattern) zu erkennen und Dokumente zu klassifizieren (classfication) oder zu gruppieren (clustering). Verbreitet sind KI-Verfahren in der Bestandserschließung (zB. Discovery, collection building oder Inhaltserschließung) und Bestandsaufbereitung (zB. OCR-Lesung).3 Wo die Menge an zu klassifizierenden Dokumenten sehr groß ist oder die Datensets zu komplex sind, können Verfahren des maschinellen Lernens (Machine Learning) effizient eingesetzt werden. Der folgende Beitrag soll einen Einblick geben in eine aus unserer Sicht lohnende Anwendung von Machine Learning: die Suche nach Provenienzmerkmalen im digitalisierten historischen Druckschriftenbestand mittels trainierter Bildklassifikation.
Ein weites Feld für die Anwendung von Machine Learning sind Klassifikationen von Dokumenten oder Bildern. Dazu können Algorithmen als Handlungsanweisungen durchprogrammiert werden (symbolische KI) oder – dieses Verfahren hat sich weitgehend durchgesetzt – aus einer Datengrundlage mittels Machine Learning trainiert werden. Die Klassifizierung von Objekten ist für Menschen eine relativ einfache Aufgabe, für Maschinen ist sie jedoch sehr komplex. Jede Entscheidung, die ein Bildklassifikator trifft, basiert auf Trainingsdaten. Trainingsdaten sind im Fall von Bildklassifikatoren Bilder, denen zuvor eine Klasse zugeordnet wurde (labeled data). Basierend auf diesen Trainingsdaten „lernt“ der Klassifikator welche Merkmale (features) eine Klasse beschreiben.4 In diesem Fall spricht man von „supervised learning“. Der Output sind Wahrscheinlichkeitswerte für mögliche richtige Kandidaten als Träger eines Merkmals (also d ist mit Wahrscheinlichkeit p Element der Klasse X). Der Erfolg des Modells ergibt sich in der Regel aus der Genauigkeit der Zuweisung (accuracy), der Präzision (precision) und der Menge an Zuweisungen (recall). Zudem – und das ist in Bibliotheken, wo keine Supercomputer zur Verfügung stehen, in der Regel ausschlaggebend – ist auch der Aufwand, d.h. die Rechenleistung und die Berechnungsdauer entscheidend (feasibility) für einen praktikablen Einsatz. Für Machine Learning gibt es eine große Zahl unterschiedlicher Modelle, die hier nicht erklärt werden können.5
Die historischen Druckschriften, welche die Österreichische Nationalbibliothek in mehreren Sammlungen verwaltet, wurden über Jahrhunderte aus verschiedenen Quellen erworben. Im Laufe der Zeit wurden die Erwerbungen auf verschiedene Standorte verteilt. Aus der Geschichtsschreibung und aus Forschungsbeiträgen zur K. K. Hofbibliothek wissen wir partiell von den Umständen der Erwerbung, für das Gros der historischen Druckschriftenbestände fehlt jedoch die Identifikation entsprechender Provenienzen. Provenienzmerkmale können u.a. handschriftliche Besitzvermerke, Initialen, Stempel, Lesespuren (Marginalien), bildhafte Repräsentationen in Form von Wappen oder Exlibris beziehungsweise die Kombination von bildhaften und schriftlichen Elementen sein.6 Zumal durch die Digitalisierung der Großteil des historischen Druckschriftenbestandes nun in maschinen-verarbeitbarer Form (als Bilddateien) vorhanden ist und die Anzahl zu klassifizierender Dokumente riesig ist, bietet sich der Einsatz von maschineller Klassifikation für die explorative Ermittlung von Provenienzmerkmalen an. Wir haben dafür zwei Anwendungsfälle (Use Cases) zu zwei unterschiedlichen Formen ausgewählt, das Exlibris des Historikers und Büchersammlers Hermann Hallwich (1838-1913) und die Einbände mit Supralibros des Prinzen Eugen von Savoyen-Carignan (1663-1736). Trainiert wurde dafür jeweils ein einfacher Klassifikator, spezifiziert auf das jeweilige Merkmalsbündel.
Der im böhmischen Teplitz-Schönau geborene Historiker, Volkswirtschafter und Politiker Hermann Hallwich besaß eine reiche Bibliothek mit Schwerpunkten zur böhmischen Geschichte und zur Eusebius von Wallenstein, die er wohl auch für seine zahlreichen seit Ende der 1860er Jahre erschienenen Publikationen benutzte.7 815 ausgewählte Bände der circa 15.000 Bände umfassenden Büchersammlung wurden 1913 von seinen Erben der Hofbibliothek als Schenkung überlassen.8
Wir konzentrierten uns in Folge auf das graphische Exlibris, welches von August Mandlik um 1900 in Zinkographie entworfen wurde. Über die Frequenz des Exlibris im überlieferten Bestand konnten keine Annahmen gemacht werden. Die Provenienz war bei nur wenigen Bänden im Katalog ausgewiesen, deren Digitalisate als Trainingsdaten verwendet wurden
In Folge wurden verschiedene Modelle verglichen. Das CNN (Convolutional Neural Network) war überlegen und wurde für den Test an vier Tranchen aus dem ABO Gesamtbestand (n = 150.000 Barcodes) eingesetzt. Als Ergebnis wurden daraus 2.348 Barcodes positiv klassifiziert, von denen jedoch nur 68 tatsächlich korrekt waren (true positives). Die geringe Menge an Trainingsdaten beeinflusste hier die Genauigkeit (accuracy) negativ. Dennoch bedeutet der Output gegenüber einer manuellen Durchsicht von 150.000 Bänden eine Arbeitsersparnis von 98 Prozent.
Der zweite Anwendungsfall ist berühmter. Die Aufgabe bestand darin ein spezifisches Modell für die Erkennung der Supralibros-Einbände aus der Bibliothek des Prinz Eugen von Savoyen-Carignan zu finden. Die Bibliothek wurde bekanntlich nach dem Tode des kinderlosen Prinzen von dessen Erbin Victoria von Sachsen Hildburghausen für die Hofbibliothek 1737/1738 erworben. Dass sich sämtliche Bände heute geschlossen im Mitteloval des Prunksaals befänden – wie oftmals vermittelt wird – ist nicht korrekt. Zahlreiche Bände wurden seit dem Erwerb veräußert, eine große Menge wurde auf verschiedene Speicherorte innerhalb der Bibliothek verteilt. Nur ein Teil der mit „BE“ (Bibliotheca Eugeniana) einsignierten Bände verfügt wiederum über einen Supralibros-Einband.
Die Supralibros-Einbände der Bibliotheca Eugeniana vereinen dafür typische Provenienzmerkmale, von welchen für diesen Anwendungsfall nur die Supralibros – welche in mehreren Varianten und Größen vorliegen – berücksichtigt wurden.9 Das Training für dieses spezifische Modell basierte auf ausreichend Trainingsdaten (n = 200), zumal Supralibros von Vorder- und Hinterdeckel verwendet werden konnten. Es wurde darauf geachtet, dass die Varianten des Supralibros ausreichend im Trainingsset vertreten sind. Die mit der Zuordnung zu verschiedenen Wissensgebieten korrelierenden Farben der Einbanddeckel hatten keinen negativen Einfluss auf die Bildklassifikation.
Das trainierte Modell wurde auf 69.098 Digitalisate von Büchern der Erscheinungsjahre zwischen 1600 und 1699 getestet. Daraus wurden 3.205 korrekt positiv erkannt (True Positives) und 371 fälschlich positiv klassifiziert. In einem Sample von 100 Barcodes wiesen 25 Prozent keine BESignatur auf.
Diese ersten Testungen der auf Machine Learning basierten Verfahren zur Erkennung von Bildmerkmalen sind positiv zu bewerten. Ausschlaggebend für die Genauigkeit der Modelle sind Volumen und Qualität der Trainingsdaten, in diesem Fall die Verfügbarkeit von Digitalisaten mit positiven Beispielen in ausreichender Qualität (n > 100). Das Verfahren ist unseres Erachtens ein effizientes Werkzeug für die explorative Erschließung von Beständen. Limitat Grenzen ergeben sich aus der Beschränkung auf digitalisierte Bestände sowie daraus, dass die Entscheidungsprozesse der verwendeten CNN eine Blackbox sind (Stichwort explainable AI) und die Zahl der unerkannten positiven Fälle unter den negativ Klassifizierten nur mit erheblichem Aufwand ermittelt werden kann. Mit Austrian Books Online ist jedoch ein reicher Fundus für weitere Use Cases zu diesem Verfahren vorhanden, deren Testung auf jeden Fall lohnend ist.10
Über die Autoren: Mag. Martin Krickl, arbeitet an der Abteilung Forschung und Entwicklung der Österreichischen Nationalbibliothek als Projektleiter der Library Labs. Von 2012 bis 2018 arbeitete er an der Sammlung von Handschriften und Alten Drucken im Rahmen des Projekts Austrian Books Online.
Emanuel Zangger BA ist Studierender des Studienganges Data Science and Business Analytics der FH Sankt Pölten.
1 Als Einführung in das Thema Künstliche Intelligenz zu empfehlen: Melanie Mitchell. 2019. Artificial Intelligence: A Guide for Thinking Humans. London: Pelican.
2 Zu den Einsatzmöglichkeiten vgl. Jason Giffrey (2019): Artificial Intelligence And Machine Learning In Libraries. Library Technology Reports 55 (1). doi.org/10.5860/ltr.55n1
3 Einen guten Überblick gibt Ryan Cordell (2020): Machine Learning + Libraries. A Report of the State of the Field. Library of Congress. labs.loc.gov/static/labs/work/reports/Cordell-LOC-ML-report.pdf
4 Dazu vgl. Aurélien Géron (2019): Hans-On Machine Learning with Scikit-Learn and TensorFlow: COncepts, Tools, and Techniques to Build Intelligent Systems. 2nd edition. Farnham: O’Reilly.
5 Wir verweisen auf die lesenswerte Einführung Ethem Alpaydin (2016): Machine Learning. The New AI. Cambridge, MA: MIT Press.
6 Zu den unterschiedlichen Formen vgl. David Pearson (1994): Provenance Research In Book History: A Handbook. London: The British Library.
7 ”Hermmann Hallwich”. In: Österreichisches Biographisches Lexikon 1815-1950, Bd. 2. Heinz Zatschek (1966): ”Hallwich, Hermann”. In: Neue Deutsche Biographie, Bd. 7, 566f. [Online Version www.deutsche-biographie.de/pnd139873708.html]
8 Bericht zur Bücherschenkung Hallwich, 27.09.1913, ÖNB Archiv, Allg. Verwaltungs- und Korrespondenzakten 627/1913.
9 Zu den typischen Supralibros-Einbänden mit Maroquinleder der Bibliotheca Eugeniana vgl. Joannes Guigard (1872): Armorial du bibliophile, P. 3. Paris: Bachelin-Deflorenne, 200f. Laurenz Strebl (1968): Große Bibliophile des 18. Jahrhunderts. Prinz Eugen von Savoyen, Georg Wilhelm von Hohendorf, Antonio Folch de Cordona. Ausstellungskatalog ÖNB. Wien: ÖNB, 47f.
10 Weitere Testungen und eine genauere Beschreibung von Methode und Pipeline wird in einem Artikel der Zeitschrift Bibliothek – Forschung und Praxis nachzulesen sein.
Aufgrund von Veranstaltungen wird der Prunksaal am Donnerstag, 24. Oktober bereits um 18 Uhr, am Freitag, 1. November bereits um 16 Uhr und am Donnerstag, 14. November bereits um 18 Uhr geschlossen.
Die Lesesäle am Heldenplatz bleiben am Samstag, den 2. November, geschlossen.