Bericht über das ÖNB Labs Symposium 2024 „Newspapers as Datasets“

Forschung

15.01.2025
Digitale Angebote
Digitale Collage aus alten Zeitungstitelseiten, darüber steht ein rot hinterlegter Text: Newspapers as Datasets, ONB Labs Symposium 2024

Expert*innen diskutierten über historische Zeitungen, künstliche Intelligenz und Ethik im Bibliotheks- und Forschungskontext.

Autoren: Johannes Knüchel und Christoph Steindl

Am 25. und 26. November 2024 fand in der Österreichischen Nationalbibliothek (ÖNB) eine neue Ausgabe des ÖNB Labs1 Symposiums unter dem Titel „Newspapers as Datasets“ statt. Forschende, Entwickler*innen und Bibliotheksfachleute tauschten sich darüber aus, wie historische Zeitungen als Datensets erschlossen, analysiert und genutzt werden können.

Mit vier Panels, die von technologischen Innovationen über digitale Infrastrukturen bis hin zu ethischen Fragestellungen und konkreten Werkstattberichten reichten, bot die Veranstaltung eine große Bandbreite an Themen. Neben internationalen Projekten standen auch nationale Initiativen, praktische Anwendungen und einzelne Forschungsvorhaben im Fokus. Das vielfältige und interessante Programm mit 14 Vortragenden lockte mehr als 70 Gäste aus dem In- und Ausland an die ÖNB.

Christoph Steindl, Leiter des ÖNB Labs Teams und der Abteilung Forschung und Datenservices, begrüßte die Teilnehmer*innen und eröffnete das Symposium mit einer Übersicht über die zentralen Punkte des Programms: „collections as data“2, KI-Anwendungen und aktuelle Herausforderungen bei der Erschließung historischer Zeitungen.

Technologische Innovationen

Eines der Hauptthemen der Veranstaltung war die Diskussion technologischer Fortschritte in der Analyse historischer Zeitungsdaten. Clemens Neudecker von der Staatsbibliothek Berlin blickte in seinem Vortrag „Newspapers as Data: What’s the News for AI and DH?“ auf ein Jahrzehnt technologischer Entwicklungen zurück.3 Er stellte Projekte wie OCR-D4, Qurator5 und Mensch.Maschine.Kultur6 vor, die maschinelles Lernen zur Layouterkennung in Scans einsetzen, und beleuchtete die Herausforderungen der semantischen Analyse historischer Zeitungen. Besonders betonte er den Einsatz moderner GPUs zur Verbesserung von OCR-Algorithmen. Sébastien Cretin von der Französischen Nationalbibliothek präsentierte das FINLAM-Projekt7, das ein Modell zur umfassenden Segmentierung historischer Dokumente entwickelt. Gemeinsam mit Partnern wie dem LITIS-Lab8 und TEKLIA9 nutzt das Team synthetisch generierte Daten, um die Leistung der Modelle zu optimieren. Trotz vielversprechender Ergebnisse ist die systematische quantitative Bewertung der Modelle noch eine zukünftige Aufgabe. Andy Stauder, Geschäftsführer von Transkribus10, einem Programm für die optimale Erkennung von Druck- und Handschriften, zeigte, wie End-to-End-ATR11-Modelle Text- und Layoutanalyse vereinen können. Sein Vortrag hob hervor, dass diese Modelle komplexe Leserichtungen und -abfolgen besser bewältigen und eine höhere Zuverlässigkeit als Large Language Models (LLMs) bieten.

Digitale Infrastrukturen und nachhaltige Workflows in Projekten

Mehrere Vorträge widmeten sich außerdem der Frage, wie Forschungsinfrastrukturen die Arbeit mit historischen Zeitungsdaten erleichtern können. Sally Chambers (The British Library & DARIAH-EU) stellte europäische Plattformen wie DARIAH-Campus12 und den SSH Open Marketplace13 vor. Ihr Vortrag zeigte, wie solche Tools Forschenden helfen, strukturierte Workflows zu entwickeln und auf relevante Datensets zuzugreifen bzw. sie zu publizieren. Antoine Doucet von der Universität La Rochelle reflektierte über das NewsEye-Projekt14, das semantische Analysemethoden für historische Zeitungen nutzbar machte. Er fragte, was ein potenzielles „NewsEye 2“ leisten müsste, und betonte die Bedeutung von Technologien wie Named Entity Recognition (NER, „Erkennung genannter Entitäten“) sowie von Methoden zur zuverlässigen Artikelsegmentierung in Zeitungen.15 Maud Ehrmann (École Polytechnique Fédérale de Lausanne) und Marten Düring (Luxembourg Centre for Contemporary and Digital History) präsentierten das Impresso 2-Projekt16, das Zeitungen und Radiosendungen in einem gemeinsamen Forschungsrahmen verbindet. Sie demonstrierten, wie das Impresso DataLab Nutzer*innen Zugang zu APIs17, Modellen und interaktiven Analyse-Tools bietet. Die Entwicklungen rund um die Projekte NewsEye und Impresso 2 sind für die Österreichische Nationalbibliothek von besonderem Interesse, da sie selbst in den Projekten beteiligt war und Daten aus ANNO (Austrian Newspapers Online) verarbeitet werden. Die ÖNB Labs18 selbst, ebenfalls Kerninfrastruktur für die Bereitstellung von Forschungsdaten, nutzten den Anlass dieser Veranstaltung und aktualisierten einzelne Datensets grundlegend und überarbeiteten die Darstellung umfangreich. Johannes Knüchel vom Team der ÖNB Labs stellte neue Datensets19 und das einheitlichere sowie intuitivere Design vor.

Das Konzept Collections as Data wird für die Aufbereitung von Forschungsdaten an diversen Kulturerbeeinrichtungen, wie auch den ÖNB Labs verwendet. Folie aus der Präsentation von Sally Chambers – CC BY

Ethische Fragen und historische Forschung

Bei einigen Vorträgen standen die gesellschaftlichen und ethischen Dimensionen der Arbeit mit historischen Daten im Mittelpunkt. Eva Pfanzelter von der Universität Innsbruck sprach über die ethischen Herausforderungen bei der Datennutzung. Sie hob hervor, wie wichtig es ist, Verzerrungen in KI-Modellen zu erkennen und durch interdisziplinäre Zusammenarbeit auszugleichen. Christian Lendl von der Universität Wien stellte sein Projekt zur Analyse sozialer Netzwerke im „Wiener Salonblatt“20 vor. Mithilfe maßgeschneiderter Modelle identifiziert er historische Beziehungsgeflechte und untersucht die Entwicklung der Werbekultur im habsburgischen Adel und vergleicht sie mit den aktuellen Social Media. Nina C. Rastinger (Österreichische Akademie der Wissenschaften) beleuchtete in ihrem Vortrag „Love for Lists“ die Vielfalt an Listen in historischen Zeitungen. Mit einem gemischten methodischen Ansatz analysiert sie textliche Muster und erschließt neue Erkenntnisse zur Funktion von Listen als Informationsquelle.

Perspektiven und neue Projekte

Mehrere Vorträge boten zudem Einblicke in aktuelle Projekte und zukünftige Entwicklungen. Jörg Lehmann von der Staatsbibliothek Berlin zeigte, wie so genannte Datasheets21 als Vermittler zwischen kulturellem Erbe und maschinellem Lernen dienen können. Eine Webanwendung zur Erstellung solcher Datasheets befindet sich in der Entwicklung und soll bald veröffentlicht werden. Simon Mayer von der Österreichischen Nationalbibliothek präsentierte das Projekt „Bibliotheca Eugeniana Digital“22. Mithilfe von maschinellem Lernen konnten anhand von Merkmalen (z. B. Einband, Wappen) Bücher identifiziert werden, die einst Prinz Eugen von Savoyen gehörten. Die digitale Ausgabe23 ermöglicht eine visuelle Exploration dieser Sammlung. Tan Lu von der Königlichen Bibliothek Belgiens demonstrierte anhand von BelgicaPress24, wie Deep-Learning-Modelle historische Zeitungen analysieren. Seine Visualisierungen zeigten, welche Bereiche einer Zeitungsseite für die Entscheidungsfindung des Modells besonders relevant sind (siehe Slide unten). Javier de la Rosa von der Norwegischen Nationalbibliothek stellte das Mímir-Projekt vor, das die Rolle urheberrechtlich geschützter Daten in Sprachmodellen untersucht. Erste Ergebnisse deuten darauf hin, dass geschütztes Material die Modellleistung erheblich verbessert.

Fazit und Ausblick

Das internationale ÖNB Labs Symposium 2024 zeigte eindrucksvoll, wie interdisziplinäre Ansätze die Erforschung historischer Zeitungen voranbringen können. Es stellte sich in den Vorträgen und Diskussionen heraus, dass einheitliche Workflows für die Bereitstellung digitalisierter historischer Zeitungen, aber auch für deren Erforschung sehr wichtig sind. Die stete Verbesserung von Forschungsdaten ist nach wie vor ein Ziel für Institutionen und Nutzer*innen. Durch den Austausch zwischen Forschung und Praxis bot das Symposium wertvolle Impulse für künftige Projekte.

Die vollständigen Präsentationen der Vortragenden finden Sie auf der Website zum Symposium auf den ÖNB Labs.

Zu den Autoren: Johannes Knüchel MA ist Mitarbeiter in der Abteilung Forschung und Datenservices in der Hauptabteilung Digitale Bibliothek der Österreichischen Nationalbibliothek. DI Christoph Steindl BSc ist Leiter des ÖNB Labs Teams und der Abteilung Forschung und Datenservices in der Hauptabteilung Digitale Bibliothek der Österreichischen Nationalbibliothek.

Fußnoten

1 Siehe urn:pwid:archive.org/web/20240908164415/https://labs.onb.ac.at/de/ bzw. https://labs.onb.ac.at/de/.

2 Siehe Thomas Padilla et al., “Always Already Computational: Collections as Data: Final Report,” Copyright, Fair Use, Scholarly Communication, etc. (22. Mai 2019), https://digitalcommons.unl.edu/scholcom/181; Thomas Padilla, Hannah Scates Kettler, und Yasmeen Shorish, Collections as Data: Part to Whole Final Report (Zenodo, 20. November 2023), https://zenodo.org/records/10161976.

3 Siehe  urn:pwid:archive.org/web/20241206132355/http://www.europeana-newspapers.eu/.

4 Siehe  urn:pwid:archive.org/web/20241205044325/https://ocr-d.de/.

5 Siehe  urn:pwid:archive.org/web/20241006140706/https://qurator.ai/.

6 Siehe  urn:pwid:archive.org/web/20241215201558/https://mmk.sbb.berlin/.

7 Siehe https://projets.litislab.fr/finlam/.

8 Siehe  urn:pwid:archive.org/web/20240803075817/https://litislab.fr/en.

9 Siehe  urn:pwid:archive.org/web/20241213153345/https://teklia.com/.

10 Siehe  urn:pwid:archive.org/web/20241213105304/https://www.transkribus.org/.

11 ATR steht für Automatic Text Recognition, „automatische Texterkennung“.

12 Siehe  urn:pwid:archive.org/web/20241216101320/https://campus.dariah.eu/.

13 Siehe  urn:pwid:archive.org/web/20241213114851/https://marketplace.sshopencloud.eu/.

14 Siehe  urn:pwid:archive.org/web/20241129160823/https://www.newseye.eu/.

15 Siehe Nancy Girdhar, Mickaël Coustaty, und Antoine Doucet, “STRAS: A Semantic Textual-Cues Leveraged Rule-Based Approach for Article Separation in Historical Newspapers,” in Leveraging Generative Intelligence in Digital Libraries: Towards Human-Machine Collaboration, ed. Dion H. Goh, Shu-Jiun Chen, and Suppawong Tuarob, vol. 14457 (Singapore: Springer Nature Singapore, 2023), 89–105, https://link.springer.com/10.1007/978-981-99-8085-7_8; Wenjun Sun et al., “LIAS: Layout Information-Based Article Separation in Historical Newspapers,” in Linking Theory and Practice of Digital Libraries, ed. Apostolos Antonacopoulos et al., vol. 15177 (Cham: Springer Nature Switzerland, 2024), 256–272, https://link.springer.com/10.1007/978-3-031-72437-4_15.

16 Siehe  urn:pwid:archive.org/web/20241215050255/https://impresso-project.ch/.

17 API steht für Application Programming Interface, „Anwendungsprogrammierschnittstelle“.

18 Siehe  urn:pwid:archive.org/web/20240624072524/https://labs.onb.ac.at/de/ bzw. https://labs.onb.ac.at/de/.

19 Siehe die Datensets zur Johann Caspar Lavater Sammlung, zu den Jesuitenchroniken und zu den Esperanto Zeitungsausschnitten unter https://labs.onb.ac.at/de/datasets/.

20 Siehe https://anno.onb.ac.at/cgi-content/anno?aid=wsb.

21 Siehe Henk Alkemade et al., “Datasheets for Digital Cultural Heritage Datasets,” Journal of Open Humanities Data 9 (October 30, 2023): 17, http://openhumanitiesdata.metajnl.com/articles/10.5334/johd.124/.

22 Siehe  urn:pwid:web.archive.org/web/20240713024425/https://labs.onb.ac.at/bed/.

23 Siehe https://edition.onb.ac.at/context:eugeniana.

24 Siehe  urn:pwid:web.archive.org/web/20241216220803/https://www.belgicapress.be/.

Achtung
Augustinerlesesaal

Der Augustinerlesesaal bleibt am 10. Februar 2025 geschlossen. Als Ersatz steht der Studienlesesaal der Sammlung von Handschriften und alten Drucken (Josefsplatz 1 im linken Gebäudeflügel, Handschriftenstiege 2. Stock) zu den regulären Öffnungszeiten zur Verfügung. Wir danken für Ihr Verständnis.

Prunksaal

Aufgrund einer Veranstaltung wird der Prunksaal am Donnerstag, 27. März bereits um 18 Uhr geschlossen.

Folgen Chat
JavaScript deaktiviert oder Chat nicht verfügbar.