A digital Workflow for Historical Corpora – from HTR to NER
Wann & wo
- Datum: 26.–28. August 2024
- Ort: online und dezentral via Zoom
- Eingeladen sind Studierende, aber auch Historiker:innen jeder Qualifikationsstufe (vom Bachelor bis zur Professur), Archivar:innen und alle anderen Interessierten
Thema
Historisch arbeitende Wissenschaftler:innen müssen sich aktiv den vielfältigen Möglichkeiten und Methoden stellen, die sich durch die rasanten Entwicklungen im Bereich der Digitalisierung und künstlichen Intelligenz ergeben. Digital Humanities bzw. Digital History verändern derzeit das historische Arbeiten in vielerlei Hinsicht und eröffnen neue Arbeitsweisen sowie Zugänge zu Quellen. Besonders im Bereich der Handschriftenerkennung und der Verarbeitung großer Datenmengen können umfassende Fortschritte verzeichnet werden. Vor diesem Hintergrund bietet die FGHO in Zusammenarbeit mit den Universitäten Bern und Bielefeld eine praxisorientierte Summerschool an, die dieses Jahr im Kontext des gemeinsamen Forschungsprojekts »The Flow – from Deep-Learning to Digital Analysis and their Role in the Humanities. Creating, Evaluating and Critiquing Workflows for Historical Corpora« durchgeführt wird.
Insbesondere die Arbeit mit Originalquellen und die damit verbundenen Kompetenzen unterliegen einem Wandel. Im Bereich der Handwritten Text Recognition (HTR) werden ständig neue Tools entwickelt, die die Transkription handschriftlicher Quellen unterstützen. Den Überblick über die zahlreichen Algorithmen und Anwendungen mit all ihren Vor- und Nachteilen zu behalten, ist für Forschende nicht immer einfach. Deswegen widmet sich der erste Block der Veranstaltung dem Vergleich verschiedener Anbieter. Nach einer Einführung liegt der Fokus auf der Arbeit mit dem frei zugänglichen Tool eScriptorium. Teilnehmende bekommen die Möglichkeit die nötigen Arbeitsschritte der HTR – vom Upload der Dateien, über die Segmentierung bis hin zur Erkennung des Textes – an vorbereitetem Übungsmaterial auszutesten.
Der zweite Themenblock befasst sich mit der Named Entity Recognition bzw. der Nested Entity Recognition: Welche Fragen lassen sich mit Hilfe von NER beantworten? Welche Vorteile bietet NER für geschichtswissenschaftliches Arbeiten? Nach einer Einführung in das Thema werden verschiedene Tools vorgestellt, um im Anschluss den Teilnehmenden die Möglichkeit zu bieten, mit dem Annotationstool INCEpTION NER-Tagging einzuüben.
Anmeldung
Bewerber:innen sollten bereits erste Erfahrungen im Bereich der HTR gesammelt haben. Die Veranstaltung findet auf Englisch statt. Die Teilnehmenden müssen über einen Internetzugang sowie einen Google-Account verfügen. Interessierte bitten wir um einen kurzen Lebenslauf (max. 1 Seite DIN A4) und ein Motivationsschreiben (max. 1 Seite DIN A4), in dem auch auf vorhandene Vorkenntnisse und persönliche Erwartungen oder eigene aktuelle Projekte eingegangen werden sollte. Bei Interesse senden Sie bitte die oben genannten Informationen bis zum 10. August 2024 in einer PDF-Datei an info [at] fgho.eu.
Programm
- Tag 1 (Montag, 26.08.)
- 09:30–12:00 Uhr: Begrüßung und Einführung in die Sommerschule; Einführung in das Projekt »The Flow«
- 12:00–13:30 Uhr: Mittagspause
- 13:30–15:30 Uhr: Einführung HTR/NER
- 15:30–16:00 Uhr: Kaffeepause
- 16:00–17:00 Uhr: Input
- Tag 2 (Dienstag, 27.08.)
- 09:30–12:00 Uhr: Einstieg im Vergleich verschiedener HTR-Anbieter
- 12:00–13:30 Uhr: Mittagspause
- 13:30–15:30 Uhr: Fokus auf eScriptorium und die einzelnen Arbeitsschritte inklusive Zeit zum Testen an vorbereitetem Material
- 15:30–16:00 Uhr: Kaffeepause
- 16:00–17:00 Uhr: Zeit für Rückfragen
- ab 17:00 Uhr: Virtueller Apéro
- Tag 3 (Mittwoch, 28.08.)
- 09:30–12:00 Uhr: Einführung in NER; Arbeit mit Schemata; Vorstellung Vergleich Annotationstools; Einblicke in Anwendung
- 12:00–13:30 Uhr: Mittagspause
- 13:30–15:30 Uhr: Arbeit mit INCEpTION und Ausprobieren an vorbereitetem Material
- 15:30–16:00 Uhr: Kaffeepause
- 16:00–17:00 Uhr: Abschluss mit offenen Fragen und Diskussion