Warum Vulgate TEI XML verwendet

Jedes Dokument, das in Vulgate landet, wird als TEI XML kodiert — das XML-Format der Text Encoding Initiative, der De-facto-Standard für wissenschaftliche digitale Editionen. Sie müssen das XML selbst weder schreiben noch sehen, aber es ist die Grundlage für fast alles, was Vulgate gut kann.

Was TEI XML ist

TEI XML ist ein Vokabular von XML-Tags zur Beschreibung der Struktur und Semantik eines Textes — Titelei, Haupttext, Kapitel, Abschnitte, Randnotizen, Fußnoten, Sprecherkennzeichnungen, Zeilenumbrüche, Seitenumbrüche und vieles mehr. Es wurde von Geisteswissenschaftlern Ende der 1980er Jahre entwickelt und wird heute von einem internationalen Konsortium gepflegt.

Im Gegensatz zu Klartext bewahrt TEI XML:

Die Hierarchie eines Dokuments (Buch → Kapitel → Abschnitt → Absatz).
Metadaten wie Autor, Herausgeber, Erscheinungsdatum, Ausgabe.
Apparat wie Fußnoten, Marginalien und editorische Korrekturen.
Seiten- und Zeilennummern, verankert an bestimmten Positionen im Text.
Sprecherwechsel in Dialogen, Predigten und Theaterstücken.

Was Sie dadurch erhalten

Dieses strukturelle Bewusstsein ist der Grund, warum Vulgate Dinge kann, die Klartext-Tools nicht können:

Präzise Zitate. Zitate verweisen auf kodierte Abschnitte im TEI — typischerweise angezeigt als Dokumenttitel und nächste Abschnittsüberschrift — nicht auf ungefähre Zeichenbereiche.
Abschnittsbewusster Chat. Chat und der KI-Assistent in Dokumenten rufen auf Abschnittsebene ab, was fokussiertere, genauere Antworten liefert als das Aufteilen nach Zeichenzahl.
Absatzweise Übersetzung. Maschinelle Übersetzungen arbeiten mit ganzen Absätzen, weil die Absatzgrenze im XML kodiert ist.
Stabile Lesezeichen. Lesezeichen verweisen auf strukturelle Anker, nicht auf Byte-Offsets, sodass sie eine erneute Verarbeitung oder Bearbeitung des Dokuments überstehen.

Wie die Kodierung erstellt wird

Die Kodierung erfolgt während der Verarbeitung vollständig automatisch:

Rohtext wird extrahiert (OCR für Scans, native Extraktion für durchsuchbare PDFs und Word-Dokumente).
Eine Pipeline von Sprachmodellen segmentiert den Text in strukturelle Einheiten.
Überschriften, Fußnoten, Seitenzahlen, Marginalien und Sprecherwechsel werden erkannt und markiert.
Das Ergebnis wird als TEI XML serialisiert und zusammen mit der Originaldatei gespeichert.

Organisations-Administratoren können das zugrundeliegende XML während der Dokumentenüberprüfung unter Uploads → Verarbeitung einsehen.

Die Kodierung bearbeiten

Wenn die automatische Kodierung etwas falsch macht (eine fehlende Fußnote, ein Kapitelumbruch an der falschen Stelle), kann ein Organisations-Administrator das Dokument während der Überprüfung im Struktur-Editor öffnen und Grenzen anpassen. Die KI verwendet die korrigierte Struktur, sobald das Dokument erneut veröffentlicht wird.

Weiterführende Literatur

Die offiziellen TEI-Richtlinien.
Die Vulgate Ingest API – Übersicht für das Hochladen und Verarbeiten per Code.