Perché Vulgate usa TEI XML

Ogni documento che arriva in Vulgate viene codificato come TEI XML — il formato XML della Text Encoding Initiative, lo standard de facto per le edizioni digitali accademiche. Non devi scrivere o nemmeno vedere l'XML tu stesso, ma è alla base di quasi tutto ciò che Vulgate fa bene.

Cos'è TEI XML

TEI XML è un vocabolario di tag XML per descrivere la struttura e la semantica di un testo — frontespizio, corpo, capitoli, sezioni, note marginali, note a piè di pagina, etichette dei parlanti, interruzioni di riga, interruzioni di pagina, e molto altro. È stato progettato da studiosi di discipline umanistiche alla fine degli anni '80 ed è mantenuto oggi da un consorzio internazionale.

A differenza del testo semplice, TEI XML preserva:

La gerarchia di un documento (libro → capitolo → sezione → paragrafo).
Metadati come autore, editore, data di pubblicazione, edizione.
Apparato come note a piè di pagina, marginalia e correzioni editoriali.
Numeri di pagina e riga ancorati a posizioni specifiche nel testo.
Turni dei parlanti in dialoghi, sermoni e opere teatrali.

Cosa ottieni grazie a questo

Questa consapevolezza strutturale è il motivo per cui Vulgate può fare cose che gli strumenti di testo semplice non possono:

Citazioni precise. Le citazioni puntano a sezioni codificate nel TEI — tipicamente mostrate come titolo del documento e intestazione della sezione più vicina — non intervalli di caratteri approssimati.
Chat consapevole delle sezioni. Chat e l'Assistente AI nel documento recuperano a livello di sezione, il che dà risposte più focalizzate e accurate rispetto alla suddivisione per conteggio di caratteri.
Traduzione per paragrafo. Le traduzioni automatiche funzionano su interi paragrafi perché il confine del paragrafo è codificato nell'XML.
Segnalibri stabili. I Segnalibri puntano ad ancore strutturali, non offset di byte, quindi sopravvivono alla rielaborazione o modifica del documento.

Come viene prodotta la codifica

La codifica avviene durante l'elaborazione, completamente automaticamente:

Il testo grezzo viene estratto (OCR per scansioni, estrazione nativa per PDF ricercabili e documenti Word).
Una pipeline di modelli linguistici segmenta il testo in unità strutturali.
Intestazioni, note a piè di pagina, numeri di pagina, marginalia e turni dei parlanti vengono rilevati e taggati.
Il risultato viene serializzato in TEI XML e memorizzato insieme al file originale.

Gli amministratori dell'Organizzazione possono ispezionare l'XML sottostante durante la revisione del documento in Caricamenti → Elaborazione.

Modificare la codifica

Se la codifica automatica sbaglia qualcosa (una nota a piè di pagina mancante, un'interruzione di capitolo nel posto sbagliato), un amministratore dell'Organizzazione può aprire il documento nell'editor strutturale durante la revisione e regolare i confini. L'AI inizia a usare la struttura corretta una volta che il documento viene ripubblicato.

Letture consigliate

Le Linee guida TEI ufficiali.
La panoramica dell'Ingest API di Vulgate per come caricare ed elaborare via codice.