Perché Vulgate usa TEI XML

Come la codifica XML strutturata rende i tuoi documenti ricercabili, citabili e pronti per il lavoro accademico.

21 mag 2026

Ogni documento che arriva in Vulgate viene codificato come TEI XML — il formato XML della Text Encoding Initiative, lo standard de facto per le edizioni digitali accademiche. Non devi scrivere o nemmeno vedere l'XML tu stesso, ma è alla base di quasi tutto ciò che Vulgate fa bene.

Cos'è TEI XML

TEI XML è un vocabolario di tag XML per descrivere la struttura e la semantica di un testo — frontespizio, corpo, capitoli, sezioni, note marginali, note a piè di pagina, etichette dei parlanti, interruzioni di riga, interruzioni di pagina, e molto altro. È stato progettato da studiosi di discipline umanistiche alla fine degli anni '80 ed è mantenuto oggi da un consorzio internazionale.

A differenza del testo semplice, TEI XML preserva:

  • La gerarchia di un documento (libro → capitolo → sezione → paragrafo).
  • Metadati come autore, editore, data di pubblicazione, edizione.
  • Apparato come note a piè di pagina, marginalia e correzioni editoriali.
  • Numeri di pagina e riga ancorati a posizioni specifiche nel testo.
  • Turni dei parlanti in dialoghi, sermoni e opere teatrali.

Cosa ottieni grazie a questo

Questa consapevolezza strutturale è il motivo per cui Vulgate può fare cose che gli strumenti di testo semplice non possono:

  • Citazioni precise. Le citazioni puntano a sezioni codificate nel TEI — tipicamente mostrate come titolo del documento e intestazione della sezione più vicina — non intervalli di caratteri approssimati.
  • Chat consapevole delle sezioni. Chat e l'Assistente AI nel documento recuperano a livello di sezione, il che dà risposte più focalizzate e accurate rispetto alla suddivisione per conteggio di caratteri.
  • Traduzione per paragrafo. Le traduzioni automatiche funzionano su interi paragrafi perché il confine del paragrafo è codificato nell'XML.
  • Segnalibri stabili. I Segnalibri puntano ad ancore strutturali, non offset di byte, quindi sopravvivono alla rielaborazione o modifica del documento.

Come viene prodotta la codifica

La codifica avviene durante l'elaborazione, completamente automaticamente:

  1. Il testo grezzo viene estratto (OCR per scansioni, estrazione nativa per PDF ricercabili e documenti Word).
  2. Una pipeline di modelli linguistici segmenta il testo in unità strutturali.
  3. Intestazioni, note a piè di pagina, numeri di pagina, marginalia e turni dei parlanti vengono rilevati e taggati.
  4. Il risultato viene serializzato in TEI XML e memorizzato insieme al file originale.

Gli amministratori dell'Organizzazione possono ispezionare l'XML sottostante durante la revisione del documento in Caricamenti → Elaborazione.

Modificare la codifica

Se la codifica automatica sbaglia qualcosa (una nota a piè di pagina mancante, un'interruzione di capitolo nel posto sbagliato), un amministratore dell'Organizzazione può aprire il documento nell'editor strutturale durante la revisione e regolare i confini. L'AI inizia a usare la struttura corretta una volta che il documento viene ripubblicato.

Letture consigliate

Cerca nell'assistenza