Audio-Transkriptionsprobleme

Vulgate transkribiert Audio-Uploads mit hochwertigen Speech-to-Text-Modellen. Die überwiegende Mehrheit der Dateien kommt mit brauchbaren Transkripten zurück, aber einige häufige Probleme treten auf — dieser Artikel behandelt sie.

Der Auftrag endet mit Fehler

Öffnen Sie Uploads → Verarbeitung in der Seitenleiste und klicken Sie auf die fehlerhafte Zeile für den spezifischen Grund. Die häufigsten sind:

Nicht unterstütztes Format — Konvertieren Sie mit ffmpeg zu MP3 oder WAV und laden Sie erneut hoch. Wir akzeptieren MP3, M4A, AAC, WAV, FLAC, OGG, Opus und gängige Videocontainer (Audiospur wird transkribiert).
Stille Datei — Eine Datei mit weniger als ein paar Sekunden hörbarem Inhalt kann nicht transkribiert werden. Bestätigen Sie, dass die Datei in Ihrem lokalen Player hörbar abgespielt wird.
Sehr lange Datei — Lange Dateien können einen Timeout verursachen. Teilen Sie mit ffmpeg:
```
ffmpeg -i input.mp3 -f segment -segment_time 3600 -c copy chunk_%03d.mp3
```
Laden Sie dann jeden Abschnitt einzeln hoch.
Ausgabenlimit überschritten — Die Verarbeitungsguthaben Ihres Tarifs für den Monat sind aufgebraucht. Upgraden Sie oder warten Sie bis zum nächsten Zyklus.

Bei anderen Fehlermeldungen kopieren Sie den genauen Text und schreiben Sie an info@vulgate.ai mit der Auftrags-ID.

Das Transkript ist ungenau

Die Qualität der Transkription hängt hauptsächlich von der Eingabequalität ab:

Hintergrundgeräusche. Cafés, Menschenmengen, Klimaanlagen-Brummen oder Wind verschlechtern die Genauigkeit erheblich. Nehmen Sie nach Möglichkeit in einer ruhigeren Umgebung erneut auf.
Mehrere überlappende Sprecher. Vulgate erkennt Sprecherwechsel, aber überlappende Sprache läuft oft zusammen. Getrennte Aufnahmen für jeden Sprecher auf eigener Spur und separates Hochladen erzeugt deutlich bessere Ergebnisse.
Niedrige Abtastrate. Dateien mit 8 kHz Abtastung (altes Telefon-Audio, einige VoIP) haben mehr Fehler als 16 kHz oder höher.
Starke Akzente oder Dialekte. Die meisten großen Dialekte werden gut unterstützt, aber sehr starke regionale Akzente können wörtlich-aber-falsche Transkriptionen erzeugen („council“ → „consul“).
Spezialisiertes Vokabular. Theologische, juristische oder wissenschaftliche Begriffe können phonetisch transkribiert werden.

Mehrsprachiges Audio

Wenn eine Aufnahme zwischen Sprachen wechselt (z.B. eine italienischsprachige Predigt mit lateinischen liturgischen Passagen), folgt das Transkript der dominanten Sprache und stolpert über die sekundäre. Best Practice: Teilen Sie die Datei an Sprachgrenzen vor dem Hochladen, auch wenn es nur zwei Dateien sind.

Wann Sie uns kontaktieren sollten

Schreiben Sie an info@vulgate.ai mit der Auftrags-ID, wenn:

Sie eine Fehlermeldung erhalten, die oben nicht behandelt wird.
Die Transkriptionsqualität bei einer Datei, die Sie als sauber verifiziert haben, dramatisch schlechter als erwartet ist.
Dieselbe Datei wiederholt fehlschlägt, obwohl sie deutlich innerhalb der Größen- und Formatlimits liegt.