
Das Projekt "ASR4Memory", gefördert durch das NFDI-Konsortium 4Memory, hat eine datenschutzkonforme, KI-gestützte Lösung zur Transkription historischer Audio- und Videoquellen auf Basis von "WhisperX" entwickelt. Über eine benutzerfreundliche Weboberfläche können audiovisuelle Materialien hochgeladen und sicher verarbeitet werden. Die Anwendung ermöglicht eine hochwertige Transkription in über 30 Sprachen inklusive Sprecherdiarisierung, Satz- und Wortalinierung sowie Export in vielfältige Nachnutzungsformate. Zur Verbesserung der Transkriptqualität wurde ein domänenspezifisches Fine-Tuning des Whisper-Modells "Large-v3" mit anonymisierten, deutschsprachigen Oral-History-Daten durchgeführt. Die Evaluationsergebnisse, basierend auf WER-Berechnungen und LLM-basierten Fehleranalysen, zeigen eine erhebliche Verbesserung der Transkriptionsgenauigkeit sowie eine Abschwächung von Glättungseffekten auf, sodass die Nutzung des fine-getunten Modells eine wortgetreuere Transkription ermöglicht. Das Poster präsentiert die Systemarchitektur der Anwendung, ergänzt durch eine audiovisuelle Demonstration der Ergebnisse des Fine-Tunings vor Ort.
Paper, audiovisuelle Forschungsdaten, Sprache, DHd2026, Oral History, Programming, Automatische Spracherkennung (ASR), Video, Poster, Transcription, Fine-Tuning von Sprachmodellen, Ton, Annotating
Paper, audiovisuelle Forschungsdaten, Sprache, DHd2026, Oral History, Programming, Automatische Spracherkennung (ASR), Video, Poster, Transcription, Fine-Tuning von Sprachmodellen, Ton, Annotating
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
