metadata
			language:
  - de
  - en
license: mit
library_name: ctranslate2
pipeline_tag: automatic-speech-recognition
tags:
  - whisper-large-v3
  - ctranslate2
  - int8_float16
  - austrian-german
  - speech-to-text
  - localai
  - faster-whisper
model_type: whisper
base_model: openai/whisper-large-v3
quantization: int8_float16
inference: true
datasets:
  - common_voice_15_0
  - mozilla-foundation/common_voice_16_1
  - own/callcenter_at
metrics:
  - wer
Whisper‐large-v3-DE-AT (CT2 INT8 + FP16)
Feingetuntes Whisper-large-v3-Modell auf österreichisch-deutschen Sprachdaten.
Diese Variante ist komplett in [CTranslate2]-Format vorliegend und wurde mit--quantization int8_float16 exportiert.
Dadurch halbiert sich der GPU-VRAM-Bedarf bei praktisch identischer Genauigkeit.
| Eigenschaft | Wert | 
|---|---|
| Basismodell | openai/whisper-large-v3 | 
| Quantisierung | INT8-Gewichte + FP16-Aktivierungen | 
| Größe (model.bin) | ≈ 5.6 GB | 
| Empfohlene Hardware | ≥ 16 GB GPU (VRAM) oder starke CPU mit AVX2/AVX-512 | 
| Compute Type YAML | compute_type: int8_float16 | 
| Licence | MIT (wie Original) | 
🛠️ Verwendung
LocalAI ≥ v3.0
# whisper-large-v3-de-at.yaml
name: whisper-large-v3-de-at
backend: fast-whisper
parameters:
  model: whisper-large-v3-de-at-ct2
  language: de
  translate: false
  compute_type: int8_float16
  vad_filter: true
