Spaces:

fedirz
/

faster-whisper-server

Configuration error

App Files Files Community

Fedir Zadniprovskyi commited on Jun 23, 2024

Commit

79f1f8d

1 Parent(s): 83e02a3

fix task enum vals, fix env var parsing, improve gradio, use uv in dockerfile

Browse files

Files changed (7) hide show

Dockerfile.cpu +9 -11
Dockerfile.cuda +8 -10
faster_whisper_server/config.py +3 -3
faster_whisper_server/gradio_app.py +34 -13
faster_whisper_server/main.py +2 -2
flake.nix +1 -0
requirements.txt +0 -0

Dockerfile.cpu CHANGED Viewed

@@ -1,22 +1,20 @@
 FROM ubuntu:22.04
 # hadolint ignore=DL3008,DL3015,DL4006
 RUN apt-get update && \
-    apt-get install -y curl software-properties-common && \
     add-apt-repository ppa:deadsnakes/ppa && \
-    apt-get update && \
     DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends python3.12 python3.12-distutils && \
-    curl -sS https://bootstrap.pypa.io/get-pip.py | python3.12 && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
-RUN pip install --no-cache-dir poetry==1.8.3
 WORKDIR /root/faster-whisper-server
-COPY pyproject.toml poetry.lock ./
-RUN poetry install --only main
 COPY ./faster_whisper_server ./faster_whisper_server
-ENTRYPOINT ["poetry", "run"]
-CMD ["uvicorn", "faster_whisper_server.main:app"]
-ENV WHISPER_MODEL=Systran/faster-whisper-medium.en
-ENV WHISPER_INFERENCE_DEVICE=cpu
-ENV WHISPER_COMPUTE_TYPE=int8
 ENV UVICORN_HOST=0.0.0.0
 ENV UVICORN_PORT=8000

 FROM ubuntu:22.04
+# `ffmpeg` is installed because without it `gradio` won't work with mp3(possible others as well) files
 # hadolint ignore=DL3008,DL3015,DL4006
 RUN apt-get update && \
+    apt-get install -y ffmpeg software-properties-common && \
     add-apt-repository ppa:deadsnakes/ppa && \
     DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends python3.12 python3.12-distutils && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
 WORKDIR /root/faster-whisper-server
+COPY requirements.txt .
+RUN --mount=from=ghcr.io/astral-sh/uv:latest,source=/uv,target=/bin/uv \
+    uv pip install --system --python 3.12 --no-cache -r requirements.txt
 COPY ./faster_whisper_server ./faster_whisper_server
+ENV WHISPER__MODEL=Systran/faster-whisper-medium.en
+ENV WHISPER__INFERENCE_DEVICE=cpu
+ENV WHISPER__COMPUTE_TYPE=int8
 ENV UVICORN_HOST=0.0.0.0
 ENV UVICORN_PORT=8000
+CMD ["uvicorn", "faster_whisper_server.main:app"]

Dockerfile.cuda CHANGED Viewed

@@ -1,21 +1,19 @@
 FROM nvidia/cuda:12.2.2-cudnn8-runtime-ubuntu22.04
 # hadolint ignore=DL3008,DL3015,DL4006
 RUN apt-get update && \
-    apt-get install -y curl software-properties-common && \
     add-apt-repository ppa:deadsnakes/ppa && \
-    apt-get update && \
     DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends python3.12 python3.12-distutils && \
-    curl -sS https://bootstrap.pypa.io/get-pip.py | python3.12 && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
-RUN pip install --no-cache-dir poetry==1.8.3
 WORKDIR /root/faster-whisper-server
-COPY pyproject.toml poetry.lock ./
-RUN poetry install --only main
 COPY ./faster_whisper_server ./faster_whisper_server
-ENTRYPOINT ["poetry", "run"]
-CMD ["uvicorn", "faster_whisper_server.main:app"]
-ENV WHISPER_MODEL=Systran/faster-distil-whisper-large-v3
-ENV WHISPER_INFERENCE_DEVICE=cuda
 ENV UVICORN_HOST=0.0.0.0
 ENV UVICORN_PORT=8000

 FROM nvidia/cuda:12.2.2-cudnn8-runtime-ubuntu22.04
+# `ffmpeg` is installed because without it `gradio` won't work with mp3(possible others as well) files
 # hadolint ignore=DL3008,DL3015,DL4006
 RUN apt-get update && \
+    apt-get install -y ffmpeg software-properties-common && \
     add-apt-repository ppa:deadsnakes/ppa && \
     DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends python3.12 python3.12-distutils && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
 WORKDIR /root/faster-whisper-server
+COPY requirements.txt .
+RUN --mount=from=ghcr.io/astral-sh/uv:latest,source=/uv,target=/bin/uv \
+    uv pip install --system --python 3.12 --no-cache -r requirements.txt
 COPY ./faster_whisper_server ./faster_whisper_server
+ENV WHISPER__MODEL=Systran/faster-distil-whisper-large-v3
+ENV WHISPER__INFERENCE_DEVICE=auto
 ENV UVICORN_HOST=0.0.0.0
 ENV UVICORN_PORT=8000
+CMD ["uvicorn", "faster_whisper_server.main:app"]

faster_whisper_server/config.py CHANGED Viewed

@@ -169,8 +169,8 @@ class Language(enum.StrEnum):
 class Task(enum.StrEnum):
-    TRANSCRIPTION = "transcription"
-    TRANSLATION = "translation"
 class WhisperConfig(BaseModel):
@@ -192,7 +192,7 @@ class Config(BaseSettings):
     the environment variable `LOG_LEVEL` will be mapped to `log_level`, `WHISPER_MODEL` to `whisper.model`, etc.
     """
-    model_config = SettingsConfigDict(env_nested_delimiter="_")
     log_level: str = "info"
     default_language: Language | None = None

 class Task(enum.StrEnum):
+    TRANSCRIBE = "transcribe"
+    TRANSLATE = "translate"
 class WhisperConfig(BaseModel):
     the environment variable `LOG_LEVEL` will be mapped to `log_level`, `WHISPER_MODEL` to `whisper.model`, etc.
     """
+    model_config = SettingsConfigDict(env_nested_delimiter="__")
     log_level: str = "info"
     default_language: Language | None = None

faster_whisper_server/gradio_app.py CHANGED Viewed

@@ -18,21 +18,24 @@ def create_gradio_demo(config: Config) -> gr.Blocks:
     http_client = httpx.Client(base_url=f"http://{host}:{port}", timeout=None)
     def handler(
-        file_path: str | None, model: str, task: Task, temperature: float, stream: bool
     ) -> Generator[str, None, None]:
-        if file_path is None:
-            yield ""
-            return
         if stream:
-            yield from transcribe_audio_streaming(file_path, task, temperature, model)
-        yield transcribe_audio(file_path, task, temperature, model)
     def transcribe_audio(
         file_path: str, task: Task, temperature: float, model: str
     ) -> str:
-        if task == Task.TRANSCRIPTION:
             endpoint = TRANSCRIPTION_ENDPOINT
-        elif task == Task.TRANSLATION:
             endpoint = TRANSLATION_ENDPOINT
         with open(file_path, "rb") as file:
@@ -64,15 +67,32 @@ def create_gradio_demo(config: Config) -> gr.Blocks:
             }
             endpoint = (
                 TRANSCRIPTION_ENDPOINT
-                if task == Task.TRANSCRIPTION
                 else TRANSLATION_ENDPOINT
             )
             with connect_sse(http_client, "POST", endpoint, **kwargs) as event_source:
                 for event in event_source.iter_sse():
                     yield event.data
     model_dropdown = gr.Dropdown(
-        # TODO: use output from /v1/models
         choices=[config.whisper.model],
         label="Model",
         value=config.whisper.model,
@@ -80,13 +100,13 @@ def create_gradio_demo(config: Config) -> gr.Blocks:
     task_dropdown = gr.Dropdown(
         choices=[task.value for task in Task],
         label="Task",
-        value=Task.TRANSCRIPTION,
     )
     temperature_slider = gr.Slider(
         minimum=0.0, maximum=1.0, step=0.1, label="Temperature", value=0.0
     )
     stream_checkbox = gr.Checkbox(label="Stream", value=True)
-    demo = gr.Interface(
         title="Whisper Playground",
         description="""Consider supporting the project by starring the <a href="https://github.com/fedirz/faster-whisper-server">repository on GitHub</a>.""",
         inputs=[
@@ -98,5 +118,6 @@ def create_gradio_demo(config: Config) -> gr.Blocks:
         ],
         fn=handler,
         outputs="text",
-    )
     return demo

     http_client = httpx.Client(base_url=f"http://{host}:{port}", timeout=None)
     def handler(
+        file_path: str, model: str, task: Task, temperature: float, stream: bool
     ) -> Generator[str, None, None]:
         if stream:
+            previous_transcription = ""
+            for transcription in transcribe_audio_streaming(
+                file_path, task, temperature, model
+            ):
+                previous_transcription += transcription
+                yield previous_transcription
+        else:
+            yield transcribe_audio(file_path, task, temperature, model)
     def transcribe_audio(
         file_path: str, task: Task, temperature: float, model: str
     ) -> str:
+        if task == Task.TRANSCRIBE:
             endpoint = TRANSCRIPTION_ENDPOINT
+        elif task == Task.TRANSLATE:
             endpoint = TRANSLATION_ENDPOINT
         with open(file_path, "rb") as file:
             }
             endpoint = (
                 TRANSCRIPTION_ENDPOINT
+                if task == Task.TRANSCRIBE
                 else TRANSLATION_ENDPOINT
             )
             with connect_sse(http_client, "POST", endpoint, **kwargs) as event_source:
                 for event in event_source.iter_sse():
                     yield event.data
+    def update_model_dropdown() -> gr.Dropdown:
+        res = http_client.get("/v1/models")
+        res_data = res.json()
+        models: list[str] = [model["id"] for model in res_data]
+        assert config.whisper.model in models
+        recommended_models = set(
+            model for model in models if model.startswith("Systran")
+        )
+        other_models = [model for model in models if model not in recommended_models]
+        models = list(recommended_models) + other_models
+        model_dropdown = gr.Dropdown(
+            # no idea why it's complaining
+            choices=models,  # type: ignore
+            label="Model",
+            value=config.whisper.model,
+        )
+        return model_dropdown
     model_dropdown = gr.Dropdown(
         choices=[config.whisper.model],
         label="Model",
         value=config.whisper.model,
     task_dropdown = gr.Dropdown(
         choices=[task.value for task in Task],
         label="Task",
+        value=Task.TRANSCRIBE,
     )
     temperature_slider = gr.Slider(
         minimum=0.0, maximum=1.0, step=0.1, label="Temperature", value=0.0
     )
     stream_checkbox = gr.Checkbox(label="Stream", value=True)
+    with gr.Interface(
         title="Whisper Playground",
         description="""Consider supporting the project by starring the <a href="https://github.com/fedirz/faster-whisper-server">repository on GitHub</a>.""",
         inputs=[
         ],
         fn=handler,
         outputs="text",
+    ) as demo:
+        demo.load(update_model_dropdown, inputs=None, outputs=model_dropdown)
     return demo

faster_whisper_server/main.py CHANGED Viewed

@@ -203,7 +203,7 @@ def translate_file(
     whisper = load_model(model)
     segments, transcription_info = whisper.transcribe(
         file.file,
-        task=Task.TRANSLATION,
         initial_prompt=prompt,
         temperature=temperature,
         vad_filter=True,
@@ -244,7 +244,7 @@ def transcribe_file(
     whisper = load_model(model)
     segments, transcription_info = whisper.transcribe(
         file.file,
-        task=Task.TRANSCRIPTION,
         language=language,
         initial_prompt=prompt,
         word_timestamps="word" in timestamp_granularities,

     whisper = load_model(model)
     segments, transcription_info = whisper.transcribe(
         file.file,
+        task=Task.TRANSLATE,
         initial_prompt=prompt,
         temperature=temperature,
         vad_filter=True,
     whisper = load_model(model)
     segments, transcription_info = whisper.transcribe(
         file.file,
+        task=Task.TRANSCRIBE,
         language=language,
         initial_prompt=prompt,
         word_timestamps="word" in timestamp_granularities,

flake.nix CHANGED Viewed

@@ -30,6 +30,7 @@
               rsync
               ruff
               websocat
             ];
             shellHook = ''
               poetry env use python3.12

               rsync
               ruff
               websocat
+              uv
             ];
             shellHook = ''
               poetry env use python3.12

requirements.txt ADDED Viewed

The diff for this file is too large to render. See raw diff