Spaces:

gijs
/

qwen2.5-omni

Running on Zero

Gijs Wijngaard commited on Aug 26

Commit

b31d71d

1 Parent(s): 27a9c0b

init

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,7 +1,9 @@
 import gradio as gr
-import soundfile as sf
 import torch
 from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
 MODEL_ID = "Qwen/Qwen2.5-Omni-7B" if False else "Qwen/Qwen2.5-Omni-7B"  # keep explicit string
@@ -15,7 +17,7 @@ model.disable_talker()
 processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
 def run_omni(audio_path: str, instruction: str, max_tokens: int = 512) -> str:
     if not audio_path:
         return "Please upload an audio file."
@@ -39,15 +41,13 @@ def run_omni(audio_path: str, instruction: str, max_tokens: int = 512) -> str:
     ]
     text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
-    audio, sr = sf.read(audio_path)
-    audios = [(audio, sr)]
     inputs = processor(
         text=text,
         audio=audios,
-        images=[],
-        videos=[],
         return_tensors="pt",
         padding=True,
     )

 import gradio as gr
 import torch
 from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
+from qwen_omni_utils import process_mm_info
+import spaces
 MODEL_ID = "Qwen/Qwen2.5-Omni-7B" if False else "Qwen/Qwen2.5-Omni-7B"  # keep explicit string
 processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
+@spaces.GPU
 def run_omni(audio_path: str, instruction: str, max_tokens: int = 512) -> str:
     if not audio_path:
         return "Please upload an audio file."
     ]
     text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
+    audios, images, videos = process_mm_info(conversation, use_audio_in_video=False)
     inputs = processor(
         text=text,
         audio=audios,
+        images=images,
+        videos=videos,
         return_tensors="pt",
         padding=True,
     )

requirements.txt CHANGED Viewed

@@ -3,4 +3,5 @@ torch>=2.1.0
 transformers>=4.43.0
 accelerate>=0.30.0
 soundfile>=0.12.1

 transformers>=4.43.0
 accelerate>=0.30.0
 soundfile>=0.12.1
+spaces
+qwen-omni-utils