Spaces:

Staticaliza
/

Sense

Paused

Staticaliza commited on May 28

Commit

38e087a

verified ·

1 Parent(s): 8fa5734

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,8 +3,10 @@ import gradio as gr
 import spaces
 import torch
 import os
 import gc
 import librosa
 from PIL import Image, ImageSequence
 from decord import VideoReader, cpu
 from moviepy.editor import VideoFileClip
@@ -64,19 +66,22 @@ def frames_from_video(path):
 def audio_from_video(path):
     clip = VideoFileClip(path)
-    wav = clip.audio.to_soundarray(fps = AUDIO_SR)
     clip.close()
-    return librosa.to_mono(wav.T)
 def load_audio(path):
     audio_np, _ = librosa.load(path, sr = AUDIO_SR, mono = True)
     return audio_np
 def build_video_omni(path, prefix, instruction):
-    frames = frames_from_video(path)
-    audio = audio_from_video(path)
     contents = [prefix + instruction]
-    total = max(len(frames), math.ceil(len(audio) / AUDIO_SR))
     for i in range(total):
         frame = frames[i] if i < len(frames) else frames[-1]
         chunk = audio[AUDIO_SR * i : AUDIO_SR * (i + 1)]

 import spaces
 import torch
 import os
+import math
 import gc
 import librosa
+import tempfile
 from PIL import Image, ImageSequence
 from decord import VideoReader, cpu
 from moviepy.editor import VideoFileClip
 def audio_from_video(path):
     clip = VideoFileClip(path)
+    with tempfile.NamedTemporaryFile(suffix = ".wav", delete = True) as tmp:
+        clip.audio.write_audiofile(tmp.name, codec = "pcm_s16le",
+                                   fps = AUDIO_SR, verbose = False, logger = None)
+        audio_np, _ = librosa.load(tmp.name, sr = AUDIO_SR, mono = True)
     clip.close()
+    return audio_np
 def load_audio(path):
     audio_np, _ = librosa.load(path, sr = AUDIO_SR, mono = True)
     return audio_np
 def build_video_omni(path, prefix, instruction):
+    frames   = frames_from_video(path)
+    audio    = audio_from_video(path)
     contents = [prefix + instruction]
+    total    = max(len(frames), math.ceil(len(audio) / AUDIO_SR))
     for i in range(total):
         frame = frames[i] if i < len(frames) else frames[-1]
         chunk = audio[AUDIO_SR * i : AUDIO_SR * (i + 1)]