Spaces:

Monke64
/

ThetaM2V

Sleeping

Monke64 commited on Jul 15, 2024

Commit

4de6764

1 Parent(s): f4e563b

Added stuff

Files changed (1) hide show

app.py CHANGED Viewed

@@ -48,8 +48,8 @@ def get_audio(audio_path, duration=10, target_sr=16000):
 def captioning(model,audio_path):
     audio_tensor = get_audio(audio_path = audio_path)
-    # if device is not None:
-    #     audio_tensor = audio_tensor.to(device)
     with torch.no_grad():
         output = model.generate(
             samples=audio_tensor,
@@ -102,11 +102,11 @@ if st.session_state.audio_input:
         st.text(captions)
     if st.session_state.captions:
         if st.button("Generate Image and video from text prompt"):
-            st.session_state.image = image_service(captions).images[0]
             image = st.session_state.image
             video = video_model(
-                prompt = captions,
-                image=image,
                 num_inference_steps=50
             ).frames[0]
             st.session_state.video = video

 def captioning(model,audio_path):
     audio_tensor = get_audio(audio_path = audio_path)
+    if device is not None:
+        audio_tensor = audio_tensor.to(device)
     with torch.no_grad():
         output = model.generate(
             samples=audio_tensor,
         st.text(captions)
     if st.session_state.captions:
         if st.button("Generate Image and video from text prompt"):
+            st.session_state.image = image_service(st.session_state.captions).images[0]
             image = st.session_state.image
             video = video_model(
+                prompt = st.session_state.captions,
+                image=st.session_state.image,
                 num_inference_steps=50
             ).frames[0]
             st.session_state.video = video