from transformers import AutoTokenizer
from parler_tts import ParlerTTSForConditionalGeneration
import soundfile as sf
import torch
import gradio as gr

tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-tiny-v1")
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-tiny-v1").to("cpu")

def synthesize(text, desc):
    input_ids = tokenizer(desc, return_tensors="pt").input_ids
    prompt_ids = tokenizer(text, return_tensors="pt").input_ids
    audio = model.generate(input_ids=input_ids, prompt_input_ids=prompt_ids).cpu().numpy().squeeze()
    sf.write("out.wav", audio, model.config.sampling_rate)
    return "out.wav"

demo = gr.Interface(synthesize,
    inputs=[gr.Textbox(label="Text"), gr.Textbox(label="Style Description")],
    outputs=gr.Audio(),
    title="Parler‑TTS Tiny"
)
demo.launch()