Spaces:

Lyon28
/

AI-Character-Chat

Sleeping

App Files Files Community

Lyon28 commited on Jun 2

Commit

2c15096

verified ·

1 Parent(s): 0db9e1d

Update app.py

Browse files

Files changed (1) hide show

app.py +371 -266

app.py CHANGED Viewed

@@ -9,41 +9,43 @@ from typing import Optional
 import asyncio
 import time
 import gc
 # Inisialisasi FastAPI
-app = FastAPI(title="LyonPoy AI Chat - CPU Optimized")
 # Set seed untuk konsistensi
 set_seed(42)
 # CPU-Optimized 11 models configuration
 MODELS = {
     "distil-gpt-2": {
         "name": "DistilGPT-2 ⚡",
         "model_path": "Lyon28/Distil_GPT-2",
         "task": "text-generation",
-        "max_tokens": 20,
-        "priority": 1  # Tercepat
     },
     "gpt-2-tinny": {
         "name": "GPT-2 Tinny ⚡",
         "model_path": "Lyon28/GPT-2-Tinny",
         "task": "text-generation",
-        "max_tokens": 18,
         "priority": 1
     },
     "bert-tinny": {
         "name": "BERT Tinny 📊",
         "model_path": "Lyon28/Bert-Tinny",
         "task": "text-classification",
-        "max_tokens": 0,
         "priority": 1
     },
     "distilbert-base-uncased": {
         "name": "DistilBERT 📊",
         "model_path": "Lyon28/Distilbert-Base-Uncased",
         "task": "text-classification",
-        "max_tokens": 0,
         "priority": 1
     },
     "albert-base-v2": {
@@ -64,51 +66,57 @@ MODELS = {
         "name": "T5 Small 🔄",
         "model_path": "Lyon28/T5-Small",
         "task": "text2text-generation",
-        "max_tokens": 25,
         "priority": 2
     },
     "gpt-2": {
         "name": "GPT-2 Standard",
         "model_path": "Lyon28/GPT-2",
         "task": "text-generation",
-        "max_tokens": 22,
         "priority": 2
     },
     "tinny-llama": {
         "name": "Tinny Llama",
         "model_path": "Lyon28/Tinny-Llama",
         "task": "text-generation",
-        "max_tokens": 25,
         "priority": 3
     },
     "pythia": {
         "name": "Pythia",
         "model_path": "Lyon28/Pythia",
         "task": "text-generation",
-        "max_tokens": 25,
         "priority": 3
     },
     "gpt-neo": {
         "name": "GPT-Neo",
         "model_path": "Lyon28/GPT-Neo",
         "task": "text-generation",
-        "max_tokens": 30,
         "priority": 3
     }
 }
 class ChatRequest(BaseModel):
-    message: str
     model: Optional[str] = "distil-gpt-2"
 # CPU-Optimized startup
 @app.on_event("startup")
-async def load_models():
     app.state.pipelines = {}
-    app.state.tokenizers = {}
     # Set CPU optimizations
-    torch.set_num_threads(2)  # Limit threads untuk Hugging Face
     os.environ['OMP_NUM_THREADS'] = '2'
     os.environ['MKL_NUM_THREADS'] = '2'
     os.environ['NUMEXPR_NUM_THREADS'] = '2'
@@ -118,116 +126,143 @@ async def load_models():
     os.environ['TRANSFORMERS_CACHE'] = '/tmp/.cache/huggingface'
     os.makedirs(os.environ['HF_HOME'], exist_ok=True)
-    print("🚀 LyonPoy AI Chat - CPU Optimized Ready!")
 # Lightweight frontend
 @app.get("/", response_class=HTMLResponse)
 async def get_frontend():
     html_content = '''
 <!DOCTYPE html>
 <html lang="id">
 <head>
     <meta charset="UTF-8">
     <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <title>LyonPoy AI Chat - CPU Fast</title>
     <style>
         * { margin: 0; padding: 0; box-sizing: border-box; }
         body {
             font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
-            background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
             height: 100vh; display: flex; justify-content: center; align-items: center;
         }
-        .chat-container {
-            width: 400px; height: 600px; background: #fff; border-radius: 15px;
-            box-shadow: 0 15px 35px rgba(0,0,0,0.1); display: flex; flex-direction: column; overflow: hidden;
         }
-        .chat-header {
-            background: linear-gradient(135deg, #00b4db, #0083b0); color: white;
-            padding: 15px; text-align: center;
-        }
-        .chat-header h1 { font-size: 16px; font-weight: 600; margin-bottom: 5px; }
-        .cpu-badge {
-            background: rgba(255,255,255,0.2); padding: 3px 8px; border-radius: 10px;
-            font-size: 10px; display: inline-block; margin-top: 3px;
         }
         .model-selector {
             background: rgba(255,255,255,0.2); border: none; color: white;
-            padding: 6px 10px; border-radius: 15px; font-size: 11px; cursor: pointer;
-            margin-top: 8px; width: 100%;
         }
-        .chat-messages {
-            flex: 1; padding: 15px; overflow-y: auto; background: #f8f9fa;
             display: flex; flex-direction: column; gap: 12px;
         }
-        .message {
-            max-width: 85%; padding: 10px 14px; border-radius: 12px;
-            font-size: 13px; line-height: 1.3; word-wrap: break-word;
-        }
-        .message.user {
-            background: #00b4db; color: white; align-self: flex-end;
-            border-bottom-right-radius: 4px;
-        }
-        .message.bot {
-            background: white; color: #333; align-self: flex-start;
-            border-bottom-left-radius: 4px; box-shadow: 0 1px 3px rgba(0,0,0,0.1);
-        }
-        .message-time { font-size: 10px; opacity: 0.6; margin-top: 3px; }
-        .response-time {
-            font-size: 9px; color: #666; margin-top: 2px;
-            display: flex; align-items: center; gap: 3px;
         }
-        .speed-indicator {
-            width: 6px; height: 6px; border-radius: 50%; display: inline-block;
         }
-        .fast { background: #22c55e; }
-        .medium { background: #f59e0b; }
-        .slow { background: #ef4444; }
-        .chat-input-container {
-            padding: 15px; background: white; border-top: 1px solid #e5e7eb;
-            display: flex; gap: 8px; align-items: center;
         }
-        .chat-input {
-            flex: 1; padding: 10px 14px; border: 1px solid #d1d5db;
-            border-radius: 20px; font-size: 13px; outline: none;
         }
-        .chat-input:focus { border-color: #00b4db; }
-        .send-button {
-            background: #00b4db; color: white; border: none; border-radius: 50%;
-            width: 40px; height: 40px; cursor: pointer; display: flex;
-            align-items: center; justify-content: center; font-size: 16px;
         }
-        .send-button:hover { background: #0083b0; }
-        .send-button:disabled { background: #d1d5db; cursor: not-allowed; }
-        .welcome-message {
-            text-align: center; color: #6b7280; font-size: 12px;
-            padding: 15px; border-radius: 8px; background: rgba(255,255,255,0.8);
         }
-        .typing-indicator {
-            display: none; align-items: center; gap: 4px; padding: 10px 14px;
-            background: white; border-radius: 12px; align-self: flex-start;
         }
-        .typing-dot {
-            width: 6px; height: 6px; background: #9ca3af; border-radius: 50%;
-            animation: typing 1.2s infinite;
         }
-        .typing-dot:nth-child(2) { animation-delay: 0.15s; }
-        .typing-dot:nth-child(3) { animation-delay: 0.3s; }
-        @keyframes typing { 0%, 60%, 100% { opacity: 0.3; } 30% { opacity: 1; } }
-        .model-status {
-            font-size: 10px; color: rgba(255,255,255,0.8); margin-top: 3px;
         }
-        @media (max-width: 480px) {
-            .chat-container { width: 100vw; height: 100vh; border-radius: 0; }
-            .chat-header { padding: 12px; }
-            .chat-messages { padding: 12px; }
         }
     </style>
 </head>
 <body>
-    <div class="chat-container">
         <div class="chat-header">
-            <h1>⚡ LyonPoy AI Chat</h1>
-            <div class="cpu-badge">CPU Optimized</div>
             <select class="model-selector" id="modelSelect">
                 <option value="distil-gpt-2">🚀 DistilGPT-2 (Fastest)</option>
                 <option value="gpt-2-tinny">🚀 GPT-2 Tinny (Fast)</option>
@@ -244,145 +279,143 @@ async def get_frontend():
             <div class="model-status" id="modelStatus">Ready to chat!</div>
         </div>
         <div class="chat-messages" id="chatMessages">
-            <div class="welcome-message">
-                🚀 <strong>CPU-Optimized AI Chat</strong><br>
-                Models dioptimalkan untuk kecepatan di CPU<br>
-                Pilih model dan mulai chat!
             </div>
         </div>
-        <div class="typing-indicator" id="typingIndicator">
-            <div class="typing-dot"></div><div class="typing-dot"></div><div class="typing-dot"></div>
-            <span style="font-size: 11px; color: #6b7280; margin-left: 5px;">AI sedang berpikir...</span>
-        </div>
-        <div class="chat-input-container">
-            <input type="text" class="chat-input" id="chatInput" placeholder="Ketik pesan singkat (max 100 karakter)..." maxlength="100">
-            <button class="send-button" id="sendButton">➤</button>
         </div>
     </div>
     <script>
         const chatMessages = document.getElementById('chatMessages');
-        const chatInput = document.getElementById('chatInput');
         const sendButton = document.getElementById('sendButton');
         const modelSelect = document.getElementById('modelSelect');
         const typingIndicator = document.getElementById('typingIndicator');
         const modelStatus = document.getElementById('modelStatus');
-        // Production API Base
         const API_BASE = window.location.origin;
-        function scrollToBottom() {
-            chatMessages.scrollTop = chatMessages.scrollHeight;
-        }
-        function getSpeedClass(time) {
-            if (time < 2000) return 'fast';
-            if (time < 5000) return 'medium';
-            return 'slow';
-        }
-        function addMessage(content, isUser = false, responseTime = null) {
             const messageDiv = document.createElement('div');
-            messageDiv.className = `message ${isUser ? 'user' : 'bot'}`;
-            const time = new Date().toLocaleTimeString('id-ID', { hour: '2-digit', minute: '2-digit' });
-            let timeInfo = `<div class="message-time">${time}</div>`;
-            if (responseTime && !isUser) {
-                const speedClass = getSpeedClass(responseTime);
-                timeInfo += `<div class="response-time">
-                    <span class="speed-indicator ${speedClass}"></span>
-                    ${responseTime}ms
-                </div>`;
             }
-            messageDiv.innerHTML = `${content}${timeInfo}`;
-            chatMessages.appendChild(messageDiv);
-            scrollToBottom();
-        }
-        function showTyping() {
-            typingIndicator.style.display = 'flex';
-            scrollToBottom();
-        }
-        function hideTyping() {
-            typingIndicator.style.display = 'none';
         }
         async function sendMessage() {
-            const message = chatInput.value.trim();
-            if (!message) return;
-            chatInput.disabled = true;
             sendButton.disabled = true;
             modelStatus.textContent = 'Processing...';
-            addMessage(message, true);
-            chatInput.value = '';
-            showTyping();
             const startTime = Date.now();
             try {
-                const response = await fetch('/chat', {
                     method: 'POST',
                     headers: { 'Content-Type': 'application/json' },
                     body: JSON.stringify({
-                        message: message,
-                        model: modelSelect.value
                     })
                 });
                 const data = await response.json();
                 const responseTime = Date.now() - startTime;
-                hideTyping();
-                modelStatus.textContent = 'Ready';
                 if (data.status === 'success') {
                     addMessage(data.response, false, responseTime);
                 } else {
-                    addMessage('⚠️ Model sedang loading, tunggu sebentar...', false, responseTime);
                 }
             } catch (error) {
                 const responseTime = Date.now() - startTime;
-                hideTyping();
-                modelStatus.textContent = 'Error';
-                addMessage('❌ Koneksi bermasalah, coba lagi.', false, responseTime);
                 console.error('Error:', error);
             }
-            chatInput.disabled = false;
             sendButton.disabled = false;
-            chatInput.focus();
         }
-        // Event listeners
         sendButton.addEventListener('click', sendMessage);
-        chatInput.addEventListener('keypress', (e) => {
-            if (e.key === 'Enter') sendMessage();
         });
         modelSelect.addEventListener('change', () => {
             const selectedOption = modelSelect.options[modelSelect.selectedIndex];
-            const modelName = selectedOption.text;
-            modelStatus.textContent = `Model: ${modelName}`;
-            addMessage(`🔄 Switched to: ${modelName}`);
         });
-        // Auto-focus on load
         window.addEventListener('load', () => {
-            chatInput.focus();
-            modelStatus.textContent = 'DistilGPT-2 Ready (Fastest)';
-        });
-        // Character counter
-        chatInput.addEventListener('input', () => {
-            const remaining = 100 - chatInput.value.length;
-            if (remaining < 20) {
-                chatInput.style.borderColor = remaining < 10 ? '#ef4444' : '#f59e0b';
-            } else {
-                chatInput.style.borderColor = '#d1d5db';
-            }
         });
     </script>
 </body>
@@ -398,192 +431,264 @@ async def chat(request: ChatRequest):
     try:
         model_id = request.model.lower()
         if model_id not in MODELS:
-            model_id = "distil-gpt-2"  # Default ke model tercepat
         model_config = MODELS[model_id]
-        # Lazy loading dengan optimasi CPU
         if model_id not in app.state.pipelines:
             print(f"⚡ CPU Loading {model_config['name']}...")
-            # CPU-specific optimizations
             pipeline_kwargs = {
                 "task": model_config["task"],
                 "model": model_config["model_path"],
-                "device": -1,  # Force CPU
-                "torch_dtype": torch.float32,  # CPU works best with float32
                 "model_kwargs": {
                     "torchscript": False,
                     "low_cpu_mem_usage": True
                 }
             }
             app.state.pipelines[model_id] = pipeline(**pipeline_kwargs)
-            # Cleanup memory
             gc.collect()
         pipe = app.state.pipelines[model_id]
-        # Ultra-fast processing dengan parameter minimal
-        input_text = request.message[:80]  # Limit input untuk CPU
         if model_config["task"] == "text-generation":
-            # Minimal parameters untuk CPU speed
-            result = pipe(
-                input_text,
-                max_length=min(len(input_text.split()) + model_config["max_tokens"], 60),
-                temperature=0.7,
                 do_sample=True,
-                top_p=0.85,
-                pad_token_id=pipe.tokenizer.eos_token_id,
                 num_return_sequences=1,
-                early_stopping=True
-            )[0]['generated_text']
-            # Quick cleanup
-            if result.startswith(input_text):
-                result = result[len(input_text):].strip()
-            # Limit to 1 sentence untuk speed
-            if '.' in result:
-                result = result.split('.')[0] + '.'
-            elif len(result) > 80:
-                result = result[:77] + '...'
         elif model_config["task"] == "text-classification":
-            output = pipe(input_text, truncation=True, max_length=128)[0]
             confidence = f"{output['score']:.2f}"
-            result = f"📊 {output['label']} ({confidence})"
         elif model_config["task"] == "text2text-generation":
-            result = pipe(
-                input_text,
-                max_length=model_config["max_tokens"],
-                temperature=0.6,
-                early_stopping=True
-            )[0]['generated_text']
-        # Final cleanup
-        if not result or len(result.strip()) < 3:
-            result = "🤔 Hmm, coba kata lain?"
-        elif len(result) > 100:
-            result = result[:97] + "..."
-        processing_time = round((time.time() - start_time) * 1000)
         return {
-            "response": result,
             "model": model_config["name"],
             "status": "success",
-            "processing_time": f"{processing_time}ms"
         }
     except Exception as e:
         print(f"❌ CPU Error: {e}")
-        processing_time = round((time.time() - start_time) * 1000)
-        # Fallback response
         fallback_responses = [
-            "🔄 Coba lagi dengan kata yang lebih simple?",
-            "💭 Hmm, mungkin pertanyaan lain?",
-            "⚡ Model sedang optimal, tunggu sebentar...",
-            "🚀 Coba model lain yang lebih cepat?"
         ]
-        import random
         fallback = random.choice(fallback_responses)
         return {
-            "response": fallback,
             "status": "error",
-            "processing_time": f"{processing_time}ms"
         }
-# Optimized inference endpoint untuk production
 @app.post("/inference")
 async def inference(request: dict):
-    """CPU-Optimized inference endpoint"""
     try:
-        message = request.get("message", "")[:80]  # Limit input
-        model_path = request.get("model", "Lyon28/Distil_GPT-2")
-        # Fast model mapping
-        model_key = model_path.split("/")[-1].lower()
-        model_mapping = {
-            "distil_gpt-2": "distil-gpt-2",
-            "distil-gpt-2": "distil-gpt-2",
-            "gpt-2-tinny": "gpt-2-tinny",
-            "bert-tinny": "bert-tinny",
-            "distilbert-base-uncased": "distilbert-base-uncased",
-            "albert-base-v2": "albert-base-v2",
-            "electra-small": "electra-small",
-            "t5-small": "t5-small",
-            "gpt-2": "gpt-2",
-            "tinny-llama": "tinny-llama",
-            "pythia": "pythia",
-            "gpt-neo": "gpt-neo"
         }
-        internal_model = model_mapping.get(model_key, "distil-gpt-2")
-        # Quick processing
-        chat_request = ChatRequest(message=message, model=internal_model)
-        result = await chat(chat_request)
         return {
-            "result": result["response"],
-            "status": "success",
-            "model_used": result["model"],
             "processing_time": result.get("processing_time", "0ms")
         }
     except Exception as e:
         print(f"❌ Inference Error: {e}")
         return {
-            "result": "🔄 Sedang optimasi, coba lagi...",
             "status": "error"
         }
 # Lightweight health check
 @app.get("/health")
 async def health():
-    loaded_models = len(app.state.pipelines) if hasattr(app.state, 'pipelines') else 0
     return {
         "status": "healthy",
         "platform": "CPU",
-        "loaded_models": loaded_models,
         "total_models": len(MODELS),
-        "optimization": "CPU-Tuned"
     }
 # Model info endpoint
 @app.get("/models")
-async def get_models():
     return {
         "models": [
             {
-                "id": k,
-                "name": v["name"],
-                "task": v["task"],
-                "max_tokens": v["max_tokens"],
-                "priority": v["priority"],
                 "cpu_optimized": True
             }
             for k, v in MODELS.items()
         ],
         "platform": "CPU",
-        "recommended": ["distil-gpt-2", "gpt-2-tinny", "bert-tinny"]
     }
 # Run with CPU optimizations
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", 7860))
     uvicorn.run(
         app,
         host="0.0.0.0",
         port=port,
-        workers=1,  # Single worker untuk CPU
-        timeout_keep_alive=30,
-        access_log=False  # Disable access log untuk performance
     )

 import asyncio
 import time
 import gc
+import random # Ditambahkan untuk fallback
 # Inisialisasi FastAPI
+app = FastAPI(title="LyonPoy AI Chat - CPU Optimized (Prompt Mode)")
 # Set seed untuk konsistensi
 set_seed(42)
 # CPU-Optimized 11 models configuration
+# Menyesuaikan max_tokens untuk memberi ruang lebih bagi generasi setelah prompt
 MODELS = {
     "distil-gpt-2": {
         "name": "DistilGPT-2 ⚡",
         "model_path": "Lyon28/Distil_GPT-2",
         "task": "text-generation",
+        "max_tokens": 60, # Ditingkatkan
+        "priority": 1
     },
     "gpt-2-tinny": {
         "name": "GPT-2 Tinny ⚡",
         "model_path": "Lyon28/GPT-2-Tinny",
         "task": "text-generation",
+        "max_tokens": 50, # Ditingkatkan
         "priority": 1
     },
     "bert-tinny": {
         "name": "BERT Tinny 📊",
         "model_path": "Lyon28/Bert-Tinny",
         "task": "text-classification",
+        "max_tokens": 0, # Tidak relevan untuk klasifikasi
         "priority": 1
     },
     "distilbert-base-uncased": {
         "name": "DistilBERT 📊",
         "model_path": "Lyon28/Distilbert-Base-Uncased",
         "task": "text-classification",
+        "max_tokens": 0, # Tidak relevan untuk klasifikasi
         "priority": 1
     },
     "albert-base-v2": {
         "name": "T5 Small 🔄",
         "model_path": "Lyon28/T5-Small",
         "task": "text2text-generation",
+        "max_tokens": 70, # Ditingkatkan
         "priority": 2
     },
     "gpt-2": {
         "name": "GPT-2 Standard",
         "model_path": "Lyon28/GPT-2",
         "task": "text-generation",
+        "max_tokens": 70, # Ditingkatkan
         "priority": 2
     },
     "tinny-llama": {
         "name": "Tinny Llama",
         "model_path": "Lyon28/Tinny-Llama",
         "task": "text-generation",
+        "max_tokens": 80, # Ditingkatkan
         "priority": 3
     },
     "pythia": {
         "name": "Pythia",
         "model_path": "Lyon28/Pythia",
         "task": "text-generation",
+        "max_tokens": 80, # Ditingkatkan
         "priority": 3
     },
     "gpt-neo": {
         "name": "GPT-Neo",
         "model_path": "Lyon28/GPT-Neo",
         "task": "text-generation",
+        "max_tokens": 90, # Ditingkatkan
         "priority": 3
     }
 }
 class ChatRequest(BaseModel):
+    message: str # Akan berisi prompt lengkap
     model: Optional[str] = "distil-gpt-2"
+    # Tambahan field untuk prompt terstruktur jika diperlukan di Pydantic,
+    # tapi untuk saat ini kita akan parse dari 'message'
+    situasi: Optional[str] = ""
+    latar: Optional[str] = ""
+    user_message: str # Pesan pengguna aktual
 # CPU-Optimized startup
 @app.on_event("startup")
+async def load_models_on_startup(): # Mengganti nama fungsi agar unik
     app.state.pipelines = {}
+    app.state.tokenizers = {} # Meskipun tidak secara eksplisit digunakan, baik untuk dimiliki jika diperlukan
     # Set CPU optimizations
+    torch.set_num_threads(2)
     os.environ['OMP_NUM_THREADS'] = '2'
     os.environ['MKL_NUM_THREADS'] = '2'
     os.environ['NUMEXPR_NUM_THREADS'] = '2'
     os.environ['TRANSFORMERS_CACHE'] = '/tmp/.cache/huggingface'
     os.makedirs(os.environ['HF_HOME'], exist_ok=True)
+    print("🚀 LyonPoy AI Chat - CPU Optimized (Prompt Mode) Ready!")
 # Lightweight frontend
 @app.get("/", response_class=HTMLResponse)
 async def get_frontend():
+    # Mengambil inspirasi styling dari styles.css dan layout dari chat.html
+    # Ini adalah versi yang SANGAT disederhanakan dan disematkan
     html_content = '''
 <!DOCTYPE html>
 <html lang="id">
 <head>
     <meta charset="UTF-8">
     <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>LyonPoy AI Chat - Prompt Mode</title>
     <style>
+        :root {
+            --primary-color: #075E54; /* styles.css */
+            --bg-primary: #ffffff; /* styles.css */
+            --bg-secondary: #f8f9fa; /* styles.css */
+            --bg-accent: #DCF8C6; /* styles.css */
+            --text-primary: #212529; /* styles.css */
+            --text-white: #ffffff; /* styles.css */
+            --border-color: #dee2e6; /* styles.css */
+            --border-radius: 10px; /* styles.css */
+            --spacing-sm: 0.5rem;
+            --spacing-md: 1rem;
+            --shadow: 0 2px 5px rgba(0, 0, 0, 0.15); /* styles.css */
+            --font-size-base: 1rem;
+            --font-size-sm: 0.875rem;
+            --font-size-xs: 0.75rem;
+        }
         * { margin: 0; padding: 0; box-sizing: border-box; }
         body {
             font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
+            background-color: var(--bg-secondary); /* styles.css --bg-primary */
+            color: var(--text-primary); /* styles.css */
             height: 100vh; display: flex; justify-content: center; align-items: center;
+            padding: var(--spacing-md);
         }
+        .app-container { /* Mirip #app dari styles.css */
+            width: 100%;
+            max-width: 600px; /* Lebih lebar untuk input tambahan */
+            height: 95vh;
+            background: var(--bg-primary); /* styles.css */
+            border-radius: var(--border-radius); /* styles.css */
+            box-shadow: var(--shadow); /* styles.css */
+            display: flex; flex-direction: column; overflow: hidden;
         }
+        .chat-header { /* Mirip .header.chat-header dari styles.css */
+            background: var(--primary-color); /* styles.css --secondary-color (untuk header chat) */
+            color: var(--text-white); /* styles.css */
+            padding: var(--spacing-md);
+            text-align: center;
         }
+        .chat-header h1 { font-size: 1.2rem; font-weight: 600; margin-bottom: var(--spacing-sm); }
         .model-selector {
             background: rgba(255,255,255,0.2); border: none; color: white;
+            padding: 6px 10px; border-radius: 15px; font-size: 0.8rem; cursor: pointer;
+            width: 100%;
         }
+        .chat-messages { /* Mirip .chat-messages dari styles.css */
+            flex: 1; padding: var(--spacing-md); overflow-y: auto; background: var(--bg-secondary); /* styles.css */
             display: flex; flex-direction: column; gap: 12px;
         }
+        .message-group { /* Mirip .message-group dari styles.css */
+            display: flex;
+            max-width: 75%; /* styles.css --message-max-width */
         }
+        .message-group.outgoing { align-self: flex-end; flex-direction: row-reverse; }
+        .message-group.incoming { align-self: flex-start; }
+        .message { /* Mirip .message dari styles.css */
+            padding: var(--spacing-sm) var(--spacing-md);
+            border-radius: var(--border-radius); /* styles.css --message-border-radius */
+            font-size: var(--font-size-sm); /* styles.css --font-size-base (untuk pesan)*/
+            line-height: 1.4; word-wrap: break-word;
+            position: relative;
         }
+        .message-group.outgoing .message {
+            background: var(--bg-accent); /* styles.css */
+            color: var(--text-primary);
+            margin-left: var(--spacing-md);
         }
+        .message-group.incoming .message {
+            background: var(--bg-primary); /* styles.css */
+            color: var(--text-primary);
+            box-shadow: var(--shadow-sm); /* styles.css --shadow-sm */
+            margin-right: var(--spacing-md); /* Jika ada avatar */
         }
+        .message-info { /* Mirip .message-info dari styles.css */
+            display: flex; justify-content: flex-end; align-items: center;
+            margin-top: var(--spacing-xs);
+            font-size: var(--font-size-xs); /* styles.css */
+            color: #6c757d; /* styles.css --text-muted */
         }
+        .message-time { margin-right: var(--spacing-xs); }
+        .response-time-info { font-size: 9px; color: #666; margin-top: 2px; }
+        .input-area { /* Wadah untuk semua input */
+            padding: var(--spacing-md);
+            background: var(--bg-primary); /* styles.css */
+            border-top: 1px solid var(--border-color); /* styles.css */
         }
+        .prompt-inputs { display: flex; gap: var(--spacing-sm); margin-bottom: var(--spacing-sm); }
+        .prompt-inputs input { flex: 1; }
+        .chat-input-container { /* Mirip .chat-input-container dari styles.css */
+            display: flex; gap: var(--spacing-sm); align-items: center;
         }
+        .chat-input { /* Mirip textarea di .chat-input-field dari styles.css */
+            flex: 1; padding: var(--spacing-sm) var(--spacing-md);
+            border: 1px solid var(--border-color); /* styles.css */
+            border-radius: 20px; /* styles.css --border-radius-xl */
+            font-size: var(--font-size-sm); outline: none;
         }
+        .chat-input:focus { border-color: var(--primary-color); }
+        .send-button { /* Mirip .send-btn dari styles.css */
+            background: var(--primary-color); color: var(--text-white); border: none;
+            border-radius: 50%; width: 40px; height: 40px; cursor: pointer;
+            display: flex; align-items: center; justify-content: center; font-size: 1.2rem;
         }
+        .send-button:hover { filter: brightness(1.2); }
+        .send-button:disabled { background: #d1d5db; cursor: not-allowed; }
+        .typing-indicator-text {
+            font-style: italic; color: #6c757d; font-size: var(--font-size-sm);
+            padding: var(--spacing-sm) var(--spacing-md);
+            text-align: center;
         }
+        .model-status { font-size: 10px; color: rgba(255,255,255,0.8); margin-top: 3px; text-align: center; }
+        label { font-size: 0.9em; margin-bottom: 0.2em; display:block; }
     </style>
 </head>
 <body>
+    <div class="app-container">
         <div class="chat-header">
+            <h1>AI Character Prompt Mode</h1>
             <select class="model-selector" id="modelSelect">
                 <option value="distil-gpt-2">🚀 DistilGPT-2 (Fastest)</option>
                 <option value="gpt-2-tinny">🚀 GPT-2 Tinny (Fast)</option>
             <div class="model-status" id="modelStatus">Ready to chat!</div>
         </div>
         <div class="chat-messages" id="chatMessages">
+            <div class="message-group incoming">
+                 <div class="message">
+                    Hello! Atur Situasi, Latar, dan pesanmu di bawah. Lalu kirim!
+                    <div class="message-info"><span class="message-time">${new Date().toLocaleTimeString('id-ID', { hour: '2-digit', minute: '2-digit' })}</span></div>
+                </div>
             </div>
         </div>
+        <div class="typing-indicator-text" id="typingIndicator" style="display: none;">AI sedang berpikir...</div>
+        <div class="input-area">
+            <div class="prompt-inputs">
+                <div>
+                    <label for="situasiInput">Situasi:</label>
+                    <input type="text" class="chat-input" id="situasiInput" placeholder="Mis: Santai">
+                </div>
+                <div>
+                    <label for="latarInput">Latar:</label>
+                    <input type="text" class="chat-input" id="latarInput" placeholder="Mis: Tepi sungai">
+                </div>
+            </div>
+            <div class="chat-input-container">
+                <input type="text" class="chat-input" id="userMessageInput" placeholder="Ketik pesan sebagai {{User}}..." maxlength="150">
+                <button class="send-button" id="sendButton">➤</button>
+            </div>
         </div>
     </div>
     <script>
         const chatMessages = document.getElementById('chatMessages');
+        const situasiInput = document.getElementById('situasiInput');
+        const latarInput = document.getElementById('latarInput');
+        const userMessageInput = document.getElementById('userMessageInput');
         const sendButton = document.getElementById('sendButton');
         const modelSelect = document.getElementById('modelSelect');
         const typingIndicator = document.getElementById('typingIndicator');
         const modelStatus = document.getElementById('modelStatus');
         const API_BASE = window.location.origin;
+        function scrollToBottom() { chatMessages.scrollTop = chatMessages.scrollHeight; }
+        function addMessage(content, isUser = false, responseTimeMs = null, fullPromptForUser = null) {
+            const messageGroupDiv = document.createElement('div');
+            messageGroupDiv.className = \`message-group \${isUser ? 'outgoing' : 'incoming'}\`;
             const messageDiv = document.createElement('div');
+            messageDiv.className = 'message';
+            const time = new Date().toLocaleTimeString('id-ID', { hour: '2-digit', minute: '2-digit' });
+            let timeInfoHtml = \`<div class="message-info"><span class="message-time">\${time}</span></div>\`;
+            if (responseTimeMs !== null && !isUser) {
+                timeInfoHtml += \`<div class="response-time-info">\${responseTimeMs}ms</div>\`;
             }
+            // Untuk pesan pengguna, kita tampilkan prompt lengkap atau hanya pesan user
+            // Saat ini, kita akan tampilkan pesan user saja untuk kebersihan, tapi prompt lengkap dikirim ke backend
+            const displayContent = isUser ? userMessageInput.value.trim() : content;
+            messageDiv.innerHTML = displayContent.replace(/\\n/g, '<br>') + timeInfoHtml;
+            messageGroupDiv.appendChild(messageDiv);
+            chatMessages.appendChild(messageGroupDiv);
+            scrollToBottom();
         }
         async function sendMessage() {
+            const situasi = situasiInput.value.trim();
+            const latar = latarInput.value.trim();
+            const userMsg = userMessageInput.value.trim();
+            if (!userMsg) {
+                alert("Pesan pengguna tidak boleh kosong!");
+                return;
+            }
+            const fullPrompt = \`Situasi: \${situasi}\\nLatar: \${latar}\\n{{User}}: \${userMsg}\\n{{Char}}:\`;
+            addMessage(userMsg, true, null, fullPrompt);
+            userMessageInput.value = ''; // Kosongkan input pesan user saja
+            userMessageInput.disabled = true;
             sendButton.disabled = true;
+            typingIndicator.style.display = 'block';
             modelStatus.textContent = 'Processing...';
             const startTime = Date.now();
             try {
+                const response = await fetch(API_BASE + '/chat', {
                     method: 'POST',
                     headers: { 'Content-Type': 'application/json' },
                     body: JSON.stringify({
+                        message: fullPrompt, // Kirim prompt lengkap
+                        model: modelSelect.value,
+                        // Informasi tambahan jika ingin diproses backend secara terpisah
+                        situasi: situasi,
+                        latar: latar,
+                        user_message: userMsg
                     })
                 });
                 const data = await response.json();
                 const responseTime = Date.now() - startTime;
                 if (data.status === 'success') {
                     addMessage(data.response, false, responseTime);
                 } else {
+                    addMessage(data.response || '⚠️ Model gagal merespon, coba lagi.', false, responseTime);
                 }
             } catch (error) {
                 const responseTime = Date.now() - startTime;
+                addMessage('❌ Koneksi bermasalah atau error server.', false, responseTime);
                 console.error('Error:', error);
             }
+            typingIndicator.style.display = 'none';
+            modelStatus.textContent = 'Ready';
+            userMessageInput.disabled = false;
             sendButton.disabled = false;
+            userMessageInput.focus();
         }
         sendButton.addEventListener('click', sendMessage);
+        userMessageInput.addEventListener('keypress', (e) => {
+            if (e.key === 'Enter' && !e.shiftKey) {
+                 e.preventDefault(); // Mencegah newline di input
+                 sendMessage();
+            }
         });
         modelSelect.addEventListener('change', () => {
             const selectedOption = modelSelect.options[modelSelect.selectedIndex];
+            modelStatus.textContent = \`Model: \${selectedOption.text}\`;
         });
         window.addEventListener('load', () => {
+            userMessageInput.focus();
+             const initialModelName = modelSelect.options[modelSelect.selectedIndex].text;
+            modelStatus.textContent = \`\${initialModelName} Ready\`;
         });
     </script>
 </body>
     try:
         model_id = request.model.lower()
         if model_id not in MODELS:
+            model_id = "distil-gpt-2"
         model_config = MODELS[model_id]
+        # Pesan dari request sekarang adalah prompt yang sudah terstruktur
+        # contoh: "Situasi: Santai\nLatar:Tepi sungai\n{{User}}:sayang,danau nya indah ya, (memeluk {{char}} dari samping)\n{{Char}}:"
+        structured_prompt = request.message
         if model_id not in app.state.pipelines:
             print(f"⚡ CPU Loading {model_config['name']}...")
             pipeline_kwargs = {
                 "task": model_config["task"],
                 "model": model_config["model_path"],
+                "device": -1,
+                "torch_dtype": torch.float32,
                 "model_kwargs": {
                     "torchscript": False,
                     "low_cpu_mem_usage": True
                 }
             }
+            if model_config["task"] != "text-classification": # Tokenizer hanya untuk generator
+                 app.state.tokenizers[model_id] = AutoTokenizer.from_pretrained(model_config["model_path"])
             app.state.pipelines[model_id] = pipeline(**pipeline_kwargs)
             gc.collect()
         pipe = app.state.pipelines[model_id]
+        generated_text = "Output tidak didukung untuk task ini."
         if model_config["task"] == "text-generation":
+            # Hitung panjang prompt dalam token
+            current_tokenizer = app.state.tokenizers.get(model_id)
+            if not current_tokenizer: # Fallback jika tokenizer tidak ada di state (seharusnya ada)
+                 current_tokenizer = AutoTokenizer.from_pretrained(model_config["model_path"])
+            prompt_tokens = current_tokenizer.encode(structured_prompt, return_tensors="pt")
+            prompt_length_tokens = prompt_tokens.shape[1]
+            # max_length adalah total (prompt + generated). max_tokens adalah untuk generated.
+            # Pastikan max_length tidak melebihi kapasitas model (umumnya 512 atau 1024 untuk model kecil)
+            # dan juga tidak terlalu pendek.
+            # Beberapa model mungkin memiliki max_position_embeddings yang lebih kecil.
+            # Kita cap max_length ke sesuatu yang aman seperti 256 atau 512 jika terlalu besar.
+            # Model_config["max_tokens"] adalah max *new* tokens yang kita inginkan.
+            # Kita gunakan max_new_tokens langsung jika didukung oleh pipeline, atau atur max_length
+            # Untuk pipeline generik, max_length adalah yang utama.
+            # Max length harus lebih besar dari prompt.
+            # Max new tokens dari config model.
+            max_new_generated_tokens = model_config["max_tokens"]
+            max_len_for_generation = prompt_length_tokens + max_new_generated_tokens
+            # Batasi max_length total agar tidak terlalu besar untuk model kecil.
+            # Misalnya, GPT-2 memiliki konteks 1024. DistilGPT-2 juga.
+            # Model yang lebih kecil mungkin memiliki batas yang lebih rendah.
+            # Mari kita set batas atas yang aman, misal 512 untuk demo ini.
+            # Sesuaikan jika model spesifik Anda memiliki batas yang berbeda.
+            absolute_max_len = 512
+            if hasattr(pipe.model.config, 'max_position_embeddings'):
+                absolute_max_len = pipe.model.config.max_position_embeddings
+            max_len_for_generation = min(max_len_for_generation, absolute_max_len)
+            # Pastikan max_length setidaknya prompt + beberapa token baru
+            if max_len_for_generation <= prompt_length_tokens + 5 : # +5 token baru minimal
+                 max_len_for_generation = prompt_length_tokens + 5
+            # Pastikan kita tidak meminta lebih banyak token baru daripada yang diizinkan oleh absolute_max_len
+            actual_max_new_tokens = max_len_for_generation - prompt_length_tokens
+            if actual_max_new_tokens <= 0: # Jika prompt sudah terlalu panjang
+                 return {
+                    "response": "Hmm, prompt terlalu panjang untuk model ini. Coba perpendek situasi/latar/pesan.",
+                    "model": model_config["name"],
+                    "status": "error_prompt_too_long",
+                    "processing_time": f"{round((time.time() - start_time) * 1000)}ms"
+                }
+            outputs = pipe(
+                structured_prompt,
+                max_length=max_len_for_generation, # Total panjang
+                # max_new_tokens=actual_max_new_tokens, # Lebih disukai jika pipeline mendukungnya secara eksplisit
+                temperature=0.75, # Sedikit lebih kreatif
                 do_sample=True,
+                top_p=0.9,      # Memperluas sampling sedikit
+                pad_token_id=pipe.tokenizer.eos_token_id if hasattr(pipe.tokenizer, 'eos_token_id') else 50256, # 50256 untuk GPT2
                 num_return_sequences=1,
+                early_stopping=True,
+                truncation=True # Penting jika prompt terlalu panjang untuk model
+            )
+            generated_text = outputs[0]['generated_text']
+            # Cleanup: ekstrak hanya teks setelah prompt "{{Char}}:"
+            char_marker = "{{Char}}:"
+            if char_marker in generated_text:
+                generated_text = generated_text.split(char_marker, 1)[-1].strip()
+            elif generated_text.startswith(structured_prompt): # fallback jika marker tidak ada
+                 generated_text = generated_text[len(structured_prompt):].strip()
+            # Hapus jika model mengulang bagian prompt user
+            if request.user_message and generated_text.startswith(request.user_message):
+                 generated_text = generated_text[len(request.user_message):].strip()
+            # Batasi ke beberapa kalimat atau panjang tertentu untuk kecepatan & relevansi
+            # Ini bisa lebih fleksibel
+            sentences = generated_text.split('.')
+            if len(sentences) > 2: # Ambil 2 kalimat pertama jika ada
+                generated_text = sentences[0].strip() + ('.' if sentences[0] else '') + \
+                                 (sentences[1].strip() + '.' if len(sentences) > 1 and sentences[1] else '')
+            elif len(generated_text) > 150: # Batas karakter kasar
+                generated_text = generated_text[:147] + '...'
         elif model_config["task"] == "text-classification":
+            # Untuk klasifikasi, kita gunakan pesan pengguna aktual, bukan prompt terstruktur
+            user_msg_for_classification = request.user_message if request.user_message else structured_prompt
+            output = pipe(user_msg_for_classification[:256], truncation=True, max_length=256)[0] # Batasi input
             confidence = f"{output['score']:.2f}"
+            generated_text = f"📊 Klasifikasi pesan '{user_msg_for_classification[:30]}...': {output['label']} (Skor: {confidence})"
         elif model_config["task"] == "text2text-generation":
+            # T5 dan model serupa mungkin memerlukan format input yang sedikit berbeda,
+            # tapi untuk demo ini kita coba kirim prompt apa adanya.
+            # Anda mungkin perlu menambahkan prefix task seperti "translate English to German: " untuk T5
+            # Untuk chat, kita bisa biarkan apa adanya atau gunakan user_message.
+            user_msg_for_t2t = request.user_message if request.user_message else structured_prompt
+            outputs = pipe(
+                user_msg_for_t2t[:256], # Batasi input untuk T5
+                max_length=model_config["max_tokens"], # Ini adalah max_length untuk output T5
+                temperature=0.65,
+                early_stopping=True,
+                truncation=True
+            )
+            generated_text = outputs[0]['generated_text']
+        if not generated_text or len(generated_text.strip()) < 1:
+            generated_text = "🤔 Hmm, saya tidak yakin bagaimana merespon. Coba lagi dengan prompt berbeda?"
+        elif len(generated_text) > 250: # Batas akhir output
+            generated_text = generated_text[:247] + "..."
+        processing_time_ms = round((time.time() - start_time) * 1000)
         return {
+            "response": generated_text,
             "model": model_config["name"],
             "status": "success",
+            "processing_time": f"{processing_time_ms}ms"
         }
     except Exception as e:
         print(f"❌ CPU Error: {e}")
+        import traceback
+        traceback.print_exc() # Print full traceback for debugging
+        processing_time_ms = round((time.time() - start_time) * 1000)
         fallback_responses = [
+            "🔄 Maaf, ada sedikit gangguan. Coba lagi dengan kata yang lebih simpel?",
+            "💭 Hmm, sepertinya saya butuh istirahat sejenak. Mungkin pertanyaan lain?",
+            "⚡ Model sedang dioptimalkan, tunggu sebentar dan coba lagi...",
+            "🚀 Mungkin coba model lain yang lebih cepat atau prompt yang berbeda?"
         ]
         fallback = random.choice(fallback_responses)
         return {
+            "response": f"{fallback} (Error: {str(e)[:100]})", # Beri sedikit info error
             "status": "error",
+            "model": MODELS.get(model_id, {"name": "Unknown"})["name"] if 'model_id' in locals() else "Unknown",
+            "processing_time": f"{processing_time_ms}ms"
         }
+# Optimized inference endpoint (TIDAK DIPERBARUI SECARA RINCI untuk prompt mode baru,
+# karena fokus utama adalah pada /chat dan frontendnya. Jika /inference juga perlu prompt mode,
+# ia harus mengkonstruksi ChatRequest serupa.)
 @app.post("/inference")
 async def inference(request: dict):
+    """CPU-Optimized inference endpoint - MUNGKIN PERLU PENYESUAIAN UNTUK PROMPT MODE"""
     try:
+        # Untuk prompt mode, 'message' harus menjadi prompt terstruktur lengkap
+        # Atau endpoint ini harus diubah untuk menerima 'situasi', 'latar', 'user_message'
+        message = request.get("message", "")
+        model_id_from_request = request.get("model", "distil-gpt-2") # Harusnya model_id internal
+        # Jika yang diberikan adalah model path, coba map ke model_id internal
+        if "/" in model_id_from_request:
+            model_key_from_path = model_id_from_request.split("/")[-1].lower()
+            model_mapping = { "distil_gpt-2": "distil-gpt-2", "gpt-2-tinny": "gpt-2-tinny", /* ... (tambahkan semua mapping) ... */ }
+            internal_model = model_mapping.get(model_key_from_path, "distil-gpt-2")
+        else: # Asumsikan sudah model_id internal
+            internal_model = model_id_from_request
+        # Jika /inference perlu mendukung prompt mode, data yang dikirim ke ChatRequest harus disesuaikan
+        # Untuk contoh ini, kita asumsikan 'message' adalah user_message saja untuk /inference
+        # dan situasi/latar default atau tidak digunakan.
+        # Ini adalah penyederhanaan dan mungkin perlu diubah sesuai kebutuhan.
+        chat_req_data = {
+            "message": f"{{User}}: {message}\n{{Char}}:", # Bentuk prompt paling sederhana
+            "model": internal_model,
+            "user_message": message # Simpan pesan user asli
         }
+        chat_request_obj = ChatRequest(**chat_req_data)
+        result = await chat(chat_request_obj)
         return {
+            "result": result.get("response"),
+            "status": result.get("status"),
+            "model_used": result.get("model"),
             "processing_time": result.get("processing_time", "0ms")
         }
     except Exception as e:
         print(f"❌ Inference Error: {e}")
         return {
+            "result": "🔄 Terjadi kesalahan pada endpoint inference. Coba lagi...",
             "status": "error"
         }
 # Lightweight health check
 @app.get("/health")
 async def health():
+    loaded_models_count = len(app.state.pipelines) if hasattr(app.state, 'pipelines') else 0
     return {
         "status": "healthy",
         "platform": "CPU",
+        "loaded_models": loaded_models_count,
         "total_models": len(MODELS),
+        "optimization": "CPU-Tuned (Prompt Mode)"
     }
 # Model info endpoint
 @app.get("/models")
+async def get_models_info(): # Mengganti nama fungsi
     return {
         "models": [
             {
+                "id": k, "name": v["name"], "task": v["task"],
+                "max_tokens_generate": v["max_tokens"], "priority": v["priority"],
                 "cpu_optimized": True
             }
             for k, v in MODELS.items()
         ],
         "platform": "CPU",
+        "recommended_for_prompting": ["distil-gpt-2", "gpt-2-tinny", "tinny-llama", "gpt-neo", "pythia", "gpt-2"]
     }
 # Run with CPU optimizations
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", 7860))
+    # Gunakan reload=True untuk pengembangan agar perubahan kode langsung terlihat
+    # Matikan reload untuk produksi
+    # uvicorn.run("app:app", host="0.0.0.0", port=port, workers=1, reload=True)
     uvicorn.run(
         app,
         host="0.0.0.0",
         port=port,
+        workers=1,
+        timeout_keep_alive=30, # Default FastAPI 5 detik, mungkin terlalu pendek untuk loading model
+        access_log=False
     )