Spaces:

MarvinRoque
/

phi2-gym-bot

Sleeping

App Files Files Community

MarvinRoque commited on Sep 18

Commit

e65cc68

verified ·

1 Parent(s): aef9db2

A

Browse files

Files changed (1) hide show

app.py +98 -75

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ from sentence_transformers import SentenceTransformer, util
 import unicodedata
 import torch
-# ========= Normalização =========
 def normalize_text(text):
     """Remove acentos e coloca em minúsculas para comparação robusta."""
     return "".join(
@@ -12,83 +11,98 @@ def normalize_text(text):
         if unicodedata.category(c) != "Mn"
     )
-# ========= Modelo de linguagem (Falcon 1B Instruct) =========
 model_id = "tiiuae/Falcon3-1B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
-    dtype=torch.float32,   # ou "auto" se tiver GPU
-    device_map="auto"      # ou None para CPU
 )
-# ========= Modelo de embeddings =========
-# Recomendado: intfloat/multilingual-e5-base (bom em português, leve)
-embedder = SentenceTransformer("intfloat/multilingual-e5-base")
-# ========= Domínios fitness =========
 fitness_domains = [
     # 🏋️‍♂️ Treino
-    "treino para pernas e braços",
-    "exercícios para hipertrofia muscular",
-    "como dividir treino de força e resistência",
     "tipos de treino: força, resistência, hipertrofia",
-    "programa de periodização de treino",
     # 🍎 Nutrição
-    "dieta para ganho de massa muscular",
-    "o que comer antes e depois do treino",
     "alimentos que ajudam na recuperação muscular",
-    "suplementos esportivos para performance",
-    "creatina, whey protein e bcaas",
-    "hidratação e nutrição esportiva",
-    "planejamento alimentar para atletas",
     # 🛌 Recuperação
     "descanso e recuperação muscular",
-    "alongamento e aquecimento antes do treino",
-    "prevenção de lesões no treino de academia",
     "sono e hidratação no desempenho físico",
     # 🩺 Lesões e reabilitação
-    "treino adaptado para lesão no joelho",
-    "fisioterapia esportiva para ombro e lombar",
     # 🎯 Objetivos gerais
     "como ganhar massa muscular",
-    "como perder peso com exercícios",
     "plano de treino para iniciantes",
-    "estratégias de motivação e metas fitness"
 ]
-# ========= Contra-domínios (mais específicos) =========
 contra_domains = [
     # Finanças
-    "como ganhar dinheiro na bolsa de valores",
-    "investimentos em ações e criptomoedas",
-    "finanças pessoais e planejamento financeiro",
     # Tecnologia
-    "melhores celulares android de 2025",
-    "comparativo de computadores gamer",
-    "como deixar o telemóvel mais rápido",
-    "novidades em inteligência artificial",
-    # Jogos e entretenimento
-    "melhores jogos para playstation 5",
-    "review de consoles xbox e nintendo switch",
-    # Viagens e turismo
-    "destinos turísticos mais baratos da europa",
-    "como planejar uma viagem internacional",
-    # Educação e curiosidades
-    "história da vida na terra",
-    "resumo sobre a segunda guerra mundial",
-    "como funciona a política brasileira",
-    "questões de matemática básica como 2 + 2"
 ]
-# ========= Palavras-chave relevantes =========
 fitness_keywords = [
     "treino", "exercício", "academia", "ginasio", "hipertrofia", "musculação",
     "condicionamento", "força", "resistência", "alongamento", "aquecimento",
@@ -96,43 +110,50 @@ fitness_keywords = [
     "recuperação", "descanso", "sono", "hidratação",
     "lesão", "joelho", "ombro", "lombar", "cotovelo","costas", "peito", "pernas", "trapezio",
     "bíceps", "tríceps", "abdômen", "core", "quadriceps", "posterior de coxa", "panturrilha",
-    "reabilitação", "fisioterapia", "explosividade", "mobilidade", "flexibilidade",
-    "plano de treino", "plano alimentar",
-    "perder peso", "emagrecer", "ganhar massa", "ganhar músculo", "definição muscular",
-    "motivação", "metas fitness", "fitness", "personal trainer", "treinador"
 ]
-# ========= Pré-calcular embeddings =========
 fitness_embeddings = embedder.encode(fitness_domains, convert_to_tensor=True, normalize_embeddings=True)
 contra_embeddings = embedder.encode(contra_domains, convert_to_tensor=True, normalize_embeddings=True)
-# ========= Função de resposta =========
 def responder(prompt):
-    # Normalizar
     prompt_norm = normalize_text(prompt)
-    # Embedding
     prompt_embedding = embedder.encode(prompt, convert_to_tensor=True, normalize_embeddings=True)
-    # Similaridades (usar máximo em vez de top-k média)
-    max_fitness = torch.max(util.cos_sim(prompt_embedding, fitness_embeddings)).item()
-    max_contra  = torch.max(util.cos_sim(prompt_embedding, contra_embeddings)).item()
     # Palavras-chave
-    fitness_keywords_norm = [normalize_text(kw) for kw in fitness_keywords]
-    kw_matches = sum(kw in prompt_norm for kw in fitness_keywords_norm)
-    # Score simples (diferença + bonus keywords)
-    score = (max_fitness - max_contra) + (0.10 * kw_matches)
     print(f"Prompt: {prompt}")
-    print(f"Fitness (max): {max_fitness:.3f} | Contra (max): {max_contra:.3f} | KW matches: {kw_matches} | Score: {score:.3f}")
-    # Threshold adaptável (ainda pode ser ajustado por testes)
-    if score < 0.15:
         return "Desculpe, só respondo perguntas sobre treino, nutrição e fitness."
-    # Prompt explícito para o modelo
     system_message = (
         "Você é um personal trainer virtual. "
         "Sempre responda em PORTUGUÊS, de forma clara, curta e prática. "
@@ -154,12 +175,14 @@ def responder(prompt):
     resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return resposta.split("Assistente:")[-1].strip()
-# ========= Interface Gradio =========
 demo = gr.Interface(
     fn=responder,
     inputs=gr.Textbox(lines=3, label="Pergunta"),
     outputs=gr.Textbox(label="Resposta"),
-    title="Personal Trainer AI com Filtro Semântico (Falcon 1B + embeddings + keywords)"
 )
 demo.queue().launch()

 import unicodedata
 import torch
 def normalize_text(text):
     """Remove acentos e coloca em minúsculas para comparação robusta."""
     return "".join(
         if unicodedata.category(c) != "Mn"
     )
+# =========================================================
+# Modelo de linguagem (Falcon 1B Instruct)
+# =========================================================
 model_id = "tiiuae/Falcon3-1B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
+    torch_dtype="float32",
+    device_map="auto"
 )
+# =========================================================
+# Modelo de embeddings (BAAI/bge-m3 ou fallback bge-small)
+# =========================================================
+try:
+    embedder = SentenceTransformer("BAAI/bge-m3")
+    print("✅ Usando embeddings BAAI/bge-m3")
+except Exception as e:
+    print(f"⚠️ Erro ao carregar bge-m3: {e}")
+    print("➡️ Usando fallback BAAI/bge-small-en-v1.5")
+    embedder = SentenceTransformer("BAAI/bge-small-en-v1.5")
+# =========================================================
+# Domínios fitness
+# =========================================================
 fitness_domains = [
     # 🏋️‍♂️ Treino
+    "treino para",
+    "exercícios para",
+    "como dividir meu treino",
     "tipos de treino: força, resistência, hipertrofia",
+    "como melhorar hipertrofia",
+    "periodização de treino",
     # 🍎 Nutrição
+    "dieta para",
+    "o que comer para",
     "alimentos que ajudam na recuperação muscular",
+    "suplementos para treino",
+    "creatina e whey protein",
+    "hidratação e desempenho físico",
+    "nutrição esportiva",
+    "macronutrientes e micronutrientes",
+    "planejamento alimentar",
+    "proteínas, carboidratos e gorduras",
+    "creatina, bcaas, whey protein",
+    "o que ajuda na hipertrofia",
     # 🛌 Recuperação
     "descanso e recuperação muscular",
+    "descanso entre séries",
+    "alongamento e aquecimento",
+    "prevenção de lesões no treino",
     "sono e hidratação no desempenho físico",
     # 🩺 Lesões e reabilitação
+    "treino adaptado para lesões",
+    "reabilitação e fisioterapia esportiva",
     # 🎯 Objetivos gerais
     "como ganhar massa muscular",
+    "como perder peso",
+    "como ganhar massa",
+    "melhor forma de melhorar condicionamento físico",
     "plano de treino para iniciantes",
+    "estratégias para motivação e metas fitness"
 ]
+# Contra-domínios mais específicos
 contra_domains = [
     # Finanças
+    "como ganhar dinheiro",
+    "investir em ações e bolsa de valores",
+    "criptomoedas e bitcoin",
+    "finanças pessoais e poupança",
     # Tecnologia
+    "melhores celulares android",
+    "como deixar o computador mais rápido",
+    "programação em python",
+    "jogos online e consoles",
+    "reviews de gadgets e eletrônicos",
+    # Outros
+    "viagens e turismo",
+    "política e governo no brasil",
+    "história da segunda guerra mundial",
+    "astrologia e signos",
+    "religião e espiritualidade"
 ]
+# Palavras-chave relevantes (normalizadas depois)
 fitness_keywords = [
     "treino", "exercício", "academia", "ginasio", "hipertrofia", "musculação",
     "condicionamento", "força", "resistência", "alongamento", "aquecimento",
     "recuperação", "descanso", "sono", "hidratação",
     "lesão", "joelho", "ombro", "lombar", "cotovelo","costas", "peito", "pernas", "trapezio",
     "bíceps", "tríceps", "abdômen", "core", "quadriceps", "posterior de coxa", "panturrilha",
+    "reabilitação", "fisioterapia", "explosividade", "mobilidade", "flexibilidade", "plano de treino", "plano alimentar",
+    "perder peso", "emagrecer", "ganhar massa", "ganhar músculo", "definição muscular", "motivação", "metas fitness",
+    "fitness", "personal trainer", "personal", "treinador"
 ]
+# Normalizar keywords
+fitness_keywords_norm = [normalize_text(kw) for kw in fitness_keywords]
+# =========================================================
+# Pré-calcular embeddings
+# =========================================================
 fitness_embeddings = embedder.encode(fitness_domains, convert_to_tensor=True, normalize_embeddings=True)
 contra_embeddings = embedder.encode(contra_domains, convert_to_tensor=True, normalize_embeddings=True)
+# =========================================================
+# Função principal
+# =========================================================
 def responder(prompt):
     prompt_norm = normalize_text(prompt)
     prompt_embedding = embedder.encode(prompt, convert_to_tensor=True, normalize_embeddings=True)
+    # Similaridades
+    fitness_sim = util.cos_sim(prompt_embedding, fitness_embeddings)
+    contra_sim = util.cos_sim(prompt_embedding, contra_embeddings)
+    max_fitness = torch.max(fitness_sim).item()
+    max_contra = torch.max(contra_sim).item()
     # Palavras-chave
+    keyword_match = any(kw in prompt_norm for kw in fitness_keywords_norm)
+    # Score híbrido
+    score = max_fitness - max_contra
+    if keyword_match:
+        score += 0.25  # pequeno bônus se tem keyword fitness
     print(f"Prompt: {prompt}")
+    print(f"Fitness (max): {max_fitness:.3f} | Contra (max): {max_contra:.3f} | KW matches: {int(keyword_match)} | Score: {score:.3f}")
+    # Decisão
+    if score < 0.05:
         return "Desculpe, só respondo perguntas sobre treino, nutrição e fitness."
+    # === Geração com LLM ===
     system_message = (
         "Você é um personal trainer virtual. "
         "Sempre responda em PORTUGUÊS, de forma clara, curta e prática. "
     resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return resposta.split("Assistente:")[-1].strip()
+# =========================================================
+# Interface Gradio
+# =========================================================
 demo = gr.Interface(
     fn=responder,
     inputs=gr.Textbox(lines=3, label="Pergunta"),
     outputs=gr.Textbox(label="Resposta"),
+    title="Personal Trainer AI com Filtro Semântico (BAAI/bge-m3)"
 )
 demo.queue().launch()