Spaces:

Riy777
/

Study

Sleeping

App Files Files Community

Riy777 commited on 23 days ago

Commit

448e22b

verified ·

1 Parent(s): c05fb24

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -62

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import asyncio
 import re
 from telegram import Update, InlineKeyboardButton, InlineKeyboardMarkup
 from telegram.ext import Application, CommandHandler, CallbackQueryHandler, MessageHandler, filters, ContextTypes, ConversationHandler
 from huggingface_hub import HfApi, hf_hub_download, list_repo_files
 from openai import OpenAI
 import pickle
@@ -25,6 +26,7 @@ logger = logging.getLogger(__name__)
 # التوكنات - سيتم تعيينها في متغيرات البيئة
 TELEGRAM_BOT_TOKEN = os.environ.get('TELEGRAM_BOT_TOKEN')
 NVAPI_API_KEY = os.environ.get('NVAPI_API_KEY')
 # تكوين عميل NVIDIA
 nvidia_client = OpenAI(
@@ -42,7 +44,7 @@ class MedicalLabBot:
     def __init__(self):
         self.conversation_memory = {}
         self.available_materials = {}
-        self.file_cache = {}  # تخزين مؤقت للمحتوى المستخرج
         self.load_all_materials()
     def load_all_materials(self):
@@ -55,11 +57,10 @@ class MedicalLabBot:
             for file_path in all_files:
                 try:
-                    # استخراج اسم المادة من المسار
                     path_parts = file_path.split('/')
                     if len(path_parts) >= 2:
-                        subject = path_parts[0]  # اسم المجلد (المادة)
                         file_name = path_parts[-1]
                         if subject not in materials:
@@ -68,13 +69,11 @@ class MedicalLabBot:
                                 'file_details': {}
                             }
-                        # استخراج معلومات الملف
                         file_info = self.extract_file_info(file_name, file_path)
                         materials[subject]['files'].append(file_info)
                         materials[subject]['file_details'][file_name] = file_info
                     else:
-                        # ملفات في المجلد الرئيسي
                         if 'general' not in materials:
                             materials['general'] = {
                                 'files': [],
@@ -90,9 +89,7 @@ class MedicalLabBot:
             self.available_materials = materials
             logger.info(f"تم تحميل {len(materials)} مادة بنجاح")
-            for subject, data in materials.items():
-                logger.info(f"المادة: {subject} - عدد الملفات: {len(data['files'])}")
         except Exception as e:
             logger.error(f"خطأ في تحميل المواد: {e}")
             self.available_materials = {'Biochemistry': {'files': [], 'file_details': {}}}
@@ -107,12 +104,10 @@ class MedicalLabBot:
             'type': 'unknown'
         }
-        # البحث عن رقم المحاضرة في اسم الملف
         numbers = re.findall(r'\d+', file_name)
         if numbers:
             file_info['lecture_number'] = int(numbers[0])
-        # تحديد نوع الملف
         file_lower = file_name.lower()
         if any(term in file_lower for term in ['lecture', 'محاضرة', 'lec', 'week']):
             file_info['type'] = 'lecture'
@@ -128,13 +123,11 @@ class MedicalLabBot:
     async def download_and_extract_content(self, file_path):
         """تحميل الملف واستخراج محتواه"""
         try:
-            # التحقق من التخزين المؤقت
             if file_path in self.file_cache:
                 return self.file_cache[file_path]
             logger.info(f"جاري تحميل الملف: {file_path}")
-            # تحميل الملف من Hugging Face
             local_path = hf_hub_download(
                 repo_id=REPO_ID,
                 filename=file_path,
@@ -154,7 +147,6 @@ class MedicalLabBot:
             else:
                 content = f"نوع الملف {file_ext} غير مدعوم حالياً للقراءة المباشرة"
-            # التخزين المؤقت
             self.file_cache[file_path] = content
             return content
@@ -163,11 +155,10 @@ class MedicalLabBot:
             return f"❌ تعذر تحميل محتوى الملف: {str(e)}"
     async def extract_pdf_content(self, pdf_path):
-        """استخراج النص من ملف PDF مع التعامل مع الصور"""
         try:
             text_content = ""
-            # الطريقة 1: استخدام PyPDF2 للنص الأساسي
             try:
                 with open(pdf_path, 'rb') as file:
                     pdf_reader = PyPDF2.PdfReader(file)
@@ -178,7 +169,6 @@ class MedicalLabBot:
             except Exception as e:
                 logger.warning(f"PyPDF2 failed: {e}")
-            # إذا كان النص قليلاً، نستخدم PyMuPDF الذي يعمل أفضل مع الملفات المعقدة
             if len(text_content.strip()) < 100:
                 try:
                     doc = fitz.open(pdf_path)
@@ -190,7 +180,6 @@ class MedicalLabBot:
                 except Exception as e:
                     logger.warning(f"PyMuPDF failed: {e}")
-            # إذا لم يتم استخراج نص كافي، نعتبر أن الملف يحتوي على صور بشكل أساسي
             if len(text_content.strip()) < 50:
                 text_content = "📄 هذا الملف يحتوي بشكل رئيسي على صور أو رسومات. " \
                              "يرجى طلب شرح محتوى معين أو طرح أسئلة محددة عن الملف."
@@ -204,7 +193,6 @@ class MedicalLabBot:
     async def extract_doc_content(self, doc_path):
         """استخراج النص من ملف Word"""
         try:
-            # هذه وظيفة مبسطة - في الإنتاج الحقيقي تحتاج python-docx
             content = "📝 محتوى ملف Word: "
             content += "هذا النموذج يدعم قراءة ملفات Word بشكل أساسي. "
             content += "للاستفادة الكاملة، يرجى تحويل الملف إلى PDF أو طلب شرح محتوى معين."
@@ -255,7 +243,6 @@ class MedicalLabBot:
         📚 **المواد المتاحة حالياً:**
         """
-        # عرض المواد المتاحة
         for subject in self.available_materials.keys():
             file_count = len(self.available_materials[subject]['files'])
             welcome_text += f"\n• {subject} ({file_count} ملف)"
@@ -303,7 +290,6 @@ class MedicalLabBot:
         memory = self.get_user_memory(user_id)
         memory['last_subject'] = subject
-        # عرض خيارات للمادة المحددة
         subject_files = self.available_materials[subject]['files']
         subject_name = subject.replace('_', ' ').title()
@@ -382,7 +368,7 @@ class MedicalLabBot:
             return "❌ لا توجد ملفات متاحة لهذه المادة."
         files_text = "📁 **الملفات المتاحة:**\n\n"
-        for i, file_info in enumerate(files[:15], 1):  # عرض أول 15 ملف فقط
             file_name = file_info['name']
             lecture_num = file_info['lecture_number']
             file_type = file_info['type']
@@ -456,7 +442,6 @@ class MedicalLabBot:
     async def explain_lecture(self, lecture_request, subject, user_id):
         """شرح محاضرة محددة"""
         try:
-            # البحث عن الملف المطلوب
             target_file_info = await self.find_requested_file(lecture_request, subject)
             if not target_file_info:
@@ -466,13 +451,8 @@ class MedicalLabBot:
             file_path = target_file_info['path']
             file_name = target_file_info['name']
-            # إعلام المستخدم بأننا نحميل المحتوى
-            loading_msg = f"⏳ جاري تحميل وتحليل الملف: {file_name} ..."
-            # تحميل واستخراج محتوى الملف
             file_content = await self.download_and_extract_content(file_path)
-            # استخدام الذكاء الاصطناعي لشرح المحتوى
             prompt = f"""
             قم بشرح المحتوى التالي من ملف تعليمي في مجال المختبرات الطبية:
@@ -509,7 +489,6 @@ class MedicalLabBot:
         if not files:
             return None
-        # البحث برقم المحاضرة
         numbers = re.findall(r'\d+', request)
         if numbers:
             requested_num = int(numbers[0])
@@ -517,22 +496,19 @@ class MedicalLabBot:
                 if file_info['lecture_number'] == requested_num:
                     return file_info
-        # البحث بكلمات مفتاحية
         request_lower = request.lower()
         for file_info in files:
             file_name_lower = file_info['name'].lower()
             if any(term in file_name_lower for term in request_lower.split()):
                 return file_info
-        # إذا لم يتم العثور، نعيد أول ملف
         return files[0]
     async def explain_concept(self, concept, subject, user_id):
         """شرح مفهوم معين باستخدام محتوى الملفات"""
         try:
-            # جمع عينات من محتوى الملفات لفهم السياق
             context_content = ""
-            sample_files = self.available_materials[subject]['files'][:3]  # عينات من أول 3 ملفات
             for file_info in sample_files:
                 file_content = await self.download_and_extract_content(file_info['path'])
@@ -585,7 +561,6 @@ class MedicalLabBot:
     async def generate_questions_for_subject(self, subject, user_id):
         """توليد أسئلة عن المادة باستخدام محتوى حقيقي"""
         try:
-            # جمع محتوى من عدة ملفات للسياق
             context_content = ""
             for file_info in self.available_materials[subject]['files'][:2]:
                 file_content = await self.download_and_extract_content(file_info['path'])
@@ -780,34 +755,45 @@ class MedicalLabBot:
             )
             return SELECTING_ACTION
-def main():
-    """الدالة الرئيسية لتشغيل البوت"""
-    bot = MedicalLabBot()
-    application = Application.builder().token(TELEGRAM_BOT_TOKEN).build()
-    conv_handler = ConversationHandler(
-        entry_points=[CommandHandler('start', bot.start)],
-        states={
-            SELECTING_SUBJECT: [
-                CallbackQueryHandler(bot.handle_subject_selection, pattern='^subject_|general_help|refresh_materials$')
-            ],
-            SELECTING_ACTION: [
-                CallbackQueryHandler(bot.handle_action_selection),
-                CallbackQueryHandler(bot.handle_subject_selection, pattern='^subject_')
-            ],
-            WAITING_FOR_QUESTION: [
-                MessageHandler(filters.TEXT & ~filters.COMMAND, bot.handle_message)
-            ]
-        },
-        fallbacks=[CommandHandler('start', bot.start)]
-    )
-    application.add_handler(conv_handler)
-    application.add_handler(CallbackQueryHandler(bot.handle_callback_query, pattern='^more_questions|change_subject|back_to_actions$'))
-    logger.info("Starting Medical Lab Bot...")
-    application.run_polling()
 if __name__ == '__main__':
-    main()

 import re
 from telegram import Update, InlineKeyboardButton, InlineKeyboardMarkup
 from telegram.ext import Application, CommandHandler, CallbackQueryHandler, MessageHandler, filters, ContextTypes, ConversationHandler
+from telegram.request import HTTPXRequest
 from huggingface_hub import HfApi, hf_hub_download, list_repo_files
 from openai import OpenAI
 import pickle
 # التوكنات - سيتم تعيينها في متغيرات البيئة
 TELEGRAM_BOT_TOKEN = os.environ.get('TELEGRAM_BOT_TOKEN')
 NVAPI_API_KEY = os.environ.get('NVAPI_API_KEY')
+WEBHOOK_URL = os.environ.get('WEBHOOK_URL', '')  # سيعينه Hugging Face تلقائياً
 # تكوين عميل NVIDIA
 nvidia_client = OpenAI(
     def __init__(self):
         self.conversation_memory = {}
         self.available_materials = {}
+        self.file_cache = {}
         self.load_all_materials()
     def load_all_materials(self):
             for file_path in all_files:
                 try:
                     path_parts = file_path.split('/')
                     if len(path_parts) >= 2:
+                        subject = path_parts[0]
                         file_name = path_parts[-1]
                         if subject not in materials:
                                 'file_details': {}
                             }
                         file_info = self.extract_file_info(file_name, file_path)
                         materials[subject]['files'].append(file_info)
                         materials[subject]['file_details'][file_name] = file_info
                     else:
                         if 'general' not in materials:
                             materials['general'] = {
                                 'files': [],
             self.available_materials = materials
             logger.info(f"تم تحميل {len(materials)} مادة بنجاح")
         except Exception as e:
             logger.error(f"خطأ في تحميل المواد: {e}")
             self.available_materials = {'Biochemistry': {'files': [], 'file_details': {}}}
             'type': 'unknown'
         }
         numbers = re.findall(r'\d+', file_name)
         if numbers:
             file_info['lecture_number'] = int(numbers[0])
         file_lower = file_name.lower()
         if any(term in file_lower for term in ['lecture', 'محاضرة', 'lec', 'week']):
             file_info['type'] = 'lecture'
     async def download_and_extract_content(self, file_path):
         """تحميل الملف واستخراج محتواه"""
         try:
             if file_path in self.file_cache:
                 return self.file_cache[file_path]
             logger.info(f"جاري تحميل الملف: {file_path}")
             local_path = hf_hub_download(
                 repo_id=REPO_ID,
                 filename=file_path,
             else:
                 content = f"نوع الملف {file_ext} غير مدعوم حالياً للقراءة المباشرة"
             self.file_cache[file_path] = content
             return content
             return f"❌ تعذر تحميل محتوى الملف: {str(e)}"
     async def extract_pdf_content(self, pdf_path):
+        """استخراج النص من ملف PDF"""
         try:
             text_content = ""
             try:
                 with open(pdf_path, 'rb') as file:
                     pdf_reader = PyPDF2.PdfReader(file)
             except Exception as e:
                 logger.warning(f"PyPDF2 failed: {e}")
             if len(text_content.strip()) < 100:
                 try:
                     doc = fitz.open(pdf_path)
                 except Exception as e:
                     logger.warning(f"PyMuPDF failed: {e}")
             if len(text_content.strip()) < 50:
                 text_content = "📄 هذا الملف يحتوي بشكل رئيسي على صور أو رسومات. " \
                              "يرجى طلب شرح محتوى معين أو طرح أسئلة محددة عن الملف."
     async def extract_doc_content(self, doc_path):
         """استخراج النص من ملف Word"""
         try:
             content = "📝 محتوى ملف Word: "
             content += "هذا النموذج يدعم قراءة ملفات Word بشكل أساسي. "
             content += "للاستفادة الكاملة، يرجى تحويل الملف إلى PDF أو طلب شرح محتوى معين."
         📚 **المواد المتاحة حالياً:**
         """
         for subject in self.available_materials.keys():
             file_count = len(self.available_materials[subject]['files'])
             welcome_text += f"\n• {subject} ({file_count} ملف)"
         memory = self.get_user_memory(user_id)
         memory['last_subject'] = subject
         subject_files = self.available_materials[subject]['files']
         subject_name = subject.replace('_', ' ').title()
             return "❌ لا توجد ملفات متاحة لهذه المادة."
         files_text = "📁 **الملفات المتاحة:**\n\n"
+        for i, file_info in enumerate(files[:15], 1):
             file_name = file_info['name']
             lecture_num = file_info['lecture_number']
             file_type = file_info['type']
     async def explain_lecture(self, lecture_request, subject, user_id):
         """شرح محاضرة محددة"""
         try:
             target_file_info = await self.find_requested_file(lecture_request, subject)
             if not target_file_info:
             file_path = target_file_info['path']
             file_name = target_file_info['name']
             file_content = await self.download_and_extract_content(file_path)
             prompt = f"""
             قم بشرح المحتوى التالي من ملف تعليمي في مجال المختبرات الطبية:
         if not files:
             return None
         numbers = re.findall(r'\d+', request)
         if numbers:
             requested_num = int(numbers[0])
                 if file_info['lecture_number'] == requested_num:
                     return file_info
         request_lower = request.lower()
         for file_info in files:
             file_name_lower = file_info['name'].lower()
             if any(term in file_name_lower for term in request_lower.split()):
                 return file_info
         return files[0]
     async def explain_concept(self, concept, subject, user_id):
         """شرح مفهوم معين باستخدام محتوى الملفات"""
         try:
             context_content = ""
+            sample_files = self.available_materials[subject]['files'][:3]
             for file_info in sample_files:
                 file_content = await self.download_and_extract_content(file_info['path'])
     async def generate_questions_for_subject(self, subject, user_id):
         """توليد أسئلة عن المادة باستخدام محتوى حقيقي"""
         try:
             context_content = ""
             for file_info in self.available_materials[subject]['files'][:2]:
                 file_content = await self.download_and_extract_content(file_info['path'])
             )
             return SELECTING_ACTION
+# إنشاء كائن البوت
+bot = MedicalLabBot()
+# إنشاء تطبيق التليجرام مع تكوين Webhook
+application = Application.builder().token(TELEGRAM_BOT_TOKEN).build()
+# إضافة handlers
+conv_handler = ConversationHandler(
+    entry_points=[CommandHandler('start', bot.start)],
+    states={
+        SELECTING_SUBJECT: [
+            CallbackQueryHandler(bot.handle_subject_selection, pattern='^subject_|general_help|refresh_materials$')
+        ],
+        SELECTING_ACTION: [
+            CallbackQueryHandler(bot.handle_action_selection),
+            CallbackQueryHandler(bot.handle_subject_selection, pattern='^subject_')
+        ],
+        WAITING_FOR_QUESTION: [
+            MessageHandler(filters.TEXT & ~filters.COMMAND, bot.handle_message)
+        ]
+    },
+    fallbacks=[CommandHandler('start', bot.start)]
+)
+application.add_handler(conv_handler)
+application.add_handler(CallbackQueryHandler(bot.handle_callback_query, pattern='^more_questions|change_subject|back_to_actions$'))
+async def setup_webhook():
+    """إعداد Webhook للبوت"""
+    if WEBHOOK_URL:
+        await application.bot.set_webhook(
+            url=f"{WEBHOOK_URL}/telegram",
+            allowed_updates=Update.ALL_TYPES
+        )
+        logger.info(f"Webhook set to: {WEBHOOK_URL}/telegram")
+    else:
+        logger.warning("WEBHOOK_URL not set, using polling instead")
 if __name__ == '__main__':
+    # عند التشغيل المحلي، استخدام Polling
+    logger.info("Starting bot in polling mode...")
+    application.run_polling()