Spaces:

diginoron
/

TTS-EN

Sleeping

App Files Files Community

diginoron commited on Jul 30

Commit

8c10b14

verified ·

1 Parent(s): c17b07a

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -19

app.py CHANGED Viewed

@@ -8,7 +8,11 @@ import nltk
 import os
 # Download NLTK data for sumy
-nltk.download('punkt')
 def extract_text_from_pdf(pdf_file):
     """
@@ -18,14 +22,16 @@ def extract_text_from_pdf(pdf_file):
         pdf_file: Uploaded PDF file.
     Returns:
-        str: Extracted text from the PDF.
     """
     try:
         with pdfplumber.open(pdf_file) as pdf:
             text = ""
             for page in pdf.pages:
-                text += page.extract_text() or ""
-        return text if text else "No text could be extracted from the PDF."
     except Exception as e:
         return f"Error extracting text: {str(e)}"
@@ -38,23 +44,19 @@ def summarize_text(text, sentences_count=12):
         sentences_count (int): Number of sentences in summary (approx. 3 sentences per paragraph).
     Returns:
-        str: Summarized text.
     """
     try:
-        # Initialize parser and tokenizer
         parser = PlaintextParser.from_string(text, Tokenizer("english"))
         summarizer = LsaSummarizer()
-        # Summarize to specified number of sentences
         summary = summarizer(parser.document, sentences_count)
-        # Combine sentences and format into paragraphs (approx. 3 sentences per paragraph)
         summary_text = ""
         for i, sentence in enumerate(summary):
             summary_text += str(sentence) + " "
-            if (i + 1) % 3 == 0:  # Add paragraph break every 3 sentences
                 summary_text += "\n\n"
         return summary_text.strip() if summary_text else "No summary generated."
     except Exception as e:
         return f"Error summarizing text: {str(e)}"
@@ -68,18 +70,18 @@ def pdf_to_speech(pdf_file, lang="en"):
         lang (str): Language code (default is 'en' for English).
     Returns:
-        tuple: (Path to audio file, summarized text) or (error message, error message).
     """
     try:
         # Extract text from PDF
         text = extract_text_from_pdf(pdf_file)
         if "Error" in text:
-            return text, text
-        # Summarize text (approx. 12 sentences for 4 paragraphs)
         summarized_text = summarize_text(text, sentences_count=12)
-        if "Error" in summarized_text:
-            return summarized_text, summarized_text
         # Create gTTS object
         tts = gTTS(text=summarized_text, lang=lang, slow=False)
@@ -91,8 +93,7 @@ def pdf_to_speech(pdf_file, lang="en"):
         return output_file, summarized_text
     except Exception as e:
-        error_msg = f"An error occurred: {str(e)}"
-        return error_msg, error_msg
 # Define Gradio interface
 demo = gr.Interface(

 import os
 # Download NLTK data for sumy
+try:
+    nltk.download('punkt')
+    nltk.download('punkt_tab')
+except Exception as e:
+    print(f"Error downloading NLTK data: {str(e)}")
 def extract_text_from_pdf(pdf_file):
     """
         pdf_file: Uploaded PDF file.
     Returns:
+        str: Extracted text or error message.
     """
     try:
         with pdfplumber.open(pdf_file) as pdf:
             text = ""
             for page in pdf.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text + " "
+        return text.strip() if text else "No text could be extracted from the PDF."
     except Exception as e:
         return f"Error extracting text: {str(e)}"
         sentences_count (int): Number of sentences in summary (approx. 3 sentences per paragraph).
     Returns:
+        str: Summarized text or error message.
     """
     try:
+        if len(text.split()) < 50:
+            return "Text is too short to summarize."
         parser = PlaintextParser.from_string(text, Tokenizer("english"))
         summarizer = LsaSummarizer()
         summary = summarizer(parser.document, sentences_count)
         summary_text = ""
         for i, sentence in enumerate(summary):
             summary_text += str(sentence) + " "
+            if (i + 1) % 3 == 0:
                 summary_text += "\n\n"
         return summary_text.strip() if summary_text else "No summary generated."
     except Exception as e:
         return f"Error summarizing text: {str(e)}"
         lang (str): Language code (default is 'en' for English).
     Returns:
+        tuple: (Path to audio file or None, summarized text or error message).
     """
     try:
         # Extract text from PDF
         text = extract_text_from_pdf(pdf_file)
         if "Error" in text:
+            return None, text
+        # Summarize text
         summarized_text = summarize_text(text, sentences_count=12)
+        if "Error" in summarized_text or "too short" in summarized_text:
+            return None, summarized_text
         # Create gTTS object
         tts = gTTS(text=summarized_text, lang=lang, slow=False)
         return output_file, summarized_text
     except Exception as e:
+        return None, f"An error occurred: {str(e)}"
 # Define Gradio interface
 demo = gr.Interface(