Spaces:

sarim
/

ppt

Running

App Files Files Community

sarim commited on Jan 3

Commit

6993c74

1 Parent(s): aa7149f

summarize text

Browse files

Files changed (1) hide show

app.py +19 -18

app.py CHANGED Viewed

@@ -6,8 +6,8 @@ from pydantic_ai.models.groq import GroqModel
 import nest_asyncio
 from pydantic_ai.messages import ModelMessage
 import pdfplumber
-#from transformers import pipeline
-#import torch
 import os
 import presentation as customClass
 from streamlit_pdf_viewer import pdf_viewer
@@ -26,14 +26,14 @@ model = GroqModel('llama-3.1-70b-versatile', api_key = api_key)
 # to summarize
-#summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 #summarizer = pipeline('text2text-generation', model='describeai/gemini')
 #nlpaueb/legal-bert-base-uncased
-def split_into_token_chunks(text: str, max_tokens: int = 900) -> list:
     """
     Splits a long string into chunks of a specified maximum number of tokens (words).
@@ -87,16 +87,13 @@ async def ppt_content(data):
     # for i, chunk in enumerate(listOfString):
     #     print(f"Chunk {i}:\n{chunk}\n")
-    for x in listOfString:
-        result = agent.run_sync(user_prompt = f"Create me a powerpoint presentation {x}",message_history = message_history,deps=deps)
-        if(len(message_history) > 5):
-            message_history.pop()
-            message_history.pop()
-            message_history.pop()
-            message_history.pop()
-        message_history = result.all_messages()
-        result_data.append(result.data)
-    print(result_data[-1])
@@ -109,12 +106,16 @@ async def ppt_content(data):
 def ai_ppt(data):
-    #call summerizer to summerize pdf
-    # summary = summarizer("".join(data), max_length=400, min_length=100, truncation=True,do_sample=False)
-    # summary_texts = [item['summary_text'] for item in summary]
     #summary_texts = [item['generated_text'] for item in summary]
-    asyncio.run(ppt_content(data=data))
 def extract_data(feed):

 import nest_asyncio
 from pydantic_ai.messages import ModelMessage
 import pdfplumber
+from transformers import pipeline
+import torch
 import os
 import presentation as customClass
 from streamlit_pdf_viewer import pdf_viewer
 # to summarize
+summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 #summarizer = pipeline('text2text-generation', model='describeai/gemini')
 #nlpaueb/legal-bert-base-uncased
+def split_into_token_chunks(text: str, max_tokens: int = 5000) -> list:
     """
     Splits a long string into chunks of a specified maximum number of tokens (words).
     # for i, chunk in enumerate(listOfString):
     #     print(f"Chunk {i}:\n{chunk}\n")
+    result = agent.run_sync(user_prompt = f"Create me a powerpoint presentation {data}",
+        message_history = message_history,
+        deps=deps,
+        )
+    print(result.data)
 def ai_ppt(data):
+    #call summerizer to summerize pdf
+    summary_texts = []
+    listOfString = split_into_token_chunks("".join(data))
+    for x in listOfString:
+        summary = summarizer("".join(data), max_length=400, min_length=100, truncation=True,do_sample=False)
+        summary_texts .append([item['summary_text'] for item in summary])
+        print(summary_texts)
     #summary_texts = [item['generated_text'] for item in summary]
+    asyncio.run(ppt_content(data=summary_texts))
 def extract_data(feed):