agents_course_final_assignment

Sleeping

bivalve commited on Jun 30

Commit

05fba81

1 Parent(s): 36a1d88

added missing dependencies for wikipedia reader and transcription tools. also removed truncation of webpage extraction tool

Files changed (2) hide show

requirements.txt CHANGED Viewed

@@ -11,3 +11,6 @@ pandas
 av
 yt-dlp
 beautifulsoup4

 av
 yt-dlp
 beautifulsoup4
+torch
+transformers
+lxml

tools.py CHANGED Viewed

@@ -162,8 +162,8 @@ def extract_url_content(url_list: list[str]) -> str:
     if extract_results and 'results' in extract_results and len(extract_results['results']) > 0:
         for i, page_content in enumerate(extract_results['results']):
             del extract_results['results'][i]['images']
-            if len(page_content['raw_content']) > 40000:
-                extract_results['results'][i]['raw_content'] = page_content['raw_content'][:40000] + '... [truncated]'
         return json.dumps(extract_results['results'], indent=2)
     else:
         return f"No content could be extracted from the provided URLs: {url_list}"

     if extract_results and 'results' in extract_results and len(extract_results['results']) > 0:
         for i, page_content in enumerate(extract_results['results']):
             del extract_results['results'][i]['images']
+            # if len(page_content['raw_content']) > 40000:
+            #     extract_results['results'][i]['raw_content'] = page_content['raw_content'][:40000] + '... [truncated]'
         return json.dumps(extract_results['results'], indent=2)
     else:
         return f"No content could be extracted from the provided URLs: {url_list}"