Spaces:

OrganizedProgrammers
/

Docxtract

Sleeping

App Files Files Community

Lucas ARRIESSE commited on Aug 8

Commit

46800f4

1 Parent(s): 5f1cdfa

wip

Browse files

Files changed (2) hide show

api/docs.py +29 -44
api/solutions.py +1 -2

api/docs.py CHANGED Viewed

@@ -6,7 +6,6 @@ from fastapi.routing import APIRouter
 import logging
 import io
 import zipfile
-import json
 import os
 from httpx import AsyncClient
 from pydantic import BaseModel
@@ -17,8 +16,8 @@ import re
 import tempfile
 from lxml import etree
 from bs4 import BeautifulSoup
-from fastapi import Depends, BackgroundTasks, HTTPException, Request
-from dependencies import DOC_FINDER_BASE_URL, get_http_client, get_llm_router
 from fastapi.responses import StreamingResponse
 from litellm.router import Router
@@ -99,15 +98,20 @@ def get_docx_archive(url: str) -> zipfile.ZipFile:
     raise ValueError("Aucun fichier docx/doc trouvé dans l'archive")
-def parse_document_xml(docx_zip: zipfile.ZipFile) -> etree._ElementTree:
-    """Parse le document.xml principal"""
-    xml_bytes = docx_zip.read('word/document.xml')
-    parser = etree.XMLParser(remove_blank_text=True)
-    return etree.fromstring(xml_bytes, parser=parser)
-def clean_document_xml(root: etree._Element) -> None:
-    """Nettoie le XML en modifiant l'arbre directement"""
     # Suppression des balises <w:del> et leur contenu
     for del_elem in root.xpath('//w:del', namespaces=NSMAP):
         parent = del_elem.getparent()
@@ -117,11 +121,12 @@ def clean_document_xml(root: etree._Element) -> None:
     # Désencapsulation des balises <w:ins>
     for ins_elem in root.xpath('//w:ins', namespaces=NSMAP):
         parent = ins_elem.getparent()
-        index = parent.index(ins_elem)
-        for child in ins_elem.iterchildren():
-            parent.insert(index, child)
-            index += 1
-        parent.remove(ins_elem)
     # Nettoyage des commentaires
     for tag in ['w:commentRangeStart', 'w:commentRangeEnd', 'w:commentReference']:
@@ -130,20 +135,18 @@ def clean_document_xml(root: etree._Element) -> None:
             if parent is not None:
                 parent.remove(elem)
-def create_modified_docx(original_zip: zipfile.ZipFile, modified_root: etree._Element) -> io.BytesIO:
-    """Crée un nouveau docx avec le XML modifié"""
     output = io.BytesIO()
     with zipfile.ZipFile(output, 'w', compression=zipfile.ZIP_DEFLATED) as new_zip:
         # Copier tous les fichiers non modifiés
-        for file in original_zip.infolist():
-            if file.filename != 'word/document.xml':
-                new_zip.writestr(file, original_zip.read(file.filename))
         # Ajouter le document.xml modifié
         xml_str = etree.tostring(
-            modified_root,
             xml_declaration=True,
             encoding='UTF-8',
             pretty_print=True
@@ -156,10 +159,7 @@ def create_modified_docx(original_zip: zipfile.ZipFile, modified_root: etree._El
 def docx_to_txt(doc_id: str, url: str) -> str:
     docx_zip = get_docx_archive(url)
-    root = parse_document_xml(docx_zip)
-    clean_document_xml(root)
-    modified_bytes = create_modified_docx(docx_zip, root)
     final_bytes = convert_file(
         modified_bytes, f"{doc_id}", "docx", "txt")
@@ -278,32 +278,17 @@ def download_tdocs(req: DocDownloadRequest):
         try:
             text_lines = docx_to_txt(doc_id, doc_url)
             content_bytes = "\n".join(text_lines).encode("utf-8")
-            return True, content_bytes
         except Exception as e:
             logging.warning(
                 f"Failed to process document '{doc_id}' from URL '{doc_url}': {e}")
             error_message = f"Document '{doc_id}' text extraction failed: {e}".encode(
                 "utf-8")
-            return False, error_message
     for doc in req.documents:
-        success, content = _process_single_document(doc.document, doc.url)
         documents_content[doc.document] = content
-        if not success:
-            failed_documents.append(doc.doc_id)
-    # sanity check to ensure all requested documents are accounted for, adding error messages for any missing ones
-    for requested_doc_id in document_ids:
-        if requested_doc_id not in documents_content:
-            error_msg = (
-                f"Failed to retrieve or process document '{requested_doc_id}'. "
-            ).encode("utf-8")
-            documents_content[requested_doc_id] = error_msg
-            logging.warning(
-                f"Document '{requested_doc_id}' was requested but not found or processed.")
-            if requested_doc_id not in failed_documents:
-                failed_documents.append(requested_doc_id)
     zip_buffer = io.BytesIO()
     with zipfile.ZipFile(zip_buffer, mode='w', compression=zipfile.ZIP_DEFLATED) as zip_file:

 import logging
 import io
 import zipfile
 import os
 from httpx import AsyncClient
 from pydantic import BaseModel
 import tempfile
 from lxml import etree
 from bs4 import BeautifulSoup
+from fastapi import Depends, HTTPException
+from dependencies import get_http_client, get_llm_router
 from fastapi.responses import StreamingResponse
 from litellm.router import Router
     raise ValueError("Aucun fichier docx/doc trouvé dans l'archive")
+def apply_docx_revisions(docx_zip: zipfile.ZipFile) -> io.BytesIO:
+    """
+    Applique les révisions des .docx avant de retourner le contenu
+    """
+    try:
+        xml_bytes = docx_zip.read('word/document.xml')
+    except KeyError:
+        raise FileNotFoundError(
+            "word/document.xml not found in the DOCX archive.")
+    parser = etree.XMLParser(remove_blank_text=True)
+    root = etree.fromstring(xml_bytes, parser=parser)
     # Suppression des balises <w:del> et leur contenu
     for del_elem in root.xpath('//w:del', namespaces=NSMAP):
         parent = del_elem.getparent()
     # Désencapsulation des balises <w:ins>
     for ins_elem in root.xpath('//w:ins', namespaces=NSMAP):
         parent = ins_elem.getparent()
+        if parent is not None:
+            index = parent.index(ins_elem)
+            for child in ins_elem.iterchildren():
+                parent.insert(index, child)
+                index += 1
+            parent.remove(ins_elem)
     # Nettoyage des commentaires
     for tag in ['w:commentRangeStart', 'w:commentRangeEnd', 'w:commentReference']:
             if parent is not None:
                 parent.remove(elem)
+    # 3. Create a new docx with the modified XML
     output = io.BytesIO()
     with zipfile.ZipFile(output, 'w', compression=zipfile.ZIP_DEFLATED) as new_zip:
         # Copier tous les fichiers non modifiés
+        for file_info in docx_zip.infolist():
+            if file_info.filename != 'word/document.xml':
+                new_zip.writestr(file_info, docx_zip.read(file_info.filename))
         # Ajouter le document.xml modifié
         xml_str = etree.tostring(
+            root,
             xml_declaration=True,
             encoding='UTF-8',
             pretty_print=True
 def docx_to_txt(doc_id: str, url: str) -> str:
     docx_zip = get_docx_archive(url)
+    modified_bytes = apply_docx_revisions(docx_zip)
     final_bytes = convert_file(
         modified_bytes, f"{doc_id}", "docx", "txt")
         try:
             text_lines = docx_to_txt(doc_id, doc_url)
             content_bytes = "\n".join(text_lines).encode("utf-8")
+            return content_bytes
         except Exception as e:
             logging.warning(
                 f"Failed to process document '{doc_id}' from URL '{doc_url}': {e}")
             error_message = f"Document '{doc_id}' text extraction failed: {e}".encode(
                 "utf-8")
+            return error_message
     for doc in req.documents:
+        content = _process_single_document(doc.document, doc.url)
         documents_content[doc.document] = content
     zip_buffer = io.BytesIO()
     with zipfile.ZipFile(zip_buffer, mode='w', compression=zipfile.ZIP_DEFLATED) as zip_file:

api/solutions.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import asyncio
 import json
-import logging
-from fastapi import APIRouter, Depends, HTTPException, Response
 from httpx import AsyncClient
 from jinja2 import Environment, TemplateNotFound
 from litellm.router import Router

 import asyncio
 import json
+from fastapi import APIRouter, Depends
 from httpx import AsyncClient
 from jinja2 import Environment, TemplateNotFound
 from litellm.router import Router