fix pdf encoding

2024-10-24 13:24:39 -03:00 · 2024-10-24 13:24:39 -03:00 · 10ec265a44
commit 10ec265a44
parent 356b2a5434
1 changed files with 3 additions and 1 deletions
--- a/open_notebook/graphs/content_process.py
+++ b/open_notebook/graphs/content_process.py
@ -1,4 +1,5 @@
 import re
+import unicodedata

 import fitz  # type: ignore
 import magic
@ -68,7 +69,8 @@ def _extract_text_from_pdf(pdf_path):
    for page in doc:
        text += page.get_text()
    doc.close()
-    return text
+    normalized_content = unicodedata.normalize("NFKD", text)
+    return normalized_content


 def extract_pdf(state: SourceState):