From 0f2a837e4b92059419857f0705ca54a9521f5970 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Dirk=20K=C3=BCver-Christen?= Date: Fri, 21 Mar 2025 21:15:15 +0100 Subject: [PATCH] Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung --- max_extract.py | 39 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 39 insertions(+) create mode 100644 max_extract.py diff --git a/max_extract.py b/max_extract.py new file mode 100644 index 0000000..4822762 --- /dev/null +++ b/max_extract.py @@ -0,0 +1,39 @@ +import os +from pdf2image import convert_from_path +import pytesseract + +# Ordnerpfad, der die PDFs enthält +input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files' +output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output' + +# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen +if not os.path.exists(output_folder): + os.makedirs(output_folder) + +# Funktion, die alle PDFs im angegebenen Ordner verarbeitet +def process_pdfs(input_folder, output_folder): + # Durchläuft alle Dateien im Ordner + for filename in os.listdir(input_folder): + if filename.endswith('.pdf'): + pdf_path = os.path.join(input_folder, filename) + output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt") + + print(f"Verarbeite: {pdf_path}") + + # Lade PDF und konvertiere es in Bilder + pages = convert_from_path(pdf_path, 300) + + # OCR auf jedes Bild anwenden und den Text extrahieren + text = '' + for page in pages: + text += pytesseract.image_to_string(page) + + # Speichere den extrahierten Text in einer .txt Datei + with open(output_text_path, 'w', encoding='utf-8') as text_file: + text_file.write(text) + + print(f"Text aus {filename} wurde in {output_text_path} gespeichert.") + +# Rufe die Funktion auf, um die PDFs zu verarbeiten +process_pdfs(input_folder, output_folder) +