From 0f2a837e4b92059419857f0705ca54a9521f5970 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Dirk=20K=C3=BCver-Christen?= <dirk.kuever@googlemail.com>
Date: Fri, 21 Mar 2025 21:15:15 +0100
Subject: [PATCH] Erstellt aus den PDF-Dokumenten Textdateien zur
 Weiterverarbeitung

---
 max_extract.py | 39 +++++++++++++++++++++++++++++++++++++++
 1 file changed, 39 insertions(+)
 create mode 100644 max_extract.py

diff --git a/max_extract.py b/max_extract.py
new file mode 100644
index 0000000..4822762
--- /dev/null
+++ b/max_extract.py
@@ -0,0 +1,39 @@
+import os
+from pdf2image import convert_from_path
+import pytesseract
+
+# Ordnerpfad, der die PDFs enthält
+input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
+output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
+
+# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
+if not os.path.exists(output_folder):
+    os.makedirs(output_folder)
+
+# Funktion, die alle PDFs im angegebenen Ordner verarbeitet
+def process_pdfs(input_folder, output_folder):
+    # Durchläuft alle Dateien im Ordner
+    for filename in os.listdir(input_folder):
+        if filename.endswith('.pdf'):
+            pdf_path = os.path.join(input_folder, filename)
+            output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt")
+            
+            print(f"Verarbeite: {pdf_path}")
+            
+            # Lade PDF und konvertiere es in Bilder
+            pages = convert_from_path(pdf_path, 300)
+            
+            # OCR auf jedes Bild anwenden und den Text extrahieren
+            text = ''
+            for page in pages:
+                text += pytesseract.image_to_string(page)
+            
+            # Speichere den extrahierten Text in einer .txt Datei
+            with open(output_text_path, 'w', encoding='utf-8') as text_file:
+                text_file.write(text)
+            
+            print(f"Text aus {filename} wurde in {output_text_path} gespeichert.")
+
+# Rufe die Funktion auf, um die PDFs zu verarbeiten
+process_pdfs(input_folder, output_folder)
+