Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen

2025-03-22 18:34:01 +01:00
parent a3514a5f0f
commit b4372026fd
1 changed files with 3 additions and 3 deletions
--- a/max_extract.py
+++ b/max_extract.py
@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
 import pytesseract

 # Ordnerpfad, der die PDFs enthält
-input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
-output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
+input_folder = '/home/dikuever/kennedy/kennedy_files'
+output_folder = '/home/dikuever/kennedy/output'

 # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
 if not os.path.exists(output_folder):
@@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder):
            print(f"Verarbeite: {pdf_path}")
            
            # Lade PDF und konvertiere es in Bilder
-            pages = convert_from_path(pdf_path, 300)
+            pages = convert_from_path(pdf_path, 100)
            
            # OCR auf jedes Bild anwenden und den Text extrahieren
            text = ''