From b4372026fd4bdf29d07a1e0eee4bba5bd7851543 Mon Sep 17 00:00:00 2001
From: Dirk <dirk.kuever@googlemail.com>
Date: Sat, 22 Mar 2025 18:34:01 +0100
Subject: [PATCH] =?UTF-8?q?Bildqualit=C3=A4t=20von=20300=20auf=20100=20ges?=
 =?UTF-8?q?enkt=20um=20Speicher=20zu=20schonen?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 max_extract.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/max_extract.py b/max_extract.py
index 4822762..172a2f0 100644
--- a/max_extract.py
+++ b/max_extract.py
@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
 import pytesseract
 
 # Ordnerpfad, der die PDFs enthält
-input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
-output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
+input_folder = '/home/dikuever/kennedy/kennedy_files'
+output_folder = '/home/dikuever/kennedy/output'
 
 # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
 if not os.path.exists(output_folder):
@@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder):
             print(f"Verarbeite: {pdf_path}")
             
             # Lade PDF und konvertiere es in Bilder
-            pages = convert_from_path(pdf_path, 300)
+            pages = convert_from_path(pdf_path, 100)
             
             # OCR auf jedes Bild anwenden und den Text extrahieren
             text = ''