From b4372026fd4bdf29d07a1e0eee4bba5bd7851543 Mon Sep 17 00:00:00 2001 From: Dirk Date: Sat, 22 Mar 2025 18:34:01 +0100 Subject: [PATCH] =?UTF-8?q?Bildqualit=C3=A4t=20von=20300=20auf=20100=20ges?= =?UTF-8?q?enkt=20um=20Speicher=20zu=20schonen?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- max_extract.py | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/max_extract.py b/max_extract.py index 4822762..172a2f0 100644 --- a/max_extract.py +++ b/max_extract.py @@ -3,8 +3,8 @@ from pdf2image import convert_from_path import pytesseract # Ordnerpfad, der die PDFs enthält -input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files' -output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output' +input_folder = '/home/dikuever/kennedy/kennedy_files' +output_folder = '/home/dikuever/kennedy/output' # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen if not os.path.exists(output_folder): @@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder): print(f"Verarbeite: {pdf_path}") # Lade PDF und konvertiere es in Bilder - pages = convert_from_path(pdf_path, 300) + pages = convert_from_path(pdf_path, 100) # OCR auf jedes Bild anwenden und den Text extrahieren text = ''