diff --git a/max_extract.py b/max_extract.py index 4822762..172a2f0 100644 --- a/max_extract.py +++ b/max_extract.py @@ -3,8 +3,8 @@ from pdf2image import convert_from_path import pytesseract # Ordnerpfad, der die PDFs enthält -input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files' -output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output' +input_folder = '/home/dikuever/kennedy/kennedy_files' +output_folder = '/home/dikuever/kennedy/output' # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen if not os.path.exists(output_folder): @@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder): print(f"Verarbeite: {pdf_path}") # Lade PDF und konvertiere es in Bilder - pages = convert_from_path(pdf_path, 300) + pages = convert_from_path(pdf_path, 100) # OCR auf jedes Bild anwenden und den Text extrahieren text = ''