Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen

This commit is contained in:
Dirk 2025-03-22 18:34:01 +01:00
parent a3514a5f0f
commit b4372026fd

View File

@ -3,8 +3,8 @@ from pdf2image import convert_from_path
import pytesseract import pytesseract
# Ordnerpfad, der die PDFs enthält # Ordnerpfad, der die PDFs enthält
input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files' input_folder = '/home/dikuever/kennedy/kennedy_files'
output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output' output_folder = '/home/dikuever/kennedy/output'
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
if not os.path.exists(output_folder): if not os.path.exists(output_folder):
@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder):
print(f"Verarbeite: {pdf_path}") print(f"Verarbeite: {pdf_path}")
# Lade PDF und konvertiere es in Bilder # Lade PDF und konvertiere es in Bilder
pages = convert_from_path(pdf_path, 300) pages = convert_from_path(pdf_path, 100)
# OCR auf jedes Bild anwenden und den Text extrahieren # OCR auf jedes Bild anwenden und den Text extrahieren
text = '' text = ''