Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen
This commit is contained in:
parent
a3514a5f0f
commit
b4372026fd
@ -3,8 +3,8 @@ from pdf2image import convert_from_path
|
|||||||
import pytesseract
|
import pytesseract
|
||||||
|
|
||||||
# Ordnerpfad, der die PDFs enthält
|
# Ordnerpfad, der die PDFs enthält
|
||||||
input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
|
input_folder = '/home/dikuever/kennedy/kennedy_files'
|
||||||
output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
|
output_folder = '/home/dikuever/kennedy/output'
|
||||||
|
|
||||||
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
||||||
if not os.path.exists(output_folder):
|
if not os.path.exists(output_folder):
|
||||||
@ -21,7 +21,7 @@ def process_pdfs(input_folder, output_folder):
|
|||||||
print(f"Verarbeite: {pdf_path}")
|
print(f"Verarbeite: {pdf_path}")
|
||||||
|
|
||||||
# Lade PDF und konvertiere es in Bilder
|
# Lade PDF und konvertiere es in Bilder
|
||||||
pages = convert_from_path(pdf_path, 300)
|
pages = convert_from_path(pdf_path, 100)
|
||||||
|
|
||||||
# OCR auf jedes Bild anwenden und den Text extrahieren
|
# OCR auf jedes Bild anwenden und den Text extrahieren
|
||||||
text = ''
|
text = ''
|
||||||
|
Loading…
Reference in New Issue
Block a user