Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung

2025-03-21 21:15:15 +01:00
parent 6d816f88f4
commit 0f2a837e4b
1 changed files with 39 additions and 0 deletions
--- a/max_extract.py
+++ b/max_extract.py
@@ -0,0 +1,39 @@
 import os
 from pdf2image import convert_from_path
 import pytesseract
 # Ordnerpfad, der die PDFs enthält
 input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
 output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
 # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
 if not os.path.exists(output_folder):
    os.makedirs(output_folder)
 # Funktion, die alle PDFs im angegebenen Ordner verarbeitet
 def process_pdfs(input_folder, output_folder):
    # Durchläuft alle Dateien im Ordner
    for filename in os.listdir(input_folder):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(input_folder, filename)
            output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt")
            print(f"Verarbeite: {pdf_path}")
            # Lade PDF und konvertiere es in Bilder
            pages = convert_from_path(pdf_path, 300)
            # OCR auf jedes Bild anwenden und den Text extrahieren
            text = ''
            for page in pages:
                text += pytesseract.image_to_string(page)
            # Speichere den extrahierten Text in einer .txt Datei
            with open(output_text_path, 'w', encoding='utf-8') as text_file:
                text_file.write(text)
            print(f"Text aus {filename} wurde in {output_text_path} gespeichert.")
 # Rufe die Funktion auf, um die PDFs zu verarbeiten
 process_pdfs(input_folder, output_folder)