kennedy_files/max_extract.py

import os
from pdf2image import convert_from_path
import pytesseract

# Ordnerpfad, der die PDFs enthält
input_folder = '/home/dikuever/kennedy/kennedy_files'
output_folder = '/home/dikuever/kennedy/output'

# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Funktion, die alle PDFs im angegebenen Ordner verarbeitet
def process_pdfs(input_folder, output_folder):
    # Durchläuft alle Dateien im Ordner
    for filename in os.listdir(input_folder):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(input_folder, filename)
            output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt")
            
            print(f"Verarbeite: {pdf_path}")
            
            # Lade PDF und konvertiere es in Bilder
            pages = convert_from_path(pdf_path, 100)
            
            # OCR auf jedes Bild anwenden und den Text extrahieren
            text = ''
            for page in pages:
                text += pytesseract.image_to_string(page)
            
            # Speichere den extrahierten Text in einer .txt Datei
            with open(output_text_path, 'w', encoding='utf-8') as text_file:
                text_file.write(text)
            
            print(f"Text aus {filename} wurde in {output_text_path} gespeichert.")

# Rufe die Funktion auf, um die PDFs zu verarbeiten
process_pdfs(input_folder, output_folder)
Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung 2025-03-21 20:15:15 +00:00			`import os`
			`from pdf2image import convert_from_path`
			`import pytesseract`

			`# Ordnerpfad, der die PDFs enthält`
Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen 2025-03-22 17:34:01 +00:00			`input_folder = '/home/dikuever/kennedy/kennedy_files'`
			`output_folder = '/home/dikuever/kennedy/output'`
Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung 2025-03-21 20:15:15 +00:00
			`# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen`
			`if not os.path.exists(output_folder):`
			`os.makedirs(output_folder)`

			`# Funktion, die alle PDFs im angegebenen Ordner verarbeitet`
			`def process_pdfs(input_folder, output_folder):`
			`# Durchläuft alle Dateien im Ordner`
			`for filename in os.listdir(input_folder):`
			`if filename.endswith('.pdf'):`
			`pdf_path = os.path.join(input_folder, filename)`
			`output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt")`

			`print(f"Verarbeite: {pdf_path}")`

			`# Lade PDF und konvertiere es in Bilder`
Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen 2025-03-22 17:34:01 +00:00			`pages = convert_from_path(pdf_path, 100)`
Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung 2025-03-21 20:15:15 +00:00
			`# OCR auf jedes Bild anwenden und den Text extrahieren`
			`text = ''`
			`for page in pages:`
			`text += pytesseract.image_to_string(page)`

			`# Speichere den extrahierten Text in einer .txt Datei`
			`with open(output_text_path, 'w', encoding='utf-8') as text_file:`
			`text_file.write(text)`

			`print(f"Text aus {filename} wurde in {output_text_path} gespeichert.")`

			`# Rufe die Funktion auf, um die PDFs zu verarbeiten`
			`process_pdfs(input_folder, output_folder)`