Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung
This commit is contained in:
parent
6d816f88f4
commit
0f2a837e4b
39
max_extract.py
Normal file
39
max_extract.py
Normal file
@ -0,0 +1,39 @@
|
|||||||
|
import os
|
||||||
|
from pdf2image import convert_from_path
|
||||||
|
import pytesseract
|
||||||
|
|
||||||
|
# Ordnerpfad, der die PDFs enthält
|
||||||
|
input_folder = '/home/dikuever/Dokumente/kennedy/kennedy_files'
|
||||||
|
output_folder = '/home/dikuever/Dokumente/kennedy/pdf2text/output'
|
||||||
|
|
||||||
|
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
||||||
|
if not os.path.exists(output_folder):
|
||||||
|
os.makedirs(output_folder)
|
||||||
|
|
||||||
|
# Funktion, die alle PDFs im angegebenen Ordner verarbeitet
|
||||||
|
def process_pdfs(input_folder, output_folder):
|
||||||
|
# Durchläuft alle Dateien im Ordner
|
||||||
|
for filename in os.listdir(input_folder):
|
||||||
|
if filename.endswith('.pdf'):
|
||||||
|
pdf_path = os.path.join(input_folder, filename)
|
||||||
|
output_text_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.txt")
|
||||||
|
|
||||||
|
print(f"Verarbeite: {pdf_path}")
|
||||||
|
|
||||||
|
# Lade PDF und konvertiere es in Bilder
|
||||||
|
pages = convert_from_path(pdf_path, 300)
|
||||||
|
|
||||||
|
# OCR auf jedes Bild anwenden und den Text extrahieren
|
||||||
|
text = ''
|
||||||
|
for page in pages:
|
||||||
|
text += pytesseract.image_to_string(page)
|
||||||
|
|
||||||
|
# Speichere den extrahierten Text in einer .txt Datei
|
||||||
|
with open(output_text_path, 'w', encoding='utf-8') as text_file:
|
||||||
|
text_file.write(text)
|
||||||
|
|
||||||
|
print(f"Text aus {filename} wurde in {output_text_path} gespeichert.")
|
||||||
|
|
||||||
|
# Rufe die Funktion auf, um die PDFs zu verarbeiten
|
||||||
|
process_pdfs(input_folder, output_folder)
|
||||||
|
|
Loading…
Reference in New Issue
Block a user