Compare commits

..

3 Commits

3 changed files with 27 additions and 3 deletions

4
.gitignore vendored
View File

@@ -1 +1,3 @@
env/*
env/
oputput/
kennedy_files/

View File

@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
import pytesseract
# Ordnerpfad, der die PDFs enthält
input_folder = '/home/dikuever/kennedy/kennedy_files'
output_folder = '/home/dikuever/kennedy/output'
input_folder = '/home/dikuever/kennedy_files/kennedy_files'
output_folder = '/home/dikuever/kennedy_files/output'
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
if not os.path.exists(output_folder):

22
pdf4txt_reduce.sh Executable file
View File

@@ -0,0 +1,22 @@
#!/bin/bash
# Beispiel-Datei mit Einträgen
# input_file="pdfs.csv"
# output_file="pdfs_reduced.csv"
input_file="texts.csv"
output_file="texts_reduced.csv"
# Falls die Datei nicht existiert, Skript beenden
if [[ ! -f "$input_file" ]]; then
echo "Datei '$input_file' nicht gefunden."
exit 1
fi
# Verarbeite jede Zeile und entferne nur .pdf/.PDF am Ende
while IFS= read -r line; do
# Entferne .pdf (case-insensitive) am Ende der Zeile
echo "$line" | sed -E 's/\.txt$//I'
done < "$input_file" > "$output_file"
echo "Verarbeitung abgeschlossen. Ergebnis: $output_file"