diff --git a/pdf4txt_reduce.sh b/pdf4txt_reduce.sh new file mode 100755 index 0000000..34da8ff --- /dev/null +++ b/pdf4txt_reduce.sh @@ -0,0 +1,22 @@ +#!/bin/bash + +# Beispiel-Datei mit Einträgen +# input_file="pdfs.csv" +# output_file="pdfs_reduced.csv" + +input_file="texts.csv" +output_file="texts_reduced.csv" + +# Falls die Datei nicht existiert, Skript beenden +if [[ ! -f "$input_file" ]]; then + echo "Datei '$input_file' nicht gefunden." + exit 1 +fi + +# Verarbeite jede Zeile und entferne nur .pdf/.PDF am Ende +while IFS= read -r line; do + # Entferne .pdf (case-insensitive) am Ende der Zeile + echo "$line" | sed -E 's/\.txt$//I' +done < "$input_file" > "$output_file" + +echo "Verarbeitung abgeschlossen. Ergebnis: $output_file"