entfernt Suffixes von Dateien aus einer Liste

Input und Output Ordner hinterlegt - wir im git nicht benötigt
Pfade aus der letzten Verarbeitung auf Quickbox angepasst
2025-06-08 08:17:10 +00:00 · 2025-06-08 08:15:45 +00:00 · 2025-06-08 08:13:48 +00:00
3 changed files with 27 additions and 3 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -1 +1,3 @@
-env/*
+env/
+oputput/
+kennedy_files/
--- a/max_extract.py
+++ b/max_extract.py
@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
 import pytesseract

 # Ordnerpfad, der die PDFs enthält
-input_folder = '/home/dikuever/kennedy/kennedy_files'
-output_folder = '/home/dikuever/kennedy/output'
+input_folder = '/home/dikuever/kennedy_files/kennedy_files'
+output_folder = '/home/dikuever/kennedy_files/output'

 # Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
 if not os.path.exists(output_folder):
--- a/pdf4txt_reduce.sh
+++ b/pdf4txt_reduce.sh
@@ -0,0 +1,22 @@
+#!/bin/bash
+
+# Beispiel-Datei mit Einträgen
+# input_file="pdfs.csv"
+# output_file="pdfs_reduced.csv"
+
+input_file="texts.csv"
+output_file="texts_reduced.csv"
+
+# Falls die Datei nicht existiert, Skript beenden
+if [[ ! -f "$input_file" ]]; then
+  echo "Datei '$input_file' nicht gefunden."
+  exit 1
+fi
+
+# Verarbeite jede Zeile und entferne nur .pdf/.PDF am Ende
+while IFS= read -r line; do
+  # Entferne .pdf (case-insensitive) am Ende der Zeile
+  echo "$line" | sed -E 's/\.txt$//I'
+done < "$input_file" > "$output_file"
+
+echo "Verarbeitung abgeschlossen. Ergebnis: $output_file"
Author	SHA1	Message	Date
Dirk	93949467c2	entfernt Suffixes von Dateien aus einer Liste	2025-06-08 08:17:10 +00:00
Dirk	6b792f3579	Input und Output Ordner hinterlegt - wir im git nicht benötigt	2025-06-08 08:15:45 +00:00
Dirk	90ed166c98	Pfade aus der letzten Verarbeitung auf Quickbox angepasst	2025-06-08 08:13:48 +00:00