Compare commits
3 Commits
739f581156
...
main
| Author | SHA1 | Date | |
|---|---|---|---|
| 93949467c2 | |||
| 6b792f3579 | |||
| 90ed166c98 |
4
.gitignore
vendored
4
.gitignore
vendored
@@ -1 +1,3 @@
|
||||
env/*
|
||||
env/
|
||||
oputput/
|
||||
kennedy_files/
|
||||
|
||||
@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
|
||||
import pytesseract
|
||||
|
||||
# Ordnerpfad, der die PDFs enthält
|
||||
input_folder = '/home/dikuever/kennedy/kennedy_files'
|
||||
output_folder = '/home/dikuever/kennedy/output'
|
||||
input_folder = '/home/dikuever/kennedy_files/kennedy_files'
|
||||
output_folder = '/home/dikuever/kennedy_files/output'
|
||||
|
||||
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
||||
if not os.path.exists(output_folder):
|
||||
|
||||
22
pdf4txt_reduce.sh
Executable file
22
pdf4txt_reduce.sh
Executable file
@@ -0,0 +1,22 @@
|
||||
#!/bin/bash
|
||||
|
||||
# Beispiel-Datei mit Einträgen
|
||||
# input_file="pdfs.csv"
|
||||
# output_file="pdfs_reduced.csv"
|
||||
|
||||
input_file="texts.csv"
|
||||
output_file="texts_reduced.csv"
|
||||
|
||||
# Falls die Datei nicht existiert, Skript beenden
|
||||
if [[ ! -f "$input_file" ]]; then
|
||||
echo "Datei '$input_file' nicht gefunden."
|
||||
exit 1
|
||||
fi
|
||||
|
||||
# Verarbeite jede Zeile und entferne nur .pdf/.PDF am Ende
|
||||
while IFS= read -r line; do
|
||||
# Entferne .pdf (case-insensitive) am Ende der Zeile
|
||||
echo "$line" | sed -E 's/\.txt$//I'
|
||||
done < "$input_file" > "$output_file"
|
||||
|
||||
echo "Verarbeitung abgeschlossen. Ergebnis: $output_file"
|
||||
Reference in New Issue
Block a user