Compare commits
3 Commits
739f581156
...
main
| Author | SHA1 | Date | |
|---|---|---|---|
| 93949467c2 | |||
| 6b792f3579 | |||
| 90ed166c98 |
4
.gitignore
vendored
4
.gitignore
vendored
@@ -1 +1,3 @@
|
|||||||
env/*
|
env/
|
||||||
|
oputput/
|
||||||
|
kennedy_files/
|
||||||
|
|||||||
@@ -3,8 +3,8 @@ from pdf2image import convert_from_path
|
|||||||
import pytesseract
|
import pytesseract
|
||||||
|
|
||||||
# Ordnerpfad, der die PDFs enthält
|
# Ordnerpfad, der die PDFs enthält
|
||||||
input_folder = '/home/dikuever/kennedy/kennedy_files'
|
input_folder = '/home/dikuever/kennedy_files/kennedy_files'
|
||||||
output_folder = '/home/dikuever/kennedy/output'
|
output_folder = '/home/dikuever/kennedy_files/output'
|
||||||
|
|
||||||
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
# Überprüfen, ob der Ausgabepfad existiert, wenn nicht, erstellen
|
||||||
if not os.path.exists(output_folder):
|
if not os.path.exists(output_folder):
|
||||||
|
|||||||
22
pdf4txt_reduce.sh
Executable file
22
pdf4txt_reduce.sh
Executable file
@@ -0,0 +1,22 @@
|
|||||||
|
#!/bin/bash
|
||||||
|
|
||||||
|
# Beispiel-Datei mit Einträgen
|
||||||
|
# input_file="pdfs.csv"
|
||||||
|
# output_file="pdfs_reduced.csv"
|
||||||
|
|
||||||
|
input_file="texts.csv"
|
||||||
|
output_file="texts_reduced.csv"
|
||||||
|
|
||||||
|
# Falls die Datei nicht existiert, Skript beenden
|
||||||
|
if [[ ! -f "$input_file" ]]; then
|
||||||
|
echo "Datei '$input_file' nicht gefunden."
|
||||||
|
exit 1
|
||||||
|
fi
|
||||||
|
|
||||||
|
# Verarbeite jede Zeile und entferne nur .pdf/.PDF am Ende
|
||||||
|
while IFS= read -r line; do
|
||||||
|
# Entferne .pdf (case-insensitive) am Ende der Zeile
|
||||||
|
echo "$line" | sed -E 's/\.txt$//I'
|
||||||
|
done < "$input_file" > "$output_file"
|
||||||
|
|
||||||
|
echo "Verarbeitung abgeschlossen. Ergebnis: $output_file"
|
||||||
Reference in New Issue
Block a user