From bda6cd7845a63c9acf06208679c7ef2a604481d9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Dirk=20K=C3=BCver-Christen?= Date: Fri, 21 Mar 2025 22:16:03 +0100 Subject: [PATCH] Anleitung weitergeschrieben --- readme.md | 12 +++++++++++- 1 file changed, 11 insertions(+), 1 deletion(-) diff --git a/readme.md b/readme.md index 64e9a9e..c24fb91 100644 --- a/readme.md +++ b/readme.md @@ -12,5 +12,15 @@ Die Konvertierung erleichtert die Suche nach Schlüsselwörtern. Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden: ```bash -pip install pytesseract pdf2image pillow +sudo apt update +pip install pytesseract pdf2image pillow tesseract-ocr +``` +Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden. +Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner. +Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen. +```bash +./kennedy_loader.sh +``` +Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt. +Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.