Anleitung weitergeschrieben
This commit is contained in:
parent
064006b6ee
commit
bda6cd7845
12
readme.md
12
readme.md
@ -12,5 +12,15 @@ Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
|
|||||||
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
|
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
pip install pytesseract pdf2image pillow
|
sudo apt update
|
||||||
|
pip install pytesseract pdf2image pillow tesseract-ocr
|
||||||
|
```
|
||||||
|
Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden.
|
||||||
|
Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner.
|
||||||
|
Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen.
|
||||||
|
|
||||||
|
```bash
|
||||||
|
./kennedy_loader.sh
|
||||||
|
```
|
||||||
|
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
|
||||||
|
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
|
||||||
|
Loading…
Reference in New Issue
Block a user