28 lines
1.3 KiB
Markdown
28 lines
1.3 KiB
Markdown
# Kennedy-Files - Verarbeitung ins Textformat
|
|
|
|
## Einleitung
|
|
Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat veröffentlicht.
|
|
Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden.
|
|
Viele PDF-Dokumente haben mehr als eine Seite.
|
|
|
|
Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln.
|
|
Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
|
|
|
|
## Verarbeitung
|
|
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
|
|
|
|
```bash
|
|
sudo apt update
|
|
pip install pytesseract pdf2image pillow
|
|
sudo apt install tesseract-ocr
|
|
```
|
|
Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden.
|
|
Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner.
|
|
Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen.
|
|
|
|
```bash
|
|
./kennedy_loader.sh
|
|
```
|
|
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
|
|
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
|