kennedy_files/readme.md

36 lines
1.7 KiB
Markdown

# Kennedy-Files - Verarbeitung ins Textformat
## Einleitung
Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat veröffentlicht.
Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden.
Viele PDF-Dokumente haben mehr als eine Seite.
Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
## Verarbeitung
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
```bash
sudo apt update
pip install pytesseract pdf2image pillow
sudo apt install tesseract-ocr
```
Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden.
Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner.
Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen.
```bash
./kennedy_loader.sh
```
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
Sobald alle Dateien heruntergeladen wurden, können mit dem Python-Skript die PDF-Dateien in reinen Text umgewandelt werden.
In der Datei `max_extract.py` müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem
Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen.
Der Aufruf geschieht über:
```bash
python3 max_extract.py
```