Dieses Repository enthält Skripte zur Verarbeitung der im März 2025 herausgegebenen Kennedy Files.
Go to file
2025-03-22 22:24:41 +01:00
files_final.csv Pfad auf die PDF Dateien zum herunterladen 2025-03-21 21:13:46 +01:00
kennedy_loader.sh Downloader der PDF Dateien 2025-03-21 21:14:28 +01:00
max_extract.py Bildqualität von 300 auf 100 gesenkt um Speicher zu schonen 2025-03-22 18:34:01 +01:00
readme.md Hinweis zur Rechnerausstattung hinzugefügt 2025-03-22 22:24:41 +01:00

Kennedy-Files - Verarbeitung ins Textformat

Einleitung

Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat veröffentlicht. Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden. Viele PDF-Dokumente haben mehr als eine Seite.

Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.

Verarbeitung

Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:

sudo apt update
pip install pytesseract pdf2image pillow
sudo apt install tesseract-ocr

Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden. Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner. Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen.

./kennedy_loader.sh

Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt. Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.

Sobald alle Dateien heruntergeladen wurden, können mit dem Python-Skript die PDF-Dateien in reinen Text umgewandelt werden. In der Datei max_extract.py müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen. Der Aufruf geschieht über:

python3 max_extract.py

Die Umwandlung hängt von der Ausstattung des Rechners ab. Wichtig hierbei ist, dass genügend RAM zur Verfügung steht (16GB RAM reicht hier nicht aus, besser wären 32 oder 64GB). Bei einer 8Core Xeon CPU dauert die Umwandlung rund einen Tag (24 Stunden), hängt aber hier auch vom CPU Typ und der Generation ab.