# Kennedy-Files - Verarbeitung ins Textformat ## Einleitung Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat veröffentlicht. Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden. Viele PDF-Dokumente haben mehr als eine Seite. Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern. ## Verarbeitung Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden: ```bash sudo apt update pip install pytesseract pdf2image pillow tesseract-ocr ``` Nachdem man das git-Repository heruntergeladen hat, müssen zunächst die PDF-Dateien heruntergeladen werden. Bitte berücksichtigen, dass es ca. 6GB Plattenplatz benötigt. Den Download startet man direkt aus dem Repository-Ordner. Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten werden die Dateien nicht heruntergeladen. ```bash ./kennedy_loader.sh ``` Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt. Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.