Dieses Repository enthält Skripte zur Verarbeitung der im März 2025 herausgegebenen Kennedy Files.
Go to file
2025-03-21 22:04:55 +01:00
files_final.csv Pfad auf die PDF Dateien zum herunterladen 2025-03-21 21:13:46 +01:00
kennedy_loader.sh Downloader der PDF Dateien 2025-03-21 21:14:28 +01:00
max_extract.py Erstellt aus den PDF-Dokumenten Textdateien zur Weiterverarbeitung 2025-03-21 21:15:15 +01:00
readme.md readme.md mit Einzelheiten erstellt 2025-03-21 22:04:55 +01:00

Kennedy-Files - Verarbeitung ins Textformat

Einleitung

Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat veröffentlicht. Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden. Viele PDF-Dokumente haben mehr als eine Seite.

Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.

Verarbeitung

Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:

bash```` pip install pytesseract pdf2image pillow