diff --git a/readme.md b/readme.md index bb35cac..f0f4a88 100644 --- a/readme.md +++ b/readme.md @@ -5,8 +5,7 @@ Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat ver Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden. Viele PDF-Dokumente haben mehr als eine Seite. -Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. -Die Konvertierung erleichtert die Suche nach Schlüsselwörtern. +Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern. ## Verarbeitung Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden: @@ -25,3 +24,12 @@ Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten ``` Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt. Sollte der Ordner noch nicht vorhanden sein, wird er erstellt. + +Sobald alle Dateien heruntergeladen wurden, können mit dem Python-Skript die PDF-Dateien in reinen Text umgewandelt werden. +In der Datei `max_extract.py` müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem +Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen. +Der Aufruf geschieht über: + +```bash +python3 max_extract.py +```