Beschreibung erweitert

This commit is contained in:
Dirk Küver-Christen 2025-03-22 22:20:50 +01:00
parent b4372026fd
commit b4800655bd

View File

@ -5,8 +5,7 @@ Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat ver
Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden. Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden.
Viele PDF-Dokumente haben mehr als eine Seite. Viele PDF-Dokumente haben mehr als eine Seite.
Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
## Verarbeitung ## Verarbeitung
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden: Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
@ -25,3 +24,12 @@ Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten
``` ```
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt. Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt. Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
Sobald alle Dateien heruntergeladen wurden, können mit dem Python-Skript die PDF-Dateien in reinen Text umgewandelt werden.
In der Datei `max_extract.py` müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem
Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen.
Der Aufruf geschieht über:
```bash
python3 max_extract.py
```