Beschreibung erweitert
This commit is contained in:
parent
b4372026fd
commit
b4800655bd
12
readme.md
12
readme.md
@ -5,8 +5,7 @@ Im März 2025 wurden die bis dahin geheimgehaltenen Dateien zum JFK-Attentat ver
|
|||||||
Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden.
|
Es handelt sich um mehr als 4000 PDF-Dokumente, die von Originaldokumenten erstellt wurden.
|
||||||
Viele PDF-Dokumente haben mehr als eine Seite.
|
Viele PDF-Dokumente haben mehr als eine Seite.
|
||||||
|
|
||||||
Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln.
|
Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
|
||||||
Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
|
|
||||||
|
|
||||||
## Verarbeitung
|
## Verarbeitung
|
||||||
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
|
Um die Umwandlung in Textdateien zu ermöglichen, müssen vorab einige Abhängigkeiten installiert werden:
|
||||||
@ -25,3 +24,12 @@ Hinweis: die Datei final_files.csv Datei muss sich im Ordner befinden, ansonsten
|
|||||||
```
|
```
|
||||||
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
|
Das Skript erstellt einen neuen Order im Repository-Ordner namens "./kennedy_files", dort werden die PDF-Dateien abgelegt.
|
||||||
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
|
Sollte der Ordner noch nicht vorhanden sein, wird er erstellt.
|
||||||
|
|
||||||
|
Sobald alle Dateien heruntergeladen wurden, können mit dem Python-Skript die PDF-Dateien in reinen Text umgewandelt werden.
|
||||||
|
In der Datei `max_extract.py` müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem
|
||||||
|
Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen.
|
||||||
|
Der Aufruf geschieht über:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
python3 max_extract.py
|
||||||
|
```
|
||||||
|
Loading…
Reference in New Issue
Block a user