Die vorliegenen Skripte und Listen dienen dazu, die PDF-Dokumente herunterzuladen und mit Open Source Mitteln in Textdateien umzuwandeln. Die Konvertierung erleichtert die Suche nach Schlüsselwörtern.
In der Datei `max_extract.py` müssen lediglich die Quell- und Zielordner angegeben werden. Der Quellordner entspricht dem Ordner, in dem die PDF-Dateien liegen. Der Zielorder beschreibt, wo die umgewandelten Textdateien abgelegt werden sollen.
Die Umwandlung hängt von der Ausstattung des Rechners ab. Wichtig hierbei ist, dass genügend RAM zur Verfügung steht (16GB RAM reicht hier nicht aus, besser wären 32 oder 64GB). Bei einer 8Core Xeon CPU dauert die Umwandlung rund einen Tag (24 Stunden), hängt aber hier auch vom CPU Typ und der Generation ab.