Russisch-Deutsches Projekt zur Digitalisierung deutscher Dokumente in den Archiven der russischen Föderation

niemandsland · Beitrag von **niemandsland** » 10.03.2016 11:11

Zur Erklärung:

In den jeweiligen Akten (Übersicht: Grid - Bildübersicht) gibt es einen Teil der mit "Pages: [" beginnt, und mit "]" endet. Dieser ist interessant für das runterladen der jeweiligen Seiten.

Zwischen den beiden eckigen Klammern steht - wenn man so will, in einem Array die Daten, die man zum generieren der Seiten benötigt:

Jeweils in den geschweiften Klammern {} stehen die Information.

{
"id": #dokument_nr#,
"w": #bild_breite#,
"h": #bild_hoehe#,
"downloadUrl": null
}

^^ Leerzeichen entfernt.

Die Bilddaten sind dann wieder mit Komma voneinander getrennt.

In der Praxis sieht das dann wie folgt aus:

Pages: [{
"id": #dokument_nr#,
"w": #bild_breite#,
"h": #bild_hoehe#,
"downloadUrl": null
},{
"id": #dokument_nr#,
"w": #bild_breite#,
"h": #bild_hoehe#,
"downloadUrl": null
},{
...
]

Und so sieht es im Browser aus:
[url]view-source:http://wwii.germandocsinrussia.org/de/n ... ect/zoom/4[/url]

Der Link sollte in den aktuellen Browser (IE, Crome, Firefox,...) funktionieren.

Mehr braucht man eigentlich nicht.

Danach liest man sich die jeweiligen Dokument-IDs aus und lädt das entsprechende Bild in einer weiteren Routine auf die eigene Festplatte runter. Das müsste mit ein paar einfachen String-Funktionen in allen möglichen Skript-Sprachen realisierbar sein.

HTML-Datei temporär laden; die Datei selbst durchlaufen (Zeiger) und z.B. (eine Möglichkeit) mit Hilfe von String-Funktionen nach "\"id\":" suchen und den Text danach bis zum ersten Komma kopieren. Jetzt kann man erst die Datei gleich herunterladen, oder erstmal sammeln. Auch einfach die Daten auswerten (ID, w, h,) und einen eigenen Array zu basteln, um zusätzliche Funktionen zu erstellen, wäre denkbar. So könnte man sich z.B. die Beschreibung schnappen, und in eine Textdatei mit allen zusätzlichen Informationen schreiben. Damit könnte man dann viel mehr anstellen. Denkbar wäre auch sich automatisch ein paar Thumbs zu generieren und diese z.B. mit den zuvor gewonnenen Daten als Typ: Blob in einer Datenbank abzulegen. Mit Link auf die jeweilige Datei könnte man prüfen, ob die Datei geändert wurde.
Ach, Möglichkeiten gebe es viele. So könnte man auch die Dokumente "automatisiert" in ein Dokumentmanagementsystem (DMS) überführen. Und und und. Es geht viel.. nur der Tag hat nur 24 Stunden.

Im übrigen sind auch andere Archivseiten nicht unbedingt Teufelswerk.

Wichtig wäre vielleicht noch der Hinweis, das nicht entscheidend ist ob etwas funktioniert (oder eine Sperre umgangen werden kann), sondern ob es vom geltenden Recht (hier insbesondere "Urheberrecht") erlaubt ist. Ich für meinen Teil bevorzuge hier die Wege, die sich mir "legal" (ohne programmieren) erschließen.

Bleibt noch der Hinweis das sich von Serverseite aus entsprechende Zugriffe loggen lassen. Das meistens darauf nur reagiert wird, und die Sache nicht weiter verfolgt wird, heißt nicht das alle diese Möglichkeitene "legal" sind.

Ich empfehle dringend die jeweiligen Erläuterungen zu den bereitgestellten Dokumenten aufmerksam zu lesen.

Viel Spaß beim programmieren.