Erstellt:
Aktualisiert:
Permalink: kreidefossilien.de/721

Digitalisate des Internet Archives in optimaler Qualität nutzen

tags: irfanview, digitalisierung, archive.org, e-books
Digitalisate von archive.org optimal nutzen - Batch-Verarbeitung mit IrfanView; Grafik: IALOGO, Quelle: archive.org
Digitalisate von archive.org optimal nutzen - Batch-Verarbeitung mit IrfanView; Grafik: IALOGO, Quelle: archive.org
Archive.org bzw. die Biodiversity Heritage Library (BHL) und deren Partnerbilbiotheken bieten einen großen Fundus an digitalisierten geowissenschaftlichen Zeitschriften und Monographien an. Die Digitalisate können dort bequem im online Viewer betrachtet werden und der Text durchsucht werden. Wer sich allerdings die Digitalisate für den Offline-Gebrauch herunterladen möchte (z.B. im PDF-Format), wird bei bebilderten Arbeiten auf eine unerfreuliche Art überrascht.

Auf die Mängel der deutschen Texterkennung (engl. OCR) möchte ich nicht eingehen. Bei automatisierten Erstellung der PDF-Versionen wurde offenbar zugunsten der Dateigröße auf eine Komprimierung zurückgegriffen, die sich sehr nachteilig auf die Abbildungen & Zeichnungen auswirkt, während im Online-Viewer die Qualität der Abbildungen recht gut ist.

Zur Verdeutlichung der Unterschiede, folgendes Beispiel (Taf. 22 aus Geinitz, 1871-75. Das Elbthalgebirge in Sachsen) von  www.archive.org/details/palaeontographic20cass.

Das Internet Archive hält glücklicherweie von den angefertigten Digitalisaten die (zugeschnittenen) Originaldateien vor.

Diese liegen gepackt im JPEG2000 Format (.jp2) vor.

Betrachten kann man diese Bilder normalerweie nicht mit der Windows-Fotoanzeige. Das Format wird nicht unterstützt. Dafür bieten sich kostenfreie Programme wie GIMP oder IrfanView an. Diese unterstützen das Format. Wir möchten die Bilder aber nicht nur konvertieren, sondern auch Parameter, wie Kontrast oder Helligkeit einstellen, um ein optimales Ergebnis zu erhalten.

Speicherplatz & Rechenzeit sind billig, die eigene Arbeitszeit nicht.

Ich nutze daher die Funktion Batch-Konvertierung/Umbenennung von IrfanView. Je nach Anzahl der zu konvertierenden Dateien dauert das Ganze einige Zeit, läuft aber nach ein paar Klicks komplett automatisch ab.

Menü: Datei -> Batch-Konvertierung/Umbenennung

Zielformat: JPG; alternativ kann auch PDF gewählt werden. Außerdem auf den Button Optionen bzw. Setzen klicken.

Ich nutze normalerweise nur Schärfen, Helligkeit, Kontrast, Größe, DPI-Wert setzen, ggfl. Graustufen.
Bis allerdings das Optimum gefunden ist, sollte man ein wenig mit einer Datei experimentieren. Die Einstellungen können für später gespeichert werden.

(IrfanView-Beispieleinstellungen für Tafeln & Text - Kompromiß zwischen Dateigröße & Qualität)

Ergebnis:

Mit einem PDF Programm können die Bilddateien anschließend zusammengeführt werden. Da die Seiten nummeriert sind, erfolgt die Sortierung automatisch. Optional kann dann noch eine OCR-Texterkennung durchgeführt werden. Fertig ist das optimierte Digitalisat.

Kommentare (0)






Erlaubte Tags: Kommentar hinzufügen: