Digitalisate des Internet Archives in optimaler Qualität nutzen
tags: irfanview, digitalisierung, archive.org, e-booksAuf die Mängel der deutschen Texterkennung (engl. OCR) möchte ich nicht eingehen. Bei automatisierten Erstellung der PDF-Versionen wurde offenbar zugunsten der Dateigröße auf eine Komprimierung zurückgegriffen, die sich sehr nachteilig auf die Abbildungen & Zeichnungen auswirkt, während im Online-Viewer die Qualität der Abbildungen recht gut ist.
Zur Verdeutlichung der Unterschiede, folgendes Beispiel (Taf. 22 aus Geinitz, 1871-75. Das Elbthalgebirge in Sachsen) von www.archive.org/details/palaeontographic20cass.
Das Internet Archive hält glücklicherweie von den angefertigten Digitalisaten die (zugeschnittenen) Originaldateien vor.
Diese liegen gepackt im JPEG2000 Format (.jp2) vor.
Betrachten kann man diese Bilder normalerweie nicht mit der Windows-Fotoanzeige. Das Format wird nicht unterstützt. Dafür bieten sich kostenfreie Programme wie GIMP oder IrfanView an. Diese unterstützen das Format. Wir möchten die Bilder aber nicht nur konvertieren, sondern auch Parameter, wie Kontrast oder Helligkeit einstellen, um ein optimales Ergebnis zu erhalten.
Speicherplatz & Rechenzeit sind billig, die eigene Arbeitszeit nicht.
Ich nutze daher die Funktion Batch-Konvertierung/Umbenennung von IrfanView. Je nach Anzahl der zu konvertierenden Dateien dauert das Ganze einige Zeit, läuft aber nach ein paar Klicks komplett automatisch ab.
Menü: Datei -> Batch-Konvertierung/Umbenennung
Zielformat: JPG; alternativ kann auch PDF gewählt werden. Außerdem auf den Button Optionen bzw. Setzen klicken.
Ich nutze normalerweise nur Schärfen, Helligkeit, Kontrast, Größe, DPI-Wert setzen, ggfl. Graustufen.
Bis allerdings das Optimum gefunden ist, sollte man ein wenig mit einer Datei experimentieren. Die Einstellungen können für später gespeichert werden.
(IrfanView-Beispieleinstellungen für Tafeln & Text - Kompromiß zwischen Dateigröße & Qualität)
Ergebnis:
Mit einem PDF Programm können die Bilddateien anschließend zusammengeführt werden. Da die Seiten nummeriert sind, erfolgt die Sortierung automatisch. Optional kann dann noch eine OCR-Texterkennung durchgeführt werden. Fertig ist das optimierte Digitalisat.
Beim Nutzen des Hilfsdienst https://xyz2bbox.kreidefossilien.de bin ich auf das Problem gestoßen,… vor 1 Jahr, 4 Monaten
Blatt 42 (4840) Borna ist leider nicht korrekt verlinkt. vor 1 Jahr, 7 Monaten
Der Kockelsbergtunnel wird südlich wieder in die Strecke Berlin-Dresden einbinden, nicht auf… vor 2 Jahren, 10 Monaten
Sehr schöne Anleitung, danke! vor 3 Jahren, 9 Monaten
Digitalisat von Tafel II aus Schulze, 1770 in guter Qualität hinzugefügt. Quelle: https://books.google.de/books?id=nHJlAAAAcAAJ&pg=PA37 vor 4 Jahren, 7 Monaten