Erstellt:
Aktualisiert:
Permalink: kreidefossilien.de/1815

Bildbearbeitung: Digitalisate des Internet Archives als optimierte PDF

tags: archive.org, irfanview, bildbearbeitung, digitalisierung
Halb-automatische Binarisierung von Digitalisaten aus dem Internet Archive
Halb-automatische Binarisierung von Digitalisaten aus dem Internet Archive
Die digitalisierten Bücher des Internet Archives können in recht guter Qualität online betrachtet werden. Wer jedoch lieber lokal auf dem eigenen Computer mit dem Material arbeiten möchte, kann sich beispielsweise die angebotenen PDF herunterladen. Diese enthalten zwar den erstellten Volltext; qualitativ sind die PDF jedoch mangelhaft und bisweilen schlecht lesbar. Folgend wird anhand eines Beispiels, die halb-automatisierte Optimierung der angebotenen Digitalisate auf archive.org erläutert.

Dazu werden die verfügbaren Bilddateien der Digitalisate zunächst in PNG-Dateien konvertiert, binarisiert (schwarz-weiß Bilder), eine PDF erzeugt und zuletzt die Texterkennung (OCR) durchgeführt. Diese Vorgehensweise ist nur bei Digitalisaten mit vergleichsweise geringem manuellem Aufwand verbunden, die Strichzeichnungen im Fließtext enthalten. In älteren Monographien und Zeitschriften finden sich oftmals Abbildungen und Zeichnungen nach den Textbeiträgen. Dies wäre der Optimalfall. Um Abbildungen (s/w bzw. farbige Fotos) im Fließtext in akzeptabler Qualität beizubehalten, wäre bei der beschriebenen Vorgehensweise, eine manuelle Bearbeitung notwendig.

Die folgende Anleitung ist für Benutzer gedacht, die bereits mit der Verwendung von Photoshop und dem Prinzip der Binarisierung mittels Schwellenwert vertraut sind.

verwendete Software

Alte Vollversionen von Photoshop und Acrobat können mit gültigen Softwareschlüsseln über diese Anleitung installiert werden.

Am Beispiel der digitalisierten Version von Geinitz, 1868. Die fossilen Fischschuppen aus dem Plänerkalke von Strehlen. wird mithilfe von IrfanView, Adobe Photoshop und Adobe Acrobat das Erstellen einer qualitativ hochwertigen und größenoptimierten PDF mit Volltext erläutert. Vorteilhaft wäre natürlich die Verwendung ausschließlich freier (kostenloser) Software, wie GIMP. Die Stapelverarbeitung von GIMP in Kombination mit einer automatisierten Binarisierung mit festem Schwellwert und/oder die Verwendung eines Algorithmus' mit adaptiven Schwellenwert scheint jedoch bei größeren Dateien nur sehr langsam zu funktionieren.

Zunächst werden die zugeschnittenen, gescannten Dateien von archive.org heruntergeladen. Die Dateien werden als jpeg2000 (.jp2) bereitgestellt. Das beste Verhältnis zwischen Dateigröße und verlustfreier Komprimierung nach der Bildoptimierung von Volltexten bietet das PNG-Format. Von daher werden die .jp2 mittels IrfanView in der Stapelverarbeitung in .png konvertiert.

Beispieldigitalisat
Abb. 1: Beispieldigitalisat

    IrfanView

  1. Menü Datei -> Batch(Stapel)-Konvertierung/Umbenennung
  2. gewünschte .jp2 hinzufügen und Zielformat PNG auswählen (im Button "Optionen" die Kompressionsstufe auf 0 herabsetzen)
  3. die DPI der Bilder dem Original anpassen über den Button "Setzen" (siehe Abb. 1 unter "Show more"->"Ppi 300")
IrfanView
Abb. 2: Stapelverabeitung in IrfanView

IrfanView bietet (noch?) keine Anpassung des Schwellenwertes (Thresholding) in der Stapelverabeitung an. Der Threshhold ist fest eingestellt. Von daher der "Umweg" über Photoshop, um ein optimales Ergebnis zu erzielen.

In Photoshop eine neue Aktion erstellen und einmalig an einer Beispieldatei folgende Schritte aufnehmen.

  1. In Graustufen konvertieren
  2. Auto-Kontrast
  3. Auto-Tonwertkorrektur
  4. manuelle Tonwertkorrektur (so korrigieren, dass beinahe nur noch schwarz-weiße Bereiche zu sehen sind)
  5. Schwellenwert setzen (hier findet die eigentliche Binarisierung auf 2 Farben statt)
  6. Speichern
  7. Schließen

Anschließend in Photoshop unter dem Menüpunkt Datei->Automatisieren->Stapeverabeitung (Batch) die eben erstellte Aktion und den Ordner auswählen, in dem sich die mittels IrfanView konvertierten PNG-Dateien befinden.
    
Optional kann im Anschluss die Dateigröße der binarisierten PNG mittels IrfanView um bis zu 15 % gegenüber Photoshop reduziert werden. Dazu werden die binarisierten PNG erneut mittels Stapelverarbeitung in IrfanView abgespeichert. Diesmal jedoch die Kompressionsstufe der PNG am Button "Optionen" auf 9 stellen und am Button "Setzen" die Farbtiefe auf 2 ändern.

Im Beispieldigitalisat befinden sich im Anhang 4 Tafeln, bei denen es sich anbietet, keine Binarisierung vorzunehmen. Die Dateien müssen in diesem Fall manuell ausgewählt und z.B. als .jpg abgespeichert werden.

Der letzte Schritt ist das zusammenfassen der binarisierten und größenoptimierten PNG - wahlweise der Tafeln im JPG-Format - zu einer PDF. Das kann mittels Adobe Acrobat erfolgen, mit dem dann auch die Texterkennung durchgeführt wird.
    
 

Binarisiertes Bild vs. Original-PDF
Abb. 3: Original-PDF vs. binarisiertes Digitalisat

Das Ergebnis ist eine optimierte PDF (optimierte Bilddateien als zip-Datei), die qualitativ hochwertiger ist, als die auf archive.org angebotene PDF.

Kommentare (0)






Erlaubte Tags: Kommentar hinzufügen: