Bildbearbeitung: Digitalisate des Internet Archives als optimierte PDF
tags: archive.org, irfanview, bildbearbeitung, digitalisierungDazu werden die verfügbaren Bilddateien der Digitalisate zunächst in PNG-Dateien konvertiert, binarisiert (schwarz-weiß Bilder), eine PDF erzeugt und zuletzt die Texterkennung (OCR) durchgeführt. Diese Vorgehensweise ist nur bei Digitalisaten mit vergleichsweise geringem manuellem Aufwand verbunden, die Strichzeichnungen im Fließtext enthalten. In älteren Monographien und Zeitschriften finden sich oftmals Abbildungen und Zeichnungen nach den Textbeiträgen. Dies wäre der Optimalfall. Um Abbildungen (s/w bzw. farbige Fotos) im Fließtext in akzeptabler Qualität beizubehalten, wäre bei der beschriebenen Vorgehensweise, eine manuelle Bearbeitung notwendig.
Die folgende Anleitung ist für Benutzer gedacht, die bereits mit der Verwendung von Photoshop und dem Prinzip der Binarisierung mittels Schwellenwert vertraut sind.
verwendete Software
Alte Vollversionen von Photoshop und Acrobat können mit gültigen Softwareschlüsseln über diese Anleitung installiert werden.
Am Beispiel der digitalisierten Version von Geinitz, 1868. Die fossilen Fischschuppen aus dem Plänerkalke von Strehlen. wird mithilfe von IrfanView, Adobe Photoshop und Adobe Acrobat das Erstellen einer qualitativ hochwertigen und größenoptimierten PDF mit Volltext erläutert. Vorteilhaft wäre natürlich die Verwendung ausschließlich freier (kostenloser) Software, wie GIMP. Die Stapelverarbeitung von GIMP in Kombination mit einer automatisierten Binarisierung mit festem Schwellwert und/oder die Verwendung eines Algorithmus' mit adaptiven Schwellenwert scheint jedoch bei größeren Dateien nur sehr langsam zu funktionieren.
Zunächst werden die zugeschnittenen, gescannten Dateien von archive.org heruntergeladen. Die Dateien werden als jpeg2000 (.jp2) bereitgestellt. Das beste Verhältnis zwischen Dateigröße und verlustfreier Komprimierung nach der Bildoptimierung von Volltexten bietet das PNG-Format. Von daher werden die .jp2 mittels IrfanView in der Stapelverarbeitung in .png konvertiert.
IrfanView
- Menü Datei -> Batch(Stapel)-Konvertierung/Umbenennung
- gewünschte .jp2 hinzufügen und Zielformat PNG auswählen (im Button "Optionen" die Kompressionsstufe auf 0 herabsetzen)
- die DPI der Bilder dem Original anpassen über den Button "Setzen" (siehe Abb. 1 unter "Show more"->"Ppi 300")
IrfanView bietet (noch?) keine Anpassung des Schwellenwertes (Thresholding) in der Stapelverabeitung an. Der Threshhold ist fest eingestellt. Von daher der "Umweg" über Photoshop, um ein optimales Ergebnis zu erzielen.
In Photoshop eine neue Aktion erstellen und einmalig an einer Beispieldatei folgende Schritte aufnehmen.
- In Graustufen konvertieren
- Auto-Kontrast
- Auto-Tonwertkorrektur
- manuelle Tonwertkorrektur (so korrigieren, dass beinahe nur noch schwarz-weiße Bereiche zu sehen sind)
- Schwellenwert setzen (hier findet die eigentliche Binarisierung auf 2 Farben statt)
- Speichern
- Schließen
Anschließend in Photoshop unter dem Menüpunkt Datei->Automatisieren->Stapeverabeitung (Batch) die eben erstellte Aktion und den Ordner auswählen, in dem sich die mittels IrfanView konvertierten PNG-Dateien befinden.
Optional kann im Anschluss die Dateigröße der binarisierten PNG mittels IrfanView um bis zu 15 % gegenüber Photoshop reduziert werden. Dazu werden die binarisierten PNG erneut mittels Stapelverarbeitung in IrfanView abgespeichert. Diesmal jedoch die Kompressionsstufe der PNG am Button "Optionen" auf 9 stellen und am Button "Setzen" die Farbtiefe auf 2 ändern.
Im Beispieldigitalisat befinden sich im Anhang 4 Tafeln, bei denen es sich anbietet, keine Binarisierung vorzunehmen. Die Dateien müssen in diesem Fall manuell ausgewählt und z.B. als .jpg abgespeichert werden.
Der letzte Schritt ist das zusammenfassen der binarisierten und größenoptimierten PNG - wahlweise der Tafeln im JPG-Format - zu einer PDF. Das kann mittels Adobe Acrobat erfolgen, mit dem dann auch die Texterkennung durchgeführt wird.
Das Ergebnis ist eine optimierte PDF (optimierte Bilddateien als zip-Datei), die qualitativ hochwertiger ist, als die auf archive.org angebotene PDF.
Beim Nutzen des Hilfsdienst https://xyz2bbox.kreidefossilien.de bin ich auf das Problem gestoßen,… vor 1 Jahr, 2 Monaten
Blatt 42 (4840) Borna ist leider nicht korrekt verlinkt. vor 1 Jahr, 6 Monaten
Der Kockelsbergtunnel wird südlich wieder in die Strecke Berlin-Dresden einbinden, nicht auf… vor 2 Jahren, 8 Monaten
Sehr schöne Anleitung, danke! vor 3 Jahren, 7 Monaten
Digitalisat von Tafel II aus Schulze, 1770 in guter Qualität hinzugefügt. Quelle: https://books.google.de/books?id=nHJlAAAAcAAJ&pg=PA37 vor 4 Jahren, 5 Monaten