Erstellt:
Aktualisiert:
Permalink: kreidefossilien.de/1775

Recherchetipps: Volltextsuche in Digitalisaten — naturwissenschafliche Literatur

tags: digitalisierung, recherchieren, bibliographie, proxy
Tipps zum Finden von Digitalisaten und die Möglichkeiten zur Volltextsuche
Tipps zum Finden von Digitalisaten und die Möglichkeiten zur Volltextsuche
Die mittlerweile im Internet Archive und der Biodiversity Heritage Library zahlreich vorhanden Digitalisate von Fachzeitschriften und Mongraphien können mithilfe verschiedenr Werkzeuge gefunden werden. Abseits von Google & Co., gibt es weitere Hilfsmittel die Digitaliste im Volltext zu durchsuchen.

Ergänzung: Den Originalbeitrag finden Sie weiter unten. Folgend ein kurzer Hinweis auf die Möglichkeit der Volltextsuche auf dem eigenen Rechner/in seinen eigenen Dokumenten mit z.B. Recoll.

Inhalte von mehreren PDF-Dateien durchsuchen

Die erstmalige Erstellung der Indizes dauert je nach Datenumfang natürlich, aber wer z.B. viele PDF-Dateien hat, sollte definitiv einen Versuch wagen - Texterfassung (OCR) natürlich vorausgesetzt. Eine Stärke von Recoll ist die Möglichkeit der sehr fein einstellbaren Filtermöglichkeit. Je nach Plugin können auch weitere Dateitypen erfasst werden.

Originalbeitrag

Folgend ein paar bewährte Strategien zum Finden von Artikeln, Monographien oder ganzer Zeitschriftenjahrgänge. Die Hinweise und Beispiele beziehen sich auf retrodigitalisierte Inhalte mit dem Schwerpunkt auf Naturwissenschaften. Für das Auffinden moderner Fachliteratur sei auf base-search.net und Google Scholar verwiesen. Für diejenigen mit Zugang zu Universitätsbibliotheken (deren Netzwerk) lohnt sich isiknowledge.com als Suchwerkzeug.

Einige bekannte große Repositorien sind:

Suche nach Beiträgen in Zeitschriften und Monographien bei bekanntem Titel/bekanntem Zeitschriftname

Ist das Literaturzitat bekannt und Suchmaschinen keinen direkten Treffer zu einem Digitalisat bieten, kann folgendermaßen vorgegangen werden.

  • Nutzung von speziellen Meta-Suchmaschinen, wie etwa dem Karlsruher Virtuellen Katalog (KVK), Worldcat oder z.B.der Europeana. Bei den Werkzeugen jeweils die Filter für „EBook/Online-Ressource etc.“ nutzen, um verfügbare Digitalisate anzuzeigen.

Bei Beiträgen, die in Zeitschriften erschienen sind, lohnt sich oft das Herantasten über den Namen der Zeitschrift und dann über die Angaben zum Band/Volume  — siehe Auflistung geowissenschaftlicher Zeitschriften, die digitalisert vorliegen und frei zugänglich sind.

Einige Repositorien werden mitunter nicht von den Katalogen, wie dem KVK erfasst. Dann muss man die einzelnen Datenbanken aufrufen — dazu die umfangreiche Auflistung zu „Digitale Sammlungen“ auf wikisource.org.

Die erste Anlaufstelle für retrodigitalisierte naturwissenschaftliche Literatur ist die BHL. Von Google Books digitalisierte Bücher finden sich in der HathiTrust Library und z.B. in der Digitalen Sammlung der BSB. Die Qualität der Digitalisate ist bei der BHL sehr gut; umso schlechter bei Ebooks aus dem Bestand von GB. Das stellt bei reinem Text kein Problem dar, fällt bei Abbildungen und Tafeln aber umso mehr auf.

Besonderheiten zur Zugänglichkeit zu den Digitalisaten bei GB & Hathi:

Wie bereits in älteren Beiträgen erwähnt, wird Nutzern außerhalb der USA der Zugang zur Vollansicht verwehrt, wenn die Bücher (in etwa) vor 1880 veröffentlicht wurden.

Obwohl sich so ziemlich alles in der „Public Domain“ (dem amerikanisches Pendant zur Gemeinfreiheit) befindet, das vor 1923 veröffentlicht wurde, bleibt einem die Vollansicht und der Download verwehrt. Umgehen lässt sich die Sperre mit einem Proxy (Standort innerhalb der USA). Zum Beispiel mit einem Webproxy oder über ein VPN.

kostenfreie Anbieter (Stand: 08/2015):
Webproxy oder per OpenVPN-Client das Angebot von vpnbook.com nutzen. Etwaige sensible Datenzugriffe sollten natürlich nicht mit aktivem Proxy durchgeführt werden, sofern man den Anbietern nicht vertraut!

Geheimtipp (noch): Für die Hathitrust-Library gibt es einen schnellen und unkomplizierten Proxy (direkt mit Browser nutzbar) auf library.arizona.edu — zum Proxy aktuelle Webproxy (US)

Gespiegelte GB-Digitalisate können ohne Beschränkungen auf archive.org genutzt werden. Findet sich dort keine gespiegelte Version, kann mit dem Book Uploader Bot (BUB) das jeweilige GB-Digitalisat dorthin gespiegelt werden (Bedingung: vor 1923 erschienen). Das erfolgt serverseitig und erfordert keine Installation/Einrichtung eines VPN oder Proxies.

Volltextsuche im Internet Archive und anderen Repositorien

Neue Quellen und Erkenntnisse erschließen sich vor allem aus dem Volltext. Etwaige Informationen zu Fossilfundstellen sind wohl nur in den seltensten Fällen unmittelbar aus Titel der Veröffentlichung ersichtlich. Folgend einige Hinweise und Tipps, sowie Besonderheiten einzelner Repositorien. Grundlage bildet die Qualität der Texterkennung (OCR) und in zweiter Instanz vor allem der Qualität der Suchmaschine bzw. deren Filtermöglichkeiten.

Probleme ergeben sich bei der Texterkennung von Frakturschrift (oder aufgrund mangelhafter Qualität). Bei Texten, die in Frakturschrift vorliegen, wird mitunter das „st“ als „ft“ erkannt. Anstelle von „Versteinerung“, lohnt es sich nach „Verfteinerung“ zu suchen. Auch Zeichen, die nicht im Englischen vorkommen, führen mitunter zu abweichenden Ergebnissen (Umlaute). Aus „Gamighübel“ (es findet sich im Übrigen auch der Begriff „Gamighügel“ in der Literatur), wird mitunter „Gamighubel/Gamighugel“. Die Wandlung der Rechtschreibung sollte man ebenfalls im Hinterkopf behalten. Aus bspw. „Klippenfacies“ des frühen 20. Jahrhunderts wurde später „Klippefazies“.

Hinzu kommen alle denkbaren Probleme, mit denen sich OCR-Software rumschlagen muss. Das Trennzeichen „—“  am Ende einer Zeile wird mitunter nicht als solches erkannt und aus einem Wort werden zwei unsinnige Buchstabenansammlungen.

Google Books & Hathi Trust Library
Beiden bieten die wohl derzeit beste Volltextsuche. an Die Wörter entsprechen sehr oft dem Original.

Internet Archive
Die Texterkennung von Umlauten ist eher mässig bis schlecht. Aus „ÄÖÜäoü“ wird oft „AOUaou“ oder es entstehen Konstrukte, wie „:a“ (anstelle von ä); aus „ü“ wird „ii“ (Coschütz -Coschiitz). Derzeit ist auf archive.org selbst keine Meta-Volltextsuche verfügbar, d.h. Volltextsuchen sind nur innerhalb eines einzelne Digitalisates möglich.

Ziemlich versteckt findet sich solch eine rudimentäre Meta-Suche für die Internet Archive-Digitalisate dann aber schließlich auf https://openlibrary.org/search/inside.

Alternativ den Google-Suchfilter nutzen: site:archive.org/stream/ filetype:txt kreideformation

Biodiversity Heritage Library
Die BHL bietet ebenfalls keine Volltextsuche an. Allerdings sind  alle Digitalisate Teil des IA und indirekt dann doch über openlibrary.org/search/inside durchsuchbar.

Eine nützliche Besonderheit in dieser Hinsicht bietet die BHL mit der Suche nach „Scientific Names“, die alle erfassten Digitalisate nach bswp. Mammites nodosoides filtert und die entsprechenden Textstellen/Seiten anbietet.

Tipp 1:
Eine recht große Sammlung digitalisierter Zeitschriften (Naturwissenschaften), die auch komplett über eine Volltextsuche erfasst sind, sind unter www.zobodat.at verfügbar. Es sind auch einige Zeitschriften aus dem Bestand der BHL erfasst (z.B. Sitzungsberichte der Akademie der Wissenschaften mathematisch-naturwissenschaftliche Classe Wien)

Ist auch nach umfangreicher Recherche kein Digitalisat in Sicht, können Angebote wie ebook-on-demand (EOD) genutzt werden.

Tipp 2:
Die BHL bietet einen kostenfreien Scan-Service an (guidelines beachten). Es dauert mitunter Monate bis Scans dann auch tatsächlich verfügbar sind (z.B. Geinitz, 1871-75. „Das Elbthalgebirge in Sachsen“). Aber es funktioniert. Anders als bei anderen (vor allem deutschen) Einrichtungen, sind die Digitalisate public-Domain (~gemeinfrei), sofern die Vorlage selbst public-Domain ist.

Offtopic-Meinung
Übertragen ins Deutsche bedeutet das: Die originalgetreuen Abbildungen gemeinfreier 2D-Vorlagen sind Kopien, die ebenfalls gemeinfrei sind. Solche Kopien dürfen nicht unter dem Mantel von Lichtbild- oder gar Lichtbildwerk-UrhG-Begründungen als neues Werk betrachtet werden, nur weil die Herstellung solcher Abbildungen mithilfe eines Fotoapparates erfolgt und nicht mit dem 0815-Bürokopierer.

Die Bände jüngeren Datums, wie z.B. der Zeitschrift Zitteliana (1969-2002) wurden unter einer Creative Commons Lizenz (BY-NC-SA 3.0) zugänglich gemacht.

 

weiterführende Links:

Kommentare (0)






Erlaubte Tags: Kommentar hinzufügen: