API mit Scrapy

Die eigene Anwendung hat kein API? Die Lösung ist Web Scraping mit Scrapy:

scrapy.org
scrapinghub.com

Podcast: talkpython.fm/episodes/show/50/web-scraping-at-scale-with-scrapy-and-scrapinghub

Wir haben das mal eingesetzt um Content aus einer alten Website mit dem Relaunch in der neuen Seite verfügbar zu machen. Tatsächlich werfen viele Institutionen einen guten Teil Ihres Content weg, wenn sie eine neue Seite launchen.

Anderer Anwendungsfall: Kombination mit eine einer Suchmaschine wie Elasticsearch, die verschiedene Websites einer Institution in einer seitenübergreifenden Suche zusammenbindet. Das können beispielsweise Blogs oder Datenbanken sein.

Nachwuchswissenschaftler, Verlage, Bibliotheken & Open Access. Zeitgemäßes Publizieren in den Geisteswissenschaften

Die Podiumsdiskussion findet am 11. 02.2014 um 18 Uhr in der Bayerischen Staatsbibliothek in München statt.

Teilnehmer:

Dr. Klaus Ceynowa
Stellvertretender Generaldirektor der Bayerischen Staatsbibliothek

Prof. Dr. Bernd Huber
Präsident der Ludwig-Maximilians-Universität München

Prof. Dr. Hubertus Kohle
Dekan der Fakultät für Geschichts- und Kunstwissenschaften der
Ludwig-Maximilians-Universität München

Dr. Stefan von der Lahr
Lektor im Verlag C. H. Beck

Dr. Lilian Landes
Stellvertretende Leiterin des Zentrums für Elektronisches Publizieren
der Bayerischen Staatsbibliothek

Prof. Dr. Martin Schulze Wessel
Vorsitzender des Verbands der Historiker und Historikerinnen
Deutschlands

Moderation:
Thierry Chervel
Journalist und Mitbegründer des Kulturportals “Perlentaucher”

mehr unter
http://www.lmu.de/openaccess2014