API mit Scrapy

Die eigene Anwendung hat kein API? Die Lösung ist Web Scraping mit Scrapy:

scrapy.org
scrapinghub.com

Podcast: talkpython.fm/episodes/show/50/web-scraping-at-scale-with-scrapy-and-scrapinghub

Wir haben das mal eingesetzt um Content aus einer alten Website mit dem Relaunch in der neuen Seite verfügbar zu machen. Tatsächlich werfen viele Institutionen einen guten Teil Ihres Content weg, wenn sie eine neue Seite launchen.

Anderer Anwendungsfall: Kombination mit eine einer Suchmaschine wie Elasticsearch, die verschiedene Websites einer Institution in einer seitenübergreifenden Suche zusammenbindet. Das können beispielsweise Blogs oder Datenbanken sein.