API mit Scrapy

Posted on March 16, 2016 by rbussche

Die eigene Anwendung hat kein API? Die Lösung ist Web Scraping mit Scrapy:

Podcast: talkpython.fm/episodes/show/50/web-scraping-at-scale-with-scrapy-and-scrapinghub

Wir haben das mal eingesetzt um Content aus einer alten Website mit dem Relaunch in der neuen Seite verfügbar zu machen. Tatsächlich werfen viele Institutionen einen guten Teil Ihres Content weg, wenn sie eine neue Seite launchen.

Anderer Anwendungsfall: Kombination mit eine einer Suchmaschine wie Elasticsearch, die verschiedene Websites einer Institution in einer seitenübergreifenden Suche zusammenbindet. Das können beispielsweise Blogs oder Datenbanken sein.

Vivliostyle

Posted on February 25, 2015 by rbussche

Das open Source Projekt Vivliostyle arbeitet an verschiedenen Werkzeugen zum elektronischen Publizieren. Das Projekt setzt auf CSS, um eine verbesserte Typografie zu ermöglichen.

Das sind die einzelnen Komponenten:

Vivliostyle Formatter — Print formatter, capable to generate high quality PDFs from structural documents such as HTML/XML/EPUB, with CSS paged media support

Vivliostyle Browser — Web&epub browser with multiple viewing modes including paged view and print support; made as browser extensions or browser-based apps

Vivliostyle.js — JavaScript library, for web sites with rich paged viewing and EPUB support, shared with Vivliostyle Formatter & Browser

siehe http://vivliostyle.com/project/

PDF/A-Validierung, u.a. mit Jhove

Posted on February 2, 2015 by rbussche

Der Frage der Validieren von PDF/A-Dateien geht ein Blogbeitrag der Open Preservation Foundation nach:

http://openpreservation.org/knowledge/blogs/2015/01/29/a-contribution-to-yvonne-friese-publication-on-the-topic-ensuring-long-term-access-pdf-validation-with-jhove/

Baukasten zum Corporate Publishing

Posted on September 17, 2013 by rbussche

Die CP-Gate hat einen neuartigen Online-Baukasten für Corporate Publishing auf den Markt gebracht.

Es gibt eine einmonatige Demo-Version, dann muss man sich auf eine weitere Laufzeit von 3, 6 oder 12 Monaten verpflichten.

Der Baukasten setzt auf Nutzer mit wenig Vorkenntnissen. Mit was für Formaten im ePaper zu rechnen ist, habe ich noch nicht heraus gefunden. Da muss man wohl in die Demo einsteigen. Auch die Frage der Distribution erschließt sich so auf den ersten Blick auch nicht.

www.cp-gate.de

gefunden bei visuell-news

Bibliotron

Nachrichten und Werkzeuge zum elektronischen Publizieren

Category Archives: Tools

API mit Scrapy

Vivliostyle

PDF/A-Validierung, u.a. mit Jhove

Baukasten zum Corporate Publishing