Um mit Webseiten umzugehen, bringt Python einige nützliche Module mit. So sind dank der »urllib
«
nur wenige Zeilen nötig, um eine Webseite oder eine im Web gespeicherte Datei herunterzuladen.
import urllib url = "http://www.spiegel.de" u = urllib.urlopen(url) data = u.read()
Die Methode »urlretrieve()
«
speichert Webseiten als Datei. Um beispielsweise den User-Agent-String selbst zu setzen, leitet man die eigene Klasse vom »FancyURLopener
«
ab und setzt in ihr die Klassenvariable »version
«
auf den gewünschten Wert. Wer ein großes Webmining-Projekt plant, sollte daran denken, den Inhalt der Datei »robots.txt
«
zu respektieren und ein gewisses Maß an Vernunft walten zu lassen. Einen relativ robusten Parser für das oft nicht korrekte HTML findet man in Beautiful Soup [5].
Eine Vorstellung der praktischen Python-Module lässt sich noch endlos fortsetzen, eine Liste findet sich unter [6]. Gerade zur Systemverwaltung gibt es schon eine Reihe Pakete, die bereits auf Linux-Distributionen installiert sind, etwa »python-fstab
«
, »python-cups
«
oder »python-xdg
«
. Wer daran interessiert ist, sollte einfach mal die Liste der installierten Pakete durchsehen. Das ADMIN-Magazin wird nützliche Module im Rahmen dieser Python-Reihe regelmäßig vorstellen, etwa für LDAP, Logdateien, Virtualisierung und vieles mehr. (ofr)
Infos