Um mit Webseiten umzugehen, bringt Python einige nützliche Module mit. So sind dank der
»urllib
«
nur wenige Zeilen nötig, um eine Webseite oder eine im Web gespeicherte Datei herunterzuladen.
import urllib url = "http://www.spiegel.de" u = urllib.urlopen(url) data = u.read()
Die Methode
»urlretrieve()
«
speichert Webseiten als Datei. Um beispielsweise den User-Agent-String selbst zu setzen, leitet man die eigene Klasse vom
»FancyURLopener
«
ab und setzt in ihr die Klassenvariable
»version
«
auf den gewünschten Wert. Wer ein großes Webmining-Projekt plant, sollte daran denken, den Inhalt der Datei
»robots.txt
«
zu respektieren und ein gewisses Maß an Vernunft walten zu lassen. Einen relativ robusten Parser für das oft nicht korrekte HTML findet man in Beautiful Soup
[5]
.
Eine Vorstellung der praktischen Python-Module lässt sich noch endlos fortsetzen, eine Liste findet sich unter
[6]
. Gerade zur Systemverwaltung gibt es schon eine Reihe Pakete, die bereits auf Linux-Distributionen installiert sind, etwa
»python-fstab
«
,
»python-cups
«
oder
»python-xdg
«
. Wer daran interessiert ist, sollte einfach mal die Liste der installierten Pakete durchsehen. Das ADMIN-Magazin wird nützliche Module im Rahmen dieser Python-Reihe regelmäßig vorstellen, etwa für LDAP, Logdateien, Virtualisierung und vieles mehr.
(ofr)
Infos
Die neue Python-Version 3.2 bringt einige neue Features, fixt Problem mit String-Encoding und konzentriert sich sonst auf Stabilität.