Skriptprogrammierung mit Python

Aus ADMIN 06/2011

Duell der Datenbanken: In einem Shootout messen sich MySQL und PostgreSQL. Der Schwerpunkt vom ADMIN 06/2011 überprüft, wer schneller ist und gibt einen ... (mehr)

Webverarbeitung

Um mit Webseiten umzugehen, bringt Python einige nützliche Module mit. So sind dank der »urllib« nur wenige Zeilen nötig, um eine Webseite oder eine im Web gespeicherte Datei herunterzuladen.

import urllib
url = "http://www.spiegel.de"
u = urllib.urlopen(url)
data = u.read()

Die Methode »urlretrieve()« speichert Webseiten als Datei. Um beispielsweise den User-Agent-String selbst zu setzen, leitet man die eigene Klasse vom »FancyURLopener« ab und setzt in ihr die Klassenvariable »version« auf den gewünschten Wert. Wer ein großes Webmining-Projekt plant, sollte daran denken, den Inhalt der Datei »robots.txt« zu respektieren und ein gewisses Maß an Vernunft walten zu lassen. Einen relativ robusten Parser für das oft nicht korrekte HTML findet man in Beautiful Soup [5] .

Ausblick

Eine Vorstellung der praktischen Python-Module lässt sich noch endlos fortsetzen, eine Liste findet sich unter [6] . Gerade zur Systemverwaltung gibt es schon eine Reihe Pakete, die bereits auf Linux-Distributionen installiert sind, etwa »python-fstab« , »python-cups« oder »python-xdg« . Wer daran interessiert ist, sollte einfach mal die Liste der installierten Pakete durchsehen. Das ADMIN-Magazin wird nützliche Module im Rahmen dieser Python-Reihe regelmäßig vorstellen, etwa für LDAP, Logdateien, Virtualisierung und vieles mehr. (ofr)