Drahtlose Netzwerke sind überall: Zu Hause, im Café und in der Firma. Im Gegensatz zu Kabelnetzen verliert der Admin bei WLANs allerdings schnell die ... (mehr)

HDFS-Snapshots

In Hadoop 2.x debütieren Snapshots des HDFS-Dateisystems: nicht-beschreibbare Kopien des Dateisystems, die seinen Zustand zu einem definierten Zeitpunkt erfassen (Point-in-Time Copy).

Für einen HDFS-Snapshot werden keine DataNodes kopiert. Der Snapshot erfasst lediglich die Liste aller Datenblöcke und die Größe der Dateien. Der Vorgang hat keinen negativen Effekt auf sonstige I/O-Operationen. Änderungen werden in umgekehrter chronologischer Reihenfolge aufgezeichnet, sodass auf die aktuellen Daten direkt zugegriffen werden kann. Der Zustand der Daten für den Snapshot errechnet HDFS2 durch die Subtraktion betreffender Änderungen vom aktuellen Zustand des Dateisystems.

Der Vorgang benötigt in der Regel auch keinen zusätzlichen Arbeitsspeicher (außer wenn gleichzeitig geschrieben wird). Um Snapshots zuzulassen, nutzt der Administrator den folgenden Befehl mit Berechtigungen des Superusers:

hdfs dfsadmin -allowSnapshot Pfad-zum-snapshotbaren-Verzeichnis

Der betreffende Verzeichnisbaum kann dann mit den Benutzerrechten des Besitzers in einem Snapshot wie folgt erfasst werden:

hdfs dfs -createSnapshot Pfad-zum-snapshotbaren-Verzeichnis[<snapshotName>]

Alternativ kann man selbstverständlich auch vom Java-API Gebrauch machen.

Um den Pfad zu Snapshots zu kennzeichnen, haben die Entwickler von HDFS2 den Objektnamen ».snapshot« vorgesehen. Falls in dem HDFS-Dateisystem Ihrer Hadoop-Installation diese Zeichenkette vorkommt, müssen Sie die betreffenden Objekte vor dem Upgrade unbedingt umbenennen, sonst schlägt es fehl.

Die Distributionen

Rund um Hadoop ist inzwischen ein ganzes Ökosystem spezialisierter Lösungen entstanden. Apaches Distribution von Hadoop adressiert primär Anbieter von Big-Data-Tools, die ihre eigenen (kommerziellen) Lösungen darauf aufsetzen. In diese Kategorie fallen unter anderem Cloudera, Hortonworks, IBM, SAP und EMC.

Für den unternehmenskritischen Einsatz von Hadoop mag eine Hadoop-Distribution mit 24/7-Support eines Dienstleisters wie Cloudera [1] oder Hortonworks [2] tatsächlich vorteilhaft sein. Allerdings lassen sich diese Anbieter dafür fürstlich bezahlen. Wer einen Service-Vertrag nicht dringend benötigt, dem steht es frei, kostenlose Versionen dieser Distributionen zu nutzen. Darüber hinaus gibt es Hadoop-Distributionen, die speziell für kleinere bis mittelgroße Unternehmen geschaffen wurden, wie Stratosphere von der TU Berlin [3].

Ähnliche Artikel

comments powered by Disqus
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023