Es spielt heute kaum noch eine Rolle, ob das eigene Unternehmen dem produzierenden Gewerbe oder der Dienstleistungsbranche angehört: Die Datenmengen, die es zu verarbeiten gilt, wachsen von Jahr zu Jahr. Heute spülen unterschiedlichste Quellen gigantische Informationen in die Rechenzentren und auf die Rechner der Mitarbeiter. Nicht umsonst ist in diesem Zusammenhang von Big Data die Rede – ein Schlagwort, das die IT-Branche regelrecht zu elektrisieren scheint.
Bei Big Data geht es um die wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse aus qualitativ unterschiedlichen und strukturell höchst diversifizierten Informationen. Erschwerend kommt hinzu, dass diese Rohdaten häufig einem schnellen Wandel unterliegen. Big Data stellt Konzepte, Methoden, Technologien, IT-Architekturen und Tools bereit, mit denen Unternehmen diese Informationsflut in vernünftige Bahnen lenken können.
Ursprünglich wurde Storm von Twitter entwickelt und wird seit 2013 unter der Federführung der Apache Software Foundation weiter gepflegt. Es handelt sich dabei um ein skalierbares Open Source-Werkzeug, das auf die Realtime-Analyse großer Datenmengen spezialisiert ist.
Während Hadoop in erster Linie auf Batch-Verarbeitungen setzt, ist Storm ein verteiltes, fehlertolerantes System, das – wie Hadoop – auf die Verarbeitung sehr großer Datenmengen spezialisiert ist. Der entscheidende Unterschied liegt allerdings in der Realtime-Verarbeitung.
Ein weiteres Merkmal ist seine hohe Skalierbarkeit: Storm verwendet den Hadoop ZooKeeper für die Cluster-Koordination und ist daher sehr gut skalierbar. Storm-Cluster gelten außerdem als leichter zu managen. Storm ist so konzipiert, dass jede eingehende Information verarbeitet wird. Topologien können prinzipiell in jeder beliebigen Programmiersprache definiert werden, wobei Storm typischerweise auf
...Der komplette Artikel ist nur für Abonnenten des ADMIN Archiv-Abos verfügbar.