Totalausfall bei Gitlab

01.02.2017

Der Git-Repository-Provider Gitlab ist vorübergehend komplett offline, weil ein Admin produktiv genutzte Daten gelöscht hat.

Der Git-Repository-Provider Gitlab ist seit gestern nicht erreichbar, weil ein Systemadministrator versehentlich wichtige Daten gelöscht hat, von denen es kein Online-Duplikat gibt. Nachdem er sich eine zeitlang mit LVM-Snapshots und der Replikation der PostgreSQL-Datenbanken beschäftigt hatte, beschloss der Gitlab-Mitarbeiter, ein leeres Verzeichnis zu löschen, von dem er vermutete, dass es hinter den Replikationsproblemen steckte. Allerdings war dieses Verzeichnis, da er sich zu diesem Zeitpunkt irrtümlich auf dem falschen Rechner arbeitete, gar nicht leer, sondern enthielt die komplette Datenbank der Gitlab-Site. Als er sich dazu entschloss, den Löschbefehl abzubrechen, waren davon bereits über 300 GByte gelöscht und nur noch 4 GByte übrig.

Seither arbeiten die Gitlab-Techniker daran, die gelöschte Datenbank aus älteren Snapshots soweit möglich wieder herzustellen. Erschwert wird dies dadurch, dass es keine vollkommen aktuellen Backups gibt, denn von den insgesamt fünf Backup-Strategien sind offensichtlich alle fehlgeschlagen: die PostgreSQL-Backup etwa deswegen, weil die verwendeten Binaries von PG-Dump nicht zur Datenbankversion passen. In der der Azure-Cloud gab es Disk-Snapshots nur von den NFS-, aber nicht von den Datenbank-Servern. Die Backups auf Amazon S3 sind anscheinend ebenfalls fehlgeschlagen.

Den aktuellen Fortschritt der Wiederherstellung dokumentiert Gitlab auf dem Twitter-Account der Firma . Eine Rekonstruktion der Ereignisse, die zu dem Totalausfall geführt haben, ist in einem Google-Doc zu finden. Laut Gitlab sind die gehosteten Kunden-Repositories nicht von dem Datenverlust betroffen.

comments powered by Disqus
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023