Aus dem Forschungslabor

Räum doch mal auf

Unternehmen setzen zunehmend auf künstliche Intelligenz und Machine Learning, um aus ihren Datenbeständen Trends oder Handlungsempfehlungen abzuleiten. Die größte Hürde ist dabei längst nicht mehr die Lernfähigkeit von Computern, sondern die schlechte Qualität, in der Daten vorliegen. Dubletten, Tippfehler oder fehlende Werte in Tabellen verursachen bis zu 25 Prozent der Kosten eines KI-Projekts. Die neue Programmiersprache PClean vom MIT soll Abhilfe schaffen.
Das flexible Bereitstellen von Anwendungen und Software-Umgebungen ist dank der Container-Technologie kein Hexenwerk mehr. Dennoch gilt es für Admins, so ... (mehr)

Data Scientists sind heute weltweit gesuchte Spezialisten und gehören zu den am besten bezahlten Berufen in der IT. Gewiss, dieser zahlen- und datenorientierte Job ist nicht für jeden etwas, doch wer ihn ergreift, hatte sicher nicht vor Augen, einen großen Teil seiner Arbeitszeit mit der Korrektur von Schreibfehlern und Ähnlichem zu verbringen. Und doch ist genau dies Alltag für viele Datenwissenschaftler, was zur Folge hat, dass KI-Projekte länger dauern als geplant und mehr kosten. Gleichzeitig führt für Unternehmen aber auch kein Weg an dieser Datenhygiene vorbei, wenn sie planen, mit ihren gewachsenen Datenbeständen einen KIAlgorithmus lernen zu lassen. Denn "schlechte" Daten führen zu unbrauchbaren Auswertungen durch die künstliche Intelligenz. So geht unweigerlich ein großer Anteil der Kosten für ein solches Projekt in die Aufbereitung der Daten.

Aufräumen automatisiert

Forscher des MIT haben nun mit PClean eine Programmiersprache entwickelt, die helfen soll, die Aufräumarbeiten in den Daten zu automatisieren. Mit der Software entwickeln Programmierer oder Data Scientists einen wissensbasierten Ansatz, um die Daten automatisiert in einen Zustand zu bringen, der erlaubt, sie an den KI-Algorithmus zu übergeben.

Dies geht dabei weit über eine Software zur Korrektur von beispielsweise einfachen Schreibfehlern hinaus. Dies lässt sich an einem Beispiel gut verdeutlichen: Nehmen wir an, eine Versicherung hat im prä-digitalen Zeitalter Verträge zunächst auf Papier erfasst und später in Datenbanken eingepflegt. Von Millionen Versicherten leben schon rein statistisch eine große Anzahl in einem Ort namens "Hausen", dem in Deutschland weitverbreitetsten Ortsnamen. Nun fehlt jedoch bei einer gewissen Anzahl dieser Versicherten das zugehörige Bundesland – entweder wurde es bei Vertragsabschluss nicht erfasst oder ist in der Datenbank falsch hinterlegt

...

Der komplette Artikel ist nur für Abonnenten des ADMIN Archiv-Abos verfügbar.

comments powered by Disqus

Artikel der Woche

Eigene Registry für Docker-Images

Wer selber Docker-Images herstellt, braucht auch eine eigene Registry. Diese gibt es ebenfalls als Docker-Image, aber nur mit eingeschränkter Funktionalität. Mit einem Auth-Server wird daraus ein brauchbares Repository für Images. (mehr)
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2021