Wikipedia listet sieben Schritte für einen Datenanalyse-Prozess auf: Datenanforderungen, Datensammlung, Datenverarbeitung, Datenbereinigung, explorative Datenanalyse, Datenmodellierung und schließlich die Generierung von Produktionsergebnissen. Wenn Lokad Bestände prognostiziert, Preise optimiert oder immer dann, wenn wir eine Art von Handelsoptimierung angehen, ist unser Prozess sehr ähnlich wie der oben beschriebene. Es gibt jedoch einen weiteren entscheidenden Schritt, der in der Regel mehr als die Hälfte aller Anstrengungen ausmacht, die typischerweise vom Team von Lokad angewendet werden und der nicht einmal Teil der oben genannten Liste ist. Dieser Schritt ist die Datenqualifizierung.

Jetzt, da “Big Data” zu einem Buzzword geworden ist, versuchen unzählige Unternehmen, mehr aus ihren Daten herauszuholen. Die Datenqualifizierung ist wahrscheinlich die zweithäufigste Ursache für das Scheitern von Projekten, direkt nach unklaren oder unklugen Geschäftszielen - was immer dann geschieht, wenn eine Initiative von der “Lösung” ausgeht, anstatt von dem “Problem” auszugehen. Lassen Sie uns etwas Licht auf diesen mysteriösen Schritt der “Datenqualifizierung” werfen.

Daten als Nebenprodukt von Unternehmensanwendungen

Der überwiegende Teil der Unternehmenssoftware ist darauf ausgelegt, Unternehmen bei der Geschäftstätigkeit zu unterstützen: Das Point-of-Sale-System ermöglicht es Kunden zu bezahlen; das Warehouse-Management-System dient dazu, Produkte auszuwählen und zu lagern; die Webkonferenz-Software ermöglicht es den Menschen, ihre Meetings online abzuhalten, usw. Eine solche Software kann auch Daten erzeugen, aber Daten sind nur ein sekundäres Nebenprodukt des Hauptzwecks dieser Software.

Die genannten Systeme sind darauf ausgelegt, das Geschäft zu betreiben, und daher wird immer dann, wenn ein Praktiker zwischen einer besseren Betriebsführung oder besseren Daten wählen muss, immer immer die bessere Betriebsführung bevorzugt. Wenn zum Beispiel ein Barcode beim Scannen an der Kasse Ihres örtlichen Supermarkts nicht erkannt wird, wählt der Kassierer unweigerlich ein Produkt aus, das den gleichen Preis hat, und scannt es zweimal; manchmal haben sie sogar eine Liste von Barcodes auf einem Stück Papier. Der Kassierer hat recht: Die Nr. 1 Priorität besteht darin, den Kunden unabhängig von allem bezahlen zu lassen. Die Erzeugung genauer Lagerbestandsaufzeichnungen ist im Vergleich zum dringenden Bedarf, eine Reihe von Kunden zu bedienen, kein unmittelbares Ziel.

Man könnte argumentieren, dass das Problem mit dem Barcode-Scannen tatsächlich ein Problem der Datenbereinigung ist. Die Situation ist jedoch recht subtil: Die Aufzeichnungen bleiben in gewissem Maße korrekt, da der dem Kunden berechnete Betrag korrekt bleibt und auch die Anzahl der Artikel im Warenkorb. Naives Filtern aller verdächtigen Aufzeichnungen würde den meisten Analysen mehr schaden als nützen.

Dennoch stellen wir fest, dass Unternehmen - und auch ihre Softwareanbieter - allzu oft dieses grundlegende Muster für nahezu alle generierten Geschäftsdaten enthusiastisch ignorieren und direkt von der Datenverarbeitung zur Datenbereinigung übergehen.

Die Datenqualifizierung bezieht sich auf die Semantik der Daten

Das Ziel des Schritts der Datenqualifizierung besteht darin, die Semantik der Daten klarzustellen und gründlich zu dokumentieren. In den meisten Fällen, wenn (große) Unternehmen tabellarische Datendateien an Lokad senden, senden sie uns auch eine Excel-Tabelle, in der jeder in den Dateien gefundene Spalte eine kurze Dokumentationszeile erhält, typischerweise wie folgt: Preis: der Preis des Produkts. Eine solche kurze Dokumentationszeile lässt jedoch eine Vielzahl von Fragen offen:

  • Welche Währung gilt für das Produkt?
  • Handelt es sich um einen Preis mit oder ohne Steuern?
  • Gibt es eine andere Variable (wie einen Rabatt), die sich auf den tatsächlichen Preis auswirkt?
  • Ist es wirklich der gleiche Preis für das Produkt in allen Kanälen?
  • Sollte der Preiswert auch für Produkte sinnvoll sein, die noch nicht verkauft wurden?
  • Gibt es Randfälle wie Nullen, um fehlende Werte widerzuspiegeln?

Daten sind auch hervorragende Kandidaten für semantische Mehrdeutigkeiten, wenn eine orders-Tabelle eine date-Spalte enthält, kann sich das Datum auf die Zeit beziehen von:

  • der Warenkorbvalidierung
  • dem Zahlungseingang
  • der Zahlungsklärung
  • der Erstellung der Bestellung im Buchhaltungspaket
  • dem Versand
  • der Lieferung
  • der Abschluss der Bestellung

Diese kurze Liste deckt jedoch kaum die tatsächlichen Besonderheiten ab, die in realen Situationen auftreten können. Kürzlich haben wir zum Beispiel bei der Arbeit für eines der größten europäischen Online-Unternehmen festgestellt, dass die mit Bestellungen verbundenen Daten je nach Herkunftsland der Lieferantenfabriken unterschiedliche Bedeutungen hatten. Europäische Lieferanten versendeten ihre Produkte mit Lastwagen und das Datum spiegelte die Ankunft im Lager wider, während asiatische Lieferanten ihre Produkte mit Schiffen versendeten und das Datum die Ankunft im Hafen widerspiegelte. Diese kleine “Drehung” führte in der Regel zu einer Differenz von mehr als 10 Tagen in der Durchlaufzeit Berechnung.

Bei geschäftsbezogenen Datensätzen hängt die Semantik der Daten fast immer von den zugrunde liegenden Unternehmensprozessen und -praktiken ab. Dokumentationen zu solchen Prozessen konzentrieren sich, wenn überhaupt vorhanden, in der Regel auf das, was für das Management oder die Prüfer von Interesse ist, aber nur selten auf die Vielzahl von kleinen Elementen, die in der IT-Landschaft des Unternehmens existieren. Doch der Teufel steckt im Detail.

Datenqualifikation ist nicht Datenbereinigung

Datenbereinigung macht in den experimentellen Wissenschaften am meisten Sinn, wenn bestimmte Datenpunkte (Ausreißer) entfernt werden müssen, weil sie die Experimente falsch “verzerren” würden. Zum Beispiel könnten Messungen in einem Optik-Experiment einfach einen Defekt im optischen Sensor widerspiegeln, der nichts mit der eigentlichen Studie zu tun hat.

Dieser Prozess spiegelt jedoch nicht das wider, was typischerweise beim Analysieren von Geschäftsdaten benötigt wird. Ausreißer können auftreten, wenn es um die Reste einer misslungenen Datenbankwiederherstellung geht, aber meistens sind Ausreißer marginal. Die (geschäftliche) Integrität der meisten in Produktion befindlichen Datenbanken ist ausgezeichnet. Fehlerhafte Einträge existieren, aber die meisten modernen Systeme verhindern die häufigsten Fehler gut und unterstützen auch bei der anschließenden Korrektur. Datenqualifikation ist jedoch etwas ganz anderes, denn das Ziel besteht nicht darin, Datenpunkte zu entfernen oder zu korrigieren, sondern das gesamte Datenmaterial zu beleuchten, damit die anschließende Analyse wirklich sinnvoll ist. Das Einzige, was durch den Prozess der Datenqualifikation “verändert” wird, ist die ursprüngliche Daten-Dokumentation.

Datenqualifikation ist der größte Teil der Arbeit

Bei der Arbeit an Dutzenden von datengetriebenen Projekten im Zusammenhang mit Handel, Luft- und Raumfahrt, Gastgewerbe, Bioinformatik und Energie haben wir festgestellt, dass die Datenqualifikation immer der anspruchsvollste Schritt des Projekts war. Machine Learning Algorithmen mögen anspruchsvoll erscheinen, aber solange die Initiative innerhalb der bekannten Grenzen von Regressions- oder Klassifikationsproblemen bleibt, ist der Erfolg im Machine Learning größtenteils eine Frage des vorherigen Fachwissens. Das Gleiche gilt für die Verarbeitung von Big Data.

Datenqualifikationsprobleme sind heimtückisch, weil man nicht weiß, was einem fehlt: Dies ist die semantische Lücke zwischen der “wahren” Semantik, wie sie im Hinblick auf die von den vorhandenen Systemen erzeugten Daten verstanden werden sollte, und der “tatsächlichen” Semantik, wie sie von den Personen wahrgenommen wird, die die Datenanalyse durchführen. Was man nicht weiß, kann einem schaden. Manchmal macht die semantische Lücke die gesamte Analyse ungültig.

Wir stellen fest, dass die meisten IT-Praktiker die Tiefe der “Besonderheiten”, die mit den meisten Geschäftsdatensätzen im wirklichen Leben einhergehen, stark unterschätzen. Die meisten Unternehmen haben nicht einmal eine vollständige Dokumentationszeile pro Tabellenfeld. Dennoch stellen wir in der Regel fest, dass selbst bei einer halben Seite Dokumentation pro Feld die Dokumentation noch lange nicht gründlich genug ist.

Eine der (vielen) Herausforderungen, denen sich Lokad gegenübersieht, besteht darin, dass es schwierig ist, für etwas Geld zu verlangen, das zunächst nicht einmal als Bedarf wahrgenommen wird. Daher schieben wir die Datenqualifikationsarbeit häufig unter dem Deckmantel von edleren Aufgaben wie “Abstimmung statistischer Algorithmen” oder ähnlichen wissenschaftlich klingenden Aufgaben.

Die Realität der Arbeit besteht jedoch darin, dass die Datenqualifikation nicht nur aus personeller Sicht intensiv ist, sondern auch an sich eine wirklich herausfordernde Aufgabe darstellt. Es ist eine Mischung aus dem Verständnis des Geschäfts, dem Verständnis dafür, wie Prozesse sich über viele Systeme erstrecken - von denen einige unweigerlich zur Legacy-Kategorie gehören - und der Überbrückung der Lücke zwischen den Daten, wie sie vorliegen, und den Erwartungen des Machine-Learning-Pipelines.

Die meisten Unternehmen investieren viel zu wenig in die Datenqualifikation. Neben der unterschätzten Herausforderung führt die Investition in Talent für die Datenqualifikation nicht zu einer beeindruckenden Demo oder sogar zu konkreten Zahlen. Als Ergebnis eilen Unternehmen zu den späteren Phasen des Datenanalyseprozesses, nur um festzustellen, dass sie sich in zähem Schlamm befinden, weil nichts wirklich wie erwartet funktioniert. Es gibt keine schnelle Lösung für ein tatsächliches Verständnis der Daten.