Auch wenn die breite Bevölkerung dies wahrscheinlich noch nicht so wahrnimmt, kann doch gesagt werden, dass sich Machine Learning (ML) im Allgemeinen und Artifi cial Intelligence (AI) im Speziellen mittlerweile als nutzbringende Technologien mit breiten Anwendungsmöglichkeiten durchsetzen und etablieren konnten. Angefangen bei der Spracherkennung über die Benutzeranalyse im Marketing oder die Bedarfsanalyse zur Produktionsplanung bis hin zu (fast) selbstfahrenden Automobilen wurden in den letzten Jahren viele populäre Produkte lanciert, die von den Vorteilen von ML und AI profi tierten.
Erwartungshaltung belastet den Erfolg
Dennoch leidet der Berufsstand der Datenwissenschaftler an einer gewissen «magischen Aura», die sich teils durch ihre an ScienceFiction erinnernde, für aussenstehende fremd wirkende Sprache, und teils auch durch die medial geschürte Erwartungshaltung erklären lässt. Dies belastet oft den Erfolg von ML- und AI-Projekten, zumal Auftraggeber den Zeitund Ressourcenaufwand sowie den erwarteten Ertrag falsch einstufen. Dabei könnte Datenwissenschaft nicht weiter von Magie entfernt sein. Die Arbeit eines Datenwissenschaftlers ist vielmehr mit der eines gewissenhaften und strikt methodisch vorgehenden Detektivs zu vergleichen. Und meistens ist der Erfolg stark von der offenen Kommunikation und der bereitwilligen Kollaboration des Auftraggebers abhängig.
Das «Motiv» begreifen
So wie bei der Detektivarbeit ist es für den Datenwissenschaftler deshalb wichtig, zuerst das «Motiv» für den Auftrag und das Umfeld seines Kunden zu verstehen. Erst wenn klar ist, welches Ziel der Kunde erreichen will, und weshalb dies für ihn von Bedeutung ist, kann mit der Suche nach Antworten begonnen werden. Meist wird dies durch Erstgespräche mit dem Kunden angegangen, in welchen der Datenwissenschaftler sich mit der gegenwärtigen Situation des Kunden vertraut macht. Dabei ist zu beachten, dass die Expertise für den betrachteten Themenbereich immer beim Kunden verbleibt. Der Datenwissenschaftler versucht sich aber einen Überblick in sinnvoller Tiefe zu bilden, um möglichst treffende Lösungsansätze formulieren zu können und dabei die Datenvorbereitung und die Algorithmenwahl auf das Ziel auszurichten.
ETL ist fundamental
Nach einer erfolgreichen Vereinbarung über mögliche Lösungswege beginnt der Grossteil der Arbeit eines Datenwissenschaftlers. Im Wesentlichen sind dies die Sammlung, Ordnung und Auswahl der Informationen, was oft 80 bis 90 Prozent des gesamten Projektaufwandes ausmachen kann. Diese ETL (Extract, Transform, Load) genannte Vorverarbeitung der Daten ist fundamental für den Erfolg eines ML- oder AI-Projektes, hat aber mit der eigentlichen Programmierung von maschinellem Lernen oder künstlicher Intelligenz noch wenig zu tun.
ETL charakterisiert sich aber nicht nur dadurch, die expliziten Daten – zum Beispiel die Resultate einer grossen Umfrage – in eine fehlerfrei maschinenlesbare, für die Algorithmen verständliche Form zu bringen, sondern auch dadurch, die impliziten Informationen so zu erfassen, dass eine Interpretation der Daten erst möglich wird. Dazu muss der Datenwissenschaftler wieder das Umfeld der Daten herbeiziehen, das die Daten produziert hat und für das die Ergebnisse der Analyse bestimmt sind.
Die Schlüsselfaktoren der Evaluation
Ganz nach dem Grundsatz «Garbage In, Garbage Out» kann auch der beste Datenwissenschaftler aus unzureichenden Informationen keine schlüssigen Ergebnisse ableiten. Um dem vorzubeugen, werden während der Evaluation der Daten vor allem folgende Aspekte analysiert:
■ Qualität der Daten
■ Menge der Daten
■ Datenrauschen
■ Datenverzerrung
■ Datenrelevanz
■ Datenfehler
Dabei beginnt die Betrachtung der Datenqualität bei der Art und Weise, wie die Daten erfasst worden sind. Bereits die angewandten Methoden zur Erhebung der Daten könnten zu einer Verzerrung (auch Bias genannt) der Daten führen. Und – obwohl es üblicherweise nicht zur Aufgabe eines Datenwissenschaftlers gehört, die Daten selbst zu erheben (beispielsweise die Umfrage) – ist es für die Datenaufbereitung wichtig, eventuelle Quellen für Datenverzerrung zu identifizieren und wo möglich zu korrigieren.
Schwierigkeiten eines wahrheitsgetreuen Bildes
Weiter muss die Menge an Datensätzen genügend gross sein, um verlässliche Verallgemeinerungen daraus schliessen zu können. Ohne eine ausreichende Datenmenge werden der Einfluss von Datenrauschen (Ausreisser und Anomalien) sowie Datenfehler übermächtig und können das Ergebnis stark beeinflussen. Natürlich wird stets versucht, eine möglichst grosse Zahl valider Datensätze zu extrahieren, um ein wahrheitsgetreues Bild zu erhalten. Jedoch ist absolute Sicherheit über die Fehlerfreiheit grosser Datenmengen nie wirklich möglich.
Verborgene Zusammenhänge finden
Als letzter Schritt, bevor der Datenwissenschaftler mit dem Programmieren beginnen kann, werden die Angaben in den Daten auf ihre Relevanz – bezüglich des erwarteten Ergebnisses hin – geprüft. Das bedeutet, dass einzelne Aspekte der Datensammlung möglicherweise entweder weggelassen oder zusammengefasst werden können, ohne einen negativen Einfluss auf den Informationsgehalt zu haben. Diese Vereinfachungen zielen darauf ab, die Dimensionalität des Ausgangsproblems zu reduzieren und damit die Chancen zu erhöhen, dass die AI eine zufriedenstellende Lösung finden kann. Erst nachdem die Datenaufbereitung abgeschlossen und ein tragfähiger Datensatz gewonnen wurde, sollte mit der Erarbeitung eines «Modells» begonnen werden. Das Modell stellt dabei die Abstraktion oder die Verallgemeinerung der in den Daten beobachteten Sachverhalte dar. Ein Modell kann in der Folge dazu verwendet werden, verborgene Zusammenhänge zu finden und durch diese Einsicht bessere Vorhersagen zu treffen.
Underfitting vermeiden
Entsprechend der Lösungsanforderungen muss der Datenwissenschaftler den Algorithmus wählen, welcher am ehesten ein zufriedenstellendes Modell generieren kann. Bei der Selektion des Algorithmus, des Trainings und der Feinjustierung der Parameter wird viel Gefühl und Erfahrung vom Datenwissenschaftler gefordert. Zum einen sollte ein Algorithmus gewählt werden, der die Komplexität der Daten erfassen kann. Ein zu simpler Algorithmus wird den Informationsgehalt der Daten möglicherweise nur unzureichend abbilden. Man spricht hier von Underfitting. Andererseits darf auch nicht mit Kanonen auf Spatzen geschossen werden. Ein – für die Datenlage – zu komplexer Algorithmus kann dann eine Art «Vorurteil» bilden: Er verallgemeinert zu stark. Man spricht hier von Overfitting. In beiden Fällen ist das resultierende Model und dessen Vorhersagekraft nicht zufriedenstellend.
Hier wird auch der iterative Charakter der Arbeit eines Datenwissenschaftlers sichtbar. Der Zyklus der Selektion, Test, Validierung und Feinjustierung der benutzten Algorithmen ist Teil eines kontinuierlichen Prozesses zur Verbesserung der Vorhersage-Modelle. Ob und wie erfolgreich statistische Methoden, Machine Learning oder AI eingesetzt werden können, hängt letztlich von der Art der Daten, der Erfahrung des Datenwissenschaftlers und den Anforderungen an die Vorhersagekraft der Modelle ab.
Eigene Annahmen hinterfragen
Am Ende sind es harte Arbeit, Ausdauer, Beobachtungsgabe, Einfühlungsvermögen, Neugier und die Fähigkeit, die eigenen Annahmen immer wieder hinterfragen zu können, was einen guten Datenwissenschaftler ausmacht und den Erfolg seiner Modelle bestimmt. Die unrealistische Erwartungshaltung, dass ML und AI eine magische Lösung für alle Fragen bereithält, behindert dabei die Suche nach den tatsächlichen Antworten. Es ist deshalb als Gewinn zu werten, wenn diese Technologie etwas von ihrem Glanz verliert.
Kleine Checkliste für erfolgversprechende Daten-Projekte:
1. Kann die Problemstellung objektiv beantwortet werden? Die Frage nach dem «beliebtesten» Wein lässt sich beantworten, die nach dem «besten» Wein jedoch nicht.
2. Ist der Aufwand für ein ML- oder AIProjekt gerechtfertigt? Wenn die Problemstellung immer wieder von Neuem von Experten beantwortet werden muss, dann ja. Ansonsten nicht.
3. Ist die Lösung der Problemstellung wichtig für den Geschäftsgang? Die Erarbeitung einer ML- oder AI-Lösung benötigt Zeit und Ressourcen. Da sollte es sich lohnen.
4. Sind saubere und relevante Daten vorhanden? Besser saubere Daten als einfach nur viele Daten.
5. Kann eine hohe, aber nicht 100-prozentige Erfolgsquote akzeptiert werden? ML und AI sind sehr leistungsstarke, aber nicht perfekte Werkzeuge. Sobald absolute Fehlerfreiheit garantiert werden muss, sind andere Lösungen vorzuziehen.
Infoservice
Roland Grimmer
Tel. 079 235 46 97
roland.grimmer@haselbach.ai, www.haselbach.ai
FAEL KOMPAKT
FAEL: Swiss Engineering Fachgruppe für Elektronik & Informatik
Mitglieder: 1083 Gründung: 1978
Präsident: Michael Giger, Dipl. Ing. FH
Kontakt:
Michael Giger
Fachgruppe Elektronik und Informatik,
8000 Zürich, Tel. 079 473 60 40 f
ael@swissengineering.ch; www.fael.ch