Real-Time Data Mining – Die nächste IT-Revolution?

Nach etwas längerer Blogger-Abstinenz wage ich mich erneut an ein Trendthema, nämlich Data Mining. Eingefleischte BI-Spezis würden jetzt folgendermassen reagieren: «Damit kommst Du jetzt!? Das gibt es doch schon seit 20 Jahren!» Doch wie bei vielen Technologien kann eine leicht

Nach etwas längerer Blogger-Abstinenz wage ich mich erneut an ein Trendthema, nämlich Data Mining. Eingefleischte BI-Spezis würden jetzt folgendermassen reagieren: «Damit kommst Du jetzt!? Das gibt es doch schon seit 20 Jahren!»

Doch wie bei vielen Technologien kann eine leicht veränderte Ausgangslage zu einem enormen Fortschritt führen. So auch hier, wie ich glaube. Doch fangen wir mal am Anfang an. Was ist denn Data Mining? Wörtlich übersetzt bedeutet es «nach Daten graben» Im Gegensatz zu konventioneller Datenanalyse, wo wir einfache Funktionen wie Summe oder Durchschnitt verwenden, kümmert sich Data Mining darum, mit Hilfe statistischer Methoden versteckte Muster in den Daten zu finden.

Der Blumenverkäufer um die Ecke könnte damit also ausfindig machen, welche seiner Stammkunden die höchste Affinität für ein neues Produkt aufweisen. Oder der Produktionsbetrieb die benötigten Ressourcen aufgrund der Vorhersage des Verkaufs besser abschätzen. Die Service-Verantwortlichen eines Versicherungsunternehmens wiederum können logische Kundengruppen für die individuelle Ansprache im Call-Center berechnen lassen oder in Marketing-Kampagnen diejenigen Kunden anschreiben, die das Modell als besonders wechselgefährdet klassifiziert haben.

So weit so gut. Ich würde dem kritischen Frager also zustimmen, dass wir Erwähntes schon seit 20 Jahren können 😉 Eines hat sich seither aber massiv verändert: die Geschwindigkeit von Datenbanken für analytische Systeme. Wir sprechen von sogenannten In-Memory Datenbanken. Diese speichern ihre Daten im Hauptspeicher und nicht auf der Festplatte. Das klingt erstmal recht langweilig, einverstanden.

Nun, oben erwähnte Anwendungsfälle enthalten komplexe Rechenalgorithmen. Auf konventionellen Analyse-Systemen braucht es eine ganze Menge Zeit, eine grosse Datenmenge damit zu analysieren. Während z.B. ein Kassensystem während des Bezahlens noch den Stand der Kreditkarte prüft, war es bisher nur schwer möglich, Data Mining in Echtzeit während eines laufenden Prozesses anzuwenden. Die Daten mussten meistens über Nacht durch den Analyse-Server kopiert und analysiert werden.

In einer In-Memory Datenbank, wie das zum Beispiel SAP HANA ist, stellt sich dieses Problem nicht mehr. Während ein Anwender ein System bedient, kann die Datenbank im Hintergrund zur Laufzeit Forecasts, Kundengruppen, Ausfallwahrscheinlichkeiten und Co. berechnen – ohne Verzögerung! Is it Magic?! No it’s not! Da die ganze Berechnung in der Datenbank und nicht in der Anwendung geschieht, werden nur Ergebnisse und keine Rohdaten hin und her geschoben. Hinzu kommen die Vorteile einer spaltenorientierten Datenhaltung – die die vorhandenen Daten wesentlich effizienter speichert. Ausserdem weisen diese Datenbanken häufig die Funktion der besseren Verteilung der Rechenlast durch paralleles Prozessieren der Berechnungen auf.

In-Memory Technologie & Real-Time Data Mining  werden wohl nicht, im Sinne einer disruptiven Technologie, bestehende Konzepte komplett ersetzen. Es sind viel mehr Grundlagen für ganz neue Anwendungsfälle. Man sollte sich also nicht (nur) fragen, welche bestehenden Prozesse man damit beschleunigen und verbessern kann, sondern vielmehr, was die veränderte Ausgangslage an Chancen für komplett neue Services bietet!