Big Data und SAP? Ja, HANA und Hadoop!

In unserem Job als Business Intelligence Berater dürfen, bzw. müssen wir natürlich auch ab und an etwas innovativ sein und neue Technologien ausprobieren.

Big Data ist in aller Munde. Auch als SAP-Kunde muss ich mir die Frage stellen, wie ich damit umgehe. Das Business möchte z.B Daten aus betrieblichen Maschinen in Echtzeit analysieren oder Twitter Sentiments auswerten. Der CIO wiederum stellt sich die Frage, mit welcher Architektur er diese Anforderung nachhaltig erfüllen kann. Wie können Big Data Anwendungsfälle in die bestehende SAP-Landschaft integriert werden, ohne dass Insellösungen mit hohen Kosten entstehen? Denn auch das Business profitiert, wenn Big Data, Machine-to-Machine, Twitter, das Internet der Dinge  und Co. mit SAP harmonieren.

Natürlich hat sich SAP um das Thema gekümmert. Dabei entstehen gerade eine ganze Reihe interessanter Integrationsszenarien zwischen SAP HANA und Apache Hadoop – der Big Data Plattform schlechthin.

HANA oder Hadoop? HANA und Hadoop!
Warum brauche ich Hadoop wenn ich HANA habe, oder umgekehrt? Die Antwort ist, dass beide Plattformen unterschiedliche technische und betriebswirtschaftliche Vorteile bieten:

SAP HANA: Der Kern von SAP HANA ist die superschnelle In-Memory Datenbank. Sie liefert den Vorteil, um ein x-faches schneller auf transaktionale Unternehmensdaten zuzugreifen als auf konventionellen relationalen DBMS. Damit können Daten in Echtzeit auf Basis logischer Business-Regeln analysiert werden, ohne dass sie vorher mehrmals transformiert, aggregiert und wieder abgelegt werden müssen. Die Daten in SAP HANA liegen nicht wie bei anderen Datenbanken auf der Festplatte, sondern direkt im Hauptspeicher. Dadurch lassen sich  Geschäftsprozesse unmittelbar durch analytische Erkenntnisse und Regeln beeinflussen und steuern. Neben neuen nativen analytischen Prozessen bietet sich HANA aber auch besonders dafür an, bewährte SAP-Anwendungen wie das SAP BW darauf zu betreiben.

Apache Hadoop: Mit Apache Hadoop haben wir ein relativ neues Technologie-Framework, das sich unter anderem auf das günstige Speichern von polystrukturierten Massendaten in einem speziellen Filesystem (HDFS) fokussiert. Dabei wird, im Gegensatz zu klassischen Analyse-Datenbanken, mit Standard-Hardware gearbeitet. Was natürlich im Vergleich zu softwareoptmierter Hardware (Appliances) einen positiven Einfluss auf die Storage-Kosten hat. Hadoop gehört zu den typischen Big Data Technologien und beinhaltet ein ganzes Set an Tools für verschiedene Zwecke rund um Datenbeschaffung, -Haltung und -Analyse.

Es liegt also auf der Hand: Wer alle Daten in feinster Granularität kostengünstig erfassen und diese zusammen mit den in Echtzeit zur Verfügung stehenden Informationen aus einem ERP-System analysieren möchte, fährt mit der Kombination aus beiden Plattformen am besten.

Eine SAP Big Data Architektur könnte folgendermaßen aussehen:

 hana_4Hadoop lagert die Massendaten wie z.B Twitter-Feeds oder tief detaillierte Informationen von Sensoren. In der HANA liegen die betriebswirtschaftlichen Informationen physisch im Memory. Mittels sogenantem «Smart Data Access» kann man dann von SAP HANA aus virtuell auf die Hadoop-Daten zugreifen und diese z.B on the fly bei der Anfrage einer beliebigen Applikation gleich mit dem Kundenstamm abmischen.

Das könnte zum Beispiel ein Dashboard sein, dass alle Twitter Sentiments über die eigene Firma auf die Kundensegmente gruppiert anzeigt. Für einen Marketing Manager ist das goldwert. Denn die Stimmung in den Kundensegmenten kann ein Input für wichtige Entscheidungen in der Marktbearbeitung sein. Lohnt es sich, das Kundensegment XY mit einem Werbebrief anzugehen, wenn in dieser Kundengruppe gerade schlechte Stimmung über unsere Firma in den sozialen Medien aufkommt?

Den Zugriff von SAP HANA auf Hadoop habe ich dann auch gleich mit einem Beispiel der Hadoop Distribution Hortonworks getestet. Schematisch sieht es dann so aus, wenn man eine Million Wikipedia-Datensätze aus Hadoop via HANA in SAP Lumira analysieren möchte:hana_7

Hier ein paar Screenshots dazu:

1) Virtuelle Analytische View in SAP HANA Studio mit Direktzugriff auf Apache Hadoop:

HANA_1

2) Zugriff auf die Analytical View aus HANA in SAP Lumira:

hana_2

3) Analyse der Anzahl Seitenbesuche pro Wikipedia Page in SAP Lumira:

hana_3

Viele Grüsse
Matthias