Predictive Bike Sharing

Hier wird ein Prototyp für die Analyse eines Bike Sharing Unternehmens mithilfe von Predictive Analytics vorgestellt.

 

Im Blogeintrag von Olivier Gwynn habt ihr bereits verschiedene Themengebiete (Sales, Marketing, Finance, Manufacture/Production/Supply Chain Management, Management/Board, Procurement, R&D, HR) für den Einsatz von Predictive Analytics kennen gelernt. Um Euch zu zeigen, dass Predictive Analytics wirklich in jedem Bereich verwendet werden kann, stelle ich Euch einen Prototypen für die Analyse von einem Bike Sharing Unternehmen vor. Für die Realisierung wurde SAP Predictive Analytics mit zusätzlichen R Erweiterungen verwendet.

Als Datenbasis für das Projekt dienen 3 Datensets: Die Transaktionsdaten vom Bike Sharing Unternehmen, die Wetterdaten und die Koordinaten der Bike Stationen.

Als Erstes habe ich anhand einer Korrelationsmatrix mit R den Zusammenhang zwischen den ausgeliehenen Fahrrädern und den Wetterdaten untersucht. Wenig überraschend korreliert die Anzahl ausgeliehener Fahrräder am höchsten mit der Temperatur. Daneben existiert aber auch eine schwächere Korrelation mit der Sichtweite und eine schwächere negative Korrelation mit der Windgeschwindigkeit (je mehr Wind, desto weniger wird Fahrrad gefahren).

korrelationsmatrix

 

Dieser Zusammenhang lässt sich durch die Visualisierung in einem Chart auch leicht von Auge erkennen. Aus der Graphik lässt sich ablesen, dass die ideale Temperatur um Fahrrad zu fahren bei ungefähr 15 bis 27 Grad liegt. Ist die Temperatur darunter oder darüber, nimmt die Zahl ausgeliehener Bikes stark ab.

tempbike

 

Als nächstes wollen wir mit einem Decision Tree mit den Parametern Temperatur, Sichtweite und Windgeschwindigkeit herausfinden, ob es sich um einen guten Tag, um ein Fahrrad auszuleihen, handelt.

Ist die Temperatur über 18,5 Grad, wird es sehr wahrscheinlich ein erfolgreicher Tag. Dagegen werden weniger Fahrräder ausgeliehen, wenn die Temperatur unter 8,5 Grad ist. Liegt die Temperatur zwischen diesen beiden Werten und es herrscht eine optimale Sichtweite, so werden voraussichtlich viele Fahrräder ausgeliehen. Ist aber die Sichtweite eingeschränkt und die Windgeschwindigkeit hoch, werden wenig Fahrräder ausgeliehen.

decisiontree

 

Zum Schluss analysieren wir noch die Auslastung der einzelnen Stationen. Dafür wurde die Umschlagshäufigkeit der Fahrräder an den einzelnen Stationen ausgerechnet und kategorisiert. Durch die Koordinaten visualisiert auf einer Geomap lässt sich nun analysieren, wo ein neuer Standort am meisten Sinn ergeben würde. Die schwarzen Punkte haben eine tiefe Auslastung, die grünen Punkte eine hohe Auslastung. Unsere Empfehlung wäre weiter Richtung Nordosten zu expandieren, da dort keine tiefen Auslastungen auftreten.

stationmap

Es lassen sich beliebig weitere Analysetechniken, wie Time Series, Regressionsanalysen oder Clustering  über die Datensets anwenden. Zum Beispiel haben wir über Outlier Detection festgestellt, dass Fahrrad fahren während dem Hurrikan Sandy extrem unbeliebt ist. Das Angebot wurde aber dennoch von ein paar Wagemutigen genutzt.