Groß angelegt

Die gigantischen Datenmengen in Unternehmen bieten einen Fundus, um Produktionsabläufe, Logistik oder Marketing zu optimieren. Von Johannes Knauf, Illustration: Anton Atzenhofer

Ein Zahlungsdienstleister möchte in der betrieblichen Datenflut Betrugsfälle über lange Zeiträume hinweg entdecken und verfolgen. Ein anderes Unternehmen will Inhalte, die Nutzer durch eine neue Handy-App generieren, speichern und auf Knopfdruck verfügbar machen. Um fundierte Entscheidungen treffen zu können, will ein Geschäftsführer betriebliche Daten mit einer Business Intelligence-Anwendung über Jahre hinweg transparent machen. Die großen Datenmengen aus einem Online-Shop will eine Internet-Firma systematisch analysieren und in Echtzeit für das Marketing nutzen. All das sind Fälle, bei denen ein traditionelles relationales Datenbanksystem (z.B. MS SQL, Oracle oder IBM) aufgrund der schieren Datenmenge an seine Grenzen stößt. Von Big Data spricht man insbesondere dann, wenn besondere Herausforderungen bei den sogenannten drei „V“ zu bewältigen sind: Volume (Datenmenge), Velocity (Geschwindigkeit) und Variety (Vielfalt der Datenformen).

Mit Big Data lassen sich Datenmengen dazu nutzen, Produktionsabläufe, Handelsprozesse oder die Online-Kommunikation mit Kunden in Echtzeit zu steuern. Aber auch im privaten Bereich werden durch Big Data neue und zielgenaue Anwendungen für Handy und Computer möglich, z.B. ortsgenaue Handlungsanweisungen oder Empfehlungen für bestimmte Produkte und Dienstleistungen. Big Data wird in Zukunft die „Navigation“ für viele Belange des Alltags liefern und damit die Gesellschaft nachhaltig verändern.

Um die riesigen Datenmengen zu beherrschen, bedarf es einer hohen Rechenkapazität. Da die Verarbeitungsgeschwindigkeit einzelner Rechnereinheiten in den letzten Jahren nur noch sehr langsam wächst, sind dem Scale-Up traditioneller EDV-Lösungen (also dem Aufstocken einzelner Server) sehr enge Grenzen gesetzt. Für Big Data-Anwendungen gibt es deshalb keine Alternative zum Rechnen in verteilten Systemen (Scale-Out), was gemeinhin in einem EDV-Cluster (Verbund mehrerer Server-Rechner) geschieht.

Damit verbunden ist ein Paradigmenwechsel bei der Art der Verarbeitung. Es müssen auf einmal Fragen beantwortet werden, die sich in klassischen Systemen nie stellten: Woher weiß ein Rechenknoten im Cluster, welcher Zustand der Daten der aktuelle ist? Was tun, wenn die Netzverbindung zwischen den Knoten zusammenbricht? Wie erreiche ich eine optimale Nutzung der Rechenleistung aller einzelnen Knoten?

Technologische Revolution

Die hinter dem Begriff Big Data vollzogene technologische Revolution fußt vor allem auf der Datenplattform Hadoop, die von Doug Cutting ursprünglich für Yahoo entwickelt worden war, sowie auf den dazugehörigen Lösungen für Datenintegration, Datenauswertung und „Machine Learning“ (automatisches Ableiten von Gesetzmäßigkeiten oder von Eintrittswahrscheinlichkeiten aus den Daten). 

Ähnlich wie bei dem freien Betriebssystem Linux handelt es sich um eine Ansammlung von Open Source-Software, die erst durch spezialisierte IT-Unternehmen wie Hortonworks, Cloudera und MapR oder durch Cloud-Anbieter für die Anwendung im Unternehmen erschlossen wird. Sie liefern eine fertig zusammengestellte Plattform aus verschiedenen Komponenten, durch die alle Fragen der verteilten Datenverarbeitung für den Anwender transparent beantwortet werden und die den nötigen Langzeit-Support bieten.

Der Wechsel zu Big Data-Infrastrukturen erschließt nicht nur neue Anwendungen der vorhandenen Daten, sondern bringt auch eine Reihe von weiteren Vorteilen mit sich: Pro Datenmenge ergeben sich mit verteilten Daten-Clustern erhebliche Kostenvorteile gegenüber hoch gezüchteten traditionellen Server-Systemen, da günstige Standard-Hardware (z.B. modular steckbare Blade-Server) zum Einsatz kommt. Die Ausfallsicherheit verbessert sich durch die bessere Risikostreuung auf mehrere Rechner und durch die Verfügbarkeit mehrerer Rechenknoten lassen sich Analysen bewältigen, die bislang unmöglich waren. Gleichzeitig beinhalten die Lösungen Möglichkeiten zum Streaming der Daten und ermöglichen damit die Echtzeit-Verarbeitung parallel zur Speicherung.

Ideen für die Anwendung

In den letzten Jahren haben sich diese Systemlandschaften derart weiterentwickelt, dass sie mittlerweile auch für gewöhnliche Unternehmen einsatzbereit sind. Man muss nicht mehr Twitter, Yahoo oder Facebook heißen, um sich einen Hadoop-Cluster oder eine HBase-Datenbank für den Echtzeit-Umgang mit großen Datenmengen in die Firma zu holen. Gleichzeitig gibt es – inspiriert durch erfolgreiche Internet-Unternehmen – zahllose Ideen für die Anwendung von Big Data. Dieser Ideenreichtum trifft aktuell noch auf eine starke Lücke bei der Umsetzung. Die Zahl der IT-Anbieter, die Expertise für Big Data mitbringen, ist nicht allzu groß. Gleichzeitig ist für viele Anwender die Einstiegsschwelle noch zu hoch, um Ideen mit erfahrenen Experten zu diskutieren und auf ihre Realisierbarkeit zu überprüfen.

Autor/in: Johannes Knauf, ist Spezialist für Big Data bei der Ancud IT-Beratung GmbH in Nürnberg (johannes.knauf@ancud.de, www.ancud.de).

Groß angelegt

Technologische Revolution

Ideen für die Anwendung

Alle Ansprechpartner/innen auf einen Blick