Big Data & Data Science

Big Data ist wiederum ein weitgefasster Begriff. Angefangen von der Nutzung für einfach sehr viele und große Datenmengen bis hin zur akademisch korrekten Klassifizierung über mehrere Merkmale.

 

Beim Einsatz einer klassischen relationalen Datenbank wie dem SQL Server kommen meist strukturierte Daten zum Einsatz. Sofern Tabellen sehr groß und damit äußerst unhandlich für die Administratoren und Entwickler werden sollten, dann spricht man korrekterweise eher von Large Tables oder gar Very Large Tables. Gerade Themen wie Geschwindigkeit beim Zugriff oder auch bei der Wartung dieser Strukturen kommen bei den Kunden oft Fragestellungen auf.

 

Dafür gibt es aber erprobte Ansätze. Einfach fragen… :)

 

Big Data fasst den Begriff von großen Datenmengen aber noch anders zusammen. Meist ist die Sammlung von nur bedingt oder gar nicht strukturierten Daten gemeint. Eine relationale Datenbank mit ihren klaren Tabellen und Spaltendefinitionen greift ja durch diese Struktur bereits der späteren Nutzung vor. Die Struktur gibt diese quasi vor. Big Data geht weiter. Daten werden oft ohne klare Beschreibung der späteren Auswertung gesammelt. Daher auch der Verzicht auf Strukturen.

 

Die Auswertung erfolgt daher später. Hier kommen dann Ansätze wie der MapReduce zum Einsatz. Bekannteste Implementierung ist wohl Apache Hadoop.

 

Wichtig ist dabei zu erkennen, dass es sich hier nicht um einen nächsten Reifegrad der Datenspeicherung handelt, sondern um eine ergänzende Art und Weise, welche erst mit aktuellen Technologien (und preiswerter Hardware oder Cloud) möglich geworden ist.

 

Zunächst nur etwas für Experten und Bastler wurde dieser Ansatz in den letzten Jahr stark operationalisiert und ist mittlerweile auch z.B. über den SQL Server aus erreichbar.

 

Die anfängliche Begeisterung für diese Technologie ist aber mittlerweile ein wenig verflogen, weil es in vielen Unternehmen nur wenige echte Big Data Quellen gab. Und nicht jeder hat die Notwendigkeit selbst Sozial Medien, das wohl bekannte Beispiel, auszuwerten. Dafür gibt es fertige Dienste.

 

Daher geht der Trend mittlerweile eher zu dem zweiten Thema, der Data Science.

 

Und wieder sind wir bei einem weitern Begriff.

 

Angefangen hat das Thema schon vor Jahrzehnten mit dem sogenannten Data Mining. Schon Anfang 2000 hatte der SQL Server zum Beispiel Werkzeuge dafür dabei. Die Grundlage dieser Technologie waren im Grunde bekannte mathematische Vorgehensmodelle, welche durch die Leistungsfähigkeit von damaligen Servern schon beeindruckende Ergebnisse und Erkenntnisse liefern konnte.

 

Mittlerweile ist wesentlich leistungsfähigere Hardware verfügbar, daher können immer anspruchsvollere Ansätze verfolgt werden.

 

Gerade durch den Einsatz von Cloud Technologien, wo Rechnerkapazität nur bei Bedarf bezahlt werden muss, sind große Sprünge gelungen.

 

Unter dem sehr allgemeinem Synonym KI (künstliche Intelligence) sind die Methoden Machine Learning und Deep Learning bekannt geworden.

 

Und wir haben es immer noch mit anspruchsvoller Mathematik zu tun, welche mittlerweile über verschiedene Lösungen leichter zugänglich wird.

 

Trotz zugänglicher Tools sind Kenntnisse in Sprachen wie Python und/oder R notwendig, um erfolgreich zu sein. Darüber hinaus wird häufig unterschätzt, wie viel Erfahrung für die erfolgreiche Arbeit in diesem  Bereich notwendig ist.

 

Auch ein langer Atem und ein quasi wissenschaftliches Arbeiten… nicht ohne Grund nennt man das Data Science.

 

Es gibt mittlerweile eine ganze Reihe von fertigen Lösungen am Markt, welche das manuelle Erstellen einer eigenen Methode bzw. eines Modells überflüssig machen. Beispiele sind Mustererkennung in Logfiles, Bilderkennung, Spracherkennung, Chatbots und vieles mehr.