Skip to Content

"Berlin kann ein führender Open-Source-Player in der Big-Data-Analyse werden" - Interview mit Professor Volker Markl vom Berlin Big Data Center

Big Data ist in aller Munde, denn viele Institutionen und Unternehmen wollen in Zukunft ihre geschäftskritischen Entscheidungen datenbasiert treffen können. Hierbei kann sie das Berlin Big Data Center, kurz BBDC, unterstützen. Wir haben uns mit Professor Volker Markl, dem Sprecher der hochschulübergreifenden Einrichtung, unterhalten.

Lieber Herr Professor Markl, können Sie sich kurz vorstellen und uns etwas zu Ihrer Forschung erzählen?

Gerne. Mein Name ist Volker Markl, ich bin Professor an der Technischen Universität Berlin und verantwortlich für das Fachgebiet Datenbanksysteme und Informationsmanagement. Gleichzeitig habe ich noch eine Status-only-Professur an der Universität in Toronto an der School of Information und bin seit 2009 Sprecher der Forschergruppe Stratosphere der Deutschen Forschungsgemeinschaft (DFG) und sowie Sprecher des Berlin Big Data Center (BBDC), eines Kompetenzzentrums, das vom Bundesministerium für Bildung und Forschung (BMBF) zum Oktober 2014 in Berlin, unter Federführung der TU Berlin,  eingerichtet werden wird.

Ich führe Big Data Forschung schon seit über 15 Jahren durch, also lange bevor dieser Begriff geprägt wurde. Mein derzeit wichtigstes Forschungsprojekt ist die oben genannte DFG Forschergruppe Stratosphere, deren Arbeit, wenn man so will, die Grundlage für das BBDC bildet. Die TU Berlin ist in diesem Projekt mit zwei Fachgebieten eingebunden. Neben mir ist auch Professor Odej Kao mit dabei. Außerdem kommen noch zwei Fachgebiete der HU Berlin hinzu, geleitet durch Professor Christoph Freytag und Professor Ulf Leser und auch Professor Felix Naumann vom Hasso Plattner Institut.

Wir haben gemeinsam ein Open-Source-System zur massiv parallelen Analyse von Informationen entwickelt, welches Sie unter http://stratosphere.eu/ herunterladen können. Stratosphere ist ein weltweit führendes Open-Source-System zur skalierbaren Datenanalyse und eine wichtige Grundlage für das Berliner Kompetenzzentrum zum Thema Big Data. Wir kombinieren im BBDC die Bereiche skalierbares Datenmanagement und maschinelles Lernen. Ziel ist es, gemeinsam ein System für die skalierbare Datenanalyse zu entwickeln, welches insbesondere die Verfahren des maschinellen Lernens, die heutzutage für die Datenanalyse sehr wichtig sind, effizient ausführen zu können. Wir werden diese Technologien im BBDC auf Basis von Statosphere weiterentwickeln.

Was passiert im BBDC dabei genau und warum ist das so wichtig?

Datengetriebene Entscheidungen revolutionieren gerade Wissenschaft, Wirtschaft und Gesellschaft. Wir wollen im BBDC dieses Phänomen, das populär Big Data genannt wird, erforschen und Technologien und Expertise in Deutschland für dieses Zukunftsthema schaffen und damit die Wettbewerbsfähigkeit Deutschland in Wissenschaft und Wirtschaft sichern. Die TU Berlin,  das Zuse Instituts Berlin, das Fritz-Haber Institut, das Deutsche Forschungszentrum für Künstliche Intelligenz und die Beuth Hochschule werden sich im BBDC damit befassen, wie wir Datenanalysen auf großen und heterogenen Datenmengen mit hoher Datenrate effizient verarbeiten können. Das große Problem ist, dass die  Nutzung von Big Data derzeit einigen wenigen Experten oder großen Firmen vorbehalten ist. Privatpersonen oder auch kleinere und mittlere Unternehmen haben hierzu bisher kaum Möglichkeiten oder Expertise. Wir wollen durch das BBDC die Mengen an Menschen, die mit Big Data umgehen können,  vergrößern sowie die Zeit und die Kosten für die Datenanalyse senken. Dies wird zu einer Demokratisierung von Big Data führen und einen großen Mehrwert für Wirtschaft, Wissenschaft und Gesellschaft schaffen. Ein großes Thema wird durch die Frage bestimmt „Wie kann ich Datenanalyse möglichst einfach machen?“ und damit einem möglichst großen Benutzerkreis ermöglichen, derartige Analysen auszuführen. Dabei soll natürlich durch das BBDC auch ein verantwortungsbewusster Umgang mit den Daten sichergestellt werden.
Jeder von uns führt Datenanalysen durch. Bei sehr einfachen Datenmengen nutze ich eventuell eine Tabellenkalkulation. Sobald es dann etwas umfangreicher wird und ich z.B. Regressionen verwende, benötige ich z.B. ‘ R‘, was ja auch Open Source ist, oder eben eine Sprache wie Python, in der ich dann diese Algorithmen beschreibe. Dadurch erkenne ich dann Zusammenhänge und kann dieses „Gold“ aus den Daten heben und Mehrwert generieren.

All diese Verfahren gibt es ja heute schon…

Genau, aber das Problem dabei ist, dass es nur bei relativ kleinen Datenmengen funktioniert oder bei Datenmengen, die man nicht als Big Data bezeichnen würde. Bei Big Data geht es ja nicht nur um die Größe der Datenmengen, sondern wie gesagt, auch darum wie schnell diese Daten neu ins System kommen, wie komplex die Daten und natürlich auch die Analysen sind. Das BBDC will nun neue Verfahren und Technologien entwickeln die diese Analyse massiv parallel vornehmen können. Heute muss ich eigentlich Systemprogrammierung beherrschen, damit ich so etwas machen kann.

Wirkt es sich stark auf den Analyseprozess aus, dass zusätzlich zu den eben beschriebenen großen vorhandenen Datenmengen, kontinuierlich neue große Datenmengen hinzukommen?

Das ist ein weiterer Aspekt. Man spricht dabei im Kontext von Big Data auch von Velocity. Dabei muss ich, während ich die Berechnungen durchführe, auch noch neue Daten berücksichtigen und die Antworten sehr schnell, potentiell kontinuierlich, berechnen. Auch das muss so ein System lösen können.

Für den Mehrwert ist das möglicherweise ganz entscheidend, da die neuen Daten unter Umständen die aus den alten Daten gewonnenen Aussagen beeinflussen. Und das eigentliche Ziel ist es ja, durch die Analyse der Daten, möglichst tragfähige Aussagen über die Zukunft treffen zu können.

Das wäre jetzt anwendungsabhängig, aber in einigen Anwendungen möchte ich genau diese Predictive Analytics wie Trendanalysen oder Vorhersagen durchführen. In anderen Feldern möchte ich vielleicht nur bestehende Zusammenhänge erkennen. Aber insgesamt soll beides möglich sein. Genau das sind eben diese komplexen Zusammenhänge. Ich baue mir ein Modell, das funktioniert und will dieses Modell dann konstant mit neuen Daten füttern.

Und welche Rolle spielt in diesem Zusammenhang Open-Source-Software?

Wir haben ja schon Vorarbeiten in diesem Bereich geleistet und ein offenes System entwickelt, welches sogar weltweit führend ist. Es gibt ein weiteres sehr populäres System im Big-Data-Bereich, das Hadoop-System, das vielleicht bekannt ist. Das von uns entwickelte System Stratosphere, was ich ja eben schon erwähnt habe, ist zwischen 2008 und 2013 hier in Berlin entstanden. Das funktioniert auch wunderbar, Sie können es runterladen und auf Ihrem Laptop laufen lassen. Sie können es aber auch auf einem großen Rechnercluster laufen lassen, wenn Sie das wollen. Dort können Sie dann eigene Datenanalyseprogramme schreiben und das System wird die dann ausführen. Das machen Sie dann z.B. in Java oder Scala.

Das System hat auch schon eine Menge Nutzer und Entwickler. Es gab im letzten November einen Stratosphere-Summit, den 100 Leute aus knapp neun Ländern besucht haben. Außerdem findet es Anwendung in diversen Berliner Startups und anderen Firmen. Somit hat das Ganze schon eine kritische Masse erreicht und verselbstständigt sich auf eine gewisse Art und Weise. Google unterstützt Stratosphere jetzt auch mit dem „Summer of Code“, bei dem Studenten von Google dafür bezahlt werden, dass sie Beiträge zu Stratosphere leisten. Neben solchen Aktivitäten entwickeln auch andere Institutionen gemeinsam mit uns an der TU Berlin das System weiter.

Das Ganze wird auch noch in den europäischen Raum wachsen, weil es ganz massiv vom European Institute of Technology unterstützt wird. So ist, dadurch dass Stratosphere Open Source ist, ein ganz eigenes Ökosystem darum entstanden, was sonst in dieser Form nicht möglich gewesen wäre. Außerdem soll Stratosphere bald an die Apache Foundation übergeben werden, die Incubation ist bereits in Vorbereitung.
Leider haben wir uns den Namen allerdings nicht schützen lassen, so dass wir ihn jetzt ändern müssen. Jemand aus den USA hat sich diesen Namen bereits schützen lassen. Daher wird der Name Stratosphere für das System sich bald ändern.

Es ist nicht immer üblich, dass Projekte, die an Universitäten entwickelt werden, unter eine Open-Source-Lizenz gestellt werden. Warum wurde sich bei Stratosphere dafür entschieden?

Ein Grund ist eher persönlich: Ich bin der Meinung, dass Entwicklungen, die mit öffentlichen Geldern gefördert werden, auch der Öffentlichkeit zu Gute kommen sollten.

Der zweite Punkt ist, dass man eine kritische Masse, sowohl an Benutzern als auch an Entwicklern, nur durch Open Source erreichen kann – gerade in diesem Bereich. Das kann eine Forschergruppe, auch mit mehreren Universitäten im Verbund, gar nicht leisten.

Der dritte Punkt ist, dass eine große Einigkeit sowohl unter Wissenschaftlern als auch unter Wirtschaftskonzernen besteht, dass derartige Infrastrukturen vielfach Open Source sein werden. Hintergrund ist, dass sich das Ökosystem gewaltig geändert hat. Die Firmen erkennen, dass sich Geschäft mit Hilfe von Open-Source-Systemen in diesem Bereich generieren lässt.

Das ist übrigens auch eine große Chance hier für uns in Berlin. Wir können hier einer der weltweit führenden Open-Source-Player im Bereich der Big-Data-Analyse werden.

Sind Sie selber auch in Open-Source-Projekten aktiv?

Ich muss gestehen, nein. Ich habe leider nicht mehr die Zeit selber zu entwickeln. Aber einige meiner Mitarbeiter sind da sehr aktiv. Als Professor entwickelt man ja eher die Visionen. Viel der Anerkennung gebührt da auch den Doktoranden, die sehr viel Entwicklungsarbeit leisten. Aber auch wenn ich selber nicht aktiv bin, sehe in diesem Bereich ein großes Potential.

Ein letzte Frage noch. Benutzen Sie selbst auch Open-Source-Software?

Ja, das tue ich. Ich benutze z.B.  Open Office, allerdings in Kombination mit Closed-Source-Lösungen. Ich arbeite auch mit der Sprache ‚R‘. Außerdem mit Open-Source-Cloudlösungen wie ownCloud. Einige Programme fallen einem dann im Alltag gar nicht mehr auf wie z.B. der Firefox als Webbrowser.

Vielen Dank für das Interview.

Bildquelle: TU Berlin/PR/Ulrich Dahl

Weitere Informationen: http://bbdc.berlin

Abgelegt unter: 

Kommentare

Kommentar hinzufügen

CAPTCHA
Diese Frage hat den Zweck zu testen, ob Sie ein menschlicher Benutzer sind und um automatisiertem Spam vorzubeugen.
1 + 2 =
Das einfache mathematische Problem ist zu lösen und das Ergebnis einzugeben. Z.B. muss für 1+3 der Wert 4 eingegebene werden.
To prevent automated spam submissions leave this field empty.