Cloud 18.05.2020

Was ist Hadoop?

Blog-Übersicht > Cloud > Was ist Hadoop?

Hadoop ist ein auf Java basierendes Open-Source-Framework für die Big-Data-Verarbeitung.

Mit Hadoop lassen sich große Datenmengen schnell auf verteilten Rechner-Clustern oder in der Cloud verarbeiten. Das Framework ist seit 2008 ein Top-Level-Projekt der Apache Foundation. Das Neuartige an der Softwarearchitektur war damals, dass die Datenbanken auf Standard-Hardware laufen können. Unternehmen mussten seitdem nicht mehr in teure Storage-Area-Networks investieren, um große Datenmengen auf verteilten Systemen zu verarbeiten. Die Lösung hat damit die Entwicklungen im Bereich Big Data maßgeblich mitbestimmt.

Was ist ein Hadoop Cluster?

Ein Hadoop-Cluster ist eine verteilte Compute-Umgebung, die für die Speicherung und Analyse einer großen Mengen unstrukturierter Daten genutzt wird. Die Besonderheit daran ist, dass das Open-Source-Framework auf Standard-Rechnern eingesetzt werden kann. Aktuell gewinnt hier jedoch die Cloud zunehmend an Bedeutung.

Wie funktioniert Hadoop?

Einfach gesagt: Hadoop teilt riesige Datenmengen in handliche Päckchen auf, lässt diese parallel auf mehreren Systemen verarbeiten und führt diese am Ende wieder zusammen.

Hohe Skalierbarkeit

Das Framework wurde so konzipiert, dass es von einem bis zu tausenden von Rechnern skaliert. Jeder eingesetzte Rechner kann dann lokal Datenberechnungen durchführen und speichern. Man spricht in diesem Zusammenhang auch von horizontaler Skalierung und Datenlokalität.

Damit ist gemeint, dass Hadoop den auszuführenden Programmcode auf exakt den Rechner im Cluster verteilt, der die zu analysierenden Daten vorhält. Ein Knoten innerhalb des Clusters übernimmt dabei die Steuerung, die anderen die Berechnungen. Die Daten werden dann in kleinen Teilen parallel vor Ort im Cluster analysiert und nur das (Teil-)Ergebnis wieder zurückgeschickt.

Schnelle Verarbeitung

In der konventionellen Datenhaltung werden meist die Daten zu einem Server übertragen, der dann den gewünschten Programmcode ausführt. Der Vorteil von Hadoop ist hier vor allem, dass zeitintensive Datenübertragungen über das Netzwerk auf ein Minimum reduziert werden.

Denn der Code „reist“ quasi durch die Infrastruktur zu genau dem Cluster an dem die riesigen zu analysierenden Datenmengen vorliegen. Das beschleunigt die Verarbeitung der Daten und ermöglicht es, komplexe Rechenaufgaben mit Daten im Petabyte-Bereich schnell und wirtschaftlich durchzuführen. Somit bildet Hadoop eine wesentliche Grundlage für Big-Data-Analysen.

Die wichtigsten Module von Hadoop

Das Framework besteht aus den folgenden Kernmodulen:

Hadoop Common

Hierbei handelt es sich um die allgemeinen Bibliotheken und Dienstprogramme. Sie bilden die Basis-Module für die weiteren Hadoop-Module.

Hadoop Distributed File System (HDFS)

Dieses verteilte Dateisystem speichert Daten auf den Rechnern im Cluster und bietet einen schnellen Zugriff auf die jeweiligen Anwendungsdaten.

Hadoop YARN

YARN (Yet Another Resource Negotiator) ist eine Plattform für die Verwaltung der Rechenressourcen im Cluster-Verbund sowie deren Planung und Verwendung. YARN kann die Ressourcen eines Clusters dynamisch verschiedenen Jobs zuordnen.

Hadoop MapReduce

MapReduce ist ein YARN-basiertes System zur parallelen Verarbeitung großer Datenmengen. Der MapReduce-Algorithmus stammt ursprünglich von Google. Er stellt Funktionen zur Verfügung, um rechenintensive Aufgaben in kleinen Einzelteilen auf mehrere Rechner zu verteilen und parallel zu verarbeiten. Dadurch ergibt sich eine hohe Rechengeschwindigkeit. Am Ende führt MapReduce die diversen Teilergebnisse zu einem Gesamtergebnis zusammen.

Alle Module gehen davon aus, das es im Cluster oft zu Hardwarefehlern einzelner Rechner oder ganzer Racks kommen kann. Deshalb kann ein Versagen von Hardware von den Modulen entsprechend berücksichtigt und durch sie selbst abgefangen werden. Wird ein Job bei der Ausführung auf einem Rechner durch einen Defekt unterbrochen, wird er automatisch auf einem anderen Knoten im Cluster nochmals gestartet. Der Anwender erlebt dabei keinen Systemausfall, sondern lediglich eine kurze Verzögerung.

Woraus besteht Hadoop?

HDFS und MapReduce sind die Kernkomponenten des Frameworks. Sie werden oftmals als Hadoop Core bezeichnet. Doch die Gesamtplattform besteht inzwischen aus einer Vielzahl von zusätzlichen Modulen und Open-Source-Projekten. Rund um die Kernkomponenten hat sich in den letzten zehn Jahren ein ganzes „Hadoop-Ökosystem“ entwickelt. Dieses setzen Unternehmen ein, um ihre Daten zu extrahieren, aufzubereiten und auszuwerten.

Darin gibt es unterschiedliche Komponenten wie Hadoop Data Warehouses (HIVE, Impala) oder auf HDFS basierte, nicht relationale Datenbanksysteme (HBase). Letztere sind vor allem von Vorteil, wenn kurze Antwortzeiten gewünscht sind. Für das Management und die Verwaltung der Knoten innerhalb eines Clusters kommt Zookeeper zum Einsatz.

Zudem gibt es spezielle Module, die für die schnelle Verarbeitung und Speicherung von Daten in Echtzeit geeignet sind (Spark). Und für die Installation und Überwachung des Clusters eignen sich Lösungen wie Apache Ambari. Hier werden die aktuelle Ressourcenauslastung, installierte Cluster-Komponenten sowie weitere Informationen angezeigt.

Big Data vermehrt in der Cloud

Gerade 2019 hat sich im Big-Data-Markt und im Segment rund um Hadoop einiges verändert. Es kam zu einer Konsolidierung bei den Anbietern von Hadoop-Distributionen. So kaufte Cloudera den Mitbewerber Hortonworks und HPE (Hewlett Packard Enterprise) übernahm MapR. Diese Veränderungen haben vor allem mit einem veränderten Technologieumfeld zu tun. Denn Big Data wird heute zunehmend in die Cloud verlagert.

Man spricht dann auch von „Hadoop-as-a-Service“ oder HaaS. Entsprechende Dienste bieten zum Beispiel die großen Public-Cloud-Anbieter wie Amazon AWS an. Ein Marktbericht von Allied Market Research prognostiziert, dass der HaaS-Markt bis 2020 weltweit 16,1 Milliarden US-Dollar einbringen wird.

Lang lebe Hadoop

In der Branche mehren sich Aussagen wie „Hadoop ist tot“. Doch das trifft zumeist eher auf HDFS zu. Denn dieses bietet keine elastische Skalierbarkeit. Das ist jedoch im heutigen Big-Data-Umfeld eine Anforderung, die immer wichtiger wird. Denn nur durch eine sofortige und elastische Rechenkapazität können Unternehmen Echtzeiteinblicke in ihre Daten bekommen. Und diese Elastizität bietet heute die Cloud.

Das Ökosystem wird daher weiter bestehen und sogar noch stärker werden. Darüber sind sich Branchenexperten und der Hadoop-Erfinder Doug Cutting einig.

Jetzt Blog abonnieren

04.06.2020

Cloud

Was ist die europäische Cloud Gaia-X?

Die europäische Cloud Gaia-X soll eine leistungs- und wettbewerbsfähige, sichere und vertrauenswürdige Dateninfrastruktur gewährleisten.

27.03.2018

Cloud

Was ist Serverless Computing?

Beim Serverless Computing kann man sich ganz auf seinen Code konzentrieren. Die Cloud erledigt den Rest.

11.08.2020

Cloud IoT

Cloud GPUs beschleunigen Big Data, KI und Visualisierungen

Welche Vorteile bringen Cloud GPUs für Unternehmen und welche Anwendungen profitieren davon?

Hallo, wie kann ich Ihnen helfen?