- Sie befinden sich:
- Fachbücher
- »
- Natur & Technik - Unsere Neuheiten
- »
- Informatik
- »
- Big Data mit Hadoop und Hive: Untersuchung der Migration einer MySQL-basierten Monitoring & Data Warehouse Lösung nach Hadoop
Informatik
» Blick ins Buch
» weitere Bücher zum Thema
» Buch empfehlen
» Buch bewerten Produktart: Buch
Verlag:
Diplomica Verlag
Imprint der Bedey & Thoms Media GmbH
Hermannstal 119 k, D-22119 Hamburg
E-Mail: info@diplomica.de
Erscheinungsdatum: 11.2013
AuflagenNr.: 1
Seiten: 104
Abb.: 47
Sprache: Deutsch
Einband: Paperback
Die escape GmbH betreibt ein MySQL basiertes Dataware-House in das Daten aus verschiedenen Webpräsenzen fließen, um dort ausgewertet zu werden. Nach Jahren des erfolgreichen Betriebs nimmt mit der ständig steigenden Menge an gespeicherten Daten die Leistung des Systems allerdings ab. Die Laufzeiten für Auswertungen steigen und die Agilität sinkt. Kleine Optimierungen und Veränderungen des Systems können das Unbrauchbarwerden hinauszögern, als aber aus Gründen der Leistung auf einen Teil der Abfragen verzichtet werden muss, wird schließlich klar, dass nur eine grundlegende Veränderung des Systems den langfristigen Betrieb sicherstellen kann. Aus diesem Grund wurde nach Technologien gesucht, deren Fähigkeiten die Leistung des bestehenden Dataware-Houses verbessern können. Dies führte zu Hadoop.
Textprobe: Kapitel: 3.4.1 Hadoop Distributed File System (HDFS): HDFS [Whi10d] ist ein Dateisystem, welches konzipiert wurde, um sehr große Dateienverteilt zu speichern und dabei für den Zugriff mit dem Muster ‘write once read many” zu optimieren. Dies wird durch die Aufspaltung der Dateien in Blöcke (standardmäßig 64 MB) und die anschließende Verteilung auf verschiedenen Knoten (Datanodes) erreicht. In einem zentralen Register (Namenode) werden hierbei die Information für den Verzeichnisbaum und die Metadaten der Dateien gehalten. Die vorhandenen Datanodes melden dem Namenode periodisch die auf ihnen gespeichert Blöcke, dies erlaubt dem System das redundante Verteilen der Daten, um den Ausfall von einzelnen Knoten zu tolerieren. 3.4.2 HBase: Hbase [Foud] [Geo11a] ist eine Open Source Implementierung von Google’s Bigtable Datenbank und bietet ein verteiltes, persistentes und strikt konsistentes Storage-System, welches den Festplattenspeicher effektiv nutzt, da es keine zusätzlichen Indizes anlegt und die Kompression von Spalten unterstützt. Außerdem wird das dynamische Hinzufügen von Spalten ermöglicht. Der Zugriff auf die Daten erfolgt durch einen Single-Index, der mit dem Primär-Schlüssel in relationalen Datenbanken vergleichbar ist. HBase bietet unter anderem folgende Charakteristik [Geo11b] : • Keinen echten Index: Zeilen und Spalten innerhalb einer Zeile werden sequenziell gespeichert, dies vermeidet das Aufblähen eines Indizes und erlaubt eine hohe Performanz beim Einfügen von neuen Datensätzen, die von der Tabellengröße nicht negativ beeinträchtigt wird. • Automatische Partitionierung: Mit dem Wachstum einer Tabelle findet eine automatische Aufteilung in Regionen und eine gleichmäßige Verteilung der Daten auf vorhanden Knoten statt. • Automatische und lineare Skalierung mit neuen Knoten: Beim Hinzufügen von neuen Knoten werden die aufgeteilten Regionen automatisch neu balanciert, um die Last gleichmäßig zu Verteilen. • Fehlertoleranz: Durch die Verteilung auf viele Knoten, wird der Ausfall von einzelnen Knoten vom System toleriert. Für den entfernten Zugriff auf HBase kann ein Thrift-Client verwendet werden. 3.4.3 MapReduce: Das MapReduce-Verfahren [DG04] ist ein von Google entwickeltes Programmier-Modell, das es erlaubt sehr große Mengen von Datensätzen zu verarbeiten oder zu generieren. Es ist hoch skalierbar und bietet eine Abstraktion, die die komplexen Details einer Parallelisierung, die Unterstützung von Fehler-Toleranz, Daten-Verteilung und Load-Balancing verbirgt, um sich auf das Wesentliche beschränken zu können – die Berechnung der gewünschten Werte. Das Verfahren besteht im Wesentlichen aus den Funktionen Map und Reduce, in denen der Code für die Berechnung implementiert wird und die jeweils parallel ausgeführt werden können. In Hadoop werden die Berechnungen mit Hilfe der sogennanten TaskTracker-Dienste ausgeführt und durch einen Verwaltungs-Dienst namens JobTracker koordiniert. 3.4.3.1 Map-Funktion: Die Map-Funktion verarbeitet eine Reihe von Key-Value-Paaren und gibt die Zwischenergebnisse in einer Liste von neuen Key-Value-Paaren an die Reduce-Funktion weiter. map(k1,v1) -> list(k2,v2). 3.4.3.2 Reduce-Funktion: In der Reduce-Funktion werden die Key-Value-Paare aus der Map-Funktion verarbeitet und zusammengefasst in der Ergebnisliste zurückgegeben. (k2, list(v2)) -> list(v2). 3.4.4 Hive: Hive [Foue] [TSJ+10] [Whi10b] ist eine Open Source Data-Warehouse Lösung, die auf Hadoop aufbauend die Abfrage von gespeicherten Daten in einer deklarativen Sprache (HiveQL) erlaubt, welche stark dem SQL-Syntax ähnelt. In Hive werden Daten als Tabellen und Spalten mit zugehörigen Datentypen (int, string, double, structs, maps, arrays, ...) dargestellt und in benutzerdefinierten Formaten im HDFS oder in HBase abgelegt. Das jeweilige Zeilen-Format ist vom ausgewählten Serializer-Deserializer (SerDe) abhängig. Die Meta-Daten für jede Tabelle werden im sogenannten Metastore hinterlegt. Für den entfernten Zugriff auf HBase kann ein Thrift-Client verwendet werden. 3.4.4.1 HiveQL: Der SQL-Dialekt von Hive wird HiveQL[Geo11c] genannt und erfüllt die SQL-92 Spezifikation [90792] nicht. Zum einen liegt das daran, dass das Projekt noch sehr jung ist und zum anderen, dass eine komplette Kompatibilität nicht das Ziel ist. Vielmehr geht es darum die Hürden neuer Hive-Benutzer zu senken, indem auf bekannte und etablierte Technologien zurückgegriffen wird. Außerdem bietet HiveQL Erweiterungen, die vom MapReduce-Verfahren inspiriert wurden, wie zum Beispiel Multiple-Inserts [Whi10e], bei denen Daten gleichzeitige in mehrere Tabellen eingefügt werden können, ohne die Quell-Tabelle mehrfach lesen zu müssen. Jede HiveQL-Abfrage wird, je nach Komplexität, in mehreren MapReduce-Jobs abgebildet, die die entsprechenden Daten verarbeiten und die Ergebnismenge zurückgeben.
Jonas M. Kress (Jonas-Kress.de) wurde 1984 in Bamberg geboren. Bereits 2000 begann er seine Arbeit im Bereich komplexer Computer Systeme. Sein Masterstudium der Angewandten Informatik schloss er 2012 mit Auszeichnung an der HTW in Berlin ab. Heute arbeitet er vor allem als Berater und Software Architekt und hilft bei der Umsetzung von Informations-Systemen mit hohen Anforderungen.
weitere Bücher zum Thema
Virtual Reality: Eine Analyse der Schlüsseltechnologie aus der Perspektive des strategischen Managements
Bearbeitete Neuausgabe
ISBN: 978-3-96146-904-8
EUR 39,99
On the structure of the Solomon-Tits algebra of the symmetric group. An analysis of associative, group theoretic and Lie theoretical phenomenons
With 224 exercises
ISBN: 978-3-95935-594-0
EUR 44,50
Entwicklung von Big-Data-Anwendungen
ISBN: 978-3-96146-885-0
EUR 29,50
Adversariale Robustheit Neuronaler Netze. Verteidigungen gegen Vermeidungsangriffe zur Testzeit
ISBN: 978-3-96146-856-0
EUR 39,50
Lean Excellence in der Informationstechnologie
ISBN: 978-3-96146-840-9
EUR 39,50
Benefits of semantic data models. A study in the European goods transport industry
ISBN: 978-3-95935-564-3
EUR 44,90
Das chinesische Sozialkreditsystem. Künstliche Intelligenz als Umerziehungswerkzeug für ein überwachtes Volk
ISBN: 978-3-96146-813-3
EUR 34,50
Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base
ISBN: 978-3-96146-648-1
EUR 39,99
Scheduling von Schleusungsvorgängen: Algorithmen zur Verkehrsoptimierung am Beispiel des Nord-Ostsee-Kanals
ISBN: 978-3-96146-631-3
EUR 48,00
SAP HANA Search Guide. Optimierung der SAP HANA Suche in strukturierten Daten
Eine Handlungsempfehlung