Spark und Hadoop für Python Entwickler

Erwerben Sie in diesem Training ein Grundverständnis über die Funktionsweise von Spark auf einem Hadoop-Cluster und nutzen Sie Python, um Datenmanagement, ETL und Machine Learning Anwendungen darauf auszuführen. Über Hadoop als Basissystem hinweg, lernen Sie sich in der Big-Data Systemlandschaft zurechzufinden und die einzelne Module, deren Einsatzszenarien und grundsätzlichen Funktionsweisen zu benennen. Lernen Sie die dabei Vorzüge von Spark-DataFrames kennen und manipulieren Sie diese mit den gewohnten Funktionen aus dem Pandas Paket oder mit SQL-Anweisungen. Innerhalb des Trainings werden Sie die Machine Learning Verfahren der nativen Spark Bibliothek MLlib ausführen und diese mit den DeepLearning Verfahren aus den externen Bibliotheken ergänzen. Erfahren Sie außerdem, welche Datentypen und Datenbanksysteme Sie für die Anwendung von Spark benötigen und wie diese mit den Hadoop Systemkomponenten interagieren. Nach dem Kurs sind Sie in der Lage Pythonskripte zu erstellen, die auf einem Spark-Rechencluster ausführbar sind. Sie werden dabei ein tieferes Verständnis für die grundlegenden Funktionsweisen von Rechenclustern haben und können Ihre Skripte durch Spark und Hadoop Anweisungen konfigurieren.

Lernziele

Einführung in die Grundfunktionsweisen von Spark und Hadoop
Einführung in das modulare Hadoop Ökosystem.
Anbindung und Interaktion von Python mit den Systemen.
Machine Learning Anwendungen in Python und Spark schreiben.

Inhalte

Einführung in Hadoop

Aufbau & Funktionsweise, Cluster-Computing & Map-Reduce, Datenhaltung, YARN, HDFS, Hive, Konfiguration, Ökosystem, Interaktion mit Spark

Einführung in Spark

Architektur, Konfiguration, Skript-Deployment & Job Execution, Web Frontend, Shell-Bedienung

Einführung in das Cluster-Computing
Resilient-Distributed-Datasets (RDD) – Cluster-Computing in Spark
Spark DataFrames und Datasets
Spark SQL – Verarbeiten strukturierter Daten in Spark
Spark NoSQL – Verarbeiten semistrukturierter Daten in Spark
Spark Streaming – Live-Datenstromverarbeitung
Spark – Python Integration
Datenmanagement und ETL mit Python
MLlib – Mashine Learning in Spark

Übersicht über die Bibliothek, Anbindung an Python, Anwendung von Algorithmen

Voraussetzungen

Grundlegende Programmiererfahrung in Python sollte vorhanden sein.

Weitere Informationen

Training am eigenen Laptop

(Softwarevoraussetzungen und Installationsanleitung erhalten Sie im Vorfeld)

Private ptm-Akademie

– Gesellschaft für Informatik-Training und Kommunikationstechnologie mbH –

Fritz-Erler-Str. 30
81737 München

Tel.: 089 / 544121 - 0
Fax: 089 / 544121 - 21

Ausgewählte Seminare

Atos Unify Trainings
Berufliche Weiterbildungen
ITIL® Seminare
Office Seminare
Online Seminare

Die Private ptm-Akademie GmbH ist Ihr Seminaranbieter für IT-Trainings, Management-Seminare und Office-Seminare. Wir bieten Ihnen Inhouse-Seminare und offene Schulungen in München, Nürnberg, Erlangen, Berlin, Paderborn und Karlsruhe. Wir sind Microsoft-Partner und exklusiver Unify-Schulungspartner für Deutschland.

Seminar-Standorte:

München Perlach
München Obersendling
Nürnberg
Erlangen
Berlin
Paderborn
Karlsruhe

Spark und Hadoop für Python Entwickler

Lernziele

Inhalte

Voraussetzungen

Weitere Informationen

Auf einen Blick
+

Fragen zum Training??

Zielgruppe

Kurs buchen

Private ptm-Akademie

Ausgewählte Seminare

Seminar-Standorte:

Spark und Hadoop für Python Entwickler

Lernziele

Inhalte

Voraussetzungen

Weitere Informationen

Auf einen Blick +

Fragen zum Training??

Zielgruppe

Kurs buchen

Private ptm-Akademie

Ausgewählte Seminare

Seminar-Standorte:

Auf einen Blick
+