BIG DATA: Architecture de volume
Nombre d’heures :
38h
38h
Difficulté :
4/5
Prix :
1495€
1495€

Prérequis:
Maîtrise de Python et de programmation avancée.
Gestion de bases de données.
Compétences acquises à l’issue:
Charger des données et les traiter dans HDFS.
Transformer ces données avec Hadoop Streaming ou PySpark.
Optimiser les requêtes sur des données structurées dans Apache Hive.
Entraîner des algorithmes de Machine Learning sur un cluster de machines avec PySpark.
Le cursus:
Introduction à Apache Hadoop (15h)
- Théories des architectures distribuées
- Introduction au paradigme Map Reduce
- Gestion de fichiers avec HDFS
- Calculs distribués avec Hadoop MapReduce
- Calculs distribués avec Hadoop Streaming
Introduction à Pyspark (20h)
- Fonctionnement interne de Apache Spark
- Manipulation des données non structurées avec Spark
- Manipulation de données structurées avec SparkSQL
- Machine Learning avec SparkML
Introduction à Apache Hive (10h)
- Fonctionnement interne de Apache Hive et articulation autour de Hadoop
- Lectures, Ingestion, modification et suppression de données avec HQL
- Optimisation du stockage des données par partition
Les prochaines dates :
Format Bootcamp
6 octobre
9 novembre
9 décembre
Format Continu
22 octobre
30 novembre
Vous souhaitez construire un parcours sur-mesure adapté à vos besoins ?
Un membre de notre équipe peut vous aider !