BIG DATA: Arquitectura de volumen
Duración :
38h
38h
Dificultad :
4/5
Precio :
1495€
1495€

Requisitos previos
Dominio de Python y de programación avanzada
Gestión de bases de datos
Gestión de bases de datos
Competencias adquiridas al finalizar el curso:
Cargar datos y tratarlos en HDFS
Transformar esos datos con Hadoop Streaming o PySpark
Optimizar las búsquedas sobre datos estructurados en Apache Hive
Entrenar algoritmos de Machine Learning sobre un clúster de máquinas con PySpark
Transformar esos datos con Hadoop Streaming o PySpark
Optimizar las búsquedas sobre datos estructurados en Apache Hive
Entrenar algoritmos de Machine Learning sobre un clúster de máquinas con PySpark
El plan de estudios:
Introducción a Apache Hadoop (15 horas)
- Teorías de arquitecturas distribuidas
- Introducción al paradigma Map Reduce
- Gestión de archivos con HDFS
- Cálculos distribuidos con Hadoop MapReduce
- Cálculos distribuidos con Hadoop Streaming
Introducción a Pyspark (20 horas)
- Funcionamiento interno de Apache Spark
- Manipulación de datos no estructurados con Spark
- Manipulación de datos estructurados con SparkSQL
- Machine Learning con SparkML
Introducción a Apache Hive (10 horas)
- Funcionamiento interno de Apache Hive y articulación en torno a Hadoop
- Lecturas, ingesta, modificación y eliminación de datos con HQL
- Optimización del almacenamiento de datos por partición
Les prochaines dates :
Format Bootcamp
6 octobre
9 novembre
9 décembre
Format Continu
22 octobre
30 novembre
¿Quieres crear un programa a medida en función de tus necesidades?
¡Un miembro de nuestro equipo puede ayudarte!
¡Un miembro de nuestro equipo puede ayudarte!