Las profesiones relacionadas con los datos, ya sea en Big Data, transformación, inteligencia artificial, etc., requieren una variedad de conocimientos y herramientas que es necesario dominar, o al menos tener algunas nociones.
Estas diferentes profesiones no exigen los mismos niveles de conocimiento y/o dominio. En el marco de este artículo, nos centraremos en la profesión de Ingeniero de Datos.
Como recordatorio, el Ingeniero de Datos es responsable del desarrollo de pipelines de datos y asegura su alta disponibilidad y mantenimiento. También debe ser capaz de entender y analizar los algoritmos de ciencia de datos.
Dominio | Resumen | Ejemplo de tecnologías |
Sistemas operativos | Excelente dominio de los sistemas operativos | Windows, Linux, Solaris |
Desarrollo | Perfecto dominio de los lenguajes de programación | Python, R, Scala |
Base de datos | Expertise en manipulación de bases de datos | SQL, MongoDb, Neo4j |
Big Data | Expertise en gestión de grandes volúmenes de datos | Hive, HBase |
Machine Learning | Conocimiento de ciertos algoritmos y comprensión de su funcionamiento | Sklearn, Matlib |
Comunicación | Excelente comunicación y capacidad para vulgarizar su trabajo | Correos electrónicos, presentaciones |
Puesta en producción y API | Excelente dominio del funcionamiento de API | FastAPI, Flask |
Data Warehouse | Conocimiento de tecnologías cloud | Azure, AWS, Snowflake |
Podemos agrupar las habilidades imprescindibles en diferentes grupos.
- Herramientas de base de datos: El almacenamiento, organización y manipulación de grandes volúmenes de datos es esencial para el ingeniero de datos. El dominio de las tecnologías SQL, NoSQL es imperativo y forma parte integral de su día a día.
- El desarrollo es una parte integral de la profesión de Ingeniero de Datos. Los lenguajes más utilizados son Python, R y Scala. Sin embargo, su conocimiento en desarrollo también le permite subir de nivel rápidamente en lenguajes que no domina necesariamente, como Golang, Ruby o Perl, por solo nombrar algunos.
- Data Warehousing (almacenamiento de datos). Estas son tecnologías modernas principalmente orientadas a la nube que permiten el almacenamiento de datos y su acceso fácil. Los principales actores en Data Warehousing son Amazon con Redshift y Microsoft con Azure SQL Database. Pero Big Query de Google o Snowflake también son tecnologías que pueden ser requeridas.
- Puede parecer obvio, pero un fuerte conocimiento de los sistemas operativos Windows y Linux es fundamental.
- Los volúmenes de datos pueden ser muy grandes, y su análisis (y las herramientas asociadas) deben ser dominados por el Ingeniero de Datos. Entre las herramientas más demandadas, y por lo tanto las que son esenciales dominar, encontramos las soluciones basadas en Hadoop, así como Hive o HBase.
- Habilidades para entender los algoritmos de Machine Learning. Esto es principalmente el corazón de la profesión de los Científicos de Datos, pero su comprensión (sin necesidad de llegar al mismo nivel de habilidades) es importante para los Ingenieros de Datos. Esto les permitirá tener una buena comprensión de cómo se utilizarán sus datos, pero también podrán actuar sobre estos algoritmos si es necesario.
- Aunque pueda parecer aún más obvio, sólidas habilidades de comunicación son fundamentales. Los Ingenieros de Datos tendrán que colaborar y presentar resultados a colegas o responsables que no tienen el conocimiento necesario para comprender los diversos análisis. Ser capaz de vulgarizar y así hacerse entender por su audiencia es muy importante, ya sea de viva voz o ahora cada vez más a distancia, a través de presentaciones o correos electrónicos.
- El conocimiento de las etapas de puesta en producción y en particular a través de APIs es muy importante para el Ingeniero de Datos. De hecho, tendrá que escribir APIs para permitir a los usuarios y otros servicios realizar acciones sobre conjuntos de datos, modelos de Machine Learning. El uso de Docker así como de Kubernetes para asegurar un despliegue sin inconvenientes es primordial.
Esperamos que este artículo haya podido iluminarles sobre las habilidades necesarias para un buen Ingeniero de Datos. Sin embargo, no hay que olvidar que estas profesiones están en constante evolución, y por consiguiente, es vital para el rendimiento que los Ingenieros de Datos mantengan una vigilancia tecnológica constante.
Para formarse en la profesión de Ingeniero de Datos, descubra sin más demora el trayecto pensado y construido por DataScientest.