Si eres un lector habitual de nuestro blog, la Data Science casi no tiene secretos para ti. En este artículo no vamos a explicar qué es el Machine Learning (para eso te dejo que consultes este estupendo artículo sobre el tema).
Aquí te vamos a ofrecer un tutorial para instalar un entorno Python en tu sistema, para pasar de la teoría a la práctica y poder empezar a hacer Data Science.
Hay muchas herramientas diferentes que permiten programar en Python/R, por ejemplo, IDEs populares como Pycharm, Spyder, RStudio o Visual Studio.
Pero, para empezar, y tener un entorno Python completo y listo para usar, lo ideal es instalar la distribución Anaconda.
Anaconda Individual Edition es una plataforma de distribución de Python con más de 20 millones de usuarios en todo el mundo, basada en un ecosistema completamente open-source.
Anaconda contiene Jupyter, que es esencialmente una combinación de un IDE y un servidor para ejecutar tus Notebooks. Actualmente, Jupyter es compatible con más de 40 lenguajes informáticos.
Estos famosos Notebooks, muy populares en la comunidad de Data Scientists, contienen código y elementos de presentación, como imágenes o texto, en un mismo sitio.
¿Lo sabías? El nombre Jupyter es un acrónimo que representa los tres lenguajes para los que fue diseñado originalmente: JUlia, PYThon y R.
Primer paso: ¿Como descargar Anaconda ?
- Descargar Anaconda es muy fácil, solo tienes que hacer clic en el siguiente enlace.
- Elige el Installer que se adapte a tu sistema operativo y arquitectura:
⚠︎ ¡Atención! Anaconda te ofrece elegir entre las versiones 2.7 o 3.7 de Python.
No descargues la versión 2.7 en ningún caso. Esta versión ha llegado al final de su vida útil en enero de 2020, y no recibirá actualizaciones ni mejoras.
Algunos proyectos antiguos todavía funcionan con Python 2, por lo que Anaconda todavía ofrece ambas versiones, pero esto no te afecta.
- Una vez abierto el archivo ejecutable que has descargado, tendrás que pulsar Next unas diez veces, y todo el entorno de Anaconda se instalará en tu ordenador.
Esta operación puede tardar unos treinta minutos, o incluso varias horas. Ten paciencia, al final de este paso, habrás descargado Jupyter, pero también PyCharm, Spyder o Rstudio, así como varios cientos de paquetes listos para utilizar en tus Notebooks.
- Una vez completada la instalación, llegarás a la página principal de la aplicación Anaconda Navigator, que tendrá el siguiente aspecto:
Haciendo clic en la pestaña Environments del menú de la izquierda, obtendrás una lista de todos los paquetes instalados en tu entorno para Python y R, así como los que no están instalados y que puedes añadir con unos pocos clics.
Segundo paso: ¿Como crear un entorno virtual ?
Los programas de Python a veces requieren una versión específica de un paquete, por ejemplo, porque un programa se ejecutó en una versión anterior de un paquete que se ha actualizado desde entonces, porque utiliza otros paquetes que solo son compatibles con la versión más reciente del paquete, o porque se ha corregido un determinado error.
Esto significa que no siempre es posible que una única instalación de Python y los paquetes que necesitas funcionen en tus diferentes proyectos con el tiempo. Es más, si uno de tus proyectos depende de la versión 1.3 de un paquete y una aplicación B depende de la versión 2.0, estas dependencias entran en conflicto e instalar la versión 1.3 o 2.0 no permitirá que uno de los dos programas funcione.
La solución es crear un entorno virtual, un entorno que contenga una determinada versión de Python/R y diferentes paquetes.
Para esto, nada más sencillo: en la pestaña Environments, basta con crear un nuevo entorno virtual haciendo clic en Create. A continuación, instala o actualiza los paquetes que necesites, gracias al menú de la izquierda.
- Para empezar a programar en Python, basta con ir a la página de inicio (Home) de la aplicación y hacer clic en el botón Launch de la ventana de Jupyter Notebook:
Para programar en R, tendrás que seguir unos sencillos pasos antes de empezar:
- En la pestaña Environments, crea un nuevo entorno virtual haciendo clic en Create, luego dale un nombre a tu entorno y marca las casillas Python y R.
- Abre el entorno con el paquete R haciendo clic en la opción Open with Jupyter Notebook.
- Por último, para crear un nuevo Notebook en R, en el menú de Jupyter Notebook, selecciona New, y luego R. O selecciona Python 3 para programar en Python.
¡Y eso es todo! Ya estás listo para programar, sin tener que preocuparte por instalar un gran número de paquetes en línea.
Si estás dudando entre Python y R, uno de nuestros Data Scientists ha analizado la cuestión y te da algunas respuestas en este artículo (pero su opinión ha sido controvertida dentro de nuestro equipo de data, así que te toca a ti decidir).
¡Nos vemos pronto en una sesión de coaching!