Si vous êtes un lecteur assidu de notre blog, la Data Science n’a presque plus de secret pour vous. Dans cet article, il n'est pas question de vous expliquer ce qu’est le Machine Learning (pour cela je vous laisse consulter cet article brillant sur le sujet ).
Ici, nous allons vous proposer un tutoriel pour installer un environnement python sur votre système, afin de passer de la théorie à la pratique et pouvoir commencer à faire de la Data Science.
Le tutoriel en vidéo :
Ce tutoriel est là pour vous aider à démarrer en Python / R , que vous soyez sous Windows, Ubuntu, Linux ou Mac (personne n’est parfait). La seule condition est de savoir quel système d’exploitation est présent sur votre ordinateur.
En suivant le tutoriel vous disposerez d’un environnement Python / R fonctionnel pour commencer à apprendre à coder et à développer des modèles de Machine Learning.
Plusieurs outils différents permettent de coder en Python / R, par exemple aux IDEs populaires comme Pycharm, Spyder, RStudio ou encore Visual Studio.
Mais pour débuter, et avoir un environnement python complet et prêt à l’emploi, l’idéal est d’installer la distribution Anaconda.
Anaconda Individual Edition est une plateforme de distribution Python recensant plus de 20 millions d’utilisateurs dans le monde, basé sur un écosystème totalement open-source.
Anaconda contient Jupyter, qui est essentiellement une combinaison entre un IDE et un serveur pour exécuter vos Notebooks. Jupyter prend en charge aujourd’hui plus de 40 langages informatiques.
Ces fameux Notebooks, très appréciés dans la communauté des Data Scientists, contiennent à la fois du code et des éléments de présentation, tels que des images ou du texte, réunis en un seul endroit.
Le saviez-vous ? Le nom Jupyter est un acronyme qui représente les trois langues pour lesquelles il a été conçu à l’origine : JUlia, PYThon et R.
Première étape: Télécharger Anaconda
- Pour télécharger Anaconda rien de plus simple, cliquez sur le lien suivant .
- Choisissez l’Installer qui convient à votre système d’exploitation et votre architecture :

⚠︎ Attention ! Anaconda vous propose de choisir entre les versions 2.7 ou 3.7 de Python.
Ne téléchargez sous aucun prétexte la version 2.7. Cette dernière a atteint sa fin de vie dignement en Janvier 2020, et ne sera plus ni mise à jour ni améliorée.
Certains vieux projets tournent toujours sur Python 2, c’est la raison pour laquelle Anaconda propose toujours les deux versions, mais ceci ne vous concerne pas.
UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !
UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !
Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ?
- Après avoir ouvert le fichier exécutable que vous avez téléchargé, appuyez sur Next quelques dizaines de fois, tout l’écosystème Anaconda sera installé sur votre ordinateur.
Il se peut que cette opération vous prenne une bonne trentaine de minutes, voire plusieurs heures. Soyez patients, à l’issue de cette étape, vous aurez téléchargé Jupyter, mais également PyCharm, Spyder ou Rstudio, ainsi que plusieurs centaines de packages prêts à être utilisés dans vos Notebooks.
- Une fois l’installation terminée, vous arriverez sur la page principale de l’application Anaconda Navigator qui ressemblera à ça :

En cliquant sur l’onglet Environments situé sur le menu de gauche, vous aurez la liste de tous les packages installés sur votre environnement pour Python et R, ainsi que ceux non installés et que vous pouvez ajouter en quelques clics.

Deuxième étape: Créer un environnement virtuel
Les programmes Python nécessitent parfois, une version spécifique d’un package, par exemple parce qu’un programme a été implémenté sur une ancienne version d’un package mis à jour depuis, parce qu’il utilise d’autres packages compatibles uniquement avec la version la plus récente de celui-ci, ou parce qu’un certain bug a été corrigé.
Cela signifie qu’il n’est pas toujours possible, pour une installation unique de Python et des packages dont vous avez besoin, de travailler sur vos différents projets au cours du temps. En effet, si un de vos projets dépend de la version 1.3 d’un package et qu’une application B dépend de la version 2.0, ces dépendances entrent en conflit et installer la version 1.3 ou 2.0 empêchera l’un des deux programmes de fonctionner.
La solution est de créer un environnement virtuel, un environnement qui contient une certaine version de Python/R ainsi que différents packages.
Pour celà, rien de plus simple: dans l’onglet Environments, il suffit de créer un nouvel environnement virtuel en cliquant sur Create. Puis d’installer ou de mettre à jour les packages dont vous avez besoin, grâce au menu de gauche.


- Pour commencer à coder en Python, il ne vous reste plus qu’à vous rendre sur la page d’accueil (Home) de l’application et de cliquer sur le bouton Launch de la fenêtre Jupyter Notebook :

- Dans l’onglet Environments, créez un nouvel environnement virtuel en cliquant sur Create, puis donnez un nom à votre environnement et coche, les cases Python et R.

- Ouvrez l’environnement avec le package R en cliquant sur l’option Open with Jupyter Notebook
- Enfin, pour créer un nouveau Notebook en R, dans le menu de Jupyter Notebook, sélectionnez New, puis R. Ou sélectionnez Python 3 pour coder en Python


Et voilà ! Vous êtes prêts à coder, sans avoir à vous soucier d’installer un nombre considérable de packages en amont. D’ailleurs, pour connaître les principaux packages indispensables de Python pour la Data Science, rendez-vous ici.
Si vous hésitez entre Python et R, l’un de nos Data Scientists a réfléchi à la question et vous donne quelques éléments de réponses dans cet article (mais son avis a fait débat au sein même de notre data team donc à vous de décider ) .
Enfin pour devenir un pro de la Data Science, et maîtriser le Machine Learning avec Python ou R, il vous reste une étape : Vous inscrire à l’une de nos formations.
À très bientôt en séance de coaching !