Jupyter Notebook est une application web qui permet de créer des cahiers électroniques capables de combiner du texte, des images, du code informatiques ou des équations, le tout dans le même document. Dans un souci de lisibilité et d’utilisation du code source des documents, il est préférable de l'exécuter depuis la même interface et de voir les modifications en temps réel. C'est exactement ce que propose Jupyter Notebook.
Originellement développées pour les langages Julia, Python et R (Ju-Pyth-R), l’application supporte aujourd’hui plus de 40 langages différents. Découvrez tout ce que vous devez savoir sur cet outil très utilisé par les développeurs, mais aussi incontournable dans la Data Science.
Qu'est-ce que Jupyter Notebook ?
Le Jupyter Notebook est une application web open-source permettant de créer et de partager des documents. Anciennement appelé IPython Notebooks, il s’agit d’un environnement de calcul interactif basé sur le web permettant aux utilisateurs de Python de créer des documents notebooks.
Le terme « notebook » désigne différentes entités, il peut s’agir de l’application web Jupyter, du serveur web Jupyter Python, ou d’un document Jupyter. Les notebooks sont des cellules de codes que l’on peut documenter avec du texte ou des données pour expliquer leur exécution. Toutes ces cellules sont stockées dans un document partageable avec d’autres utilisateurs.
Cet outil a de nombreux cas d’usage : nettoyage et transformation des données, simulation numérique, modélisation statistique, Machine Learning…
Qu'est-ce que l'application Jupyter Notebook App ?
La Jupyter Notebook App est une application serveur-client. Elle permet d’éditer et d’exécuter des notebooks par le biais d’un navigateur web. Cette application peut être exécutée sur un PC sans accès internet, ou peut être installée sur un serveur distant sur lequel il est possible d’accéder via internet
Les deux principaux composants de cette application sont les kernels et le tableau de bord. Un kernel est un programme exécutant et inspectant le code de l’utilisateur. La Jupyter Notebook App a un kernel pour le code en Python, mais il existe aussi des kernels pour d’autres langages de programmation.
Le tableau de bord de l’application présente les documents Notebooks créés par l’utilisateur, et permet de les ouvrir à nouveau. Il peut aussi être utilisé pour gérer les kernels, et notamment les activer ou les désactiver.
Comment installer Jupyter Notebook ?
Le processus d’installation de Jupyter Notebooks varie selon la méthode employée. Voici comment procéder dans différents cas de figure :
Avec la distribution Python Anaconda, vous devez impérativement utiliser python 3.3 ou supérieur ou Python 2.7. Il est recommandé d’utiliser la distribution Anaconda, Azure ou encore Miniconda pour installer à la fois Python et l’application notebook. L’avantage d’Anaconda est d’offrir l’accès à plus de 720 packages, pouvant être aisément installés avec le gestionnaire Conda.
Une autre alternative est d’exécuter Jupyter Notebooks sur un conteneur Docker. Il vous suffit d’installer la Toolbox Docker, contenant tous les outils dont vous aurez besoin pour mettre en place vos conteneurs. Après l’installation, choisissez le » Docker QuickStart Terminal » et indiquez-lui d’installer l’outil Kitematic Visual Management si vous n’avez pas encore de plateforme de virtualisation.
Utilisez ensuite la commande » docker run » pour lancer des images Docker. Vous pourrez lancer l’image Jupyter Notebook officielle sur votre conteneur Docker à l’aide d’une simple commande. L’image Jupyter HTML Notebook la plus récente sera téléchargée, et vous pourrez débuter l’utilisation de l’application.
Comment utiliser Jupyter Notebooks ?
Une fois l’installation terminée, vous pouvez commencer à utiliser Jupyter Notebooks. Après avoir utilisé la commande d’ouverture dans un shell :
$ jupyter-notebook
l’application s’ouvre dans le navigateur web à l’adresse » http://localhost:8888 « .
Vos fichiers sont entreposés dans l’onglet « Files ». Le suivi des processus peut être consulté dans l’onglet « Running », et le framework de computing parallèle d’IPython est accessible depuis l’onglet « Clusters ».
Le bouton « new » dans l’onglet « Files » permet de créer un nouveau notebook en sélectionnant « Python 3″.
Vous pouvez ensuite renommer votre notebook, en cliquant sur « Untitled ». Votre notebook contiendra une cellule vide que vous êtes libres de remplir avec du texte, des images ou du code.
Si vous souhaitez exécuter votre cellule, vous pouvez cliquer sur le menu “Cell” puis “Run Cells”, le bouton “Run” ou entrer le raccourci ctrl + entrée.
Comment partager les Jupyter Notebooks ?
Il existe de nombreuses façons de partager ses notebooks. Le but peut être de collaborer avec des collègues sur un projet, ou de constituer un portfolio de Data Science pour vos futurs entretiens.
Les notebooks prennent la forme de documents .JSON que vous pouvez partager contenant du texte, un source code, des éléments multimédia et des métadonnées. Chaque segment du document est stocké dans une cellule.
Nous vous conseillons néanmoins de ne pas partager de fichiers JSON pour éviter des problèmes de corruption de données. En guise d’alternative, vous pouvez vous rendre dans l’onglet « File » de l’application. Une option vous permet de télécharger le notebook au format HTML, PDF, Markdown, reStructuredText, script Python ou fichier Notebook.
La commande « nbconvert » permet également de convertir un fichier notebook vers un autre format statique comme HTML, PDF, LaTex, Markdown ou reStructuredText. Il vous suffit d’importer cette commande.
Comment accéder à JupyterLab ?
Depuis 2018, les entreprises derrière Jupyter ont lancé un environnement d’analyse complet, JupyterLab. Cette interface s’obtient avec la commande : $ jupyter lab et permet plusieurs nouveautés comme l’incorporation d’un encart à votre notebook.
Jupyter Notebook et Data Science : les meilleures pratiques
Dans le domaine de la Data Science, Jupyter Notebook est très utilisé pour la collaboration sur des projets. Cet outil apporte un précieux secours aux équipes de Data Scientists. Toutefois, il est préférable d’adopter certaines pratiques pour profiter au mieux de ces avantages.
Tout d’abord, mieux vaut utiliser deux types de notebooks pour un projet de Data Science : un notebook de laboratoire, et un notebook ” livrable “. Seul le second sera partagé et manipulé par l’ensemble de l’équipe de Data Science.
Vous pouvez aussi utiliser des outils de contrôle de versioning comme Git ou Github. Ceci permettra d’approuver ou de refuser chaque modification apportée par les membres de l’équipe. Ainsi, chacun peut travailler de son côté et partager le résultat.
Si votre système de contrôle de version n’a pas de capacités de rendering, il est important de partager le fichier HTML. Enfin, appliquez des règles explicites concernant la nomination des documents. Ceci permet d’éviter toute confusion.
Comment apprendre à utiliser Jupyter Notebooks ?
Jupyter Notebooks est très utile pour tout projet de programmation informatique, notamment pour la Data Science. Pour apprendre à l’utiliser, vous pouvez vous inspirer des meilleurs notebooks.
Certains livres s’accompagnent d’un notebook, comme le Python Data Science Handbook. Il existe aussi des tutoriels de très haute qualité sur le web, accessibles gratuitement via des plateformes comme YouTube.
Pour acquérir la maîtrise de Jupyter Notebook, vous pouvez choisir les formations DataScientest. Cet outil est au cœur de nos différents programmes tels que les formations Data Scientist ou Data Analyst.
À l’issue de ces parcours, vous aurez toutes les compétences requises pour devenir un professionnel de la Data Science. Nos apprenants reçoivent un titre certifié par l’école des Mines ParisTech PSL Executive Education, et 80% des alumnis ont trouvé un emploi après la formation.
Nos formations adoptent un format hybride de Blended Learning, alliant coaching individuel et masterclass. Elles peuvent être effectuées en mode BootCamp intensif, ou en Formation Continue.
De plus, vous pouvez financer nos formations via le Compte Personnel de Formation, ou encore grâce à l’AIF de Pôle Emploi. Ne perdez plus un instant, et découvrez les programmes DataScientest !
Vous savez tout sur Jupyter Notebook. Découvrez tout ce que vous devez savoir sur GitHub, et notre introduction à la Data Science.