Notre catalogue de formations

Développez vos compétences en Data Science au travers de ces modules sur Python et R.
Ils vous fourniront l’essentiel des notions à connaître à leur maîtrise par des applications directes
élaborées par nos experts Data.

101

python logo

Introduction
à Python
pour la data science

20 heures

Introduction à Python pour la data science​
Description Python est un langage de programmation script polyvalent. Grâce à sa syntaxe souple il s'est vite imposé comme le langage de référence pour la data science. Ainsi, la plupart des projets de grande envergure en data science font le choix de ce langage. À l'issue de ce premier tutoriel vous maîtriserez les packages essentiels à tout projet de data-science : Numpy, Pandas et les bases de Scikit-learn. Objectifs
  • Lire et comprendre un code Python
  • Interroger, manipuler et modifier un jeu de données avec Python
  • Comprendre les bases du Machine Learning supervisé
Use cases métiers
  • Analyse statistique et quantitative d'un jeu de données
  • Implémentation de modules Python customisés

102

python logo

Introduction à Python pour la data science pour les utilisateurs de Sas

20 heures

Introduction à python pour la data science pour les utilisateurs de SAS

Descriptif
Ce cours permettra aux gens de passer de SAS à Python pour connaître les équivalents de la programmation des éléments de syntaxe les plus courants

Objectifs

  • Trouver l'équivalent Python des manipulations Sas classiques
  • Lire et comprendre un code Python
  • Interroger, manipuler et modifier un jeu de données avec Python
  • Comprendre les bases du machine learning supervisé

103

python logo

Introduction à Python pour la data science pour les utilisateurs de Excel

20 heures

Introduction à Python pour la data science pour les utilisateurs de Excel​
Description
Ce cours permettra aux gens de passer d'Excel à Python pour connaître les équivalents de la programmation des éléments de syntaxe les plus courants
Objectifs
  • Trouver l'équivalent Python des manipulations Excel classiques
  • Lire et comprendre un code Python
  • Interroger, manipuler et modifier un jeu de données avec Python
  • Comprendre les bases du machine learning supervisé
Uses cases métiers
  • Analyse statistique et quantitative d'un jeu de données
  • Implémentation de modules Python customisés

111

python logo

DataViz'
avec
Matplotlib

20 heures

Introduction à Python pour la data science pour les utilisateurs de Excel​
Description
La complexité des données et algorithmes mis en oeuvre dans un projet Data Science se traduit souvent par un manque de lisibilité des résultats empêchant leur exploitation. La data visualisation constitue dès lors une phase clé du projet visant à présenter les résultats de manière intelligible. Python dispose de capacités avancées de visualisation dont le package "Matplotlib" constitue le pivot.
Objectifs
  • Maîtriser une grande variété de rendus graphiques (nuage de points, graphes, camembert, histogramme etc... )
  • Customiser le rendu graphique des figures matplotlib
  • Choisir le graphique adapté à son analyse
Uses cases métiers
  • Production de graphiques pour une publication
  • Restitution de visuels relatifs à l'analyse quantitative
  • Création de Dashboards de contrôle de modèles

112

python logo

DataViz'
avec
Seaborn

20 heures

Introduction à Python pour la data science
Description
Seaborn est une bibliothèque qui complète idéalement matplotlib pour la visualisation des données avec une approche statistique. À l'issue de cette formation, les boîtes à moustaches, heatmaps, graphiques en violon etc... ne seront plus un secret pour vous.1
Objectifs
  • Produire des graphiques statistiques de manière simple et rapide
  • Choisir le type de graphiques adapté aux variables analysées
Use cases métiers
  • Restitution d'une analyse statistique sous forme de graphique
  • Appui d'une présentation par des graphiques

113

python logo

DataViz'
avancée avec
Bokeh

20 heures

DataViz' avancée avec Bokeh​
Descriptif
Bokeh est une bibliothèque Python de data-vizualisation interactive de données permettant de faire des présentations interactives lisibles directement dans un navigateur web. Les visualisations de Bokeh sont très élégantes et permettent de mettre en valeur un projet avec une qualité de présentation professionnelle, le tout avec une syntaxe relativement intuitive.
Objectifs
  • Maîtriser une grande variété de rendus graphiques (nuage de points, graphes, camemberts, histogrammes etc...
  • Production de graphiques interactifs.
Use cases métiers
  • Restitution d'une analyse statistique sous forme de graphiques interactifs
  • workProduction de web-graphiques

114

python logo

Matpolib
-
compléments

20 heures

Matpolib - compléments
Description
Ce module complète le module 111, en introduisant les fonctionnalités avancée du package matplotlib. Il s'adresse aux utilisateurs qui désirent maitriser la modification de graphes de manière fine.
Objectifs
  • Modification fines des caractéristiques d'un graphe
  • Présentation de résultats
Use cases métiers
  • Production de graphiques pour une publication
  • Appui d'une présentation par des graphiques

121

python logo

Classification
supervisée avec
Scikit-learn

20 heures

Classification supervisée avec Scikit-learn

Description

La classification a pour objectif de définir des règles permettant de classer des objets à partir de variables qualitatives ou quantitatives caractérisant ces objets. La bibliothèque scikit-learn offre un large répertoire d'algorithmes de classification, notamment : les séparateurs à vaste marge, la méthode des k-plus proches voisins, les arbres de décision, les forêts aléatoires. Elle contient également les outils nécessaires à chaque étape d'un projet de Machine Learning, de la préparation des données à l'évaluation des modèles.

Objectifs

  • Implémenter un algorithme de Machine Learning classique
  • Prétraiter les données afin qu'elles conviennent aux modèles utilisés
  • Évaluer un modèle à l'aide de la validation croisée et de différentes métriques
  • Sélectionner le modèle optimal pour un problème particulier

Use cases métiers

  • Prévision cours actifs financiers
  • Prediction Marketing personnalisé
  • Détection de fraudes
  • Provisionnement ajusté de fonds pour sinistr

122

python logo

Classification
avancée

20 heures

Classification avancée
Description
Pour gagner en performance, aller plus loin ou résoudre des problèmatiques plus complexes, la bibliothèque scikit-learn permet d'entraîner des modèles de classification plus élaborés, notamment : Bagging meta-estimator, Forests of randomized trees, AdaBoost, Gradient Tree Boosting, Voting Classifier.
Objectifs
  • Combiner des modèles à l'aide des méthodes d'ensemble
  • Faire de la classification semi supervisée
  • Maîtriser les algorithmes de type boosting et bagging
Use cases métiers
  • Détection de fraude bancaire
  • Modèle prédictif de détection de Diabète
  • Identification de molécules actives contre le virus du SIDg

123

python logo

Méthodes
de
Clustering

20 heures

Méthodes de clustering
Descriptif
Le clustering est un outil statistique qui consiste à partitionner les données, en constituant différents groupes (ou paquets) homogènes. La bibliothèque scikit-learn offre des algorithmes de partionnement applicables à tous types et toutes tailles de données, entre autres : K-means, Hierchical Clustering, Spectral clustering et Affinity Propagation.
Objectifs
  • Identifier les problèmes de Machine Learning non supervisés
  •  Maîtriser les principaux algorithmes de clustering à l'aide de la bibliothèque scikitlearn
  • Connaître les principales métriques de performances associées aux problématiques de clustering
Objectifs
  • Segmentation d'une base client marketing
  •  Cyber-Profiling
  • Utilisation du clustering pour la reconstruction d'images

124

python logo

Méthodes
de
régression

20 heures

Méthodes de régression

Description

La régression est un ensemble de méthodes statistiques utilisées pour modéliser la relation d'une variable quantitative par rapport à une ou plusieurs autres. Scikit-learn fournit de nombreux modèles, allant de la simple régression linéaire univariée à la régression Elastic-Net avancée.

Objectifs

  • Maîtriser le modèle de régression linéaire simple
  • Maîtriser les modèles de régression logistique, pénalisés, et ElasticNet
  • Connaître les principales métriques d'évaluation des modèles de régression

Use cases métiers

  • Anticipation du taux de rachat d'un contrat d'assurance vie
  • Score d'analyse de sentiments
  • Évaluation de biens mobiliers / immobiliers
  • Estimation de la consommation d'énergie

125

python logo

Méthodes
de réduction
de dimensions

20 heures

Méthodes de réduction de dimensions​
Description
Lorsque les volumes de données traitées sont trop importants, ou bien que les colonnes de vos tables sont trop corrélées, il est parfois indispensable de savoir réduire la taille de son jeu de données en perdant un minimum d'informations. Ce tutoriel vous propose une introduction à la réduction de dimensions à l'aide de la bibliothèque scikit-learn, et couvre notamment les algorithmes : Feature Selection, PCA, LDA, et des méthodes de manifold learning.
Objectifs
  • Réduire la taille d'un jeu de données de manière optimale sans perte d'information
  • Visualiser les relations entre les variables d'un grand jeu de données, à l'aide de graphiques 2D
  • Repérer visuellement des structures afin de déterminer le modèle adéquat
Use cases métiers
  • Etude de consommations clients
  • Reconnaissance faciale
  • Analyse de données sensorielles

126

python logo

Pipeline

20 heures

Pipeline
Description
Parce qu'un projet de Machine Learning contient de nombreuses étapes de nettoyage, de sélection et de transformation des variables, scikit-learn propose d'automatiser le processus de traitement de données puis d'apprentissage grâce aux pipelines. Une pipeline permet ainsi de générer rapidement toutes les étapes de transformation souhaitées ainsi que l'entraînement d'un modèle, de manière automatique.
Objectifs
  • Concevoir des modèles composites à l'aide de transformateurs et d'estimateurs
  • Connaître la factorisation endtoend de code à l'aide des pipeline
Use cases métiers
  • Lecture et compréhension de codes Python avancés
  • Mise en production de modèles prédictifs

127

python logo

Séries temporelles
avec
statsmodels

20 heures

Séries temporelles avec statsmodels
Descriptif
Le clustering est un outil statistique qui consiste à partitionner les données, en constituant différents groupes (ou paquets) homogènes. La bibliothèque scikit-learn offre des algorithmes de partionnement applicables à tous types et toutes tailles de données, entre autres : K-means, Hierchical Clustering, Spectral clustering et Affinity Propagation.
Objectifs
  • Analyser et décomposer des séries temporelles
  •  Corriger une série temporelle des variations saisonnières
  • Prédire l'évolution future d'une série temporelle
Objectifs
  • Analyse de la stabilité économique d'une entreprise
  •  Suivi fidélité clients

131

python logo

Texte Mining
avec
Python

20 heures

Texte Mining avec Python​
Description
Le Text Mining consiste à extraire du texte des informations de haute qualité. Une information de haute qualité est généralement obtenue par l’établissement de modèles et de tendances par des moyens tels que l'apprentissage de modèles statistiques. L'extraction de texte implique généralement le processus de structuration du texte d'entrée (généralement l'analyse syntaxique, l'ajout de certaines caractéristiques linguistiques dérivées et la suppression de certaines caractéristiques linguistiques et leur insertion ultérieure dans une base de données).
Objectifs
  • Maîtriser les techniques de manipulation et prétraitement de données textes
  • Lire et utiliser les expressions régulières
  • Produire des nuages de mots
  • Créer un modèle de classification sur données textes
Use cases métiers
  • Analyse de sentiments
  • Catégorisation de documents textes/comptes-renduss
  • Assistants virtuels/Chatbots

132

python logo

Machine Learning
Et Théorie Des Graphes Avec NetworkX

20 heures

Machine Learning Et Théorie Des Graphes Avec NetworkX​
Description
NetworkX est un package Python pour la création, la manipulation et l'étude de la structure, de la dynamique et des fonctions de réseaux complexes.
Objectifs
  • Connaître les concepts fondamentaux de la théorie des graphes
  • Choisir un modèle de données entre une approche par graphe et une approche tabulaire
  • Connaître les algorithmes les plus populaires en Machine Learning pour graphes
Use cases métiers
  • Implémentation d'un moteur de recherche
  • Détection des influenceurs les plus pertinents pour une marque
  • Détection de fraude

133

python logo

Webscraping
avec
Beautiful Soup

20 heures

Introduction à Python pour la data science
Description
Le webscraping consiste à récupérer de manière systématisée des données provenant de diverses pages internet. BeautifulSoup est une bibliothèque Python permettant d'extraire des données de fichiers HTML et XML. Ce module propose une introduction au Web Scraping de données cinématographiques appliqué à un use case de web marketing.
Objectifs
  • Récupérer de manière systématisée des données provenant de diverses pages internet
Use Case Métiers
  • Exploration, analyse et classement de sites web pour moteurs de recherche
  • Recherche et comparaison des prix d'un produit
  • Etudes de marché grâce à l'extraction de données de forums et de réseaux sociaux

134

python logo

Recommender
Systems

20 heures

Recommender Systems

Descriptif

Les systèmes de recommandation sont utilisés pour prédire la préférence d'un utilisateur sur la base de comportements comparables. La grande majorité des géants du web s'appuie sur ces systèmes pour vous proposer de manière personnalisée des films susceptibles de vous plaire (Netflix), la nouvelle musique d'un chanteur que vous aimez (Deezer / Spotify), ou encore une suggestion de profil (Facebook/ Instagram/ Twitter...). Ce module vous apprend à implémenter vos propres systèmes de recommandations.

Objectifs

  • Connaître les différentes approches théoriques relatives aux systèmes de recommandation
  •  Choisir le système de recommandation le plus adéquat à son jeu de données
  • Connaître les principales métriques de performances associées aux problématiques de clustering

Use case metiers

  • Augmentation du panier moyen d'un utilisateur sur un site e-commerce
  • Conception d'une playlist de musique personnalisée sur les goûts d'un utilisateur
  • Ciblage marketing pour un film encore dans les salles

140

python logo

Programmation
objet

20 heures

Introduction à Python pour la data science pour les utilisateurs de Excel​
Description
"En Python tout est objet !". Ce module vous propose d'approfondir vos connaissances dans le langage de programmation Python. Le paradigme de programmation objet est très populaire chez les développeurs car il permet de concevoir en un minimum de lignes des systèmes où des programmes sont réutilisés de nombreuses fois. Dans ce module, vous apprendrez les concepts de classe et d'héritage, et vous comprendrez comment implémenter vos premiers objets avec Python.
Objectifs
  • Saisir l'intérêt du paradigme de la programmation objet
  • Connaître les concepts fondamentaux de classes, d'héritage et de polymorphisme
  • Implémenter ses propres objets Python
Use case metiers
  • Implémentation d'une librairie Python pour des stratégies de trading algorithmique
  • Audit d'un livrable de code produit par un prestataire
  • Compréhension et participation à des projets open-source

141

python logo

Data Processing et Machine Learning sur des grandes bases de données avec PySpark

20 heures

Data Processing et Machine Learning sur des grandes bases de données avec PySpark​
Description PySpark est la bibliothèque de référence pour faire du Machine Learning sur des données distribuées en environnement Big Data. Cette formation se concentre sur différents algorithmes de classification et de régression. Ce tutoriel vous apprend aussi à paramétrer les différents algorithmes au travers de cas d'application sur des bases de données réelles. Objectifs
  • Manipuler et traiter des jeux de données massifs, à l'aide du calcul distribué
  • Appliquer des modèles de Machine Learning à de grandes bases de données, de manière performante
Use case metiers
  • Détection d'événements en temps réel
  • Audit d'un livrable de code produit par un prestataire

142

python logo

Langage
SQL

20 heures

Introduction à Python pour la data science

Description

La grande majorité des bases de données en entreprise sont enregistrées dans le schéma de bases de données relationnelles. Le langage de requêtes SQL permet d'interroger ces bases de données à l'aide d'une syntaxe simple et utilisable sur une grande variété de logiciels. Grâce à ce module vous saurez implémenter vos requêtes SQL ainsi que gérer vos bases de données à l'aide du langage Python.

 

Objectifs

  • Connaître des bases de données relationnelles et leur organisation.
  • Connaître la syntaxe des requêtes SQL et savoir les implémenter.
  • Extraire une table des bases de données internes pour l'élaboration d'un modèle de Machine Learning.

Use cases métiers

  • Refondre un système de données suite à la fusion de deux entreprises

  • Identification de doublons répartis sur des tables différentes

143

python logo

PyMongo

20 heures

PyMongo

Descriptif

Si les bases de données relationnelles sont largement utilisées depuis des années, de plus en plus d'entreprises se tournent vers des solutions NoSQL. Dans la grande famille des bases de données NoSQL, les bases de données orientées documents sont sans doute les plus simples et les plus utilisées et MongoDB en est l'un des plus importants représentants. Ce cours permet de comprendre les différences avec une base de données relationnelle et quels sont les avantages à utiliser une BDD orientée documents. De plus, il permet d'apprendre à réaliser toutes les opérations sur une base de données avec le client Python de MongoDB: PyMongo.

Objectifs

  • Comprendre les avantages des bases de données NoSQL orientées documents
  • Connaître les possibilités et limitations de MongoDB
  •  Ajouter, envoyer des requêtes, modifier et supprimer des données dans une base MongoDB

Use cases métiers

  • Mise en place d'un Data Lake

  • Stockage des activités d'un site internet ou d'une application

151

python logo

Introduction au
Deep-Learning avec le framework Keras

20 heures

Introduction à Python pour la data science pour les utilisateurs de Excel​
Description
Les réseaux de neurones sont très populaires lorsqu’il s’agit de résoudre des problèmes complexes, qui reposent sur des données non structurées comme le texte, le son ou l'image. Ce tutoriel propose une introduction à leur mécanismes, avec une réimplémentation du célébre LeNet et enseigne les notions essentielles pour les tutoriels plus avancés de Deep Learning.
Objectifs
  • Comprendre le fonctionnement des réseaux de neurones et leurs avantages
  •  Implémenter un modèle basé sur un réseau de neurones
  • Entraîner et évaluer les résultats obtenus par un réseau de neurones
Use cases métiers
  • Reconnaissance d'images
  • Protection et prévention contre les cyber-attaques

152

python logo

CNN
Convolutional neural networks

20 heures

CNN - Convolutional neural networks

Description
Les CNN ont eu beaucoup de succès pour la classification et plus généralement les tâches de Machine Learning liées aux images. À la fin de ce tutoriel, vous maîtriserez les réseaux de neurones convolutionnels ainsi que des algorithmes simples mais efficaces tels que la descente de gradient stochastique, AdaGrad, AdaProp, etc. L'accent sera mis sur une approche pratique avec la construction d'un modèle de classification capable de faire la différence entre des images de chiens ou de chats.

Objectifs

  • Connaître l'architecture et les subtilités d'un réseau de neurone convolutif
  •  Créer un modèle de reconnaissance d'images
  • Utiliser un modèle préentraîné et les méthode de Transfer Learnin

Use cases métiers

  • Vision par ordinateur

  • Détection d'objet sur une image

  • Transfert de style

153

python logo

RNN
Recurrent neural
networks

20 heures

RNN - Recurrent neural networks
Description Les RNN sont utiles pour traiter les données qui sont séquentielles : comme les vidéos (images les unes après les autres) ou les données textuelles (mots les uns après les autres). Les tâches typiques des RNN sont de prédire le mot (ou bien caractère ou phrase) suivant(e) en fonction d'un mot (ou d'un caractère ou d'une phrase). À la fin de ce tutoriel, vous serez familier avec Reccurent Neural Networks. L'accent sera mis sur une approche pratique avec la construction d'un modèle de langage basé sur les caractères sur le corpus de Sherlock-Holme. Objectifs
  • Connaître l'architecture et les subtilités d'un réseau de neurone récurrent
  • Créer un modèle de langage
  • Utiliser un modèle préentraîné et les méthode de Transfer Learning
Use cases métiers
  • Génération automatique de texte en reprenant un style prédéfini : tweeter comme Donald Trump , écrire un paragraphe comme Shakespeare etc .

154

python logo

GAN
Generative Adversarial Network

20 heures

PyMongo
Descriptif
Un GAN est un modèle génératif où deux réseaux sont en concurrence dans un scénario de théorie des jeux. Le premier réseau est le générateur, qui génère un échantillon (par exemple une image), tandis que son adversaire, le discriminateur, essaie de détecter si un échantillon est réel ou s'il résulte du générateur.
Objectifs
  • Comprendre la complexité d'un GAN
  • Créer un générateur automatique d'images
Use cases métiers
  • Comprendre la complexité d'un GAN
  • Créer un générateur automatique d'images

155

python logo

Introduction au
framework
Tensorflow

20 heures

Introduction au framework Tensorflow
Description
Les réseaux de neurones sont très populaires lorsqu’il s’agit de résoudre des problèmes complexes, qui reposent sur des données non structurées comme le texte, le son ou l'image. Ce tutoriel propose une introduction au framework Tensorflow, et propose la résolution d'une tâche de WordEmbedding grâce à Word2vec.
Objectifs
  • Maîtriser la syntaxe et les particularités du framework TensorFlow
  • Présenter une architecture à l'aide du tensorboard
  • Concevoir des architectures de réseau et utiliser des modèles préentraînés
Use cases métiers
  • Web-Semantique
  • Détection d'objet sur des images

161

python logo

Reinforcement
Learning

20 heures

CNN - Convolutional neural networks
Description
L'apprentissage par renforcement (RL) est un domaine de l'apprentissage automatique qui concerne la manière dont les agents logiciels doivent prendre des mesures dans un environnement afin de maximiser une notion de récompense cumulative.
Objectifs
  • Comprendre les fondements mathématiques de l'apprentissage par renforcement
  • Savoir choisir un algorithme de Reinforcement Learning en fonction de la tâche à apprendre
  •  Connaître les principaux algorithmes utilisés en Reinforcement Learning
Use cases métiers
  • Vision par ordinateur
  • Détection d'objet sur une image
  • Transfert de style

201

Introduction au langage de programmation R pour la data science

20 heures

Introduction au langage de programmation R pour la data science
Description R est un langage de programmation dont l'utilisation est fortement orientée vers l'analyse de données et les statistiques. Le principal objectif de ce langage est de pouvoir traiter et organiser des jeux de données afin d'y appliquer des tests statistiques plus ou moins complexes et de représenter ces données graphiquement à l'aide d'une grande variété de graphiques disponibles
Objectifs
  • Lire et comprendre un code R
  • Interroger, manipuler et modifier un jeu de données en Python
  • Comprendre les bases du Machine Learning supervisé
Use cases métiers  
  • Analyse statistique et quantitative d'un jeu de données
  • Implémentation de modules R customisés

202

Introduction au langage de programmation R pour la data science pour les utilisateurs de Sas

20 heures

Introduction au langage de programmation R pour la data science
Description
Ce cours permettra aux gens de passer de SAS à R pour connaître les équivalents de la programmation des éléments de syntaxe les plus courants.
Objectifs
  • Trouver l'équivalent R des manipulations Sas classiques
  • Lire et comprendre un code R
  • Interroger, manipuler et modifier un jeu de données en R
  • Comprendre les bases du Machine Learning supervisé
Use cases métiers
  • Analyse statistique et quantitative d'un jeu de données
  • Implémentation de modules R customisés

203

Introduction au langage de programmation R pour la data science pour les utilisateurs de Microsoft Excel

20 heures

Introduction au langage de programmation R pour la data science pour les utilisateurs de Microsoft Excel
Description
R est un langage de programmation dont l'utilisation est fortement orientée vers l'analyse de données et les statistiques. Le principal objectif de ce langage est de pouvoir traiter et organiser des jeux de données afin d'y appliquer des tests statistiques plus ou moins complexes et de représenter ces données graphiquement à l'aide d'une grande variété de graphiques disponibles
Objectifs
  • Trouver l'équivalent R des manipulations Excel classiques
  • Lire et comprendre un code R
  • Interroger, manipuler et modifier un jeu de données en R
  • Comprendre les bases du Machine Learning supervisé
Use cases métiers
  • Analyse statistique et quantitative d'un jeu de données
  • Implémentation de modules R customisés

205

Rappels
de
Statistiques

20 heures

Rappels de Statistiques
Description
Les tests statistiques s’utilisent très simplement pour effectuer une décision à partir de données quantitatives : une fois une hypothèse posée, un test statistique permet de la rejeter ou non. Bien que ces tests soient omniprésents, on ne sait pas toujours comment ils fonctionnent. Cette formation vous permettra de mieux les comprendre et les interpréter.
Objectifs
  • Utiliser R pour effectuer un ensemble de manipulations statistiques utiles
Use cases métiers
  • Recherche de corrélation entre plusieurs variables
  • Sélection de variables avant phase de modélisation

211

Le type
Data.table

20 heures

Le type Data.table
Description
Le package data.table est une bibliothèque pour la création et la manipulation de tableaux de données dans un type appelé (lui aussi) data.table. L'innovation des data.table réside dans une syntaxe plus concise et est similaire à la syntaxe du langage SQL, et nous verrons que des manipulations habituellement complexes seront alors faciles à programmer et à décrypter. Aussi, les data.table propose la modification par assignation directe, qui rendent les manipulations efficientes.
Objectifs
  • Créer et manipuler des tableaux de données aux format data.table
  • Enchaîner fluidement des opérations sur ces tableaux
  • Utiliser les symboles spéciaux de la bibliothèque
Use cases métiers
  • Optimisation de code avec des programmes plus courts, plus puissants et plus rapide sur des gros fichiers de données
  • Génération automatiques de rapports/comptes rendus statistiques

212

Data Management
avec TidyVerse

20 heures

Data Management avec TidyVerse
Description
La collection TidyVerse propose une grande variété d'outils pour explorer et visualiser vos données. Ce module est la suite naturelle du module "Le type data.table". À l'issue de cette formation, vous serez aguerri à l'analyse de données avec le langage R.
Objectifs
  • Maîtriser le vaste ensemble de packages inclus dans le TidyVerse
  • Utiliser l'opérateur Pipe et les nombreuses fonctions de dplyr pour manipuler et analyser un jeu de données
  • Gérer et manipuler les variables contenant des chaînes de caractères
  • Mettre en forme un jeu de données désorganisé
  • Manipuler les données sous forme de dates
  • Joindre et fusionner plusieurs tableaux de données
Use cases métiers
  • Création de bases de données clients
  • Mise en forme de bases de données désorganisées
  • Analyse descriptive approfondie

221

DataViz'
avec ggplot 2

20 heures

DataViz' avec ggplot 2
Description
R est un logiciel libre d’analyse et visualisation de données qui s’est imposé comme le véritable couteau suisse de la data science. Cette formation peut déboucher sur un approfondissement des compétences R en fonction des besoins métier, ou servir à posséder une bonne compréhension des possibilités de l’outil pour pouvoir mieux échanger avec d’autres corps de métier.
Objectifs
  • Maîtriser une grande variété de rendus graphiques (nuage de points, graphes, camembert, histogramme etc. )
  • Customiser le rendu graphique des figureser, manipuler et modifier un jeu de données en R
  • Choisir le graphique adapté à son analyse
Use cases métiers
  • Appui d'une présentation par des graphiques
  • Restitution de visuels relatifs à l'analyse quantitative

222

DataViz' avancée
avec Shiny

20 heures

DataViz' avancée avec Shiny
Description
Savoir comment visualiser et analyser des données par exploration graphique avec des bibliothèques de référence et créer des applications de visualisation de données avec Shiny.
Objectifs
  • Créer des applications web interactives.
  • Rassembler des graphiques et explorations de données au sein d'une même application
Use cases métiers
  • Création de Dashboard de contrôle de modèles
  • Partage d'application web graphiques

231

Les bases du Machine Learning avec R

20 heures

Les bases du Machine Learning avec R
Description
Le Machine Learning est ce qui permet à votre modèle d'apprendre à résoudre des tâches sans avoir été explicitement programmé. Ce tutoriel vous propose une introduction à 360° dans le monde du Machine Learning avec le langage de la programmation R, et aborde entre autres : les arbres de décisions, les SVM, différents types de régressions, K-means clustering, le clustering hiérarchique, l'ACP ...
Objectifs
  • Implémenter des algorithmes de Machine Learning supervisés et non supervisés
  • Prétraiter les données afin qu'elles conviennent aux modèles utilisés
  • Sélectionner le modèle optimal pour un problème particulier
Use cases métiers
  • Prévisions cours actifs financiers
  • Détection de fraudes
  • Provisionnement ajusté de fonds pour sinistre
  • Segmentation d'une base client marketing
  • Cyber-Profiling

232

Machine Learning avec CARET

20 heures

Machine Learning avec CARET
Description
Le package CARET (acronyme pour Classification And Regression Training), permet un gain de temps non négligeable dans la création de modèles prédictifs, en proposant une unique syntaxe pour l'utilisation de différents algorithmes d'Apprentissage Supervisé. Il contient également des outils pour la séparation de données, le Pre-processing, la sélection de variables et l'estimation des variables importantes. Ce tutoriel vous apprend à maîtriser la bibliothèque CARET et à utiliser les 230+ algorithmes de Machine Learning implémentés.
Objectifs
  • Évaluer un modèle à l'aide de la validation croisée et de différentes métriques
  • Combiner des modèles à l'aide des méthodes d'ensemble
  • Maîtriser les algorithmes de type boosting et bagging
Use cases métiers
  • Détection de fraude bancaire
  • Modèle prédictif de détection de diabète
  • Identification de molécules actives contre le virus du SIDA
  • Évaluation de biens mobiliers / immobiliers

233

Webscraping
avec rvest

20 heures

Webscraping avec rvest
Description
Le webscraping consiste à récupérer de manière systématisée des données provenant de diverses pages internet. Rvest est une bibliothèque R permettant d'extraire des données de fichiers HTML et XML. Ce module propose une introduction au webscraping de données cinématographiques appliqué à un use case de web marketing.
Objectifs
  • Récupérer de manière automatique des données provenant de diverses pages Internets
Use cases métiers
  • Exploration, analyse et classement de sites web pour moteurs de recherche.
  • Recherche et comparaison des prix d'un produit
  • Etude de marché grâce à l'extraction de données de forums et de réseaux sociaux

241

Text
Mining

20 heures

Rappels de Statistiques
Description
Ce tutoriel a pour objectif de vous faire maîtriser les techniques de manipulation et de prétraitement de données texte, où l'objectif final sera de construire un modèle de Machine Learning pour effectuer une analyse de sentiments de données textuelles consistant à classer des phrases selon le sentiment général qu'elles dégagent.
Objectifs
  • Maîtriser les techniques de manipulation et de prétraitement de données textes
  • Produire des nuages de mots
  • Créer un modèle de classification sur données textes
Use cases métiers
  • Analyse de sentiments
  • Catégorisation de documents/comptes-rendus
  • Assistants virtuels / Chatbots
Fermer le menu