JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

Data Analyst : Quels sont les outils qu’il utilise au quotidien ?

-
4
 m de lecture
-
power bi embedded

Qu'est-ce le métier d’un data analyst? Il y a plusieurs façons de répondre à cette question :

Un data analyst est à la fois un scientifique qui fait du storytelling, un codeur et un consultant business.

Il utilise différents outils informatiques et du code pour extraire des données de diverses sources, analyse ces données en leur donnant du sens et il présente ces résultats souvent de manière visuelle. Dans cet article nous allons parler de plusieurs outils qu’un data analyst peut être amené à utiliser au quotidien.

En bonus, la fiche outils est à télécharger à la fin de l’article !

Vous souhaitez en savoir plus sur le métier de Data Analyst ? Remplissez le formulaire pour récupérer la fiche complète!

Sources de données et requêtes

Pour avoir accès aux données, le data analyst peut utiliser différents outils. BigQuery permet de faire de l’analyse interactive massive de grands ensembles de données en collaboration avec l’espace de stockage Google.
Amazon Redshift qui est un produit d’entrepôt de données qui fait partie de la plateforme informatique cloud d’Amazon Web Services. Et le classique MySQL
qui est un système de gestion de bases de données relationnelles.

La plupart du temps pour avoir accès aux données on écrit des requêtes en langage SQL. (Structured Language Query). Imaginons que l’entreprise dans laquelle vous travaillez a une grande base de données avec des différentes informations sur les clients, les employés, partenaires etc., et votre manager souhaite répondre à la question suivante : “Quelles ont été les ventes au dernier trimestre ?

Pour essayer de répondre à cette question je peux être amené à utiliser SQL pour fouiller les données et approfondir les recherches.

Le langage SQL est utilisé dans les SGBD, c’est-à-dire systèmes de gestion de base de données. Parmi les systèmes de gestion de données on compte MySQL, PostgreSQL, ORACLE, SQL Server, etc. Ces systèmes permettent d’utiliser le langage SQL pour pouvoir gérer des bases de données. Grâce au langage SQL on peut : stocker des données, manipuler les données (effectuer des requêtes, procédures).

Pour simplifier, SQL est un langage qui permet de faire le lien entre votre ordinateur et une SGBD. Un data analyst doit être capable d’utiliser SQL pour avoir accès aux données et pouvoir les analyser.

Traitement des données et affichage de résultats

Maintenant qu’on a accès aux données, on va passer par une étape de traitement de données et affichage de résultats. Cette fois-ci on souhaiterait répondre à la question suivante : “Pourquoi il y a t-il eu un si grand écart entre les ventes des deux derniers trimestres?”.

On peut essayer de répondre à cette question en utilisant Excel, mais si la base de données est beaucoup trop importante ou bien on a besoin de réaliser des modifications plus complexes, les langages Python ou R (et non seulement) permettent donc d’aller plus loin et d’étudier les données de manière plus souple.

Python est un langage polyvalent assez facile à utiliser et à apprendre. Il dispose de nombreuses bibliothèques pour le calcul scientifique et si vous travaillez déjà pour une entreprise, il est fort probable que l’entreprise l’utilise déjà pour d’autres tâches.

Anaconda est une distribution des langages de programmation Python et R pour le calcul scientifique, qui vise à simplifier la gestion et le déploiement des packages. La distribution comprend des packages adaptés à Windows, Linux et macOS.

Pandas est une librairie Python open source qui est la plus largement utilisée pour la science des données, l’analyse des données et les tâches d’apprentissage automatique. La librairie est construite au-dessus d’une autre libraire nommée Numpy, qui fournit un support pour les tableaux multidimensionnels. Pandas est l’un des packages de traitement de données les plus populaires et fonctionne bien avec de nombreux autres modules de science des données dans l’écosystème Python. 

Le package statsmodels a des fonctions qui permettent de faire des statistiques plus poussées sur les données.

Si on cherche des données qui sont accessibles sur des sites internet on peut faire du webscraping avec la libraire Selenium. 

Pour résumer, Python permet de faire des actions très diverses et c’est pour cela que c’est un des langages les plus populaires aujourd’hui dans le monde du data.

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez nos formations en Data Science.

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer

Découvrez nos formations en Data Science.

Les outils Low-code et No-code

Les plate-formes low/no code fournissent un environnement de développement utilisé pour créer des logiciels d’application par le biais d’une interface utilisateur graphique. 

Parmi ces outils Bubble rend accessible la programmation d’applications et de sites internet complexes sans avoir à coder tandis que la gamme d’applications logicielles Microsoft Power Platform, permet un développement d’applications et de connectivité d’applications.

Un des avantages principaux des outils low/no code est que vous économisez du temps de développement pour aboutir à une application opérationnelle qui répond à un besoin.

Les Dashboards de visualisation

Après plusieurs étapes on souhaiterait créer un tableau de bord (Dashboard) pour l’ensemble de l’équipe pour que tout le monde puisse suivre l’analyse.

Avec les données récupérées on peut afficher des graphiques qui permettent de transmettre de l’information pertinente à des personnes qui ne sont pas forcément à l’aise avec le code.

Power BI est une plateforme interactive de reporting. Elle peut facilement traiter une grande variété de types de données et des quantités massives de données.

On peut utiliser PowerBI : soit pour créer des rapports, travailler avec les données, soit simplement visualiser des rapports pour prendre des décisions.

Kibana est une extension de visualisation de données pour Elasticsearch. Elle permet de rechercher et de visualiser les données indexées dans Elasticsearch. 

Une des solutions les plus à la mode en ce moment est Amazon QuickSight qui permet aux utilisateurs d’interroger les données en langage naturel pour générer des visualisations en seulement quelques secondes.

Voilà, vous en savez désormais plus sur les outils utilisés au quotidien par les data analysts, et comme une image vaut parfois mieux que 1000 mots, on vous a préparé une fiche récapitulative !

Et si vous souhaitez en savoir plus sur le métier de Data Analyst, consultez la page de notre formation !

Facebook
Twitter
LinkedIn

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone

S'inscrire à la JPO :

Vous souhaitez recevoir notre newsletter data 💌 hebdomadaire ?