JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

« Type de Données » : Une notion indispensable en Data Science

Les types de données ou Data Types permettent aux ordinateurs de comprendre comment interpréter les données et sous quelle forme les stocker. Il s'agit d'une notion essentielle pour le stockage et l'analyse de données, pour le Data Management et la Data Science. Découvrez tout ce que vous devez savoir.

Contrairement aux humains, un ordinateur ne connaît pas la différence entre « 1234 » et « abcd ». Un type de données est une classification indiquant ce que peut contenir une variable ou un objet dans le domaine de la programmation informatique.

Les types de données sont un facteur important dans tous les langages de programmation, dont Python, C# et C++, JavaScript ou Visual Basic. Lors de la création d’applications et de logiciels, les programmeurs doivent référencer les types de données et les utiliser correctement.

En outre, alors que le volume de données explose dans les entreprises, il est devenu essentiel d’optimiser le stockage de données. La taille des données impacte les coûts et les performances de requête, et le type de données choisi est un facteur déterminant.

Qu'est-ce qu'un type de données ?

Un type de données est un attribut associé à une donnée, indiquant à un ordinateur comment interpréter sa valeur. La compréhension des types de données permet de s’assurer que les données soient collectées dans le format idéal et que les valeurs de chaque propriété soient celles attendues.

Par exemple, connaître le type de données pour « Jean, Louis » permet à l’ordinateur de savoir si cette donnée fait référence au nom complet d’une personne appelée « Jean-Louis » ou s’il s’agit d’une liste de deux noms « Jean et Louis ».

Comprendre les types de données permet de s’assurer que les données soient collectées dans le format approprié entre « Jean, Louis » et « Jean-Louis ». C’est aussi une façon de s’assurer que la valeur soit celle attendue, et d’éviter les pertes de données.

Les principaux types de données

Certains types de données sont couramment utilisés, d’autres beaucoup plus rarement. Voici un tour d’horizon des « Data Types » les plus courants.

Entier ou integer (int)

Le type « entier » ou « integer » (int) est le type de données numérique le plus commun, utilisé pour stocker les nombres sans fraction. Par exemple : -808, 0, 808.

Floating Point (float)

Le floating point (float) est un autre type de données utilisé pour stocker les nombres pouvant avoir un composant fractionnel, comme les valeurs monétaires. Par exemple : 808,08, 0,8 ou 808,00.

Caractère (car) et String (str ou text)

Le type caractère ou character (car) sert à stocker une lettre, un chiffre, un signe de ponctuation, un symbole ou un espace unique. À l’inverse, le type « string » (str ou text) est une séquence de caractères.

C’est le type de données le plus utilisé pour stocker du texte, mais un string peut aussi inclure des chiffres ou des symboles qui seront traités comme du texte. Par exemple, un numéro de téléphone peut être stocké sous forme de string : +1-999-777-2222.

Booléen (bool)

Le type de données booléen ou boolean (bool) représente des valeurs vraies ou fausses. Une valeur booléenne peut aussi être représentée en tant que 0 (faux) ou 1 (vrai).

Enuméré (enum)

Le type énuméré (enum) contient un petit ensemble de valeurs uniques prédéfinies, aussi appelées éléments ou énumérateurs. Ces valeurs peuvent être comparées et assignées à une variable de type de données énuméré.

Les valeurs de type énuméré peuvent être numériques ou textuelles. Le type booléen est d’ailleurs une énumération prédéfinie de valeurs vraies et fausses.

Prenons l’exemple d’une appli demandant votre genre musical préféré via un menu déroulant. Le rap et le rock sont les énumérateurs. Un genre de variable de type énuméré peut être assigné à l’une des deux valeurs, mais pas aux deux. Le genre de variable stockera soit le rap, soit le rock. Avec le type énuméré, les valeurs peuvent être stockées et récupérées en tant qu’indices numériques ou en strings.

Array ou liste

Un array (rang) ou liste est un type de données stockant les éléments dans un ordre spécifique. La structure des données stockées par un array est appelée « array data structure ».
Chaque élément d’un rang peut être retrouvé en utilisant un index entier (0, 1, 2…), et le nombre total d’éléments d’un array représente sa longueur.

Pour reprendre l’exemple de l’appli musicale, le genre de variable d’un array peut stocker un ou plus des éléments rap, rock et jazz. Les indices respectifs de ces trois valeurs sont 0 pour le rap, 1 pour le rock et 2 pour le jazz. La longueur du rang est 3, puisqu’il contient trois éléments.

Si vous aimez ces trois genres musicaux et les choisissez tous les trois dans l’application, le genre de variable stockera les trois éléments rap, rock et jazz.

Date et heure

Le type de données date stocke une date au format YYYY-MM-DD, à savoir la syntaxe ISO 8601. De son côté, le type time stocke l’heure au format hh:mm:ss.

Ce type peut être utilisé pour stocker l’heure actuelle, mais aussi le temps passé depuis un événement ou l’intervalle de temps entre deux événements. De son côté, le type Datetime stocke une valeur contenant à la fois la date et l’heure au format YYYY-MM-DD hh:mm:ss.

Enfin, le type de données timestamp est généralement représenté en temps Unix. Il représente le nombre de secondes passées depuis le 1er janvier 1970 à minuit.
Ce data type est utilisé par les systèmes informatiques pour enregistrer la date et l’heure précises d’un événement à la seconde près, dans un format qui n’est pas affecté par les fuseaux horaires. Contrairement au datetime, le timestamp reste donc identique indépendamment de la position géographique.

Il existe de nombreux autres types de données, et chaque langage de programmation à ses propres data types correspondant à différents cas d’usage. Toutefois, vous connaissez désormais les principaux.

Pourquoi cette notion est importante ?

Connaître les types de données est essentiel pour assembler des données propres et cohérentes. Cette connaissance est très utile à différentes étapes de la collecte de données.

Tout d’abord, cette notion est très utile pour l’instrumentation : le processus de suivi des données comportementales en provenance de sources primaires, et la synchronisation de ces données avec un système de stockage interne ou externe.

La première étape de l’instrumentation est la création d’un plan de suivi de données. Au moment de décider quels événements suivre et quelles propriétés d’événements et d’entités collecter, préciser le type de données de chaque propriété dans le plan de suivi rend le processus d’instrumentation beaucoup plus efficace et réduire le risque d’erreur.

C’est particulièrement utile pour les ingénieurs chargés de l’implémentation. En s’assurant que chaque propriété soit envoyée avec le type de données adéquat, l’incohérence peut être évitée.

En outre, la connaissance des types de données est très utile pour les sondages clients : une méthode couramment utilisée en entreprise pour collecter des données auprès de la clientèle.

Les questions posées dans un sondage peuvent être ouvertes, avec un type de données texte ou nombre. Elles peuvent s’accompagner d’un choix de réponses prédéfinies sous forme de liste déroulante (enum), de cases à cocher (array), ou encore de boutons radio (booléen).

Pour stocker les données obtenues via un sondage dans une base de données ou un système tiers, il est nécessaire de préciser le nom de la propriété et le type de données pour chaque champ du sondage. Le nom de propriété stocke les valeurs entrées, et le type de données assure que les valeurs soient conformes.

Suivre cette méthode garantit la cohérence des données, et simplifie l’analyse et l’activation. Gardez en tête que les questions ouvertes compliquent l’analyse, puisqu’il n’est pas possible d’agréger les réponses à moins de transformer les données.

Au-delà de la collecte et l’instrumentation de données, la connaissance des types de données est très utile pour le Data Management, l’intégration de données, ou même le développement d’applications internes avec des outils no-code ou low-code.

Comment suivre une formation de Data Science ?

Les types de données ne sont que l’une des nombreuses notions essentielles de la Data Science. Afin d’acquérir une expertise dans ce domaine, vous pouvez choisir les formations DataScientest.

Nos différents programmes Data Analyst, Data Scientist, Data Engineer, ML Engineer ou Data Management permettent d’apprendre toutes les compétences requises pour exercer l’un des métiers de la Data Science.

Au fil des modules du cursus, vous découvrirez notamment la programmation en Python, les bases de données, les techniques d’analyse, la DataViz et le Machine Learning.

Notre approche innovante blended learning combine l’apprentissage en ligne sur une plateforme coachée et les Masterclass. Ces parcours permettent d’obtenir un certificat des Mines ParisTech PSL Executive Education, une certification cloud AWS ou Microsoft Azure, et de valider le bloc de la certification RNCP 36129 « Chef de projet en intelligence artificielle » reconnue par l’Etat.

Ces formations s’effectuent intégralement à distance, en Formation Continue, BootCamp ou alternance. Pour le financement, notre organisme est éligible au Compte Personnel de Formation. N’attendez plus et découvrez DataScientest !

Vous savez tout sur les types de données. Pour plus d’informations sur le même sujet, découvrez notre dossier sur les bases de données et notre dossier sur la DataViz.

Facebook
Twitter
LinkedIn

Tag de l'article :

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone

S'inscrire à la JPO :

Vous souhaitez recevoir notre newsletter data 💌 hebdomadaire ?