Arithmétique : tout savoir sur le socle invisible de la Data Science

-
5
 m de lecture
-

L’arithmétique est une branche fondamentale des mathématiques, traitant des propriétés élémentaires des nombres et des opérations de base. Souvent perçue comme un simple outil de calcul, elle joue en réalité un rôle élémentaire dans la Data Science et l’IA. Découvrez tout ce qu’il faut savoir !

Trouvant ses racines dans les civilisations anciennes, remontant à plus de 20 000 ans, l’arithmétique est souvent considérée comme la branche la plus élémentaire des mathématiques.

Pourtant, il s’agit aussi d’un pilier fondamental de nombreuses disciplines scientifiques et techniques. C’est notamment le cas de la Data Science, où elle joue un rôle majeur et bien souvent sous-estimé…

Alors, quelle est son utilité pour la science des données, et comment les Data Scientists l’exploitent-ils au quotidien ? C’est ce que vous allez découvrir dans la suite de ce dossier !

Qu’est-ce que l’arithmétique ?

Les toutes premières traces de calculs arithmétiques ont été découvertes sur des os entaillés datant du paléolithique supérieur.

Au fil des siècles, les systèmes de numération et les méthodes de calcul se sont développés dans diverses cultures, de l’Égypte ancienne à la Mésopotamie, en passant par la Grèce antique et l’Inde.

Le terme « arithmétique » lui-même vient du grec « arithmos » qui signifie « nombre ». Les Grecs anciens, notamment Pythagore et ses disciples, ont grandement contribué à l’avancement de cette discipline.

Elle repose sur quatre opérations fondamentales : l’addition, la soustraction, la multiplication et la division. Ces opérations forment la base de tous les calculs mathématiques plus avancés.

Par ailleurs, l’arithmétique s’intéresse également aux propriétés intrinsèques des nombres. On distingue par exemple les nombres pairs et impairs, les nombres premiers (divisibles uniquement par 1 et par eux-mêmes), les nombres composés (ayant plus de deux diviseurs), ou encore les nombres rationnels et irrationnels.

Une autre notion est celle de représentations fractionnaires et décimales des nombres, permettant d’exprimer des quantités non entières et d’effectuer des calculs plus précis.

Toutefois, n’allez pas croire que l’arithmétique se limite aux mathématiques de base ! Bien qu’elle y soit souvent associée, elle s’étend à des domaines plus avancés comme la théorie des nombres.

Cette branche explore les propriétés profondes des nombres entiers et leurs relations, abordant des problèmes complexes comme la conjecture de Goldbach ou le dernier théorème de Fermat.

De son côté, l’arithmétique modulaire, ou arithmétique des congruences, est un système où les nombres « bouclent » après avoir atteint une certaine valeur (le modulo). Cette branche est particulièrement importante en cryptographie et en informatique.

Ainsi, loin de se résumer aux simples calculs enseignés à l’école primaire, l’arithmétique constitue un domaine riche et complexe et forme la base de nombreuses branches de mathématiques et de leurs applications pratiques… notamment la Data Science !

Le rôle de l'arithmétique en Data Science

À chaque étape du processus de Data Science, l’arithmétique se révèle indispensable. Dès le départ, lors du traitement initial des données, elle revêt une importance capitale.

1. Nettoyage et traitement de données

Le nettoyage des données, ou Data Cleaning, implique bien souvent des opérations de base. Par exemple, il est possible d’identifier et de remplacer les valeurs aberrantes en utilisant des seuils calculés arithmétiquement.

On peut également normaliser les données en soustrayant la moyenne et en divisant par l’écart-type, ou imputer les valeurs manquantes en calculant des moyennes ou des médianes.

De même, les statistiques descriptives reposent largement sur l’arithmétique. Le calcul de la moyenne est la somme des valeurs divisée par leur nombre, le calcul de la médiane est l’identification de la valeur centrale après tri, et le calcul de l’écart-type est la racine carrée de la moyenne des carrés des écarts à la moyenne

2. Analyse de données

Par la suite, pendant l’analyse des données, les indicateurs de performance (KPI) en business intelligence s’appuient également sur des calculs arithmétiques.

Un exemple est le taux de conversion, qui est la division du nombre de conversions par le nombre total de visiteurs.

La croissance en pourcentage, quant à elle, se mesure par la soustraction de l’ancienne valeur de la nouvelle, puis la division par l’ancienne suivie d’une multiplication par 100.

D’autres techniques utilisent l’arithmétique pour rendre les données comparables. C’est le cas de la normalisation Min-Max (x-min) / (max – min) et de la Standardisation Z-score (x-moyenne) / écart-type.

3. Modélisation

L’étape suivante est la modélisation, et là encore, de nombreux algorithmes de Machine Learning reposent en réalité sur des opérations arithmétiques.

La régression linéaire est le calcul des coefficients par la méthode des moindres carrés, tandis que le partitionnement en k-moyennes est le calcul itératif des centroïdes comme moyenne arithmétique des points assignés.

Pour l’évaluation des performances des modèles, les métriques utilisent aussi l’arithmétique. La précision se mesure via la formule « vrais positifs / (vrais positifs + faux positifs) ».

Le rappel repose sur la formule « vrais positifs / (vrais positifs + faux négatifs) » et le F1-score s’obtient via la moyenne arithmétique de la précision et du rappel.

4. Visualisation des données ou DataViz

Comme vous le savez peut-être, après analyse des données, il est impératif de présenter les résultats sous forme de visualisations claires et intuitives pour qu’ils puissent être compris par les parties prenantes non techniques.

Or, la création de visualisations nécessite des calculs arithmétiques. Les histogrammes impliquent le calcul des intervalles et le comptage des occurrences, tandis que les diagrammes circulaires s’appuient sur le calcul des angles proportionnels aux fréquences.

On utilise aussi l’arithmétique pour la mise à l’échelle des axes, afin de déterminer les échelles appropriées. Le calcul des valeurs minimales et maximales permet de définir les limites des axes. Il s’agit aussi de déterminer les intervalles réguliers pour les graduations.

Un inestimable atout pour les Data Scientists

Une solide compréhension de l’arithmétique permet aux Data Scientists de développer de nouvelles approches basées sur ses principes, de saisir intuitivement le fonctionnement des algorithmes, et d’interpréter correctement les résultats statistiques.

Cela s’avère aussi très utile pour le débugging et la vérification des résultats. L’arithmétique permet de vérifier manuellement les calculs d’un algorithme, d’identifier les erreurs dans le code en comparant les résultats attendus et obtenus, et d’effectuer des tests de cohérence sur les données et les résultats.

De plus, elle aide à l’optimisation des performances en simplifiant les calculs complexes pour améliorer l’efficacité du code, et de choisir les structures de données appropriées basées sur la complexité arithmétique.

C’est aussi un moyen d’implémenter des approximations numériques efficaces lorsque les calculs exacts sont trop coûteux. Pour toutes ces raisons, l’arithmétique est un précieux allié du Data Scientist !

Une expertise requise pour relever les défis

L’application de l’arithmétique dans la Data Science peut se révéler plus complexe qu’il n’y paraît. D’abord, rappelons que les ordinateurs utilisent une représentation binaire des nombres qui peut entraîner des problèmes de précision.

Par exemple, les nombres à virgule flottante ne peuvent pas représenter exactement toutes les valeurs décimales. Ceci peut conduire à des erreurs d’arrondi.

Les très grands ou très petits nombres peuvent aussi dépasser les limites de représentation, causant des erreurs de calcul. Et la soustraction de deux nombres très proches peut entraîner une perte significative de précision.

La solution consiste à utiliser des bibliothèques de calcul en précision arbitraire ou des techniques de calcul numérique avancées.

Autre problème : l’arithmétique traditionnelle peut être mise à l’épreuve face aux Big Data. Même les opérations les plus simples peuvent devenir coûteuses en temps lorsqu’elles sont répétées des milliards de fois.

Le stockage des résultats intermédiaires peut également surcharger la mémoire disponible. En outre, certaines opérations sont difficiles à paralléliser efficacement.

Le meilleur moyen de contourner cet obstacle est l’utilisation de techniques d’échantillonnage, d’algorithmes approximatifs ou de calcul distribué.

Certains algorithmes de Machine Learning et d’IA dépassent aussi le cadre de l’arithmétique simple. C’est le cas des réseaux de neurones profonds qui utilisent des opérations sur des tenseurs multidimensionnels.

De nombreux algorithmes d’apprentissage utilisent également des techniques d’optimisation complexes qui ne reposent pas uniquement sur l’arithmétique élémentaire. Il en va de même pour certains modèles bayésiens ou probabilistes exigeant des calculs beaucoup plus complexes.

Voilà pourquoi une formation approfondie en mathématiques avancées et en calcul scientifique peut s’avérer indispensable pour les Data Scientists.

Conclusion : l’arithmétique, une fondation mathématique essentielle en science des données

Comme vous avez pu le découvrir dans cet article, l’arithmétique forme la base des opérations de traitement et d’analyse des données et permet l’évaluation et l’interprétation des résultats.

Elle se trouve aussi au cœur de nombreux algorithmes de Machine Learning et de statistiques, ce qui rend sa maîtrise indispensable pour tout Data Scientist.

Afin d’acquérir toutes les compétences et les connaissances requises pour exercer ce métier, vous pouvez vous tourner vers DataScientest.

Nos formations vous permettront d’apprendre la programmation en Python, la DataViz, le Machine Learning et le Deep Learning, l’analyse de données ou encore le Data Engineering et le MLOps.

À la fin du parcours, vous aurez toutes les cartes en main pour travailler comme professionnel de la Data Science et recevrez un diplôme et une certification hautement reconnus.

Toutes nos formations s’effectuent en ligne, en bootcamp, continu ou alternance, et notre organisme est éligible au CPF pour le financement. Découvrez DataScientest !

Vous savez tout sur l’arithmétique. Pour plus d’informations sur le même sujet, découvrez notre dossier consacré aux algorithmes et notre dossier entièrement dédié au Machine Learning !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?