Définitions Data Science

  • Accesseur / Getter
    Méthode qui retourne la valeur d'un attribut de classe ou d'instance de classe
  • Algorithme de descente du gradient
    La Descente de Gradient est un algorithme d’optimisation qui permet de trouver le minimum de n’importe quelle fonction convexe en convergeant progressivement vers celui-ci. Pour comprendre son fonctionnement de manière intuitive, découvrez cette vidéo
  • API
    API signifie littéralement "Application Programming Interface" et se définit comme un ensemble de définitions de sous-routines, de protocoles de communication et d'outils pour la création de logiciels.
  • Apprentissage supervisé
    En apprentissage supervisé, l’algorithme est guidé avec des connaissances préalables de ce que devraient être les valeurs de sortie du modèle. Par conséquent, le modèle ajuste ses paramètres de façon à diminuer l’écart entre les résultats obtenus et les résultats attendus. La marge d’erreur se réduit ainsi au fil des entraînements du modèle, afin d’être capable de l’appliquer à de nouveaux cas.
  • Attribut
    Objets, valeurs, variables propres à une classe ou à une instance de classe
  • BeautifulSoup
    BeautifulSoup est une bibliothèque Python permettant d’extraire des données de fichiers HTML et XML
  • Bokeh
    Bokeh est une bibliothèque Python de data-vizualisation interactive de données permettant de faire des présentations interactives lisibles directement dans un navigateur web
  • Business Intelligence
    On qualifie d’informatique décisionnelle, en anglais Business Intelligence (BI) l’exploitation des données de l’entreprise dans le but de faciliter la prise de décision, la compréhension du fonctionnement actuel et l’anticipation des actions.
  • Classe
    définition d’un modèle ou schéma de données (type, format, valeurs, ...) ainsi que de procédures pouvant s’appliquer sur ces données (initialisation, accès, modification, …)
  • Classification pénalisée
    La classification pénalisée permet d’imposer un coût supplémentaire au modèle pour les erreurs de classification commises sur la classe minoritaire pendant la formation.
  • Classification sur données déséquilibrées
    La classification sur données déséquilibrées est un problème de classification où l’échantillon d’apprentissage contient une forte disparité entre les classes à prédire
  • Clustering
    Le clustering est une discipline particulière du Machine Learning ayant pour objectif de séparer vos données en groupes homogènes ayant des caractéristiques communes.
  • Computer Vision
    Branche de l'intelligence artificielle qui vise à interpréter des images ou des vidéos de la même manière qu'un humain
  • Data Visualization
    La Data Visualization, souvent appelée « Dataviz », est l’ensemble des techniques qui permettent la transformation visuelle et la synthétisation de données brutes pour les faire parler.
  • Deep Learning
    Le Deep Learning ou apprentissage profond : c’est une technique de machine learning reposant sur le modèle des réseaux neurones: des dizaines voire des centaines de couches de neurones sont empilées pour apporter une plus grande complexité à l’établissement des règles.
  • NLP
    Le NLP pour Natural Language Processing ou Traitement Numérique du Langage est une discipline qui porte essentiellement sur la compréhension, la manipulation et la génération du langage naturel par les machines.  Le NLP est à l’interface entre la science informatique et la linguistique. Il porte sur la capacité de la machine à interagir directement avec l’humain.
  • Encapsulation
    Technique qui consiste à restreindre l'accessibilité des méthodes ou attributs d'une classe ou une instance de classe
  • GAN
    Un GAN est un modèle génératif où deux réseaux sont en concurrence dans un scénario de théorie des jeux. Le premier réseau est le générateur, qui génère un échantillon (par exemple une image), tandis que son adversaire, le discriminateur, essaie de détecter si un échantillon est réel ou s'il résulte du générateur.
  • GPT
    Modèle développé par OpenAI, c'est un générateur de texte qui assimile les mots reçus et détermine la suite la plus logique qu'elle retransmet dans le même style
  • IDE
    Un IDE ou un Environnement de développement (Integrated Development Environment) est un environnement de programmation complet sous la forme d'un logiciel qui rassemble des outils permettant de développer des applications, d'autres logiciels, des librairies ou des frameworks. Pour être plus clair, c'est un logiciel pour écrire et exécuter du code. Un IDE peut contenir : un éditeur de code intelligent(coloration, autocomplétion, mise en forme) ou non; un compilateur un générateur d'interface graphique un debugger
  • Intelligence Artificielle
    L'intelligence artificile est un champ de recherche qui regroupe l'ensemble des techniques et méthodes qui tendent à comprendre et reproduire le fonctionnement d'un cerveau humain
  • Juke box
    Module Python disponible sur OpenAI permettant de générer par réseaux de neurones convolutifs des musiques.
  • Machine learning
    Le Machine Learning est un ensemble de techniques donnant la capacité aux machines d’apprendre automatiquement un ensemble de règles à partir de données. Contrairement à la programmation qui consiste en l'exécution de règles prédéterminées.
  • Méthode
    Fonction relative à une classe ou à une instance de classe qui permet d'utiliser les attributs de la classe ou de l'instance de classe dans ses calculs
  • Métrique d'évalution
    Une métrique d’évaluation quantifie la performance d’un modèle prédictif.
  • Mutateur/ Setter
    Méthode qui permet de changer la valeur d'un attribut de classe ou d'instance de classe
  • NetworkX
    NetworkX est une librairie pour la création, la manipulation et l’étude de la structure, de la dynamique et des fonctions de réseaux complexes
  • NLTK
    NLTK est une librairie fondamentale pour la construction de programmes Python pour travailler avec des données de langage humain.
  • Numpy
    Numpy est une librairie fondamentale pour effectuer des calculs numériques avec Python.
  • Objet
    objet en particulier de la classe (par exemple, un humain est une instance de la classe des humains)
  • OpenData
    Idée que certaines données devraient être librement accessibles à tous pour pouvoir les utiliser et les republier sans restriction dues au droit d'auteur, aux brevets ou à d'autres mécanismes de contrôle.
  • Polymorphisme
    Fait de redéfinir dans une classe fille une méthode héritée d'une classe mère
  • PySpark
    PySpark est la bibliothèque de référence pour faire du Machine Learning sur des données distribuées en environnement Big Data
  • Python
    Python est un langage de programmation script polyvalent. Grâce à sa syntaxe souple il s'est vite imposé comme le langage de référence pour la data science
  • R
    R est un langage de programmation dont l'utilisation est fortement orientée vers l'analyse de données et les statistiques. Le principal objectif de ce langage est de pouvoir traiter et organiser des jeux de données afin d'y appliquer des tests statistiques plus ou moins complexes et de représenter ces données graphiquement à l'aide d'une grande variété de graphiques disponibles.
  • Régression
    La régression est un ensemble de méthodes statistiques utilisées pour modéliser la relation d'une variable quantitative par rapport à une ou plusieurs autres.
  • Reinforcement Learning
    L'apprentissage par renforcement (Reinforcement Learning en anglais ) est un domaine de l'apprentissage automatique qui concerne la manière dont les agents logiciels doivent prendre des mesures dans un environnement afin de maximiser une notion de récompense cumulative.
  • Réseaux de neurones convolutifs
    Les réseaux convolutifs sont une forme particulière de réseaux neuronaux multicouches Les réseaux de neurones convolutifs (aussi appelés CNN) sont caractérisés par leurs premières couches convolutionelles (généralement une à trois). Une couche convolutive, est basée sur le principe mathématique de convolution, et cherche à repérer la présence d’un motif (dans une image le plus souvent, ou un signal). Les réseaux neuronaux convolutifs ont de nombreuses applications dans la reconnaissance d’images, de vidéos ou le traitement du langage naturel.
  • Réseaux de neurones récurrents -RNN
    Les réseaux de neurones récurrents (ou RNN) sont une forme particulière de réseaux de neurones spécialisés dans le traitement des séries temporelles ou séquences de valeurs (comme par exemple une phrase : chaque mot est une valeur et la phrase est la séquence des différents mots). Les applications sont nombreuses, on retrouve par exemple la traduction de texte, l'analyse de sentiments, le légendage de photos.
  • REST API
    REST détermine à quoi ressemble l'API. Il signifie "Representational State Transfer". Il s'agit d'un ensemble de règles que les développeurs suivent lorsqu'ils créent leur API
  • Rvest
    Rvest est une bibliothèque R permettant d'extraire des données de fichiers HTML et XML.
  • Seaborn
    Seaborn est une bibliothèque qui complète idéalement matplotlib pour la visualisation des données avec une approche statistique.
  • Sentiment analysis
    Aussi connue sous le nom de « Opinion Mining », l’analyse des sentiments consiste à identifier les informations subjectives d’un texte pour extraire l’opinion de l’auteur
  • Stemming
    Stemming : un même mot peut se retrouver sous différentes formes en fonction du genre (masculin féminin), du nombre (singulier, pluriel), la personne (moi, toi, eux…) etc. Le stemming désigne généralement le processus heuristique brut qui consiste à découper la fin des mots dans afin de ne conserver que la racine du mot.
  • Text mining
    Le Text Mining consiste à extraire du texte des informations de haute qualité. Une information de haute qualité est généralement obtenue par l’établissement de modèles et de tendances par des moyens tels que l'apprentissage de modèles statistiques.
  • Tokenisation
    Découpage du texte en plusieurs pièces appelés tokens. Exemple : « Vous trouverez en pièce jointe le document en question » ; « Vous », « trouverez », « en pièce jointe », « le document », « en question ».
  • Transfer Learning
    Le Transfer Learning, ou apprentissage par transfert en français, désigne l’ensemble des méthodes qui permettent de transférer les connaissances acquises à partir de la résolution de problèmes donnés pour traiter un autre problème.
  • Validation croisée - Cross-validation
    On parle en générale de validation croisée à K blocs (ou K-fold cross validation) pour désigner une technique d'évaluation d'un algorithme de Machine Learning. Cela consiste à découper le dataset en K sous-ensemble (ou K folds) puis prendre un des K sous-ensemble comme dataset de validation (validation set) et les K-1 restants comme dataset d'entrainement (training set). On répète l'opération sur toutes les combinaisons possibles. On obtient K mesures de performance dont la moyenne représente la performance de l'algorithme.
  • Webscraping
    Le webscraping consiste à récupérer de manière systématisée des données provenant de diverses pages internet