Cas d'utilisation de Fugue

Fugue est utilisé pour construire et déployer un simple modèle de machine learning sur différents moteurs d'exécution. Grâce à sa polyvalence, il permet à ses utilisateurs d'exécuter le même code de ML sur des environnements locaux, Spark, ou Dask, sans modifications substantielles.

Retour aux articles

Python Fugue : Tout savoir sur cette bibliothèque

Q: Qu’est-ce que Fugue ?

L'approche principale de Fugue est de promouvoir une écriture de code une fois, exécutable partout, sans modification, quelle que soit la plateforme de calcul distribué choisie. Cela est rendu possible grâce à son API qui abstrait les spécificités de chaque moteur d'exécution, permettant ainsi aux utilisateurs de bénéficier d'une flexibilité et d'une portabilité inégalées pour leurs applications.

8 Avr 2024

m de lecture

Data Science

Raphael Kassel

L'évolution continue des technologies de traitement de données a conduit à l'émergence de solutions innovantes visant à simplifier la complexité inhérente à la gestion et à l'analyse de vastes ensembles de données. Parmi ces innovations, Python Fugue se distingue comme une bibliothèque puissante qui permet aux Data Scientists et aux ingénieurs de développer des applications de calcul distribué de manière plus intuitive et efficace.

L’approche principale de Fugue est de promouvoir une écriture de code une fois, exécutable partout, sans modification, quelle que soit la plateforme de calcul distribué choisie. Cela est rendu possible grâce à son API qui abstrait les spécificités de chaque moteur d’exécution, permettant ainsi aux utilisateurs de bénéficier d’une flexibilité et d’une portabilité inégalées pour leurs applications. En adoptant Fugue, les développeurs peuvent aisément transformer des scripts Pandas en tâches distribuées à grande échelle, optimisant ainsi les performances et l’efficacité sans nécessiter une expertise approfondie des différents systèmes de calcul distribué

Caractéristiques de Fugue

L’adoption de Fugue dans le domaine du traitement des données représente un tournant significatif grâce à ses caractéristiques uniques. Le tableau suivant détaille les principales caractéristiques de Fugue.

Abstraction sans serveur

Fugue permet d’écrire des applications de calcul distribué sans se préoccuper du serveur ou de l’environnement d’exécution sous-jacent. Cela signifie que le code écrit pour Fugue peut être exécuté sur différents moteurs comme Spark, Dask, ou en local, sans modification.

Interface intuitive

Son interface est conçue pour être intuitive pour les utilisateurs de Pandas et Spark, permettant une transition en douceur vers le calcul distribué sans nécessiter une courbe d’apprentissage abrupte.

Prise en charge de multiples moteurs d'exécution

Fugue est compatible avec une variété de moteurs d’exécution, offrant aux utilisateurs la flexibilité de choisir l’environnement le plus adapté à leurs besoins spécifiques, qu’il s’agisse de performances, de coût, ou d’autres critères.

Indépendance du langage

Bien que conçu en Python, Fugue permet d’intégrer des fonctions écrites dans d’autres langages, comme SQL, augmentant ainsi la versatilité et la puissance des applications développées.

Extension et personnalisation

Fugue fournit un ensemble d’extensions et de plugins, permettant aux utilisateurs de personnaliser et d’étendre les fonctionnalités.

Optimisation des performances

Grâce à sa capacité à abstraire les détails de bas niveau, Fugue optimise automatiquement les tâches pour le moteur d’exécution choisi, améliorant ainsi les performances sans effort supplémentaire de la part du développeur.

Simplicité de migratio

La migration des scripts de traitement de données existants vers un environnement de calcul distribué est facilité, réduisant significativement le temps et les ressources nécessaires pour adapter les applications à grande échelle.

Exemple d’utilisation de Fugue

Abordons un exemple pratique illustrant l’utilisation de Fugue pour construire et déployer un simple modèle de machine learning sur différents moteurs d’exécution. Cet exemple démontre la polyvalence de Fugue en permettant aux utilisateurs d’exécuter le même code de ML sur des environnements locaux, Spark, ou Dask, sans modifications substantielles.

1. Création d’un dataset fictif

Commençons par créer un DataFrame Pandas simple pour simuler un jeu de données de prix d’appartements, avec des caractéristiques telles que la taille de l’appartement (en mètres carrés) la distance jusqu’au centre-ville (en kilomètres) et son prix.

				
					import pandas as pd

# Création d'un DataFrame d'exemple
data = {
    "size": [50, 60, 70, 80, 90],
    "distance": [5, 3, 2, 8, 7],
    "price": [250000, 270000, 290000, 200000, 230000]
}

df = pd.DataFrame(data)

2. Préparation des données et entraînement du modèle

Définissons maintenant une fonction qui prendra le DataFrame comme entrée, préparera les données pour l’entraînement, entraînera un modèle de régression linéaire simple et retournera les coefficients du modèle.

				
					from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

def train_model(df: pd.DataFrame) -> pd.DataFrame:
    X = df[["size", "distance"]]
    y = df["price"]
    
    # Division des données en ensemble d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle de régression linéaire
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # On retourne les coefficients du modèle
    return pd.DataFrame({
        "coef": ["intercept", "size", "distance"],
        "value": [model.intercept_, *modele.coef_]
    })

3. Exécution sur différents moteurs avec Fugue

Avec Fugue, nous allons exécuter maintenant la fonction d’entraînement du modèle sur divers moteurs d’exécution sans changer le code.

				
					from fugue import FugueWorkflow

# Exécution sur Spark
# Il est possible d’indiquer un autre moteur d’exécution comme Dask ou Ray.
# S’il n’est pas indiqué, l’exécution se fera en local
with FugueWorkflow(engine=”spark”) as dag:
    df_initial = dag.df(df)
    results = df_initial.transform(train_model)
    results.show()

Cet exemple illustre comment Fugue simplifie le processus de construction et de déploiement de modèles de machine learning sur différents environnements de calcul.

Pour conclure

Fugue se révèle être un outil puissant et versatile pour la manipulation et l’analyse de données à grande échelle, ainsi que pour le développement et le déploiement de modèles de machine learning. Grâce à sa capacité à abstraire les complexités des différents moteurs d’exécution, il permet aux Data Scientists et aux développeurs de se concentrer pleinement sur la résolution des problèmes métier, sans se laisser entraver par les détails techniques liés à l’infrastructure sous-jacente.

Fugue se positionne donc non seulement comme un facilitateur technique, mais aussi comme un catalyseur d’innovation, en ouvrant des possibilités auparavant inaccessibles à cause de la complexité technique. En rendant le calcul distribué accessible et gérable, Fugue encourage l’expérimentation, la collaboration et l’efficacité dans le développement de solutions de données.

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Python Fugue : Tout savoir sur cette bibliothèque

Caractéristiques de Fugue

Abstraction sans serveur

Interface intuitive

Prise en charge de multiples moteurs d'exécution

Indépendance du langage

Extension et personnalisation

Optimisation des performances

Simplicité de migratio

Exemple d’utilisation de Fugue

1. Création d’un dataset fictif

2. Préparation des données et entraînement du modèle

3. Exécution sur différents moteurs avec Fugue

Pour conclure

DataScientest News

Les 10 meilleures alternatives à ChatGPT en 2026

Le pari de 300 millions d’euros de la France : au cœur du vaste plan qui remodèle l’avenir

Comment un simple mot de passe a failli faire tomber le Louvre

L’affaire « Kaveri » chez QpiAI : la véritable erreur de feuille de route 64‑qubit qui a secoué l’industrie

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Python Fugue : Tout savoir sur cette bibliothèque

Caractéristiques de Fugue

Abstraction sans serveur

Interface intuitive

Prise en charge de multiples moteurs d'exécution

Indépendance du langage

Extension et personnalisation

Optimisation des performances

Simplicité de migratio

Exemple d’utilisation de Fugue

1. Création d’un dataset fictif

2. Préparation des données et entraînement du modèle

3. Exécution sur différents moteurs avec Fugue

Pour conclure

DataScientest News

Les 10 meilleures alternatives à ChatGPT en 2026

Le pari de 300 millions d’euros de la France : au cœur du vaste plan qui remodèle l’avenir

Comment un simple mot de passe a failli faire tomber le Louvre

L’affaire « Kaveri » chez QpiAI : la véritable erreur de feuille de route 64‑qubit qui a secoué l’industrie

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

DataNews