C’est quoi Data Build Tool ?
Data Build Tool (ou DBT) est un outil open source créé par Fishtown Analytics. Son objectif : faciliter la transformation de données à travers le processus ELT (Extraction Load Transformation). Les utilisateurs peuvent ainsi transformer les données de l’organisation au sein même du data warehouse. Et ce, de manière plus simple et plus rapide.
À l’heure du Big data, cet outil apparaît comme une nécessité. En effet, les entreprises collectent de quantités astronomiques de données en provenance d’une multitude de sources et avec des formats variés (parfois illisibles). Pour favoriser la prise de décision, les équipes data doivent supprimer les données obsolètes, fausses, erronées ou les doublons, mais aussi uniformiser les formats. Ce qui peut prendre du temps. À moins de disposer de l’outil DBT Data Build Tool qui utilise exclusivement des instructions SQL en table ou vue.
Comment utiliser Data Build Tool ?
Data Build Tool est proposé en Open Source et en version cloud. Selon le modèle choisi, la méthode de travail diffère :
- DBT Cloud : l’outil est alors utilisé sur un Cloud Data Warehouse, tel que Snowflake ou Google Big Query. Il s’agit de la version payante, mais la productivité est largement accrue.
- DBT Core : vous pouvez utiliser cette version gratuite sur votre poste de travail, à condition d’avoir préalablement installé Git et Python 3.5 (au minimum). Dans ce cas, DBT se présente comme une Interface en ligne commande.
Pourquoi utiliser DBT ?
Le logiciel Data Build Tool peut être utilisé aussi bien pour la transformation des données dans les databases que pour les tests relatifs à la qualité des données ou encore pour l’analytics. Quel que soit son usage, cet outil présente plusieurs avantages :
- La flexibilité des modèles SQL : comme DBT est principalement basé sur le langage SQL, l’exécution de ces instructions est facilitée. Et pour cause, Data Build Tool se charge de faire le lien entre les différentes requêtes écrites. Le logiciel les retranscrit ensuite sous forme de vue ou de table.
- La simplification du versioning : cela est notamment lié au fait que DBT utilise le référentiel GitHub.
- Le changement d’environnement : vous pouvez passer très facilement d’un environnement Dev à un environnement Prod.
- La puissance : cet outil gratuit se connecte à une multitude de bases de données. D’ailleurs, certaines connexions data sont nativement programmées, comme Big Query, Snowflake, Amazon RedShift ou Postgre. À cela s’ajoutent plusieurs connecteurs mis à disposition par la communauté.
- La gestion de la documentation : toutes les transformations qui ont lieu dans l’entrepôt de données sont retranscrites automatiquement. Les équipes opérationnelles peuvent alors accéder à la documentation disponible en toute autonomie.
Maîtrisez Data Build Tool avec DataScientest
Data Build Tool est un outil incontournable pour la transformation et l’exploitation des données. Pour en tirer pleinement parti, il est primordial de maîtriser à la perfection les requêtes SQL. Et plus globalement l’ensemble des outils data pour l’automatisation, l’analytics, le cloud, etc.