🚀 Êtes-vous fait pour la Data ? Découvrez-le en 1 min

Databricks lance le type de données Variant comme standard ouvert pour les données semi-structurées

-
2
 m de lecture
-

Databricks a dévoilé Variant, un standard de données open source qui promet d’accélérer les requêtes sur des données semi-structurées jusqu’à 8 fois, s’attaquant à un goulet d’étranglement critique en matière de performances dans l’analytique moderne. L’entreprise soumet la spécification aux fondations Apache et Linux, avec l’intention de l’intégrer directement au format de fichier Apache Parquet, garantissant la compatibilité avec les principales plateformes de données, notamment Apache Spark et Delta Lake.

Cette initiative représente un changement stratégique dans la manière dont l’industrie des données gère le JSO et d’autres formats semi-structurés, devenus omniprésents mais aux performances historiquement pénalisées. En intégrant le standard directement dans le format de fichier Apache Parquet lui-même, selon dbt Labs, la technologie deviendrait automatiquement compatible avec des plateformes concurrentes comme Apache Iceberg, mettant potentiellement fin à des années de fragmentation des formats dans l’écosystème data.

Les gains de performance sont substantiels. Des tests avec Databricks Runtime 15.0 et le Photon engine ont démontré une exécution des requêtes jusqu’à 8 fois plus rapide sur des colonnes Variant par rapport au JSON traditionnel stocké sous forme de chaînes, selon l’entreprise. Ces gains s’appliquaient aux structures JSON plates et imbriquées, réduisant un goulet d’étranglement critique qui a longtemps pénalisé les équipes data travaillant avec des données complexes et hiérarchiques.

Plutôt que d’adopter une approche propriétaire, Databricks développe la spécification en collaboration avec les communautés Apache Spark et Delta Lake de la Linux Foundation. L’entreprise a décrit des gains de performance « d’un ordre de grandeur » par rapport aux méthodes actuelles de requêtes JSON dans son annonce.

Pour les organisations souhaitant adopter la technologie, Databricks a défini un parcours de migration clair en utilisant sa fonction PARSE_JSON(). Les équipes data peuvent soit créer de nouvelles tables avec des colonnes Variant et les renseigner via des instructions INSERT, soit ingérer directement des fichiers JSON bruts avec la commande COPY INTO. Une fois migrées, les données peuvent être interrogées à l’aide d’une syntaxe dot-notation intuitive pour parcourir les champs et tableaux imbriqués.

L’initiative s’inscrit dans un effort de collaboration plus large entre les principaux développeurs de Delta Lake et Iceberg visant à standardiser les fonctionnalités et à réduire les frictions entre formats concurrents, selon dbt Labs. Cette coopération marque une rupture significative avec un paysage des formats de stockage de données traditionnellement fragmenté.

Le succès de Variant dépendra in fine de son adoption au-delà de l’écosystème Databricks. Le calendrier d’intégration dans Apache Parquet et l’adoption ultérieure par d’autres moteurs de requêtes restent à préciser, mais l’approche d’un standard ouvert le positionne comme un composant potentiellement fondamental de la modern data stack.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?