Quel changement stratégique apporte l’intégration de Variant dans Apache Parquet ?

L’intégration du standard directement dans Apache Parquet pourrait mettre fin à la fragmentation des formats dans l’écosystème data.

Quels sont les gains de performance liés à l’utilisation de Variant ?

Les requêtes sont jusqu’à 8 fois plus rapides sur des colonnes Variant par rapport au JSON traditionnel.

Quel est le parcours de migration proposé par Databricks pour adopter Variant ?

Les équipes peuvent créer des colonnes Variant via INSERT ou utiliser COPY INTO pour ingérer des fichiers JSON bruts.

Quel est l’objectif de la collaboration entre Delta Lake et Iceberg ?

L’objectif est de standardiser les fonctionnalités et réduire les frictions entre formats concurrents.

De quoi dépendra le succès de la technologie Variant ?

Le succès dépendra de son adoption au-delà de l’écosystème Databricks et de son intégration dans Apache Parquet.

🚀 Êtes-vous fait pour la Data ? Découvrez-le en 1 min

Retour aux articles

Databricks lance le type de données Variant comme standard ouvert pour les données semi-structurées

Q: Comment Databricks développe-t-il la spécification de Variant ?

Databricks travaille en collaboration avec les communautés Apache Spark et Delta Lake au sein de la Linux Foundation.

13 Oct 2025

m de lecture

Actualités, Data Science

Elena MLYNARCZYK

Databricks a dévoilé Variant, un standard de données open source qui promet d’accélérer les requêtes sur des données semi-structurées jusqu’à 8 fois, s’attaquant à un goulet d’étranglement critique en matière de performances dans l’analytique moderne. L’entreprise soumet la spécification aux fondations Apache et Linux, avec l’intention de l’intégrer directement au format de fichier Apache Parquet, garantissant la compatibilité avec les principales plateformes de données, notamment Apache Spark et Delta Lake.

Cette initiative représente un changement stratégique dans la manière dont l’industrie des données gère le JSO et d’autres formats semi-structurés, devenus omniprésents mais aux performances historiquement pénalisées. En intégrant le standard directement dans le format de fichier Apache Parquet lui-même, selon dbt Labs, la technologie deviendrait automatiquement compatible avec des plateformes concurrentes comme Apache Iceberg, mettant potentiellement fin à des années de fragmentation des formats dans l’écosystème data.

Les gains de performance sont substantiels. Des tests avec Databricks Runtime 15.0 et le Photon engine ont démontré une exécution des requêtes jusqu’à 8 fois plus rapide sur des colonnes Variant par rapport au JSON traditionnel stocké sous forme de chaînes, selon l’entreprise. Ces gains s’appliquaient aux structures JSON plates et imbriquées, réduisant un goulet d’étranglement critique qui a longtemps pénalisé les équipes data travaillant avec des données complexes et hiérarchiques.

Plutôt que d’adopter une approche propriétaire, Databricks développe la spécification en collaboration avec les communautés Apache Spark et Delta Lake de la Linux Foundation. L’entreprise a décrit des gains de performance « d’un ordre de grandeur » par rapport aux méthodes actuelles de requêtes JSON dans son annonce.

Pour les organisations souhaitant adopter la technologie, Databricks a défini un parcours de migration clair en utilisant sa fonction PARSE_JSON(). Les équipes data peuvent soit créer de nouvelles tables avec des colonnes Variant et les renseigner via des instructions INSERT, soit ingérer directement des fichiers JSON bruts avec la commande COPY INTO. Une fois migrées, les données peuvent être interrogées à l’aide d’une syntaxe dot-notation intuitive pour parcourir les champs et tableaux imbriqués.

L’initiative s’inscrit dans un effort de collaboration plus large entre les principaux développeurs de Delta Lake et Iceberg visant à standardiser les fonctionnalités et à réduire les frictions entre formats concurrents, selon dbt Labs. Cette coopération marque une rupture significative avec un paysage des formats de stockage de données traditionnellement fragmenté.

Le succès de Variant dépendra in fine de son adoption au-delà de l’écosystème Databricks. Le calendrier d’intégration dans Apache Parquet et l’adoption ultérieure par d’autres moteurs de requêtes restent à préciser, mais l’approche d’un standard ouvert le positionne comme un composant potentiellement fondamental de la modern data stack.

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Databricks lance le type de données Variant comme standard ouvert pour les données semi-structurées

DataScientest News

Les 10 meilleures alternatives à ChatGPT en 2026

Le pari de 300 millions d’euros de la France : au cœur du vaste plan qui remodèle l’avenir

Comment un simple mot de passe a failli faire tomber le Louvre

L’affaire « Kaveri » chez QpiAI : la véritable erreur de feuille de route 64‑qubit qui a secoué l’industrie

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Databricks lance le type de données Variant comme standard ouvert pour les données semi-structurées

DataScientest News

Les 10 meilleures alternatives à ChatGPT en 2026

Le pari de 300 millions d’euros de la France : au cœur du vaste plan qui remodèle l’avenir

Comment un simple mot de passe a failli faire tomber le Louvre

L’affaire « Kaveri » chez QpiAI : la véritable erreur de feuille de route 64‑qubit qui a secoué l’industrie

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

DataNews