Snowflake a annoncé la disponibilité générale de sa plateforme de partage de données étendue, qui prend désormais en charge les formats de table ouverts Apache Iceberg et Delta Lake, permettant aux organisations de partager des données en temps réel directement depuis leur propre stockage cloud, sans réplication ni processus ETL. La fonctionnalité, disponible depuis le 21 juin 2024, permet le partage de données inter-cloud et interrégional sans frais de sortie par requête, tout en maintenant une sécurité de niveau entreprise via le cadre de gouvernance de Snowflake.
Cette évolution répond à un problème majeur dans la gestion des données d’entreprise, où les organisations ont été confrontées au vendor lock-in et à la duplication coûteuse des données entre plateformes. En prenant en charge nativement les formats Apache Iceberg et Delta Lake, Snowflake permet désormais aux entreprises de conserver leurs données dans des formats ouverts tout en tirant parti des capacités avancées de partage et de gouvernance de la plateforme.
L’architecture technique repose sur deux composants clés : les External Volumes, qui créent des connexions sécurisées au stockage cloud des clients à l’aide d’identifiants IAM, et les Iceberg Tables, qui représentent les données stockées dans les comptes Amazon S3, Google Cloud Storage ou Azure Storage des clients. Selon la documentation de Snowflake, les fournisseurs peuvent partager des données en créant ces objets, en les ajoutant à un share et en octroyant des droits d’accès aux consommateurs — tout en laissant les données dans l’emplacement de stockage d’origine du fournisseur.
Un avantage notable est l’extension du cadre de gouvernance de niveau entreprise de Snowflake Horizon à ces tables au format ouvert. Les organisations peuvent appliquer des row-level access policies, du data masking et une tag-based governance aux données partagées, garantissant les mêmes normes de sécurité que les tables Snowflake natives, précise l’entreprise dans sa documentation produit.
Bien que Snowflake mette en avant l’absence de frais de sortie par requête pour la récupération des résultats, certains scénarios de transfert de données entraînent toujours des frais. Selon la documentation tarifaire de l’entreprise, des frais s’appliquent à la réplication de bases de données entre régions, au déchargement de données via des commandes COPY vers d’autres régions et aux écritures interrégionales vers des Iceberg Tables. Les transferts au sein de la même région cloud restent gratuits.
Le modèle de tarification conserve l’approche standard de Snowflake : les consommateurs de données paient les ressources de calcul utilisées par les requêtes, tandis que les fournisseurs assument les coûts de stockage dans leurs comptes cloud. Cette structure pourrait réduire significativement les coûts pour les organisations qui maintenaient auparavant des jeux de données dupliqués sur plusieurs plateformes.
Cette capacité représente un changement stratégique sur le marché des plateformes de données, où l’interopérabilité est devenue de plus en plus critique. En reliant des plateformes propriétaires à des standards open-source, Snowflake se positionne comme un hub central pour la collaboration sur les données tout en offrant aux clients la flexibilité d’éviter le vendor lock-in — une préoccupation croissante à mesure que les volumes de données et les stratégies multi-cloud se développent dans les entreprises.