Informatica : l’éditeur de solutions pour la Data Science

-
3
 m de lecture
-

Informatica est une société américaine de développement de logiciels créée en 1993. Son siège social se trouve à Redwood City, en Californie. Ses principaux produits incluent PowerCenter, Big Data Management, Informatica Data Quality et bien d’autres encore.

Informatica PowerCenter

Informatica PowerCenter est un outil ETL utilisé pour extraire, transformer et charger les données d’une entreprise à partir de différentes sources. Vous pouvez créer des entrepôts de données d’entreprise à l’aide d’Informatica PowerCenter.

Informatica PowerCenter extrait les données de sa source, les transforme en fonction des besoins et les charge dans un data warehouse cible.

Les principaux composants d’Informatica PowerCenter sont ses outils client, son serveur, son référentiel et son serveur de référentiel. Le serveur PowerCenter et le serveur de référentiel constituent la couche ETL qui est utilisée pour terminer le traitement ETL.

Le serveur PowerCenter exécute des tâches basées sur le workflow créé par les gestionnaires de flux de travail. Le workflow est surveillé via un moniteur. Les travaux sont conçus dans un concepteur de mappage à l’intérieur du programme qui établit un mappage entre la source et la cible.

La cartographie est une représentation graphique du workflow de la source à la cible. L’agrégation, le filtrage et la jointure sont des exemples significatifs de transformation.

Informatica PowerCenter est hautement disponible, entièrement évolutif et hautement performant. C’est la plateforme logicielle sur laquelle vous pouvez exécuter tous vos projets d’intégration de données importants pour pouvoir prendre des décisions éclairées dans l’entreprise.

Informatica MDM

MDM signifie Master data management. C’est une méthode de gestion des données d’une organisation comme un seul système cohérent. Le MDM est utilisé pour garantir la fiabilité des données qui sont dans différents formats et qui sont collectés à partir de différentes sources de données.

La gestion des données de référence peut relier toutes les données critiques au fichier maître. MDM gère le partage des données dans toute l’entreprise après une bonne mise en œuvre. Il est utilisé comme une stratégie efficace pour l’intégration des données.

Informatica BDM

Le produit Informatica Big Data Management (BDM) est un outil de développement intégré basé sur une interface graphique. Il est utilisé par les organisations pour créer des processus de qualité de données, d’intégration des données et de gouvernance des données pour leurs plates-formes Big Data.

Informatica BDM intègre Smart Executor qui prend en charge divers moteurs de traitement tels qu’Apache Spark, Blaze, Apache Hive sur Tez et Apache Hive sur MapReduce.

Informatica BDM est utilisé pour effectuer l’ingestion de données dans un cluster Hadoop, le traitement des données sur le cluster et l’extraction des données du cluster Hadoop.

En mode Blaze, le mappage Informatica est traité par Blaze TM, le moteur natif d’Informatica qui s’exécute comme une application basée sur YARN.

En mode Spark, les mappages Informatica sont traduits en code Scala.

En mode Hive et MapReduce, les mappages d’Informatica sont traduits en code MapReduce et sont exécutés nativement sur le cluster Hadoop.

Informatica BDM s’intègre de manière transparente au cluster Hadoop Hortonworks Data Platform (HDP) dans tous les aspects connexes, y compris son système d’autorisation par défaut. Apache Ranger peut être utilisé pour appliquer une autorisation fine basée sur les rôles aux données ainsi qu’aux métadonnées stockées dans le cluster HDP.

Le BDM d’Informatica s’intègre à Ranger dans tous les modes d’exécution. Le BDM d’Informatica dispose d’un exécuteur intelligent qui permet aux organisations d’exécuter leurs mappages Informatica de manière transparente sur une ou plusieurs méthodes de mise en œuvre dans le cadre de leur configuration de sécurité existante.

Informatica Data Quality (IDQ)

Informatica Data Quality est une suite d’applications et de composants que vous pouvez intégrer à Informatica PowerCenter pour fournir une capacité de qualité de données de qualité professionnelle dans un large éventail de scénarios.

L’IDQ est doté des composants de base suivants :

  • Data Quality Workbench : Il est utilisé pour concevoir, tester et déployer des processus de qualité des données. Workbench permet de tester et d’exécuter des plans selon les besoins, permettant une enquête rapide sur les données et le test des méthodologies de qualité des données.
  • Data Quality Server : Il est utilisé pour permettre le partage de plans et de fichiers et pour exécuter des programmes dans un environnement en réseau. Le Data Quality Server prend en charge la mise en réseau via des domaines de service et communique avec Workbench via TCP/IP.

Workbench et Server s’installent avec un moteur de qualité des données et un référentiel de qualité des données. Les utilisateurs ne peuvent pas créer ou modifier des programmes avec Server, bien qu’ils puissent exécuter un programme sur n’importe quel moteur de qualité des données indépendamment de Workbench par des commandes d’exécution ou à partir de PowerCenter.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.
Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?