Oswald Regular
OpenSans Regular
Qualité des données

Elle a son importance. Les problèmes de qualité des données peuvent avoir un impact significatif sur les résultats d’une entreprise. En effet, des données de mauvaise qualité peuvent se traduire par une duplication des tâches et des opportunités manquées. Ces problèmes peuvent s'accumuler et s'intensifier au fur et à mesure que les données circulent dans l'entreprise. Dans le pire des cas, ils pourraient amener des dirigeants à tirer des conclusions erronées et à prendre de mauvaises décisions. C'est un sujet des plus sensibles. Pourtant, la plupart des entreprises ne disposent pas de programmes de qualité des données formels capables de mesurer et de résoudre les problèmes. De nombreuses sociétés ne sont pas conscientes de leur problème de qualité des données.

La solution consiste à mettre en place un programme de qualité des données à l'échelle de l'entreprise. De par sa nature, un tel programme va au-delà des fonctionnalités d'une solution toute faite. La qualité des données requiert une approche globale, avec des points de contact répartis dans toute l'entreprise et une implémentation utilisant diverses technologies. Elle doit faire partie intégrante du processus de traitement des données et ne doit pas se limiter à une analyse rétrospective hors ligne. La qualité des données n'est pas une simple fonction de nettoyage des noms et adresses des clients. Elle doit vérifier la cohérence et la représentation de toutes les informations à l'échelle de l'entreprise.

Si les technologies utilisées à cette fin doivent faire partie du pipeline de traitement, leur robustesse doit être équivalente à celle de la production. Elles doivent pouvoir gérer des données existantes complexes, des transactions en temps réel et des volumes de traitement très élevés. Les méthodes qui ne satisfont pas tous ces impératifs sont comparables à des déploiements hors ligne et répondent rarement aux besoins. C'est généralement ce qui se produit avec les outils de qualité des données spécialisés qui ne peuvent être utilisés que dans des cas restreints.

L'approche que propose Ab Initio à cet égard est différente, car il s'agit d'une solution de bout en bout. Dans la mesure où le Co>Operating System® est un environnement de développement et d'exécution d'applications complet, la méthode de qualité des données mise en avant par Ab Initio fonctionne partout où le Co>Operating System peut être déployé, à savoir dans pratiquement n'importe quel environnement opérationnel ou analytique. Le Co>Operating System traite de manière native les données existantes complexes, s'exécute de façon répartie sur des jeux de serveurs hétérogènes, est extrêmement performant et évolutif, et peut implémenter une logique très complexe. (Cliquez sur Co>Operating System pour des informations supplémentaires.)

L'approche de bout en bout adoptée par Ab Initio en matière de qualité des données s'appuie sur des modèles de conception utilisant des technologies associées de manière transparente (elles sont toutes imbriquées) offertes par Ab Initio : le Co>Operating System, l'Enterprise Meta>Environment® (EME®), le Business Rules Environment (BRE®) et le Data Profiler. Avec Ab Initio, une entreprise peut implémenter un programme complet de qualité des données, intégrant des fonctions de détection, de dépannage, de reporting et d'alerte.

Présentation de l'architecture

En matière de qualité des données, une seule taille d’architecture ne peut pas s'appliquer à tous les cas de figure, notamment pour les grandes entreprises comptant de nombreux systèmes existants. Ab Initio fournit, par conséquent, une série de modules puissants qui permettent aux utilisateurs de constituer des solutions personnalisées de qualité des données correspondant à leurs besoins, quels qu'ils soient. Pour les utilisateurs qui commencent à mettre en place un programme de qualité des données, Ab Initio procure une implémentation de référence pouvant servir de base à l'ensemble d’un programme. Pour les utilisateurs ayant d'autres attentes, ou qui ont déjà une ébauche de programme en place, les modules de qualité des données Ab Initio peuvent venir compléter l'infrastructure existante, selon les besoins.

Une implémentation type de système de qualité des données commence par la création d'un composant de qualité des données puissant et réutilisable avec le Co>Operating System, comme représenté ci-après :

Le Co>Operating System permet aux composants de contenir l'ensemble d'une application. Le composant réutilisable de qualité des données est une application à part entière et comporte les éléments suivants :

  • Un sous-système capable de détecter et éventuellement de corriger les problèmes de qualité des données. Le Co>Operating System est à la base de la détection des défauts. Le BRE peut être utilisé pour spécifier des règles de validation dans une interface dédiée aux analystes, et le Data Profiler peut être intégré au processus pour effectuer l'analyse des tendances et la détection détaillée des problèmes.
  • Un système de reporting sur la qualité des données. L'EME inclut une fonction intégrée de reporting de qualité des données. Cette fonction est associée aux métadonnées d'une entreprise, à ses métriques de qualité des données et de nombre d'erreurs, ainsi qu'aux résultats des profils de données. Les utilisateurs peuvent étendre le schéma EME pour stocker des informations supplémentaires sur la qualité des données et ajouter leur propre infrastructure de reporting aux fonctionnalités de base de l'EME.
  • Une base de données des problèmes signalés. Les enregistrements comportant des problèmes de qualité des données sont consignés dans une base de données ou dans un fichier, de manière à pouvoir être consultés dans le cadre d’un workflow de qualité des données. Ab Initio fournit la technologie permettant de stocker, d'extraire et d'afficher ces enregistrements, indépendamment de la technologie de stockage des données utilisée.

Ce composant qualité est généralement exécuté dans le cadre d'applications existantes. Si une application a été créée avec Ab Initio, le composant de qualité des données peut facilement lui être adjoint. Pour les applications non créées avec Ab Initio, le composant de qualité des données doit être explicitement invoqué. Il peut également être implémenté en tant que tâche indépendante avec sa propre source de données. Voici des exemples de déploiement, autonome et intégré, dans une application existante :

Workflow de qualité des données

Le schéma ci-dessous représente un exemple de workflow complet de détection de problèmes de données. Point important : chaque processus de qualité est personnalisé selon les besoins de l'utilisateur.

Comme indiqué précédemment, le type et l'origine des données fournies en entrée au processus de qualité des données A ne sont pas restreints. Il peut s'agir d'un fichier plat, d'une table de base de données, d'une file de messages ou encore d'une transaction d'un service Web. Le résultat d'un processus implémenté avec Ab Initio ou avec une autre technologie peut également être utilisé en entrée. Dans la mesure où le processus de qualité des données est exécuté en complément du Co>Operating System, les données peuvent être de toute nature, pourvu que le Co>Operating System puisse les traiter : données existantes complexes, transactions hiérarchiques, données internationales, ...

Le processus de qualité des données B peut également produire tout type de données pour tout type de destination.

La première étape consiste à appliquer les règles de validation 1 aux données. Ces règles peuvent être exécutées sur des champs individuels, des enregistrements ou des datasets entiers. Chaque enregistrement pouvant comporter un ou plusieurs problèmes, le résultat des règles de validation peut être un ensemble de problèmes pour chaque enregistrement E. Le niveau de sévérité de ces problèmes et les solutions à apporter font l'objet d'une décision en aval.

Ensuite, des règles de nettoyage sont appliquées aux données 2, et le résultat de ce processus de qualité B est utilisé comme données de sortie. Les utilisateurs peuvent appliquer les règles de nettoyage Ab Initio ou créer les leurs avec le Co>Operating System. Les règles de validation et de nettoyage sont facilement entrées avec le BRE, et leur sophistication est sans limite étant donné qu'elles peuvent exploiter toute la puissance de traitement de données du Co>Operating System.

Les enregistrements ne pouvant pas être nettoyés sont stockés dans les archives de problèmes (Problems Archive) 4. Ces enregistrements passent généralement par un mode opératoire manuel pour être résolus.

La liste des problèmes de chaque enregistrement E peut également être analysée 3 afin de générer des rapports et des alertes 5. Dans la mesure où ce processus est créé en utilisant les « graphes » Ab Initio standard conjointement avec le Co>Operating System, pratiquement tout type de reporting et de traitement peut être effectué. La méthode standard de qualité des données proposée par Ab Initio comprend les étapes suivantes :

  • Calcul des métriques de qualité des données, telles que l'exhaustivité, la précision, la cohérence et la stabilité
  • Détermination des distributions de fréquence de chaque champ
  • Génération de totaux agrégés de codes et de valeurs d'erreur
  • Comparaison des valeurs actuelles aux valeurs passées pour toutes les étapes précédentes
  • Signalement des écarts notables entre les mesures actuelles et antérieures

Les résultats des opérations ci-dessus sont stockés dans l'EME Ab Initio à des fins de surveillance et de référence ultérieure. Toutes les informations de qualité des données peuvent s'intégrer aux autres métadonnées, y compris celles de référence stockées dans l'EME.

Tandis que tous les calculs associés à ces étapes peuvent solliciter une partie importante des ressources du processeur, la capacité du Co>Operating System à répartir la charge de travail entre plusieurs unités centrales, potentiellement distribuées sur plusieurs serveurs, permet à l'ensemble du processus de qualité des données d'être systématiquement inclus dans le pipeline de traitement.

Comme indiqué précédemment, l'approche suivie par Ab Initio en termes de mesure de la qualité des données consiste en de nombreuses options pouvant être personnalisées et configurées en fonction des besoins des utilisateurs. Le traitement des données, le calcul des résultats, ainsi que toutes les étapes intermédiaires sont implémentés à l'aide du Co>Operating System Ab Initio. Autrement dit, la partie « détection » du processus de qualité des données peut s'opérer avec d'excellentes performances sur presque toutes les plates-formes (Unix, Windows, Linux, mainframe z/OS), et sur n'importe quel type de données. Lorsque d'importants volumes de données sont traités, l'ensemble du processus de détection peut être exécuté en parallèle afin de réduire la latence.

Les sections qui suivent présentent des exemples d'interfaces utilisateur dédiées aux analystes pour la création de règles de validation et de rapports de qualité des données.

Règles de validation

La plupart des problèmes de qualité de données sont détectés par la mise en œuvre de règles de validation sur le dataset source. Avec le modèle de conception de qualité des données Ab Initio, le Business Rules Environment (BRE) permet de définir des règles de validation qui s'appliquent enregistrement par enregistrement. Le BRE est conçu pour permettre à des utilisateurs moins techniques, des experts et des analystes métier de créer et de tester des règles de validation à l'aide d'une interface de type feuille de calcul.

Avec le BRE, les règles de validation sont définies de deux manières. Généralement, les utilisateurs définissent des règles en remplissant une simple feuille de calcul (tableau de validation) avec des noms de champ en bas à gauche et des tests de validation dans la partie supérieure :

Cette interface permet de spécifier très facilement les tests de validation qu'il convient d'appliquer à chaque champ ou colonne d'un dataset. Le BRE comprend un certain nombre de tests de validation intégrés (valeurs nulles, valeurs vides, fourchettes de valeurs, formats de données, appartenance à un domaine, ...). Toutefois, l'équipe de développement peut également définir des tests de validation personnalisés pouvant s'appliquer à des champs particuliers. Les tests de validation personnalisés sont écrits par des développeurs avec le langage DML (Data Manipulation Language) d'Ab initio, et sont ensuite mis à disposition dans le BRE.

Pour concevoir des règles plus complexes, le BRE propose la définition de "règles tabulaires". Ces règles de validation peuvent traiter plusieurs champs d'entrée au sein d'un enregistrement afin de déterminer s'il présente des problèmes de qualité. Chaque règle peut produire un code d'erreur et une action requise qui, ensemble, guident le processus d'amélioration.

Le BRE permet aux experts de concevoir, de saisir et de tester des règles de validation dans une seule et même interface. La fonctionnalité de test du BRE permet aux utilisateurs d'observer de manière interactive les règles qui se déclenchent en fonction des différentes entrées. Cela permet de vérifier facilement que les règles se comportent comme prévu.

La capture d'écran ci-dessous représente des règles de validation pendant les tests. Le BRE affiche le nombre de déclenchements pour chaque test de validation, ainsi que les détails de chaque enregistrement de test.

Les règles de validation sont enregistrées dans l'EME, qui assure le contrôle des versions, le contrôle des accès et la gestion de configuration. Pour les applications entièrement créées avec Ab Initio, y compris les processus de qualité des données, l'application et les règles de qualité sont classées par version, étiquetées et promues en production ensemble. La robustesse du processus de qualité des données est ainsi garantie.

Bien que le BRE permette aux utilisateurs fonctionnels de définir des règles de validation, il existe d'autres moyens de définir ces règles. Les règles les plus complexes peuvent être implémentées grâce à la puissance de transformation du Co>Operating System. Dans la mesure où le BRE et les règles de transformation sont exécutés en complément du Co>Operating System, il est possible d'élaborer une stratégie d'évaluation de la qualité des données très complète.

Reporting

La détection constitue la première partie du processus de qualité. Le second composant majeur est le reporting.

Le reporting de qualité des données est géré par l'Enterprise Meta>Environment (EME). Il s'agit d'un système de métadonnées de haut niveau conçu à l'échelle de l'entreprise, destiné à gérer les besoins en métadonnées des analystes métier, des développeurs et de l'équipe de production, entre autres. Il traite de nombreux types de métadonnées, issues de différentes technologies, en trois catégories : métier, techniques et opérationnelles. Ces métadonnées incluent les statistiques de qualité des données.

Ab Initio stocke les statistiques de qualité des données dans l'EME pour établir des rapports. Exemple de type d'informations de qualité des données stockées dans l'EME : totaux agrégés des codes d'erreur (problèmes) de champs et de datasets. Ces totaux sont reliés au dataset concerné et aux champs posant des problèmes. Les problèmes sont agrégés et signalés par code d'erreur dans un jeu de codes de référence global, qui est stocké dans l'EME (ce dernier assurant la gestion des codes de référence).

La capture d'écran ci-dessous montre la capacité de l'EME à afficher les problèmes au niveau des champs avec les graphes de l'historique des tendances. Les totaux dépassant les seuils configurables apparaissent en jaune ou en rouge.

Comme représenté ci-dessous, Ab Initio est en mesure de calculer des métriques de qualité des données pour les datasets et les champs (colonnes). Ces métriques sont également stockées dans l'EME. Il existe un rapport tabulaire correspondant qui présente des graphes des tendances et des seuils jaunes/rouges.

Lorsque des mesures de qualité des données sont effectuées dans un environnement de grande envergure, il est possible d'agréger les informations en fonction de la structure organisationnelle de l'utilisateur. Les responsables peuvent ainsi examiner les métriques de qualité des données soit pour des applications ou des systèmes entiers soit pour certaines parties d'un rapport ou les deux. Dans ce rapport, les zones posant problème peuvent faire l'objet d'une recherche en explorant les détails.

La capture d'écran ci-dessous représente un certain nombre de zones de niveau supérieur et leurs métriques de qualité des données agrégées :

Reporting : lignage

De nombreux utilisateurs déploient leur programme de qualité des données en implémentant le processus de détection pour un certain nombre de datasets d'un même système. Par exemple, il n'est pas rare que la qualité des données d'une entreprise soit mesurée pour toutes les tables d'un seul de leurs entrepôts de données, mais nulle part ailleurs. Bien qu'il soit déjà préférable de mesurer la qualité de données d'un seul système plutôt que de ne pas la mesurer du tout, il serait plus utile d'effectuer des contrôles à différentes étapes du pipeline de traitement de l'entreprise. Par exemple, la qualité des données peut être mesurée dans l'entrepôt de données, mais aussi au niveau du système d'enregistrement, à des points de traitement intermédiaires et en aval dans les différents mini-entrepôts de données ou systèmes d'extraction. Chacun de ces systèmes peut enregistrer des métriques de qualité, qu'elles soient conçues avec Ab Initio ou non.

L'EME décuple la valeur d'un programme de qualité des données lorsque les mesures sont pratiquées en plusieurs points d'une entreprise. En effet, l'EME peut combiner le lignage des données avec les métriques de qualité, ce qui permet d'identifier les systèmes dans lesquels les problèmes sont introduits ainsi que leur emplacement.

Observez la capture d'écran suivante :

Cette capture d'écran représente un schéma de lignage développé dans l'EME. Chaque case grise représente un système. Les plus petites cases vertes, rouges et grises sont des datasets et des applications.

Les métriques de qualité peuvent être représentées sur chaque élément. Par exemple, le vert indique l'absence de problème et le rouge en signale la présence. Grâce à ces diagrammes, il est facile de suivre le cheminement des problèmes de qualité des données, de leur point de départ à leur destination. Pour la première fois, l'équipe dirigeante d'une entreprise peut vraiment se rendre compte de la manière dont les données et les problèmes évoluent dans leur environnement.

Enfin, le reporting de qualité des données ne se limite pas aux écrans intégrés de l'EME. Les informations de l'EME sont stockées dans une base de données relationnelle du marché, et Ab Initio fournit la documentation relative au schéma. Libre aux utilisateurs d'avoir recours aux outils de rapports d'informatique décisionnelle de leur choix pour développer des vues personnalisées de la qualité des données de leur entreprise.

Reporting : Data Profiler

Les résultats du Data Profiler d'Ab Initio peuvent également être utilisés pour un workflow de qualité des données. Comme les autres mesures de qualité, ces résultats sont stockés dans l'EME et peuvent être affichés dans le portail Web de l'EME.

De nombreuses entreprises considèrent le profilage des données comme une activité réservée à la découverte des données au début d'un projet. Or le profilage périodique et automatisé des données peut renforcer la valeur d'un programme de qualité des données dans son ensemble. Tandis que les métriques de qualité des données indiquent l'intégrité globale et les caractéristiques des données, les statistiques du Data Profiler permettent une analyse plus détaillée du contenu de différents datasets.

Voici une capture d'écran du rapport de haut niveau du Data Profiler exécuté sur un dataset. La diversité (valeurs distinctes), la validité et l'exhaustivité font partie des informations révélées par le Data Profiler. Celles-ci peuvent servir à sélectionner les champs nécessitant une attention particulière.

Ci-dessous figure une capture d'écran d'un champ sélectionné par l'utilisateur pour une analyse approfondie.

À partir de cet écran, il est possible d'accéder à l'affichage des enregistrements contenant les valeurs en question pour le champ sélectionné.

Conclusion

Bien que la qualité des données soit un enjeu commun, il n'existe pas de méthode unique adaptée aux besoins de chaque entreprise pour détecter, présenter sous forme de rapport et étudier les problèmes de qualité.

Les modèles de conception de qualité des données de bout en bout que propose Ab Initio peuvent s'utiliser sans personnalisation ou avec une personnalisation limitée. Pour les utilisateurs ayant des besoins spécifiques en matière de qualité (par exemple, d'autres types de détection, de reporting ou de gestion des problèmes), Ab Initio fournit une approche flexible et générique basée sur de puissants modules préexistants.

L'approche proposée par Ab Initio s'appuie sur le Co>Operating System. Celui-ci fournit un environnement informatique multi plate-forme très performant qui exécute les processus de détection, d'amélioration, de profilage des données et d'agrégation des statistiques pour tout type de données. Le Co>Operating System assure une évolutivité sans limite et peut ainsi effectuer toutes ces tâches sur des volumes de données très importants.

Le Business Rules Environment permet aux analystes et/ou aux experts métier de développer des règles de validation et de les tester au moyen d'une interface graphique simple. La productivité s'en trouve remarquablement améliorée, tout comme le degré d'agilité en matière de création et de mise à jour de règles de qualité des données.

Enfin, l'Enterprise Meta>Environment offre un niveau inégalé d'intégration des statistiques de qualité des données avec d'autres métadonnées, dont le lignage, les dictionnaires, les jeux de codes de domaine, les statistiques opérationnelles, la gouvernance des données et autres métadonnées techniques, opérationnelles et métier.

Grâce à la combinaison hors pair de ces fonctionnalités en une seule technologie intégrée, le système de qualité des données Ab Initio appartient à une classe à part.

English
Langue :
Français
Español
Deutsch
简体中文
日本語