Maîtriser la Qualité des Données : une tâche pour Sisyphe ?
Par Michel Bruley, directeur marketing Teradata Europe de l’Ouest
Publié le 15 avril 2009
La qualité des données est un des problèmes fondamentaux des systèmes d'information des entreprises. La multiplication des moyens technologiques mis en œuvre ces dix dernières années, n'a fait que complexifier la situation, et régulièrement les analystes évaluent en milliards de dollars, les pertes annuelles dues à une insuffisance de qualité des données.
Deux exemples pour concrétiser cet état de fait. Le premier concerne le secteur des télécommunications, où depuis quelques années nous avons vu se multiplier les programmes de « Revenue Assurance ». Il s'agit pour un opérateur d'être en mesure de bien facturer les prestations qu'il a effectuées pour le compte de ses clients. Basique penseront certains, pas du tout, les experts estiment que de nombreux opérateurs perdent jusqu'à cinq pour cent de leur chiffre d'affaires, du fait d'une qualité insuffisante des données qui ne leur permet pas de toujours aller au bout de leur processus de facturation. Le deuxième concerne la Nasa, qui récemment a perdu un satellite d'une valeur de plusieurs centaines de millions de dollars, du fait que l'équipe internationale qui avait travaillé sur ce projet, n'a pas utilisé la même unité de valeur pour l'un des paramètres de pilotage de l'engin. Armé de « fausses » indications sur sa position, l'ordinateur de bord a conduit avec précision le satellite à sa perte.
Un système d'information décisionnel a pour objet d'aider les décideurs à effectuer des choix pertinents en utilisant des données historiques. Ceci implique généralement de prendre en charge de grandes quantités de données disparates, afin de les calibrer en information suffisamment précise et sûre, pour qu'en confiance des actions puissent être définies et lancées. Ce défi classique pour les architectes de systèmes décisionnels, est amplifié ces derniers temps par l'augmentation des exigences en matière de variété, de fraîcheur et de profondeur des données historiques à gérer. Dans ce contexte, la vitesse avec laquelle des données peuvent être nettoyées, transformées et intégrées dans un entrepôt devient essentielle pour la compétitivité des entreprises.
La qualité d'une donnée dépend d'abord du contexte dans lequel elle a été initialement saisie, mais d'un point de vue décisionnel, son intérêt dépend de l'usage qu'un utilisateur peut en faire. La qualité d'une donnée ne doit donc pas être appréciée dans l'absolu, mais de façon relative à son intérêt métier, et les programmes d'amélioration de la qualité des données doivent être ciblés en fonction des intérêts métier. Mais les besoins métiers évoluant, l'appréciation de la qualité d'une donnée ne peut donc jamais être fixée de façon définitive, et les programmes d'amélioration de la qualité des données, représentent souvent une charge de travail digne de Sisyphe.
Tous les systèmes d'information opérationnels génèrent des données qui présentent quelques défauts, et la meilleure place pour essayer d'améliorer leur qualité est bien entendu leur application d'origine, mais comme cela n'est pas toujours possible, il convient de le faire dans le cadre du processus ETL (Extract, Transform, Load), dans différentes zones tampons ou dans l'entrepôt de données lui-même. Dans cette opération un des moments clé est celui du « profilage » des données, c'est-à-dire lorsque sont mis en lumière certaines caractéristiques des données (exactitude, complétude, unicité, consistance, soit concrètement des valeurs manquantes, fausses, corrompues, désynchronisées, ...).
Il existe maintenant des outils qui peuvent alléger les charges de travail des opérations d'amélioration de la qualité des données et chez Teradata nous utilisons des solutions de partenaires comme Informatica, Business Objects, Trillium par exemple, mais par-dessus tout il convient d'organiser la gouvernance des données. Pour cela il faut mettre en place un comité de direction spécifique incluant des utilisateurs, des informaticiens et désigner un utilisateur métier pour prendre la responsabilité à plein temps de ce programme. A ce niveau ont définis des principes de gouvernance des données et une organisation comprenant :
- des responsables de grands ensembles de données, qui s'appuient sur des utilisateurs métiers issus de toutes les directions de l'entreprise, et des informaticiens issus de la DSI.
- un programme de gestion proactive des données, incluant des processus de réponse aux besoins des utilisateurs et de gestion des projets de développement, des réunions régulières, des revues mensuelles, des indicateurs de suivi, etc.
Cette organisation doit permettre de traquer pro activement des opportunités d'amélioration de la qualité des données, de la qualité des modèles, des technologies mis en œuvre, des architectures et des projets de développement. En termes de résultat, au niveau de l'utilisation des données cela doit se traduire par une meilleure compréhension des informations produites par les systèmes décisionnels, et le développement de nouveaux usages métier des gisements de données.
Pour aller plus loin sur ce sujet, vous pouvez utilement consulter le lien ci-dessous :
http://www.teradata.com/tdmo/v08n04/Viewpoints/EnterpriseView/TenHabits.aspx