Comment modéliser un entrepôt de données pour satisfaire les utilisateurs ?
Par Michel Bruley, Directeur Marketing & PR Teradata Europe de l’Ouest
En matière de modélisation de systèmes décisionnels deux grands types de modèles peuvent être mis en œuvre : le modèle en troisième forme normale et le modèle du schéma en étoile.
Dans un modèle en troisième forme normale chaque attribut (colonne) doit être un fait relatif à la clé primaire (toute la clé et rien que la clé), qui permet d'identifier de manière unique chaque enregistrement. Chaque donnée est alors implantée dans une table sans autre duplication, ni donnée dérivée. Ce modèle permet aux utilisateurs de poser à tout moment n'importe quel type de questions à propos de la totalité des données disponibles.
Dans un modèle en schéma en étoile on a une table de faits et un certain nombre de tables dimensionnelles. La table de faits est associée à une clé multi-composants. Chaque élément de la clé est lui même une clé autonome liée à une table dimensionnelle spécifique. Les autres champs de la table factuelle sont des faits, qui peuvent être considérés comme autant de mesures prises à l'intersection de toutes les dimensions retenues. Ces modèles en étoile permettent d'améliorer les performances, lorsqu'il s'agit de questions ou de requêtes, qui ont pu être anticipées au moment de la conception.
Les spécialistes chargés de la modélisation des bases de données décisionnelles connaissent bien l'intérêt d'un modèle logique en troisième forme normale, mais parce que de nombreux moteurs de bases de données sont sujets à des contraintes physiques, ils sont contraints de faire des compromis.
Les quatre opérations les plus difficiles à réaliser pour une base de données sont les suivantes :
1) rapprocher les tables,
2) cumuler les données,
3) trier les données
4) analyser des volumes importants de données.
Pour surmonter les limitations des bases de données, certains développeurs proposent des modèles qui évitent les rapprochements, ils prévoient alors d'utiliser des données déjà récapitulées pour éviter les contraintes liées au cumul, ou encore de stocker des données déjà triées, et de faire un usage intensif d'index pour éviter l'analyse de données volumineuses.
Après plus de vingt cinq ans d'expérience en vraie grandeur, Teradata affirme toujours que la troisième forme normale correspond bien au modèle à utiliser pour les entrepôts de données d'entreprise. En effet, ce modèle permet aux utilisateurs de formuler à tout moment n'importe quelle question sur les données disponibles, et telle est bien la philosophie fondamentale de l'entrepôt de données d'entreprise, qui implique de pouvoir tirer parti de la puissance des requêtes ad-hoc et de la fouille de données, qui permettent d'identifier des relations peu prévisibles et riches de sens.
Le modèle du schéma en étoile améliore les performances lorsqu'il s'agit de requêtes connues, mais il est toujours limité par les suppositions qui ont guidés sa conception. S'il peut arriver que ces suppositions soient exactes pour la première application, elles peuvent ne pas le rester pour d'autres.
Par conséquent, pour construire un entrepôt de données de classe mondiale, il faut commencer par élaborer l'entrepôt de données d'entreprise autour de données détaillées, et le fonder sur un modèle en troisième forme normale. Puis, à mesure que des requêtes sont réalisées et que les performances de certaines requêtes répétitives deviennent prioritaires, des datamarts en étoile peuvent être créés au sein de l'entrepôt de données d'entreprise ou en aval. L'utilisateur a alors accès à la fois aux datamarts - pour certaines requêtes répétitives - et à l'entrepôt d'entreprise pour toutes les autres requêtes.
Un entrepôt de données d'entreprise devrait toujours être conçu de manière à ce que tous ses utilisateurs puissent se procurer en temps opportun, l'information dont ils ont besoin pour leurs activités. Il existe deux types de demandes différentes : des demandes répétitives dont le cadre général est connu, et des demandes itératives imprévisibles. 80 % des requêtes sont répétitives, mais 80 % du retour sur investissement provient généralement des 20 % de requêtes qui portent sur les données détaillées dans une approche itérative.
Par conséquent, en utilisant la troisième forme normale pour le modèle de l'entrepôt de données centralisé, et l'indexage en étoile pour les datamarts, toute entreprise devrait pouvoir maximiser son retour sur investissement, tout en bénéficiant de performances très optimisées sur 80 % de ses requêtes. Voilà dans quelles conditions l'entrepôt de données pourra donner satisfaction à tous les acteurs d'une organisation.
Les 10 derniers articles mis en ligne
- Le stress du DSI
Par Sabine Bohnké, fondatrice du cabinet Sapientis - Quel positionnement pour les sociétés généralistes dans les projets de tests ?
Par Pierre de Rauglaudre, directeur Associé d’Acial - Après l’acquisition de 3PAR par HP
Quel avenir pour Dell ? - L’opérateur indonésien TELKOM fait converger ses réseaux IP et optiques
- Arkadin externalise la gestion de ses factures avec Esker
- SAP organise les Espresso Briefings
- Pouey International dématérialise avec Azur Technology
- Richard Ramos nommé directeur général de Smart technologies
- Eurocopter dématérialise avec b-process
- Mozy lance une version française de son service de sauvegarde en ligne






















Imprimer l'article
Transférer par mail
Réagir à cet article














le 01/09/2010 à 01:40