Le stress du DSI
Par Sabine Bohnké, fondatrice du cabinet Sapientis

Neutralité ou neutralisation du Net ? par Jean-Marie Chauvet

L'inquiétude des marchés par Jean-Marie Chauvet

« L’homo interneticus » restera-t-il « l’homo sapiens » ? (2e PARTIE)
Par Louis Naugès, Chairman, Revevol International

A coeur ouvert
Par Jean-Marie Chauvet

Toute les tribunes

Comment retrouver la passion de l’innovation en France ?
Par Maurice Ricci, PDG d’Akka Technologies,

par jack
le 01/09/2010 à 01:40

Hadopi se met en travers de la route des adeptes du téléchargement illégal

par David GENOIS
le 23/08/2010 à 11:10

Hadopi se met en travers de la route des adeptes du téléchargement illégal

par Dom55
le 21/08/2010 à 08:58

Hadopi se met en travers de la route des adeptes du téléchargement illégal

par Damien BIZEAU
le 21/08/2010 à 08:22

Répondre aux questions des recruteurs

par Alex
le 13/08/2010 à 04:46

Rechercher
Services
Logo_abonn Nerim Job Les derniers communiqués de presse Proposer un communiqué de presse
Fils RSS : Top 10 quotidien

Comment modéliser un entrepôt de données pour satisfaire les utilisateurs ?
Par Michel Bruley, Directeur Marketing & PR Teradata Europe de l’Ouest

vendredi 9 octobre 2009

20091009_24En matière de modélisation de systèmes décisionnels deux grands types de modèles peuvent être mis en œuvre : le modèle en troisième forme normale et le modèle du schéma en étoile.

 

Dans un modèle en troisième forme normale chaque attribut (colonne) doit être un fait relatif à la clé primaire (toute la clé et rien que la clé), qui permet d'identifier de manière unique chaque enregistrement. Chaque donnée est alors implantée dans une table sans autre duplication, ni donnée dérivée. Ce modèle permet aux utilisateurs de poser à tout moment n'importe quel type de questions à propos de la totalité des données disponibles.

 

Dans un modèle en schéma en étoile on a une table de faits et un certain nombre de tables dimensionnelles. La table de faits est associée à une clé multi-composants. Chaque élément de la clé est lui même une clé autonome liée à une table dimensionnelle spécifique. Les autres champs de la table factuelle sont des faits, qui peuvent être considérés comme autant de mesures prises à l'intersection de toutes les dimensions retenues. Ces modèles en étoile permettent d'améliorer les performances, lorsqu'il s'agit de questions ou de requêtes, qui ont pu être anticipées au moment de la conception.

 

Les spécialistes chargés de la modélisation des bases de données décisionnelles connaissent bien l'intérêt d'un modèle logique en troisième forme normale, mais parce que de nombreux moteurs de bases de données sont sujets à des contraintes physiques, ils sont contraints de faire des compromis.

 

Les quatre opérations les plus difficiles à réaliser pour une base de données sont les suivantes :

1) rapprocher les tables,

2) cumuler les données,

3) trier les données

4) analyser des volumes importants de données.

 

Pour surmonter les limitations des bases de données, certains développeurs proposent des modèles qui évitent les rapprochements, ils prévoient alors d'utiliser des données déjà récapitulées pour éviter les contraintes liées au cumul, ou encore de stocker des données déjà triées, et de faire un usage intensif d'index pour éviter l'analyse de données volumineuses.

 

Après plus de vingt cinq ans d'expérience en vraie grandeur, Teradata affirme toujours que la troisième forme normale correspond bien au modèle à utiliser pour les entrepôts de données d'entreprise. En effet, ce modèle permet aux utilisateurs de formuler à tout moment n'importe quelle question sur les données disponibles, et telle est bien la philosophie fondamentale de l'entrepôt de données d'entreprise, qui implique de pouvoir tirer parti de la puissance des requêtes ad-hoc et de la fouille de données, qui permettent d'identifier des relations peu prévisibles et riches de sens.

 

Le modèle du schéma en étoile améliore les performances lorsqu'il s'agit de requêtes connues, mais il est toujours limité par les suppositions qui ont guidés sa conception. S'il peut arriver que ces suppositions soient exactes pour la première application, elles peuvent ne pas le rester pour d'autres.

 

Par conséquent, pour construire un entrepôt de données de classe mondiale, il faut commencer par élaborer l'entrepôt de données d'entreprise autour de données détaillées, et le fonder sur un modèle en troisième forme normale. Puis, à mesure que des requêtes sont réalisées et que les performances de certaines requêtes répétitives deviennent prioritaires, des datamarts en étoile peuvent être créés au sein de l'entrepôt de données d'entreprise ou en aval. L'utilisateur a alors accès à la fois aux datamarts - pour certaines requêtes répétitives - et à l'entrepôt d'entreprise pour toutes les autres requêtes.

 

Un entrepôt de données d'entreprise devrait toujours être conçu de manière à ce que tous ses utilisateurs puissent se procurer en temps opportun, l'information dont ils ont besoin pour leurs activités. Il existe deux types de demandes différentes : des demandes répétitives dont le cadre général est connu, et des demandes itératives imprévisibles. 80 % des requêtes sont répétitives, mais 80 % du retour sur investissement provient généralement des 20 % de requêtes qui portent sur les données détaillées dans une approche itérative.

 

Par conséquent, en utilisant la troisième forme normale pour le modèle de l'entrepôt de données centralisé, et l'indexage en étoile pour les datamarts, toute entreprise devrait pouvoir maximiser son retour sur investissement, tout en bénéficiant de performances très optimisées sur 80 % de ses requêtes. Voilà dans quelles conditions l'entrepôt de données pourra donner satisfaction à tous les acteurs d'une organisation.

ITRtv

Les 10 derniers articles mis en ligne