Quelques notions sur l’informatique décisionnel

Un système décisionnel est un système d’information qui regroupe les données d’aide à la décision et facilite leur exploitation en les fournissant les outils adéquats. Il est basé sur un système OLAP (On-Line Analytical Processing) qui propose de collecter les données pertinentes, en vue de les organiser selon des structures adaptées et de les interroger de manière interactive et dynamique à la prise de décision. OLAP organise les données dans un espace dimensionnel. Les modèles dimensionnels sont basés sur la dualité Fait – Dimension.

Un Fait est un centre d’intérêt décisionnel. Il regroupe un ensemble d’attributs numériques représentant les mesures d’activités.

Une Mesure est un indicateur d’analyse de type numérique et cumulable ; elle est accompagnée d’un ensemble de fonctions d’agrégation qui permettent de l’agréger en fonction des axes d’analyse. Les mesures sont réunies dans un même Fait si elles peuvent être analysées suivant les mêmes axes d’analyse. Les Faits comportent un très grand volume de données pouvant être résumées, lors des interrogations, grâces aux opération d’agrégation ; or, ces opérations ne peuvent être appliquées que sur les données numériques et additives.

Une Dimension est un axe d’analyse selon lequel sont visualisées les Mesures d’activités d’un sujet d’analyse. Parmi les attributs d’une dimension, nous retrouvons les paramètres de l’analyse.

Un Paramètre est un attribut appartenant à une Dimension. Il représente un niveau de détail selon lequel sont visualisées les mesures d’activités d’un sujet d’analyse. Un attribut faible est un descripteur de paramètre. Cependant, l’ensemble composé du paramètre et de ses attributs faibles est appelé niveau hiérarchique.

Une Hiérarchie est une perspective d’analyse définie dans une Dimension. Elle regroupe un ensemble de paramètres organisés de la granularité la plus fine vers la granularité la plus générale.

La combinaison de ces différents concepts définie ci-dessus permet de construire des modèles dimensionnels le plus souvent présentés sous forme de schéma en étoile, en flocon ou en constellation. Le schéma en étoile diffère du schéma en constellation par le nombre de sujet d’analyse (table de Fait). Dans le modèle en étoile, il y a une seule table de Fait alors que dans le modèle en constellation il y a plusieurs Faits qui partage certaines dimensions. L’ajout du niveau hiérarchique permet de définir le modèle en Flocon.

Un Cube est composé de k dimensions et un ensemble de valeur de mesure (case du cube). Une case du cube peut prendre 3 valeurs possibles : un n-uplet comportant la valeur des mesures correspondant à cette combinaison; la valeur 1 indiquant que la combinaison existe; la valeur 0 indiquant que la combinaison des valeurs des dimensions n’existe pas.

Remarque

Il est conseillé de faire des mises à jour des entrepôts de données par lots qu’en temps réel ; l’une des principales raisons est la stabilité des données. Il faut généralement prendre en compte que les systèmes sources opérationnels évoluent constamment. Certains changent toutes les minutes et d’autres toutes les secondes. Si vous autorisez le système source à mettre à jour l’entrepôt de données en temps réel ou si vous autorisez les utilisateurs à mettre à jour l’entrepôt de données à tout moment, il sera difficile d’effectuer une analyse car les données changent à chaque fois. L’autre raison est la performance du système source.

Les approches en temps quasi réel peuvent être mises en œuvre en utilisant un mini-lot avec une fréquence de deux à cinq minutes, qui extrait les données de la scène au lieu d’utiliser des déclencheurs. Ce mini batch effectue également le travail ETL normal: transformer les données et les charger dans la base de données dimensionnelle de l’entrepôt de données. Le mini-lot peut également extraire les données directement du système source, éliminant ainsi la nécessité de modifier le système source pour mettre à jour la zone de transfert.

Les techniques utilisées pour les mises à jour des entrepôts de données sont généralement la pull et la push approche.

Pull approche est le processus qui permet à un BDM de récupérer périodiquement les données de base provenant d’un système OLTP

Push approche est le processus qui permet à un système OLTP de fournir (d’envoyer) périodiquement les données de base à un OLAP

COMMENT CHOISIR LES AXES D’ANALYSE (DIMENSIONS)

Certaines questions permettent de nous orienter dans le choix des axes d’analyse (Dimensions). Citons quelques-unes :

– A qui ces données pourraient-elles être utiles ?

-Comment les analystes regrouperaient-ils les données ?

-Comment les analystes filtreraient-il les données ?

-Quels sont les titres de colonne des rapports actuellement produit?

Un modèle dimensionnel est le résultat :       

                – d’une analyse des besoins : ce que je souhaite étudier

                – d’une analyse des données disponibles : ce que je peux étudier

Attention à ne pas croire que la distinction se fait selon le type de la donnée, texte ou valeur numérique, puisqu’un âge ou un prix peuvent complétement être des éléments servant à filtrer (j’étudie mon CA des ventes par prix de vente des articles), donc être côté dimension.

METHODOLOGIE GENERALE DE MODELISATION DIMENSIONNELLE

1. Analyse des données:

                 a. étude des sources de données

       b. qualification des données

                 c. intégration logique des données

2. Analyse des besoins

       a. exprimer les besoins sous la forme de requête décisionnelles

                 b. réaliser les vues hiérarchiques pour chaque requête

3. Sélectionner les requêtes qui seront effectivement réalisables en fonction des besoins disponibles

4. conception du data Warehouse et des data Marts

       a. séparer les requêtes en fonction de la granularité de la table des faits (grain fin des ventes, grain plus grossier du ticket de caisse etc.…)

       b. créer un data Warehouse intégrant toutes les requêtes de grain fin

       c. extraire les data Marts par niveau de grain supérieur et/ou pour des thématiques particulières nécessitant par exemple une pré-agrégation

CHOIX ENTRE FAIT ET DIMENSION

D’un point de vue strictement fonctionnel, le critère est simple : c’est le rythme de changement d’un attribut par rapport à un autre et par rapport au fait.

     Si le magasin ne change jamais de ville, alors la ville est un attribut de magasin ;

     Si le magasin peut changer de ville mais c’est rare, la villeserra toujours considérée comme un attribut de magasin ; la technique utilisée est la SCD (Slowly Changing Dimension)

     Si le magasin change de ville plus ou moins à la même granularité temporelle que les faits, alors c’est une dimension indépendante. Si on récapitule le tout, c’est plutôt simple finalement :

Fait ou Dimension : quantifier (mesurer) versus qualifier (ventiler)

Dimension ou Attribut de dimension : en fonction du rythme de changement de l’attribut par rapport à la table de fait.

CARACTERISTIQUE D’UNE TABLE DE DIMENSION

Une table de dimension doit avoir les caractéristiques suivantes :

     Pas de code : les données doivent être compréhensive

     Littéraux : mot complet

     Descriptifs

     Soignés : orthographe, valeur

     Indexés

     Documentés


246total visits,1visits today