Data Warehouse
Grandes tendances des Data Warehouse en 2025
Le concept de Data Warehouse (DWH) - entrepôt de données - est apparu dans les années 1990 pour répondre au besoin grandissant de gestion des données dont la volumétrie – toute relative par rapport à aujourd’hui – augmentait rapidement. Il répondait aux problèmes d’alignement des données du fait de l’organisation en silo des systèmes d’information et de gestion de l’historisation des données métier. Il s’agissait de faciliter la visibilité de l’évolution des ventes, des stocks, de suivi des clients afin d’ajuster les stratégies commerciales. L’usage s’est étendu rapidement à de nombreux secteurs comme la santé, la téléphonie, le transport, l’éducation…
Les entrepôts de données sont devenus depuis lors ce référentiel central, un point de vérité disent les architectes, de stockage des données structurées. L’organisation des données sous forme d’étoiles suivant les règles des concepteurs du principe est bien codifiée et sert toujours de référence pour créer de nouvelles applications. Les services en cloud ont parfaitement intégré les règles de conceptions des modèles à partir des typologies de service métier. Les données sont organisées afin de refléter les sujets métiers (les Faits). Et donc à l’inverse des contraintes liées au transactionnel du système opérationnel, les Faits des Data Warehouse peuvent être plus facilement documentés, manipulés par les analystes décisionnels. Ils sont également plus performants à traiter de grandes volumétries pour les séries temporelles.
Qu’en est-il aujourd’hui de ce choix technique trentenaire à l’heure du Big Data, du NoSQL ?
Tout d’abord, il n’y a pas de compétition entre ces technologies. Au contraire, les architectes de SI vont les exploiter de façon complémentaire :
1. On tend vers une plus grande intégration avec les technologies "NoSQL/Big Data"
Les entrepôts de données sont utilisés conjointement avec ces technologies, telles que Hadoop et Spark, pour résoudre le traitement de grands volumes de données structurées et non structurées. Cette tendance se poursuivra dans les années à venir, car les entreprises cherchent à tirer parti de la puissance du big data sans effectuer de rupture avec les outils qui sont en place. Sachant que l’offre sous Hadoop ne permet pas actuellement de remplacer les fonctionnalités de l’informatique « classique »
La gestion en flux tendu des données converge vers de nouvelles architectures où les données sont raffinées entre les données captées des sources, c'est la version bronze. Puis mises en qualité et améliorées, c'est la version silver ; Enfin, les données sont représentées dans un modèle étoile et mises à disposition pour l'analyse, c'est le format gold.
On constate que l’offre Cloud permet d’être très agile dans la mise en place de services décisionnels.
Hormis les contraintes réglementaires liées à l’hébergement et la sécurité des données, les enquêtes des cabinets d’analyse de tendance montrent :
2. L’adoption accrue des entrepôts de données basés sur le cloud
Les entreprises se tournent de plus en plus vers les entrepôts de données basés sur le cloud, tels qu'Amazon Redshift et Google BigQuery, en raison de leur facilité de mise en œuvre, leur évolutivité et de leur coût. Ces plateformes permettent aux entreprises d'ajuster facilement la capacité de stockage et puissance de traitement de leurs DWH. Les entreprises peuvent ainsi gérer les besoins qui fluctuent ou là où la montée en puissance est progressive. L’investissement initial est également moindre
Enfin les cadres méthodologiques de gouvernance des données montrent le rôle central d’un DWH dans la création de valeur autour d’un pôle de données consolidées et mises en qualité. Le DWH est la brique centrale du capital données et la porte vers l’analyse décisionnelle et la data science. On observe :
3. Une plus grande attention portée à la gouvernance des données : Les entrepôts de données devenant la clé de l’analyse de l’activité des entreprises, du profil des clients, du positionnement de leur produit sur le marché. Il s'agit de disposer d’un point de vérité. S'assurer que les données sont accessibles, exactes, cohérentes et conformes aux exigences réglementaires. Les entreprises devront mettre en œuvre un cadre de gouvernance des données et une entité de gestion des données afin d’accompagner la démarche de gestion et de support interne
4. L'émergence d’analyses basées sur des données en libre-service : La mise à disposition ciblée de données en libre-service permet aux utilisateurs des pôles métier de disposer de données à fin d’analyse sans l'intervention de la DSI. Cette tendance de fond va de pair avec l’acculturation des métiers à la gestion de leurs données. Il s’agit de la possibilité de construire de l’informations à partir de leurs données et d’autres données ad hoc
5. Le développement de l'apprentissage machine et de l'intelligence artificielle : L'apprentissage machine et l'intelligence artificielle s’industrialise au sein du système d’information. Il ne s’agit plus seulement d’un outil de data scientist pour effectuer des études ponctuelles en R ou python. Les traitements R ou python deviennent des automates de production activés en tâche de fond ou déclenchés à la demande pour surveiller (détection de fraude) ou enrichir les données transactionnelles (calcul de catégorie, profils clients). Le référentiel de données de ces automates est le DWH, ce point de vérité qui contient le meilleur des données de l’entreprise. Compte tenu du développement de l’activité Data Lab, des postes de data scientists, nous allons observer une augmentation de ces usages afin de disposer un avantage concurrentiel
Le concept de Data Warehouse reste une valeur sûre dans le système d’information comme clé de voute de ce référentiel fiabilisé, holistique des données qui représente l’activité des entreprises. Il est assisté par les nouveaux concepts de Data Lake, ou mieux de Smart Data – version sécurisée et opérée selon la règle des 6V des Data Lake – et s’inscrit dans les stratégies des grands éditeurs puisque les passerelles entre bases de données relationnelles et le monde du NoSQL/Big Data existent.
Dans l'ensemble, nous pouvons nous attendre à une évolution de l'intégration du DWH comme composant majeur de l'architecture orientée données. Le Data Warehouse porte le capital données, ce qui sous-entend la connaissance de l'entreprise. Il est organisé, documenté, structuré, ce qui constitue à priori une réponse fonctionnelle majeure. La technologie sous-jacente est simple : une base de données et un modèle. C'est un bon gage d'évolutivité facile à contrôler.
Ce choix ouvert est adapté à la connexion d'applications aux normes d'interopérabilité récentes. Elle répond aux exigences fonctionnelles de libre-service des utilisateurs des pôles métier. Comme pour la technologie, l'utilisation et le développement continus de solutions basées sur le cloud pour se mettre à l'échelle et intégrer les technologies du NoSQL/Big Data permettent de bénéficier des améliorations à chaque version des outils du décisionnel (puissance de traitement, ergonomie, visualisation), l'ouverture à l'exploitation de l'intelligence artificielle et de l'apprentissage automatique.