Le terme entrepôt de données[1] ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles[2] et fournir ainsi un socle à l'aide à la décision en entreprise.
Définition et construction
Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but est de fournir un ensemble de données servant de référence unique, utilisée pour la prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting. D'un point de vue technique, il sert surtout à 'délester' les bases de données opérationnelles des requêtes pouvant nuire à leurs performances.
D'un point de vue architectural, il existe deux manières de l'appréhender :
l'architecture « de haut en bas » : selon Bill Inmon, l'entrepôt de données est une base de données au niveau détail, consistant en un référentiel global et centralisé de l'entreprise. En cela, il se distingue du Datamart, qui regroupe, agrège et cible fonctionnellement les données ;
l'architecture « de bas en haut » : selon Ralph Kimball, l'entrepôt de données est constitué peu à peu par les Datamarts de l'entreprise, regroupant ainsi différents niveaux d'agrégation et d'historisation de données au sein d'une même base.
La définition la plus communément admise est un mélange de ces deux points de vue. Le terme « data warehouse » englobe le contenant et le contenu : il désigne d'une part la base détaillée qui est la source de données à l'origine des Datamarts, et d'autre part l'ensemble constitué par cette base détaillée et ses Datamarts. De la même manière, les méthodes de conception actuelles prennent en compte ces deux approches, privilégiant certains aspects selon les risques et les opportunités inhérents à chaque entreprise.
Principe de fonctionnement
Intégration
Dans les faits, les données alimentant l'entrepôt de données sont hétérogènes, issues de différentes applications de production, voire de fichiers dits « plats » (fichiers Excel, fichiers texte, XML...). Il s’agit alors de les intégrer, de les homogénéiser et de leur donner un sens unique compréhensible par tous les utilisateurs.
La transversalité recherchée sera d’autant plus efficace que le système d’information sera réellement intégré dans sa globalité. Cette intégration nécessite notamment :
une forte activité de normalisation et de rationalisation, orientée vers la qualité ;
une bonne gestion des référentiels, incluant une vérification constante de leur intégrité ;
La problématique de l'intégration repose sur la standardisation de données internes à l'entreprise, mais aussi des données externes (provenant par exemple de clients ou de fournisseurs).
Ce n’est qu’au prix d’une intégration poussée que l’on peut offrir une vision homogène et véritablement transverse de l’entreprise. Ceci suppose que le système d’information de l’entreprise en amont soit bien structuré, bien maîtrisé, et bénéficie déjà d’un niveau d’intégration suffisant. Si tel n'est pas le cas, la mauvaise qualité des données peut empêcher la mise en œuvre de l'entrepôt de données.
Historisation
L'historisation d'un Datawarehouse repose sur le principe de conservation des données (ou de non-volatilité des données). Afin de conserver la traçabilité des informations et des décisions prises, les données une fois entrées dans l'entrepôt sont stables, en lecture seule, non modifiables par les utilisateurs. Une même requête lancée plusieurs fois à différents moments doit ainsi restituer les mêmes résultats. Dès qu’une donnée est qualifiée pour être introduite dans l'entrepôt de données, elle ne peut donc plus être altérée, modifiée ou supprimée (jusqu'à un certain délai de purge). Elle devient, de fait, partie intégrante de l’historique de l’entreprise.
Le principe de non-volatilité tranche avec la logique des systèmes de production, qui bien souvent remettent à jour les données par « annule et remplace » à chaque nouvelle transaction. Chaque donnée collectée se voit affecter une date ou un numéro de version pour éviter de recouvrir une information déjà présente dans la base de données, et permettre de suivre son évolution au cours du temps. Il y a de cette manière conservation de l'historique.
D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des indicateurs et de réaliser des analyses comparatives (par exemple, les ventes d'une année sur l'autre). De ce fait, dans un entrepôt de données, un référentiel de temps unique est nécessaire.
Organisation fonctionnelle
L'entrepôt de données intègre au sein d'une même base les informations provenant de multiples applications opérationnelles. On passe ainsi d’une vision verticale de l’entreprise, dictée par des contraintes techniques, à une vision transversale, dictée par le besoin métier, qui permet de croiser fonctionnellement les informations. L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles (services) de l’entreprise. On dit que l'entrepôt de données est orienté « métier », en réponse aux différents métiers de l’entreprise dont il prépare l’analyse. Lorsque l'entrepôt de données est transverse on parle alors de « Datawarehouse », lorsque l'entrepôt de donnée est spécialisé dans un domaine métier (Finance, Achats, Production, etc.), on parlera alors plutôt de « Datamart ».
D'un point de vue conceptuel, les données d'un Data warehouse sont interprétables sous forme d'indicateurs répartis selon des axes (ou dimensions) : par exemple, le nombre de clients (indicateur) réparti par jour de vente, magasin ou segment de clientèle (axes). Techniquement, la modélisation de l'entrepôt de données peut matérialiser cette organisation sous forme de tables de fait ou et de tables de référentiel.
Structure de données
L'entrepôt de données a une structure de données qui peut en général être représentée par un modèle de données normalisé 3FN (3NF(en)) pour les données de détail et/ou en étoile ou en flocon pour les données agrégées et ce dans un SGBD relationnel (notamment lorsqu'il s'agit de données élémentaires ou unitaires non agrégées). La traduction technique de ce modèle se fait souvent au sein d'un cube OLAP.
L'entrepôt de données est conçu pour contenir les données en adéquation avec les besoins de l’organisation, et répondre de manière centralisée à tous les utilisateurs. Il n’existe donc pas de règle unique en matière de stockage ou de modélisation.
Ainsi, ces données peuvent donc être conservées :
de préférence, sous forme élémentaire et détaillée (exemple : pour une banque, chaque opération sur chaque compte de chaque client) si la volumétrie le permet. Les données élémentaires présentent des avantages évidents (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le « passé ») mais représentent un plus grand volume et nécessitent donc des matériels plus performants.
éventuellement, sous forme agrégée selon les axes ou dimensions d'analyse prévus (mais ces agrégations sont plutôt réalisées dans les datamarts que dans les entrepôts de données proprement dits). Les données agrégées présentent d'autres avantages (facilité d'analyse, rapidité d'accès, moindre volume). Par contre, il est impossible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés : on prend le risque de figer les données selon une certaine vue avec les axes d'agrégation retenus, et de ne plus pouvoir revenir sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera plus possible de faire une analyse par journée).
Autour de l'entrepôt de données
En amont
En amont de l'entrepôt de données se place toute la logistique d'alimentation des données de l'entrepôt :
extraction des données de production, transformations éventuelles et chargement de l'entrepôt (c'est l'ETL ou Extract, Transform and Load ou encore datapumping).
au passage les données sont épurées ou transformées par :
un filtrage et une validation des données (les valeurs incohérentes doivent être rejetées)
un codage (une donnée représentée différemment d'un système de production à un autre impose le choix d'une représentation unique pour les futures analyses)
une synchronisation (s'il y a nécessité d'intégrer en même temps ou à la même « date de valeur » des événements reçus ou constatés de manière décalée)
une certification (pour rapprocher les données de l'entrepôt des autres systèmes « légaux » de l'entreprise comme la comptabilité ou les déclarations réglementaires).
Cette alimentation de l'entrepôt de données se base sur les données sources issues des systèmes transactionnels de production, sous forme de :
compte-rendu d'événement ou compte-rendu d'opération : c'est le constat au fil du temps des opérations (achats, ventes, écritures comptables...), le film de l'activité de l'entreprise ou flux ;
compte-rendu d'inventaire ou compte-rendu de stock : c'est l'image photo prise à un instant donné (à une fin de période : mois, trimestre...) de l'ensemble du stock (clients, contrats, commandes, encours...).
La mise en place d'un système d'alimentation fiable de l'entrepôt de données est souvent le poste budgétaire le plus coûteux dans un projet d'informatique décisionnelle.
La conception d'entrepôts de données [3] est donc un processus en perpétuelle évolution. Sous cet angle, on peut finalement voir l'entrepôt de données comme une architecture décisionnelle capable à la fois de gérer l'hétérogénéité et le changement et dont l'enjeu est de transformer les données en informations directement exploitables par les utilisateurs du métier concerné.
Comparatif entre les bases de données de l'entreprise
Ces différences tiennent au fait que les entrepôts permettent des requêtes qui peuvent être complexes et qui ne reposent pas nécessairement sur une table unique. On peut résumer les conséquences de la transformation d'un Data warehouse en Datamart comme suit : un gain de temps de traitement et une perte de puissance d'utilisation.
Quel est le nombre de paires de chaussures vendues par le magasin « OnVendDesChaussuresIci » en mai 2003 ET Comparer les ventes avec le même mois de 2001 et 2002
Quelles sont les composantes des machines de production ayant eu le plus grand nombre d’incidents imprévisibles au cours de la période 1992-97 ?
Les réponses aux requêtes OLAP peuvent prendre de quelques secondes à plusieurs minutes, voire plusieurs heures.
Histoire
Le concept de data warehousing remonte à la fin des années 1980 [4] lorsque les chercheurs d'IBM Barry Devlin et Paul Murphy ont développé le « business data warehouse ». Essentiellement, le concept d'entreposage de données visait à fournir un modèle architectural pour le flux de données des systèmes opérationnels aux environnements d'aide à la décision.
Le concept a tenté de répondre aux différents problèmes associés à ce flux, principalement les coûts élevés qui y sont associés. En l'absence d'une architecture d'entreposage de données, une énorme quantité de redondance était nécessaire pour prendre en charge plusieurs environnements d'aide à la décision. Dans les grandes entreprises, il était courant que plusieurs environnements d'aide à la décision fonctionnent de manière indépendante. Bien que chaque environnement servait des utilisateurs différents, ils nécessitaient souvent une grande partie des mêmes données stockées. Le processus de collecte, de nettoyage et d'intégration des données provenant de diverses sources, généralement des systèmes opérationnels existants à long terme (souvent appelés systèmes hérités), était en partie répliqué pour chaque environnement. De plus, les systèmes opérationnels étaient fréquemment réexaminés au fur et à mesure de l'émergence de nouveaux besoins d'aide à la décision. Souvent, les nouvelles exigences nécessitaient la collecte, le nettoyage et l'intégration de nouvelles données à partir de « datamarts » conçues pour un accès facile par les utilisateurs.
De plus, avec la publication de The IRM Imperative (Wiley & Sons, 1991) par James M. Kerr, l'idée de gérer et d'attribuer une valeur monétaire aux ressources de données d'une organisation, puis de déclarer cette valeur en tant qu'actif dans un bilan est devenue populaire. Dans le livre, Kerr a décrit un moyen de remplir des bases de données de domaines à partir de données dérivées de systèmes axés sur les transactions pour créer une zone de stockage où les données récapitulatives pourraient être davantage exploitées pour éclairer la prise de décision des dirigeants. Ce concept a servi à promouvoir une réflexion plus approfondie sur la manière dont un Data Warehouse pourrait être développé et géré de manière pratique au sein de toute entreprise.
Principaux développements au cours des premières années de l'entreposage de données :
Années 1960 – General Mills et Dartmouth College, dans le cadre d'un projet de recherche conjoint, développent les termes dimensions et facts[5].
Années 1970 – ACNielsen et IRI fournissent des magasins de données dimensionnelles pour les ventes au détail.
Années 1970 – Bill Inmon commence à définir et à discuter du terme Data Warehouse.[réf. nécessaire]
1975 – Sperry Univac lance MAPPER (Maintain, Prepare, and Produce Executive Reports), un système de gestion de base de données et de reporting qui inclut le premier 4GL au monde. Il s'agit de la première plate-forme conçue pour la construction de centres d'information (un précurseur de la technologie contemporaine de Data Warehouse).
1983 – Teradata introduit l'ordinateur de base de données DBC/1012 spécialement conçu pour l'aide à la décision [6].
1984 – Metaphor Computer Systems, fondé par David Liddle et Don Massaro, publie un package matériel/logiciel et une interface graphique permettant aux utilisateurs professionnels de créer un système de gestion de base de données et d'analyse.
1985 - Sperry Corporation publie un article (Martyn Jones et Philip Newman) sur les centres d'information, où ils introduisent le terme Data Warehouse MAPPER dans le contexte des centres d'information.
1988 – Barry Devlin et Paul Murphy publient l'article « An architecture for a business and information system » où ils introduisent le terme « business data warehouse »[7].
1990 – Red Brick Systems, fondée par Ralph Kimball, lance Red Brick Warehouse, un système de gestion de base de données spécialement conçu pour l'entreposage de données.
1991 - James M. Kerr, auteurs de The IRM Imperative, qui suggère que les ressources de données pourraient être déclarées comme un actif dans un bilan, renforçant l'intérêt commercial pour la création d'entrepôts de données.
1991 – Prism Solutions, fondée par Bill Inmon, présente Prism Warehouse Manager, un logiciel de développement d'un Data Warehouse.
1992 – Bill Inmon publie le livre Building the Data Warehouse[8].
1995 – Le Data Warehousing Institute, une organisation à but lucratif qui promeut l'entreposage de données, est fondé.
1996 – Ralph Kimball publie le livre The Data Warehouse Toolkit[9].
2000 - Dan Linstedt publie dans le domaine public la modélisation Data Vault, conçue en 1990 comme une alternative à Inmon et Kimball pour fournir un stockage historique à long terme des données provenant de plusieurs systèmes opérationnels, en mettant l'accent sur le traçage, l'audit et la résilience au changement du modèle de données source.
2008 - Bill Inmon, avec Derek Strauss et Genia Neushloss, publie « DW 2.0: The Architecture for the Next Generation of Data Warehousing », expliquant son approche descendante de l'entreposage de données et forgeant l'expression terme data-warehousing 2.0.
2012 – Bill Inmon développe et fait connaître la technologie publique sous le nom de « textual disambiguation ». La désambiguïsation textuelle applique le contexte au texte brut et reformate le texte brut et le contexte dans un format de base de données standard. Une fois que le texte brut est passé à travers la désambiguïsation textuelle, il peut être facilement et efficacement accessible et analysé par la technologie de business intelligence standard. La désambiguïsation textuelle est accomplie par l'exécution d'ETL textuel. La désambiguïsation textuelle est utile partout où du texte brut est trouvé, comme dans les documents, Hadoop, les e-mails, etc.
Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Desember 2023. Daftar tokoh Samarinda berikut ini memuat nama tokoh-tokoh yang berasal dari Samarinda baik secara genetis maupun yang menetap, pernah menetap, dan bekerja di Samarinda. Perangkat pemantau ini bisa digunakan untuk melihat perubahan terbaru dari artike...
Study of the deformation of solids that touch each other This article may be too technical for most readers to understand. Please help improve it to make it understandable to non-experts, without removing the technical details. (March 2011) (Learn how and when to remove this template message) Part of a series onContinuum mechanics J = − D d φ d x {\displaystyle J=-D{\frac {d\varphi }{dx}}} Fick's laws of diffusion Laws Conservations Mass Momentum Energy Inequalities Clausius–D...
Discontinued streaming media device Not to be confused with Sling TV, an unrelated product of another Dish Network subsidiary. SlingboxIndustryStreaming mediaFounder Blake Krikorian Jason Krikorian Bhupen Shah FateDiscontinuedParentSling Media The Slingbox was a TV streaming media device made by Sling Media that encoded local video for transmission over the Internet to a remote device (sometimes called placeshifting). It allowed users to remotely view and control their cable, satellite, or di...
Serafim BatzoglouBornAthens, GreeceAlma materMITScientific careerThesis (2000)Doctoral advisorBonnie Berger Websitehttp://www.serafimb.org Serafim Batzoglou is Chief Data Officer at Seer Inc.[1] Prior to that he was Chief Data Officer at insitro, VP of computational genomics at Illumina, and professor of computer science at Stanford University between 2001 and 2016. His lab focused on computational genomics with special interest in developing algorithms, machine learning met...
Ongoing COVID-19 viral pandemic in Kyrgyzstan COVID-19 pandemic in KyrgyzstanDiseaseCOVID-19Virus strainSARS-CoV-2LocationKyrgyzstanFirst outbreakWuhan, Hubei, ChinaArrival date18 March 2020(4 years, 1 month, 1 week and 4 days)Confirmed cases179,036[1]Recovered173,796[1]Deaths2,614[1]Government websitecovid.kg med.kg The COVID-19 pandemic in Kyrgyzstan was a part of the worldwide pandemic of coronavirus disease 2019 (COVID-19) caused by severe acute...
Professional basketball league in Canada For other organizations with a similar name, see National Basketball League (disambiguation) and NBL (disambiguation). National Basketball League of Canada Ligue nationale de basketball du CanadaSportBasketballFounded2011First season2011–12Ceased2023CEOGary Curgin[1]No. of teams4CountryCanadaConfederationFIBA AmericasLastchampion(s)London Lightning (6th title)(2023)Most titlesLondon Lightning(6 titles)TV partner(s)NBLC TVOfficial websitenblca...
Cet article est une ébauche concernant un chanteur suédois. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Frans Jeppsson Wall Frans, en 2016.Informations générales Surnom Frans Nom de naissance Frans Jeppsson-Wall Naissance 19 décembre 1998 (25 ans)Ystad, Suède Activité principale Chanteur Genre musical Pop, folk Années actives 2006- modifier Frans Jeppsson Wall, ou simplement Frans, né le 19 dé...
1979 single by Michael Jackson For other uses, see Rock with You (disambiguation). Rock with YouSide-A label of US 7 vinyl singleSingle by Michael Jacksonfrom the album Off the Wall B-sideWorking Day and NightReleasedOctober 1979RecordedDecember 1978 – June 1979Genre Disco funk Length 3:38 (album version) 3:20 (single/video version) LabelEpicSongwriter(s)Rod TempertonProducer(s)Quincy JonesMichael Jackson singles chronology Don't Stop 'Til You Get Enough (1979) Rock with You (1...
العلاقات بين الإمبراطورية الروسية والولايات المتحدة [[{{{بلد1}}}]] [[{{{بلد2}}}]] تعديل مصدري - تعديل العلاقات بين الإمبراطورية الروسية والولايات المتحدة (1776-1922) تسبق العلاقات بين الاتحاد السوفياتي والولايات المتحدة (1922-1991) العلاقات بين روسيا والولايات المتحد...
1852 Iowa Senate election ← 1850 1852 1854 → 22 out of 31 seats in the Iowa State Senate16 seats needed for a majority Majority party Minority party Party Democratic Whig Last election 14 5 Seats after 20[a] 11[a] Seat change 6 6 President of the Iowa Senate before election Enos Lowe[b] Democratic Elected President of the Iowa Senate William E. Leffingwell[c] Democratic Elections in Iowa Federal government U.S...
1996 studio album by AsiaArenaStudio album by AsiaReleased4 March 1996Recorded1995StudioElectric Palace, LondonGenreProgressive rockLength63:54LabelBullet ProofProducerJohn PayneGeoff DownesAsia chronology Aria(1994) Arena(1996) Archiva 1(1996) Professional ratingsReview scoresSourceRatingAllMusic[1] Arena is the sixth studio album by British rock band Asia, released in March 1996 by Bullet Proof Records. Recorded at Electric Palace Studios in London during 1995, it was produ...
Cremlino di MoscaVeduta generale del Cremlino di Mosca.UbicazioneStato Russia CittàMosca, Collina del Cremlino Coordinate55°45′06″N 37°37′04″E55°45′06″N, 37°37′04″E Informazioni generaliTipoCittadella Costruzione1482-1495 Sito webkreml.ru Informazioni militariPresidioPresidente della Federazione Russa voci di architetture militari presenti su Wikipedia Modifica dati su Wikidata · Manuale Bene protetto dall'UNESCOIl Cremlino e la Piazza Rossa, Mosca P...
City in Emilia-Romagna, Italy This article is about the city in Italy. For other uses, see Ravenna (disambiguation). Comune in Emilia-Romagna, ItalyRavenna Ravèna, Ravêna (Romagnol)ComuneRavenna CathedralBasilica of San VitaleMausoleum of Galla PlacidiaBasilica of Sant'Apollinare NuovoFontanella Piazza del Popolo FlagCoat of armsLocation of Ravenna RavennaLocation of Ravenna in Emilia-RomagnaShow map of ItalyRavennaRavenna (Emilia-Romagna)Show map of Emilia-RomagnaCoordinates: 44°24�...
Conservative political party in Pakistan For other uses, see Muslim League (disambiguation). Pakistan Muslim League (Nawaz) پاکستان مسلم لیگ (ن) ن لیگAbbreviationPML(N)PresidentNawaz SharifChairmanRaja Zafar-ul-Haq[1]Secretary-GeneralAhsan IqbalSpokespersonMarriyum AurangzebSenior Vice PresidentMaryam Nawaz SharifLeader in SenateIshaq DarLeader in AssemblyShehbaz Sharif, Prime Minister of PakistanFounderNawaz SharifFounded18 July 1992 (32 years ago) (1...
Australian electorate GranvilleNew South Wales—Legislative AssemblyInteractive map of district boundaries from the 2023 state electionStateNew South WalesDates current1894–1920, 1927–presentMPJulia FinnPartyLabor PartyNamesakeGranvilleElectors53,545 (2019)Area22.64 km2 (8.7 sq mi)DemographicInner-metropolitan Electorates around Granville: Winston Hills Parramatta Parramatta Prospect Granville Auburn Fairfield Fairfield Auburn Granville is an electoral district of th...
Pietro Metastasio Pietro Metastasio, pseudonimo di Pietro Antonio Domenico Bonaventura Trapassi (Roma, 3 gennaio 1698 – Vienna, 12 aprile 1782), è stato un poeta, librettista, drammaturgo e presbitero italiano. È considerato il riformatore del melodramma italiano. Indice 1 Biografia 1.1 Infanzia e gioventù 1.2 Vita e lavori in Italia 1.3 Metastasio alla Corte di Vienna 2 L'opera seria 3 Libretti 3.1 Melodrammi 3.2 Feste, azioni, componimenti 3.3 Oratori 3.4 Cantate 3.5 Canzonette 3.6 Alt...
Cet article dresse une synthèse (non exhaustive) des premières femmes béninoises ayant exercé des fonctions politiques, juridiques, sociales, artistiques, culturelles ou sportives ou à avoir reçu une distinction importante dans des activités anciennement réservées aux hommes. Politique Premières femmes ministres[1] Rafiatou Karimou. Année Nom Première titulaire 1989 Rafiatou Karimou Santé publique 1990 Véronique Lawson Santé publique 1990 Véronique Ahoyo Travail et affaires so...
نادي بيروجيا تأسس عام 1905 الملعب ملعب ريناتو كوري البلد إيطاليا الدوري الدوري الإيطالي الدرجة الثانية الموقع الرسمي الموقع الرسمي تعديل مصدري - تعديل نادي بيروجيا (بالإيطالية: A.C.[1][2][3] Perugia Calcio) نادي كرة قدم إيطالي تأسس في عام 1905. يلعب حاليا...
Art institution in London, England Royal Academy redirects here. For other uses, see Royal Academy (disambiguation). For the Royal Academy of Art in the Netherlands, see Royal Academy of Art, The Hague. Royal Academy of ArtsFront view, October 2010Established1768; 256 years ago (1768)LocationBurlington House, Piccadilly, London, United KingdomVisitors709,961 (2023)[1]PresidentRebecca SalterPublic transit access Green Park; Piccadilly CircusWebsiteroyalacademy.org.uk ...