Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».
De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent.
Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.
Historique
La plupart des technologies sur les données informatiques sont nées du désir d'envoyer des informations par courrier. Avant l'émergence de serveurs bon marché, les ordinateurs centraux étaient utilisés pour mettre à jour les données (noms, adresses, et autres attributs) afin que les courriers électroniques arrivent correctement à leur destination. Les mainframes utilisaient des règles métiers pour corriger les défauts dans les données (fautes sur les champs nom et date, défauts de structuration), ainsi que pour suivre les clients qui avaient changé d'adresse, disparu, fusionné, ou expérimenté d'autres événements.
Aux États-Unis, les agences de gouvernement commencèrent à mettre à disposition des données postales à quelques sociétés de service pour gérer les entreprises selon le registre de changement d'adresse national (NCOA). Cette technique a fait économiser à de grandes entreprises de grandes sommes d'argent (millions de dollars) en comparaison de la gestion manuelle des données client. Les grandes entreprises ont réduit leurs frais postaux, les factures et courriers atteignant leurs destinataires plus précisément. Vendue à l'origine comme un service, la qualité des données s'est intégrée au sein des organisations grâce à la disponibilité de technologies serveurs abordables.
Bien que la plupart des entreprises pensent au nom et à l'adresse quand elles se préoccupent de qualité des données, on reconnaît aujourd'hui que la qualité des données est la façon d'améliorer tous les types de données, comme les données sur la chaîne logistique, les données des progiciels de gestion intégrée, les données transactionnelles, etc. Par exemple, mettre en conformité les données de la chaîne d'approvisionnement à un certain standard a une valeur pour une organisation en :
évitant de surstocker des stocks similaires mais légèrement différents
améliorant la compréhension d'achats en négociant des remises en quantité
évitant les coûts logistiques en stockant et envoyant des pièces détachées à travers une grande organisation.
Alors que les données sur les noms et adresses ont un standard clair avec les définitions des autorités postales, les autres types de données ont peu de standards reconnus. Il y a une tendance de fond aujourd'hui dans l'industrie pour standardiser certaines données qui ne sont pas des adresses. Le groupe GS1 fait partie des groupes qui sont fers de lance dans ce mouvement.
Importance de la qualité des données
La qualité des données est très importante pour réaliser l'interopérabilité de systèmes complexes. En particulier, elle intervient dans les exigences de traçabilité, qui se manifestent dans plusieurs secteurs économiques :
La qualité des données revêt une grande importance également dans le Direct Marketing ou plus globalement la gestion de la relation client (en anglais Customer Relationship Management, CRM) où les données client représentent une source de valeur importante pour les entreprises.
La mise en œuvre des normes IAS/IFRS comporte la comptabilisation du capital immatériel en immobilisations incorporelles ; elle pousse l'entreprise à mieux évaluer la valeur de l'information dans sa stratégie.
Il s'agit de disposer d'un référentiel historisé et permettant de faire des analyses prospectives selon des axes d'analyse.
Qualité des données et système décisionnel
Le système décisionnel a pour objet d’aider les décideurs à effectuer des choix pertinents à partir de données historiques. Ceci implique généralement de prendre en charge de grandes quantités de données disparates afin de les calibrer en information suffisamment précise et sûre pour qu’en confiance des actions puissent être définies et lancées. Ce défi classique pour les architectes de systèmes décisionnels est amplifié ces derniers temps par l’augmentation des exigences en matière de variété, de profondeur et de fraîcheur des données historiques à gérer. Dans ce contexte, la vitesse avec laquelle des données peuvent être « nettoyées », « transformées » et intégrées dans un entrepôt de données devient essentielle pour la compétitivité des entreprises.
La qualité d’une donnée dépend d’abord du contexte dans lequel elle a été initialement saisie, mais d’un point de vue décisionnel son intérêt dépend de l’usage qu’un utilisateur peut en faire. La qualité d’une donnée ne doit donc pas être appréciée dans l’absolu mais de façon relative à son intérêt métier. Les besoins métiers évoluant, l’appréciation de la qualité d’une donnée ne peut donc jamais être fixée de façon définitive. Les programmes d’amélioration de la qualité des données doivent être ciblés en fonction des intérêts métier, sinon il y a un fort risque de se créer une charge de travail digne de Sisyphe.
Le danger des données inexactes :
Alors que la qualité des données est le processus de maintenir la fiabilités et la cohérence des valeurs dans le système informatique. Dans nos jours la avec la propagation intense de numérique dans le monde, plus la quantité de données augmente. C'est une opportunité de choix pour qui sait s'en saisir, mais également c'est un risque majeur en cas de négligence. Donc la qualité de données est aujourd'hui une problématique majeure pour la société.
Normalisation
Il existe très peu de normes relatives spécifiquement à la qualité des données. On peut noter toutefois :