|
Aquest article (o aquesta secció) necessita alguna millora en els seus enllaços interns.Falta enllaçar les paraules més significatives als articles corresponents |
|
Aquest article o secció no cita les fonts o necessita més referències per a la seva verificabilitat. |
La qualitat de dades són les tècniques, algoritmes, processos i operacions que es duen a terme per millorar la qualitat de les dades d'empreses i organismes. Segons la norma ISO 9000: 2000, la qualitat es defineix com "el grau en què un conjunt de característiques inherents compleix amb els requisits, és a dir, amb la necessitat o expectativa establerta, generalment implícita o obligatòria". S'ha de dur a terme un control detallat, continuat i de millora constant.
Beneficis
Les empreses que donen preferència i més importància a la qualitat de les seves dades obtenen beneficis que els permeten afegir valor al negoci i diferenciar-se dels seus competidors. Aquesta acció els aporta els punts següents:
- Disminueix els riscos en els seus projectes, sobretot en els relacionats amb les Tecnologies de la Informació.
- Contribució a un estalvi de temps i recursos, un millor ús de la infraestructura tecnològica i sistemes per explotar la seva informació.
- Una major fiabilitat en la presa de decisions de negoci oportunes, basades en informació neta, vàlida i fiable.
- Una ràpida adaptació a estàndards internacionals sobre el maneig d'informació.
- Una millora de la confiança, bones relacions empresa-client i imatge innovadora de l'empresa abans els seus clients enfront de la competència.
Big Data
Si volem saber l'important que és la qualitat de dades hem de considerar que és només una condició prèvia d'anàlisi i ús de big data i la garantia d'aquestes dades. El desenvolupament de tecnologies com Internet i les xarxes socials ha fet que la quantitat de dades vagi augmentant contínuament i s'acumuli a gran velocitat.
L'adquisició i l'anàlisi de big data de diverses fonts ajuden els investigadors de les empreses a adonar-se que la quantitat massiva d'informació pot suposar majors avantatges per a comprendre als clients i millorar la qualitat del servei. L'ús i anàlisi de big data s'ha de basar en dades exactes, cosa que ens fa veure quina és la importància de la qualitat de dades.
Reptes
L'extracció de dades reals i d'alta qualitat de forma massiva i variable es converteix en un problema urgent. La qualitat de dades de big data s'enfronta als següents reptes:
- La diversitat de fonts aporta abundants tipus de dades i estructures complexes. Això augmenta la dificultat de la integració de dades.
- El volum de dades és massa gran i es necessita un temps considerable per jutjar la seva qualitat.
- Les dades canvien constantment. Això requereix majors requisits per a processar la tecnologia.
- No hi ha prou estàndards de qualitat de dades aprovades i la investigació sobre la qualitat de dades de big data.
Criteris de qualitat
Tres investigadors consideraren quatre dimensions per a entendre la qualitat de les dades:[1]
- Qualitat intrínseca
- Qualitat d'accessibilitat
- Qualitat contextual
- Qualitat representacional
No hi ha una definició clara de la seva qualitat de dades i els criteris a utilitzar. Tot i així, la qualitat de les dades depèn de les seves característiques i de l'entorn empresarial que utilitza les dades (inclosos els processos i els usuaris empresarials). Només les dades que s'ajusten als usos pertinents i que compleixen amb els requisits poden considerar dades qualificats.
Els estàndards de qualitat de dades es desenvolupen a través del punt de vista dels productors de dades. Abans, els propis consumidors de dades eren productors de dades, tant directes com indirectes. Això assegurava la seva qualitat. No obstant això, en l'era dels grans dades, amb la diversitat de fonts, els usuaris de dades ja no són necessàriament els seus productors. Per tant, és molt difícil mesurar la seva qualitat.
Redefinim els conceptes bàsics de la qualitat de dades basades en les necessitats reals del negoci. Cada dimensió es pot distribuir en molts elements típics associats a aquesta, i cada element té els seus propis indicadors de qualitat. D'aquesta manera, s'utilitzen els estàndards jeràrquics de qualitat per a big data:
Disponibilitat
1. Accessibilitat:
- Si es proporciona una interfície d'accés a dades.
- Les dades poden fer-se fàcilment públics o fàcils d'adquirir.
2. Oportunitat:
- D'aquí a un temps donat, si les dades arriben a temps.
- Si les dades s'actualitzen regularment.
- Si l'interval de temps entre la recopilació i el processament de les dades fins a l'alliberament compleix els requisits.
Usabilitat
1. Credibilitat:
- Les dades provenen d'organitzacions especialitzades d'un país, camp o indústria.
- Experts o especialistes auditen regularment i comproven l'exactitud del contingut de les dades.
- Les dades existeixen en el rang de valors coneguts o acceptables.
Fiabilitat
1. Exactitud:
- Les dades proporcionades són precisos.
- La representació de dades (o valor) reflecteix bé l'estat real de la informació d'origen.
- La representació d'informació (dades) no causarà ambigüitat.
2. Consistència:
- Després de processar les dades, els seus conceptes, dominis de valor i formats encara coincideixen com abans de processar.
- Durant un cert temps, les dades romanen consistents i verificables.
- Totes les dades són consistents o verificables.
3. Integritat:
- El format de les dades és clar i compleix els criteris.
- Les dades són consistents amb la integritat estructural.
- Les dades són consistents amb la integritat del contingut.
4. Completesa:
- Si una deficiència d'un component afectarà l'ús de les dades per a dades amb components múltiples.
- Si una deficiència d'un component afectarà la precisió i la integritat de les dades.
Pertinència
1. Conveniència:
- Les dades recollides no coincideixen completament amb el tema, però exposen un aspecte.
- La majoria dels conjunts de dades recuperats són dins el tema de recuperació que els usuaris necessiten.
- El tema de la informació proporciona coincidències amb el tema de recuperació dels usuaris.
Qualitat de presentació
1. Llegibilitat:
- Les dades (contingut, format, etc.) són clars i comprensibles.
- És fàcil jutjar que les dades facilitades satisfan les necessitats.
- La descripció de les dades, la classificació i el contingut de codificació satisfan l'especificació i són fàcils d'entendre
Referències
- ↑ Strong, Diane M.; Lee, Yang W.; Wang, Richard Y. «Data quality in context». Communications of the ACM, 40, 5, 1997, pàg. 103-110. DOI: 10.1145/253769.253804.
Enllaços externs