Big data of massadata is het verzamelen en opslaan van gestructureerde en ongestructureerde data met oog op het voorspellen van nieuwe informatie. Een dataset wordt eerst onbewerkt opgeslagen in een database, zoals NoSQL, en wordt later systematisch geanalyseerd tot kleine gegevenspatronen om gerichte toekomstige inzichten te realiseren. Het wordt ingezet bij individuen om gegevensprofielen op te stellen, maar ook bij zakelijke belangen om bedrijfsprocessen te verbeteren en meer winsten te boeken. Het wordt vaak uitgevoerd met machinelearning en datawetenschap.[1]
Kenmerken
De belangrijkste kenmerken van big data zijn:[2][3]
Volume: grote hoeveelheden ongestructureerde data met een lage dichtheid kunnen verwerken. Dit kan van onbekende waarde zijn waarbij sommige instanties zelf tientallen terabytes tot petabytes moeten verwerken.
Snelheid (velocity): de hoge snelheid waarmee grote gegevens naar een schijf wordt weggeschreven. Sommige slimme producten kunnen dit bijna in realtime doen.
Verscheidenheid (variety): dit verwijst naar de vele soorten technologieën die beschikbaar zijn. Voor ongestructureerde en semi-gestructureerde teksten, audio's en video's is er verwerking nodig om de betekenis ervan te zien en metadata te kunnen ondersteunen.
Technologie: sommige verzameling gegevens zijn zo complex dat ze enkel met nieuwe technologie zoals kunstmatige intelligentie kunnen verwerkt worden.
Autonoom: sommige data wordt gegenereerd door machines en worden verzameld via sensoren die verbonden zijn met het internet. Enkele voorbeelden zijn: slimme auto’s, GPS en weersatellieten.
Big data-analyse
Om big data te analyseren is het belangrijk dat de gegevens eerst stapsgewijs worden geordend en georganiseerd. Het doel is om patronen en gedragingen in de gegevens te definiëren en te voorspellen. Het voorbereidingsproces gaat als volgt:[1]
Verzamelen: data wordt verzameld via verschillende bronnen zoals het web, mobiele telefoons en de cloud. Dit kan gestructureerd, half-gestructureerd en ongestructureerd zijn.
Verwerken: de opgeslagen gegevens worden geverifieerd, gesorteerd en gefilterd.
Opschonen: alle conflicten en opmaakfouten in de gegevensverzameling worden gecorrigeerd en opgeschoond.
Analyseren: de gegevensverzameling is klaar voor analyse met technologieën zoals data mining, machinelearning en statistische analyse.
Doel
Er zijn twee hoofddoelen te onderscheiden voor verwerking van big data:
Gegevensprofielen
Big data is te groot en te weinig gestructureerd om met een reguliere databasemanagementsysteem te worden onderhouden. De gegevens hebben vaak een direct of indirect verband met privégegevens van personen.[4] Big data speelt steeds een grotere rol. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat sociale media in toenemende mate data van consumenten opslaan die geanalyseerd worden uit bestanden, foto's en films. De nieuwe privacyregels in Europa maakt het mogelijk dergelijke gegevens in te kijken en te wissen, maar het is algemeen zonder twijfel aangenomen dat bijvoorbeeld Facebook de gewiste data achter de schermen toch bewaart om ze later in te zetten of te verkopen.
Eveneens mensen die aan goede doelen schenken worden vaak in kaart gebracht om aan dataverrijking te doen, zoals het plaatsen van ongevraagde cookies, verkopen of doorgeven van persoonlijke gegevens aan andere goede doelen.[5]
Ook organisaties, overheden en bedrijven hebben steeds meer data over burgers doordat apparaten zelf data verzamelen, opslaan en uitwisselen, het internet of things genoemd. Hierdoor is er steeds meer sensordata beschikbaar. Niet alleen de opslag van deze hoeveelheden is een uitdaging, maar ook het analyseren ervan met speciale nieuwe technologie. Dit resulteert in informatie zoals optimalisatie, marketing, wetenschappelijk onderzoek en preventief onderhoud.[6]
Bedrijfsprocessen
Kleine en grote bedrijven gaan hun interne big data onderwerpen aan een analyse om betere beslissing te nemen in de toekomst over hun productstrategie, bedrijfsvoering, verkoop, marketing en klantenservice. Enkele voorbeelden hoe organisaties met grote hoeveelheden gegevens zinvolle inzichten afleiden:[1]
Productontwikkeling: de behoeftes van klanten in kaart brengen aan de hand van gerealiseerde bedrijfsanalytische gegevens.
Persoonlijke instellingen: betrokkenheid van online gebeurtenissen analyseren om gepersonaliseerde ervaring te creëren voor aanbevelingen en gerichte advertenties.
Zorg: verschillende ziektebeelden in kaart brengen en analyseren waarmee nieuwe en betere diagnoses en behandelingsopties mogelijk worden.
Kostenbesparing: financiële gegevens in kaart brengen om de operationele kosten op te sporen en te verminderen.
Fraudepreventie: het gebruik van datamining om risico's te beperken door patronen van frauduleuze activiteiten op te sporen.
Het werven en behouden van klanten: bestelgeschiedenis, zoekgegevens en online beoordelingen analyseren om het gedrag van klanten te voorspellen.
Verschillende bronnen
De gegevens in big data kunnen worden onderscheiden in primaire bronnen (waar daadwerkelijk gegevens worden gegenereerd) en secundaire bronnen (waarbij bestaande gegevens worden gekoppeld en hergebruikt).[7]
Primaire bronnen
Conform de Wet van Moore verdubbelt ongeveer elke twee jaar de rekencapaciteit en het opslagvermogen van microchips. Door deze exponentiële groei en het inzakken van de kosten, raakt technologie steeds verder verspreid en ingebed in de samenleving. In toenemende mate is de technologie uitgerust met sensoren die data vastleggen en/of doorgeven. Grote hoeveelheden gegevens worden gegenereerd door onder meer sensoren (zoals camera's en microfoons), trackers (zoals RFID-tags en cookies op internet) en apparaten die we bij ons dragen of in huis hebben en op het internet of things zijn aangesloten (zoals mobiele telefoons, horloges, brillen, gehoorapparaten, pacemakers). Daarnaast leggen veel mensen gegevens over zichzelf vast op sociale media.
Secundaire bronnen
Door het hergebruik van gegevens, bijvoorbeeld via het combineren van bestaande datasets, kunnen ook big data ontstaan. Het hergebruik van gegevens kan worden onderscheiden in hergebruik voor dezelfde doelen in dezelfde context (data recycling), voor andere doelen dan waarvoor de gegevens initieel zijn verzameld, maar wel in dezelfde context als het originele doel (data repurposing) of in een andere context (data recontextualisation).[8] Hergebruik van gegevens voor nieuwe doelen of in een andere context kan stuiten op de wettelijke kaders voor de bescherming van persoonsgegevens.
Business intelligentie
Big data heeft geleid tot een opleving van het vakgebied datawetenschappen, waarbij een data concierge en data scientist verantwoordelijk zijn voor de business intelligentie om complexe datagegevens en KPI's van bedrijven te analyseren tot strategische beslissingen. Naargelang het beogend doel wordt dit volledig handmatig of met behulp van een technologie gedaan. De ICT-industrie richt zich vaker op nieuwe gegevensbronnen[9], waarvan de aandrijving van zo'n "business intelligentie" een samenwerking is met verscheidene experten zoals een data-scientis, data-concierge en data-analist.[10]
Data scientist
In het algemeen moet een datascientist over de nodige kennis beschikken zoals metadata en dataconversie in combinatie met meer algemene kennis over de verwerking van gegevensbestanden, wiskunde en het programmeren.
Data concierge
Een data concierge is iemand die big data verzamelt en consolideert tot bruikbare informatie. Deze persoon is vaak een tussenpersoon voor onderzoekers die toegang tot specifieke datasets willen voor specifieke onderzoeksvragen. De verzoeken wisselen van eenvoudige gegevens met minimale regelgevingsproblemen tot geanonimiseerde, beperkte of volledige PHI-gegevenssets.[11]
Toepassingen
De grootste verzamelaars van persoonlijke big data zijn sociaal media voor gegevensprofielen en overheden met als belangrijkste doel fraudebestrijding, zoals in Nederland iCov en het Inlichtingenbureau. De Amerikaanse spionagedienst National Security Agency (NSA) verzamelt data uit communicatie via telefonie en internet met Google en Facebook.[12]
De Large Hadron Collider heeft 150 miljoen sensoren, die samen zo'n 40 miljoen metingen per seconde doen. Het verwerken van dit grote aantal metingen en het trekken van conclusies daaruit vereist veel rekenkracht.
Het Amerikaanse bedrijf Walmart verwerkt meer dan een miljoen transacties per uur, die op een slimme manier in databases opgeslagen moeten worden. Uit deze grote berg gegevens kunnen verbanden tussen verschillende producten gedestilleerd worden (bijvoorbeeld hamburgers en broodjes, maar in veel gevallen zijn de verbanden minder voor de hand liggend). Ook kunnen klanten op basis van hun aankoopgedrag ingedeeld worden naar diverse kenmerken. Door geavanceerde statistische analyses uit te voeren kan Walmart niet alleen vrij nauwkeurig inschatten wat het geslacht, inkomen, de sociale klasse en de gezinssituatie van een klant is, maar kunnen ook levensgebeurtenissen zoals huwelijk, geboorte, echtscheiding en overlijden met vrij grote precisie gedetecteerd worden aan de hand van veranderingen in aankoopgedrag.
Toen in 2009 de Mexicaanse griep toesloeg, kon Google de verspreiding volgen door te zien in welke regio's naar griepgerelateerde klachten werd gezocht. Deze analyse werd wel vertroebeld doordat veel mensen die via het nieuws over de ziekte hadden gehoord, al gingen zoeken terwijl ze (nog) niet ziek waren.
Het wettelijk kader
In een onderzoek van de Rijksoverheid in Nederland uit 2018 kwam aan het licht dat het internet of things en kunstmatige intelligentie met Big Data nadelige effecten kan hebben op de bescherming van grondrechten door innovatie van algoritme-gedreven technologieën. Deze vooruitgang levert nieuwe potentiële grondrechtelijke knelpunten op en vraagt ook nieuwe juridische ondersteuningen.[14][15]
Privacygegevens
De Algemene verordening gegevensbescherming (AVG) regelt de omgang met persoonsgegevens, en definieert de rechten van individuen en de plichten voor partijen die persoonsgegevens verwerken. De werking van de AVG is breed: zij is van toepassing op alle tot een persoon herleidbare gegevens en vormt een belangrijk uitgangspunt voor de verantwoorde omgang met persoonsgegevens.
Onbekendheid met een onzekerheid over de toepassing en implicaties van wettelijke eisen spelen parten. Daarnaast worden sommige eisen door instanties als lastig en zelfs als onuitvoerbaar ervaren. Een verantwoorde verwerking van gegevens biedt alle partijen echter voordelen. Consumenten zullen eerder bereid zijn om gegevens te delen in het vertrouwen dat bedrijven zorgvuldig met hun gegevens omgaan en er mogelijkheden zijn tot controle en verantwoording. Bedrijven profiteren van het vertrouwen dat consumenten in hen stellen en kunnen daardoor datagedreven producten en diensten blijven ontwikkelen. Het maakt bovendien de bedrijfsvoering rond gegevens inzichtelijk en controleerbaar en ondervangt daarmee bepaalde risico’s zoals datalekken. De wetgeving, die soms wordt ervaren als een last, kan als een prikkel fungeren om op verantwoorde wijze met persoonsgegevens om te gaan en daarin nationaal en internationaal zelfs onderscheidend te zijn.[16]
Juridische tekortkomingen
Big data kunnen volgens de Wetenschappelijke Raad voor het Regeringsbeleid uitsluitend vruchten afwerpen als de huidige wet- en regelgeving wordt versterkt om fundamentele rechten en vrijheden te waarborgen. Hiertoe moet de aandacht worden verlegd van het reguleren van het verzamelen van data, het zwaartepunt in de huidige juridische kaders, naar de regulering van en het toezicht op de fases van de analyse en het gebruik van big data. Voor de vrijheid en de veiligheid van de burgers doen zich in deze twee fasen van big-dataprocessen de grootste kansen én de grootste risico’s voor.
Veiligheidsorganisaties kunnen en mogen diep ingrijpen in de rechten en vrijheden van burgers. Het gebruik big-datatoepassingen - die sturend voor dat ingrijpen worden - moet daarom met extra waarborgen worden omkleed. Dat kan door:
te zorgen voor een wettelijke verankering van de verantwoordelijkheid van de gegevensverwerkende partij voor de juistheid van de uitkomsten van big-dataprocessen.
regels op te stellen over toelaatbare foutmarges bij profiling.
te zorgen voor een strikte handhaving van het verbod op geautomatiseerde besluitvorming en semi-automatische besluitvorming te bestrijden.
Vergroot de transparantie over het gebruik van big-data-analyses binnen het veiligheidsdomein, zowel bij individuele organisaties als bij samenwerkingsverbanden van organisaties.
de mogelijkheden voor burgers en maatschappelijke organisaties te verbeteren om wetgeving en beleid omtrent big-datatoepassingen juridisch te (laten) toetsen.[17]
Kritische beoordelingen
Het verzamelen en analyseren van big data wordt vaak als groeimogelijkheden gezien maar wordt ook sterk bekritiseerd wegens mogelijke schendingen van privacy en auteursrechten:[18]
Voordelen:
Analyseren van big data wordt ingezet voor het bestrijden van de criminaliteit en fraude.
Het reconstrueren van de aanslagen.
In kaart brengen van criminele netwerken om daders gemakkelijker op te sporen.
Het optimaliseren van bedrijfsprocessen om meer winstgevend te zijn.
Tijdwinst en efficiëntie kan worden behaald bij evenementen via Crowd control.
Nadelen:
Criminelen kunnen het eveneens als tool inzetten.
De privacy en de vrije meningsuiting kan in gevaar komen.
Burgers worden transparanter en geven gemakkelijk hun privégegevens, maar weten vaak niet waar het terecht komt.
Big data-toepassingen kunnen leiden tot toename in sociale stratificatie waardoor er (grotere) ongelijke verhoudingen tussen maatschappelijke groepen ontstaan.
Schending van de rechten:
Grootschalige inmenging in de persoonlijke levenssfeer door bedrijven en niet-criminele burgers.
Big data-toepassingen leiden vaak tot andere doelen waarvoor het oorspronkelijk werd verzameld, de zogeheten function creep.
Sommige teksten die worden verzameld zijn berust op auteursrechten.
↑Custers B.H.M. (2017), Big data en big data technologie. In: Blok P.H. (red.) Big data en het recht. Monografieën recht en informatietechnologie nr. 10 Den Haag: SDU. 17-35.
↑Custers B.H.M. & Ursic H. (2016), Big data and data reuse: a taxonomy of data reuse for balancing big data benefits and personal data protection, International Data Privacy Law 6(1): 4-15.