Ga direct naar de inhoud Ga direct naar het hoofdmenu Ga direct naar het zoekveld
 

Big Data in de wetenschap

Een aantal bestuursleden van ZonMw is gevraagd input te geven voor de nieuwe strategie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). Zo nam ik op een vrijdagochtend deel aan een discussie over Big Data en welke wetenschappelijke vragen hierbij gesteld kunnen worden.

De hoeveelheid gegevens die tot onze beschikking staat is de laatste jaren explosief gegroeid, bijvoorbeeld door toedoen van data-giganten als Google en Amazon. Ook een zorgverzekeraar heeft een bulk gegevens tot zijn beschikking door de declaratieverwerking. Maar wat is Big Data nu eigenlijk? Het gaat om grote aantallen gegevens (N=alles) en de opslag is ongestructureerd, rommelig, niet verzameld voor specifiek onderzoek.

Correlaties ontdekken

Dit is het beste te begrijpen als het wordt afgezet tegen Small Data. Small Data is een set gegevens die wordt verzameld door steekproeven. Het is per definitie een kleinere afspiegeling van een groter geheel. Omdat de set maar klein is, is het belang dat deze gegevens kloppen en compleet zijn des te groter. ‘Rommeligheid’ op deze kleine schaal geeft direct een grove vertekening in de analyse. In de praktijk wordt Small Data ook gebruikt voor causale verbanden in plaats van correlaties. Van te voren wordt een hypothese opgesteld waarbij twee of meerdere eigenschappen worden aangewezen, die al dan niet een causaal verband met elkaar zouden kunnen hebben. Vervolgens wordt een steekproef gedaan, die de hypothese (en daarmee het causale verband) moet bevestigen dan wel ontkrachten. Bij Big Data is het andersom: een bestaande bak met gegevens wordt gebruikt om eventuele correlaties te ontdekken. Omdat de gegevensverzameling zo groot is, kun je verbanden ontdekken die je met een steekproef nooit zou vinden.

‘Wetenschappers uit alle disciplines zijn enthousiast over de kansen die Big Data biedt’

Een belangrijk kenmerk van ‘Big Data-denken’ is ook het inventieve gebruik van gegevens voor andere doelen dan het oorspronkelijke. Een mooi voorbeeld daarvan is de transformatie bij Amazon. Aanvankelijk gebruikte het bedrijf vooral recensies door professionele boekredacteuren op de website. Dit was zelfs de kracht van Amazon. Totdat Amazon een systeem invoerde van aanbevelingen op basis van eerder bestelde boeken. De website liet gebruikers zoveel mogelijk producten zien van hun persoonlijke voorkeur. Dit zorgde ervoor  dat de boekverkopen scherp stegen. Uiteindelijk veranderde Amazon zijn strategie: de redacteuren werden allemaal ontslagen, en de aanbevelingen werden de kern van de verkoopstrategie. Aanbevelingen die mogelijk zijn gemaakt door Big Data, en waarmee marketeers hun voordeel kunnen doen.

Methodologische deskundigheid

Bij de NWO-bijeenkomst waren wetenschappers met een zeer diverse achtergrond uitgenodigd; een sociaal wetenschapper, een seismograaf, een informaticus. Iedereen was enthousiast over de grote kansen die Big Data biedt voor verbreding en verdieping van onze kennis. Iedereen kon onderzoeksvragen formuleren die prioriteit zouden moeten krijgen. Ook werd gepleit voor een nieuwe discipline: methodologische deskundigheid hoe om te gaan met Big Data. Dit is relevant voor alle huidige disciplines. Dat herkende ik wel: declaratiegegevens van een zorgverzekeraar bevatten heel veel informatie over de gezondheidstoestand van Nederlanders, maar hoe kunnen we die informatie vertalen in nuttige kennis? Ik ben dan ook benieuwd naar de weerslag van deze discussie in de nieuwe NWO-strategie.

Marjolein Verstappen is bestuurslid van ZonMw en directeur van Stichting Achmea Foundation.