Ga direct naar de inhoud Ga direct naar het hoofdmenu Ga direct naar het zoekveld
 
 
Special 'ICT in de zorg', januari 2015
Data uit onderzoek beschikbaar voor nieuwe studies

En de data leefden nog lang en gelukkig…

Onderzoeksdata kunnen nuttig zijn voor toekomstige onderzoekers. ZonMw voert daarom een pilot uit waarin onderzoekers hun data duurzaam opslaan en beschikbaar houden voor anderen. Maar toekomstbestendige data-opslag is nog niet gemakkelijk. 

Jarenlang heeft hij nog in een la van mijn bureau gelegen, de digitale neerslag van 4 jaar noest promotieonderzoek eind jaren tachtig. Twee floppydisks (3,5 inch 1,44 MB) met daarop teksten (in WordPerfect 4.2), grafieken (in Harvard Graphics 2.0) en een bestand met alle meetgegevens en patiëntendata in het format van statistiekprogramma SPSS. De diskettes zijn onlangs in de afvalcontainer beland. Geen computer is nog uitgerust met een floppydrive, met WordPerfect of HarvardGraphics. En de handgeschreven labjournaals met alle gegevens? Die zijn achtergebleven in het lab dat sindsdien verhuisd is en zijn toen vermoedelijk weggegooid. 

Voortschrijdende ontwikkeling

Data zijn vergankelijk. Zelfs als de informatiedragers bewaard blijven, is de kans groot dat digitale onderzoeksdata na verloop van tijd niet meer toegankelijk zijn, door de voortschrijdende ontwikkeling van hard- en software. Of totaal nieuwe programma’s en informatiedragers raken ‘in’. Floppy’s uit 1990, en de gegevensopslag volgens de 'regels' (het format) van verouderde programma's zijn dus om verschillende redenen waardeloos geworden. Hoe interessant die data ook zouden kunnen zijn voor volgende generaties onderzoekers, ze zijn simpelweg niet meer te raadplegen. 

‘Met de kennis van dan’

ZonMw is afgelopen zomer een pilot gestart rond 'toegang tot data'. De gegevens die in gesubsidieerde onderzoeken verzameld worden, moeten zo worden opgeslagen dat zij beschikbaar en toegankelijk blijven voor toekomstige onderzoekers. De achterliggende gedachte is dat de ruwe gegevens uit een bepaald onderzoek ook waarde kunnen hebben voor toekomstige onderzoekers. Die kunnen ‘met de kennis van dan’ de data op een nieuwe manier analyseren of de data toevoegen aan eigen data. Koppeling van data uit verschillende bronnen kan tot nieuwe inzichten leiden. Ook kan hergebruik van datasets de belasting voor proefdieren en proefpersonen en de kosten voor onderzoek verminderen. Daarnaast bevordert de duurzame toegang tot datasets de openbaarheid en daarmee de controleerbaarheid van het wetenschappelijk onderzoek. 

Metadata

Een loffelijk streven dus, maar het begin van dit verhaal maakt al duidelijk dat duurzaamheid van onderzoeksdata niet zo eenvoudig is. 'Wie aan de slag wil met oude data loopt momenteel tegen 3 vragen aan', vertelt Maarten Hoogerwerf, informatiekundige bij het KNAW/NWO-instituut DANS (Data Archiving and Networked Services). 'De eerste vraag luidt: “Zijn de data er nog?” Is dat het geval dan volgt de vraag: “Zijn ze nog leesbaar?” en ten slotte: “Zijn ze nog te gebruiken, oftewel snappen we nog wat de data betekenen?”' Voor dat laatste is het nodig dat is vastgelegd hoe de data verzameld zijn. Een lijst met getallen in een schrift of een digitaal bestand zegt immers niets. Je moet weten wat gemeten is, volgens welke afspraken en in welke context. Je wilt bijvoorbeeld wel weten of bij getallen de decimalen genoteerd zijn achter een punt of achter een komma. Zulke data die beschrijven hoe gegevens tot stand gekomen zijn, noemt men metadata. Hoogerwerf: 'Zonder al deze metadata zijn gegevens voor anderen niet bruikbaar. Wie onderzoeksdata duurzaam wil opslaan zal hiermee rekening moeten houden.'

Duurzame opslag gaat over 3 vragen: Zijn de data er nog? Zijn ze nog leesbaar? En snappen we nog wat ze betekenen?

Opslaan en toegankelijk houden

Als ZonMw en andere subsidiegevers in de toekomst duurzame toegankelijkheid van data gaan eisen, betekent dat extra huiswerk voor onderzoekers. Gelukkig kunnen zij terecht bij initiatieven zoals DANS. 'DANS biedt ondersteuning bij het duurzaam opslaan en toegankelijk houden van onderzoeksinformatie', vertelt Marjan Grootveld, projectmanager bij DANS. 'Via het archiveringssysteem EASY kunnen onderzoekers hun dataset bij ons aanleveren. Tekst, beeld, geluid, spreadsheets, het maakt niet uit. Vooraf kunnen onderzoekers aan de hand van een set richtlijnen nagaan waaraan de aangeleverde data en metadata moeten voldoen. Als de dataset bij ons binnenkomt, kijken wij deze nog weer na. Daarbij beoordelen we niet de inhoud van de dataset, maar wel of de data voor anderen duidelijk zijn. We hebben daarvoor binnen DANS medewerkers die bekend zijn met diverse wetenschappelijke disciplines. Zij weten welke eisen een onderzoeker uit een bepaald vakgebied stelt aan de data. Daarnaast controleren we of de dataset voldoet aan de geldende wet- en regelgeving, bijvoorbeeld op het gebied van de privacy.' 

Kiezen of je wilt delen

Hoogerwerf: 'Onderzoekers die een dataset aanleveren kunnen ook aangeven hoe de data ter beschikking worden gesteld aan anderen. Je kunt kiezen voor een totale open access waarna iedereen toegang krijgt tot de data. Zowel de onderzoeksfinanciers als DANS zijn voorstander van open access. Je kunt echter ook kiezen voor restricted access. Als onderzoeker bepaal je dan zelf per aanvraag of je een ander toegang geeft tot de data of niet. In beide gevallen is het ook mogelijk een tijdelijk embargo in te stellen op de toegang. Bijvoorbeeld omdat je eerst zelf nog wilt publiceren voordat je anderen toegang geeft.'

Opslag kost geld 

Natuurlijk ontkomt ook de opslag van data in systemen zoals EASY niet aan de immer voortschrijdende ontwikkeling van soft- en hardware. Grootveld: 'Vanuit DANS houden we de ontwikkelingen natuurlijk goed in de gaten. Opgemaakte teksten slaan we nu bijvoorbeeld het liefst op in PDF/A-vorm. Dat formaat wordt heel veel gebruikt, wat de kans vergroot dat er wereldwijd goed wordt nagedacht over het behoud van alle data die in deze vorm zijn opgeslagen. DANS hanteert een lijst met preferred formats en accepted formats. Van de preferred formats verwachten wij dat deze nog lang meegaan en er - in de toekomst - goede opvolgerformats voor komen. DANS zorgt dan voor de omzetting naar dit nieuwe duurzame formaat.'

Tenslotte nog de kosten. Grootveld: 'Langdurige opslag van data kost natuurlijk geld, voornamelijk personeelskosten. Het is nog niet duidelijk wat de kosten hiervan zijn als er steeds meer datasets duurzaam beschikbaar worden gesteld. DANS wordt momenteel rechtstreeks betaald vanuit de KNAW en NWO. Ik ga ervan uit dat in de toekomst subsidiegevers die duurzame opslag van onderzoeksdata verplicht stellen ook een percentage van het onderzoeksbudget hiervoor reserveren.'

Tekst: Marten Dooper
Illustratie: Shutterstock