Slechts 12% van data ontstaan bij onderzoek, gefinancierd door National Institutes of Health,  komt in een ‘trusted repository’ terecht, de rest is verloren, aldus Barend Mons (professor Biosemantics, LUMC), de keynote spreker op deze 11de IDCC conferentie. Verbeteren van deze situatie gaat langzamer dan verwacht. Maar hij heeft wel een visie op wat er beter moet. Data moet FAIR zijn (Findable, Accessible, Interoperable, Re-usable) maar vooral ook machine readable.  Waarom? Om sneller betere ontdekkingen in de wetenschap te doen. “ Research as a social machine”: door een continue interactie tussen miljoenen computers en miljoenen onderzoekers. Hergebruik van datasets wordt steeds belangrijker maar om ze aan de FAIR principles te laten voldoen, zijn er goed opgeleide “data stewards” nodig, die de onderzoekers hierbij helpen. Mons voorziet dat er op korte termijn 500.000  data stewards in Europa nodig zijn en maakt zich daar hard voor.

Het wetenschappelijk artikel gaat volgens Mons de huidige centrale plek verliezen ten faveure van de datasets. Niet iedereen was het hiermee eens, maar vanuit een collectieoogpunt zijn deze ontwikkelingen belangrijk. Verzamelen we wel de juiste zaken en sluiten onze activiteiten aan bij wat er in de wereld gebeurt?

Andrew Sallans van het Center for Open Science (COS)  vertelde over de COS   TOP Guidelines om  transparantie en het delen van data te bevorderen. Uitgevers die deze Guidelines volgen, garanderen onder meer dat de datasets van een artikel in een trusted repository worden geplaatst en hergebruikt kunnen worden. Niet zelden hoor je dat er alleen juichverhalen in de wetenschap verteld worden. Om te bevorderen dat ook bijvoorbeeld nul resultaten gepubliceerd kunnen worden, kan een uitgever een “pre-registration” van het onderzoek faciliteren, waarbij het uiteindelijke artikel wordt geplaatst, ongeacht de uitkomst. Door middel van een goed zichtbaar logo in het uiteindelijke artikel is duidelijk dat de uitgever deze open procedure volgde. Inmiddels zijn er 500 journals waarbij de uitgever de TOP Guidelines volgt.

Batches TOP Guidelines

Veel financiers van onderzoek eisen tegenwoordig dat de bijbehorende datasets voor een bepaalde periode, ongeveer 10 jaar, toegankelijk moet blijven voor hergebruik. Het valt in de praktijk nog niet mee om deze datasets binnen universiteiten veilig te stellen in de “Institutional Repositories”. Een paneldiscussie over dit onderwerp maakte duidelijk dat nog veel hobbels genomen moeten worden. Afgezien van een  argument dat “een ander toch niks aan je data heeft”, blijken de meeste onderzoekers niet onwilig datasets te deponeren,  maar weten ze gewoon niet waar te starten. Zij hebben bijvoorbeeld geen verstand van eigendomsrechten rond hun data. Om dit op te lossen zouden ze van begin af aan goed begeleid moeten worden bij het maken van de datasets. Dus ja – door goed opgeleide data stewards. Aanmoedigen van onderzoekers kan ook. Zo standaardiseert 3TU de datasets na ontvangst zodat aanwezige tools gebruikt kunnen worden. Een extra stimulans voor hergebruik van datasets.

Ook Susan Halford (Web Science Institute Southampton) ziet de data als kern van onderzoek, maar voegde daar direct aan toe dat er nogal wat kanttekeningen te plaatsen zijn bij “Big Data”. Zelf een sociologisch onderzoeker, ziet ze met name veranderingen  van uit methodologisch en interdisciplinair oogpunt. Hoe goed zijn de methodieken om Twitter data op waarde te schatten? Deze data is immers door Twitter bewerkt alvorens vrijgegeven. Als onderzoeker heb je geen idee wat je in handen krijgt. Trek het lijntje door en je kunt je als faciliterende instelling afvragen of je wel genoeg informatie geeft aan de onderzoeker als je datasets ter beschikking stelt.

Verschillende lezingen gingen over het juist verwijzen naar datasets om daarmee de “credits” aan de juiste persoon te geven. Nu houden verschillende organisaties als Codata en DataCite zich bezig met het opstellen van regels. Belangrijk zijn ook de onontbeerlijke Persistent Identifiers, zowel voor datasets als voor andere zaken als auteurs (Orcid wordt erg populair) en zelfs voor wetenschappelijke instrumenten.

En uiteindelijk zijn er dan lange termijn archieven die deze zaken bewaren. De datasets die niet alleen meer ter verificatie bewaard worden maar vooral ook voor hergebruik. Soms is voor hergebruik specifieke software voor nodig die de onderzoeker – soms jaren geleden – heeft gemaakt (gekscherend “professorware” genoemd). Niet zelden staat deze informatie nog op verouderde dragers als Cd’s en floppy disks. De British Library initieerde (net als de KB overigens) een project  Flashback, waarbij de inhoud op deze verouderde dragers wordt veilig gesteld en deelde hun ervaringen. Alle lezingen zijn online beschikbaar.

Of onderzoeksdata nu belangrijker wordt dan de publicatie of niet, er zal altijd een relatie blijven met een verhaal over het bijbehorende onderzoek – in boek, in artikel, op een website. Zonder twijfel  verandert de traditionele manier van publiceren over wetenschappelijk onderzoek en dat zal ook voor ons gevolgen hebben.

Barbara Sierman