KB Research

Research at the National Library of the Netherlands

Month: January 2015

Workshop topic modelling with MALLET at KB

[A] topic model is a type of statistical model for discovering the abstract “topics” that occur in a collection of documents (Wikipedia).

Topic modelling is a very popular method in the Digital Humanities to discover more about a large set of data and is also used by many researchers working on data of the KB. Unfortunately, not all topic modelling tools are as easy to access, due to a lack of technical skills or a lack of access to the data for example. The current guest researcher at the KB (Dr. Samuël Kruizinga) came across such problems while doing his research into the memory of the First World War in the KB newspapers. Not only was it difficult for him to select a corpus to work with, he was also unfamiliar with the go-to tool MALLET. Luckily, his university (Universiteit van Amsterdam) wanted to help and provided funds to organise a workshop, not only for him, but also for other academics interested in topic modelling.

Continue reading

Europese uitgevers in Berlijn

Barbara Sierman

De 10de bijeenkomst van de Academic Publishing in Europe (APE) vond afgelopen week plaats in Berlijn onder het motto “Web25: The Road Ahead exploring the Future of Scholarly Communication and Academic Publishing”. Voor de KB is dit een gelegenheid om op de hoogte te blijven van de ontwikkelingen in de uitgeverswereld. Zij leveren ons immers de materialen die wij bewaren – voor langere tijd.

De Europese Commissie, zo vertelde Celina Ramjoué, hecht er groot belang aan om van Open Access (wat in de lezing van Jan Velterop terecht werd aangeduid als een middel en niet een doel op zich) te komen tot Open Science. Gedefinieerd als

The transformation, opening up and democratization of science and research and innovation through ICT, with the objectives of making science more efficient, transparant and interdisciplinary, of changing the interaction between science and society, and of enabling broader societal impact and innovation.

tn_WP_20150121_001

Wetenschappelijke resultaten moeten op grote schaal bereikbaar zijn voor iedere geïnteresseerde. Maar daar moet nog wel wat voor gebeuren. Phil Archer van W3C bepleitte een zorgvuldiger gebruik van meta data standaarden (zie schema.org). Meta data die voor meerdere interpretaties vatbaar is, leidt tot slechte zoekresultaten. Met name het linken van relevante informatie via het web wordt moeilijk als de meta data niet eenduidig door een computer geïnterpreteerd kan worden (slaat een naam op een bepaalde persoon, zijn werk, een plaats etc.). En daar spelen uitgevers een belangrijke rol in. Maar dit is niet de enige hinderpaal. Kosten van publiceren zijn hoog, en met name monografieën (gangbaar in de Humanities en Social Sciences) lijden daaronder. Dat is een risico voor wetenschappelijk publiceren in die domeinen.

Er is uitgebreid gesproken over de voor en nadelen van de (6) Creative Commons licences. Subsidiegevers stellen vaak de eis welke licentie de onderzoeker moet kiezen, als hij op kosten van de subsidiegever het artikel publiceert .Maar wordt hiermee de vrijheid van de onderzoeker aangetast om eventueel zelf nog een commercieel gewin te maken ? En als het artikel niet commercieel geëxploiteerd mag worden, wie betaalt dan de infrastructuur om het artikel duurzaam toegankelijk te houden? De spreker  was kennelijk nog niet op de hoogte van de activiteiten van Nationale Bibliotheken!

Open Access levert voor uitgevers én onderzoeksinstellingen ook de nodige administratieve problemen op (tarievenstructuur, afrekening per auteur, instituutskorting, proceskosten etc.) en vanuit verschillende invalshoeken werd geanalyseerd hoe Open Access zo efficiënt mogelijk geïmplementeerd kon worden. En welke meerwaarde heeft de uitgever nog bij Open Access; is de peer review methode nog van deze tijd en levert die voldoende kwaliteit op?

De impact die onderzoek heeft, wordt deels gemeten aan de hand van citaties, maar het was vrij onthullend te horen dat 50% van de scholarly output niet gelezen wordt (behalve dan door de auteur) en dat 90% zelfs nooit geciteerd wordt. Dat moet beter kunnen. Semantische zoekfaciliteiten en het linken van informatie ziet men als een oplossing. Microsoft probeert door innovatieve oplossingen te verwerken in BING en Office producten in elk geval de wetenschappelijke publicaties beter bereikbaar te maken Ook Jan Velterop bepleitte een optimale verspreiding van research resultaten om, zoals hij het noemde “lamppost research” te vermijden (je ziet alleen dat wat binnen je blikveld valt) door innovatieve (semantische) zoekmethoden te ontwikkelen. Open Access is dus op zich niet genoeg, maar moet vergezeld gaan van methoden om de resultaten toegankelijker te maken. Daar hebben uitgevers [ en bibliotheken] een belangrijke rol in. En pas dan is er sprake van Open Science.

Voor wie meer wil weten van deze conferentie, binnenkort worden video’s en samenvattingen van alle presentaties geplaatst op http://www.ape2015.eu/

The gold standard

Originally posted on: http://digitalpreservation.nl/seeds/the-gold-standard/

This is the text of a presentation I held at the combined 4C/DPC conference ‘Investing in Opportunity: Policy Practice and Planning for a Sustainable Digital Future’ in London 17-18 November 2014 at the Wellcome Trust.

WP_20141118_006

A few months ago I was in Copenhagen and as I like shopping in a foreign country and take something with me to remind me of my trip , I bought a golden ring. Well, not gold, it was gold plated and after a few months of wearing is was a silver ring. Was that a disappointment? The design was still nice and the ring still fitted. But it did no longer match my other rings. And I was not expecting this to happen so soon. And if instead of silver, the next layer would have been brass or nickel or copper, I really would have been disappointed and felt betrayed. So it was gold, turned to silver and yes that did matter.

No one would appreciate a trustworthy digital archive turning from gold to silver…

Continue reading

© 2018 KB Research

Theme by Anders NorenUp ↑