KB Research

Research at the National Library of the Netherlands

Month: November 2013

ANADP II in Barcelona

De tweede bijeenkomst van Aligning National Approaches to Digital Preservation (ANADP) vond afgelopen week in Barcelona plaats. De eerste bijeenkomt, in Tallinn in Estonia in 2011, resulteerde in een interessante publikatie http://www.educopia.org/publications met een overzicht van de laatste stand van zaken. En  een reeks aanbevelingen voor verdere discussie (6 in de verkorte versie en 47 in de uitgebreide versie). Om een korte indruk te geven, noem ik enkele belangrijke topics die tijdens deze drie dagen steeds opnieuw onderwerp van discussie waren tijdens de panelsessies,  de actieve werkgroepen en de lezingen van Clifford Lynch (Coalition of Networked Information) die de openingslezing hield en Adam Farquhar (British Library) , die de slotlezing verzorgde.

Clifford Lynch blikte terug wat er sinds 2011 bereikt was. Veel ‘collaboration” (“often just a lot of talking”) dat wel,  maar hij waarschuwde dat deze samenwerking ook tot onderlinge afhankelijkheid kon leiden (“interdependency”) wat een risico kan vormen: gaat het bij een ander mis, dan heb jij daar ook last van. Denk dus van te voren goed na hoe ver de samenwerking moet gaan. Een ander punt betrof de grenzen van digitale duurzaamheid. Zijn die wellicht te nauw? Zouden we ons niet over meer druk moeten maken dan alleen de veilige opslag. Bijvoorbeeld over nieuwe toegangsmogelijkheden, zoals Europeana die biedt. Over informatie die verloren gaat als wij niets doen. Over gewijzigd gebruik en een ander verwachtingspatroon bij gebruikers.  Adam Farquhar constateerde dat de meeste systemen die we nu voor digitale duurzaamheid gebruiken, zijn ingericht op opvraging van één object per keer, maar de nieuwe onderzoekers zien onze collecties als “big data” en willen onderzoek doen op grote aantallen objecten.

Niet alleen in de VS werd een “devaluation of public goods” gevoeld,  nog versterkt  door de krimpende budgetten. “Making the case for digital preservation “ zal steeds belangrijker worden.  Dat kan op verschillende manieren, niet alleen door aan te tonen wat we allemaal bewaren, maar ook door aandacht te vragen voor wat er nu (ongemerkt) verloren gaat. Weten de beleidsmakers wel wat er op het spel staat? Wie maakt zich druk om kleine, lokale krantjes? Of om het bewaren van “public broadcasting”, dat in sommige landen nauwelijks gebeurt, terwijl dat een essentiële bron voor toekomstige onderzoekers is. Welke onderzoeken zijn in de toekomst niet meer mogelijk? Als voorbeeld werd genoemd: hoe komt iemand er over 10 jaar achter hoe lang het reizen van A naar B duurde? Er zijn geen papieren spoorboekjes meer, en niemand bewaart de databases van de spoorwegen.  Het kan ons helpen dat het algemene publiek langzamerhand ook begint te beseffen dat de traditionele manier van overdracht van eigendom voor digitale objecten niet meer werkt. Je bent geen eigenaar meer van je favoriete muziek op Spotify of je favoriete boeken op je Kindle en je kunt ze niet aan je kinderen nalaten.

Tegenwerping is vaak dat we gehinderd worden door de copyrightwetgeving. Dat gaf Lynch direct toe, maar als “digital preservation community” zouden we overeenstemming moeten zien te bereiken over “some sweeping statements” , waarmee we direct de noodzaak voor wijzigingen kunnen aantonen, in plaats van ons in details te verliezen.  

En hoe tonen we aan dat we onze beloften waar maken? Kleine organisaties zeggen soms dat ze “sustainable” zijn voor een bepaalde periode, maar wie controleert dat? Lynch merkte op dat in alle branches sprake is van data verlies, maar dat dit in onze (library) wereld niet lijkt voor te komen. Meermalen is tijdens de conferentie gesproken over het opzetten van een “registry of failures”. Maar er is al een plaats waar de “horror stories” van verloren digitaal materiaal verteld kunnen worden: www.atlasofdigitaldamages.info  

“Economics, the nightmare of sustainability”, (waarbij  “sustainability” volgens Lynch maar al te vaak uitgelegd werd als “somebody else need to pay for his”) was een ander terugkerend onderwerp. Ons antwoord hierop kan gerelateerd zijn aan het feit dat we “public goods’ bewaren:  het is met publieke middelen gemaakt, men heeft er recht op om er toegang tot te houden, en het is een enorme desinvestering als dit verloren zou gaan. Aan de andere kant is het de vraag of we erg veel energie moeten steken in gedetailleerde kostenmodellen.

Luciane Duranti (InterPARES/CICRA) wees er op dat het belangrijk is om de juiste bondgenoten te vinden (de cloud storage providers bijvoorbeeld zouden ook tot onze digital preservation community moeten horen, evenals  leveranciers van systemen en services) en dat we op de juiste plekken moeten zijn, bij UNESCO en bij de conferenties van leveranciers om ons verhaal te vertellen en elkaar te versterken. Ook Chris Greer (Research Data Alliance) pleitte voor meer aansluiting bij andere disciplines en noemde als voorbeeld bio medici die nu beginnen hun collecties duurzaam op te slaan. Zij zouden kunnen profiteren van onze kennis.

Adam Farquhar vatte de trends samen in zijn slotlezing. We zullen overspoeld worden met data en toch moeten we er in slagen digitale duurzaamheid te integreren in onze dagelijkse activiteiten. Dat kunnen we niet meer alleen en zal leiden tot samenwerkingsverbanden en (gezonde) concurrentie met externe partijen die services verlenen. Onderzoekers zullen onze digitale collecties op een andere manier gebruiken, dat vergt aanpassingen in onze systemen (en m.i. mogelijk ook van het OAIS model). Maar bovenal zal de digitale duurzaamheid gemeenschap één consistente boodschap uitstralen; onze activiteiten zijn niet alleen gericht op het gebruik van het digitale materiaal in de toekomst maar ook in het heden.  

Hoe nu verder? Men vond unaniem dat het niet nodig was weer een nieuwe organisatie op te richten om “alignment” te bevorderen, er zijn vele samenwerkingsverbanden die we kunnen gebruiken om bovengenoemde punten verder uit te werken. (Kijk maar eens op  cdb.io/17laZbO  voor samenwerkingen). Wel was er behoefte aan om over enkele jaren weer op deze  strategische wijze over digital preservation te praten. Daar kijk ik naar uit!

Linked Open Data and the STCN

Author: Fernie Maas, VU University f.g.t.maas@vu.nl

In 2012, several projects were funded at VU University, the University of Amsterdam and the Royal Netherlands Academy of Arts and Sciences (KNAW), all under the umbrella of the Centre for Digital Humanities. The short and intensive research projects (approximately 9 months) combined methodologies from the traditional humanities disciplines with tools provided by computing and digital publishing. One of these projects, Innovative Strategies in a Stagnating Market. Dutch Book Trade 1660-1750, was based at VU University. Historians worked together with computer scientists of the Knowledge Representation and Reasoning Group in dealing with a specific dataset: the Short Title Catalogue, Netherlands (STCN). The project description and the research report (plus appendix) can be found here.

The project was set up within the research focus of the Golden Age cultural industries and dealt with the way early modern book producers interacted with the market, especially in times of stagnating demand and increasing competition. Book historians and economic historians, as well as scholars dealing with modern day cultural industries, have described several strategies that often occur when times are getting tough. A common denominator seems to be the constant search for a balance between on the one hand inventing new products, and on the other hand appealing to recognizable concepts. In short: differentiating, rather than revolutionizing, was (and is) seen as a key to survival. A case study was set up around the fictitious imprint of Marteau, an imprint used to cover up the provenance of controversial books. Contemporary book producers and authors had already noticed that the prohibition of, or suspicion around, certain books could spark a desire for exactly those books, eventually influencing sales.

Records in the STCN [http://bit.ly/1aHtBWs]

Records in the STCN [http://bit.ly/1aHtBWs]

The STCN is an important dataset for studying the early modern Dutch book trade and production, offering information about 200,000 titles in the period 1540-1800 (see ill. 1). The project team was provided with a bulk download of the STCN data, to work and play around with. This dataset was converted into a Resource Description Framework (RDF). RDF is a set of W3C specifications designed as a metadata data model. It is used as a conceptual description method in computing: described entities of the world are represented with nodes (e.g. “Dante Alighieri” or “The Divine Comedy”), while the relationships between these nodes are represented with edges connecting them (e.g. “Dante Alighieri” “wrote” “The Divine Comedy”). The redactiebladen (i.e. records) of the STCN have a very specific syntax of KMC’s (kenmerkcode), which contain information about author, title, place of publication, year of publication, etc. This syntax is interpreted in a program that reads the redactiebladen and gets the relevant properties about authors, titles, publishers, places, and the like out of them. Then it generates the RDF graph, linking all these entities together conveniently, and writes the results in a file. This file is exposed online, and it can be queried live by users using the query language SPARQL.

Size of titles under imprint of Marteau in the STCN [http://bit.ly/1bdzDsR]

Size of titles under imprint of Marteau in the STCN [http://bit.ly/1bdzDsR]

The RDF conversion makes it possible to query the data independently from the interface the STCN is offering. The regular interface of the STCN offers multiple ways of querying the data, especially in the ‘advanced search’ setting of the interface. However, the possibilities to filter and sort the data by using different properties are limited to a number of three fields, in combination with filtering on years of publication. A question as: in which size were publications under the Marteau-imprint mostly published, has to be broken down in several steps in the STCN, namely retrieving a list (and consequently a number) of Marteau-publications for each size used, separately. By querying the RDF-graph, this output can be retrieved in one go (see ill. 2). Also, this query structure allows for information to be visualized quite fast, for example the occurrence of Marteau-titles in the STCN, over time (see ill.3).

Titles with the fictitious imprint of Marteau in the STCN [http://bit.ly/1dJFDzq]

Titles with the fictitious imprint of Marteau in the STCN [http://bit.ly/1dJFDzq]

Publishing structured data by means of RDF is a component of the Linked Open Data approach, which means the converted STCN-dataset can be linked to other datasets. In linking the datasets, the provenance of the data stays intact, allowing for example to integrate updates of the dataset. Lists of forbidden, prohibited and condemned books (e.g. Knuttel) are in the process of being connected to the STCN, a link that could answers questions about the actual amount of Marteau-titles under investigation or suspicion. Also, combining and comparing the information about years and reasons of prohibition from the lists of forbidden books, with the information about date and place of publication in the STCN, could reconstruct a timeline of prohibition and publication, revealing a publishers’ strategy when the date of prohibition proceeds the date of publication.

The report mentioned above describes more examples, queries, and overall the rather exploratory course of the project. The pilot character of the project has allowed the team to explore the (im)possibilities of the dataset, to become aware of the importance of expert knowledge and to strengthen the collaboration between humanities researchers and computer scientists. Further research and collaboration with the STCN and book historians will be aimed at improving the infrastructure of the dataset, a better understanding of the statistical relevance of our queries, and a conceptualization of the relation between the publications, its producers, and its settings and editions.

Preserving e-journals

Last Thursday a new DPC Technolgy Watch report was presented in London. Neil Beagrie wrote Preservation, Trust and Continuing Access for e-Journals . In a lively setting at RIBA almost all major players were present with representatives from Portico, CLOCKSS , the KB International e-Depot and the Keepers registry to celebrate the launch of this publication and to discuss a variety of challenges and complexities related to preserving this material.

The DPC report gives a good overview of the current state of affairs, the terminology used in this area, the way organizations acquire e-journals (either directly from the publishers or via web harvesting the publisher sites)  and the reasons why organisations like the above mentioned are undertaking this task. E-journals are seen as the basic for scholarly communication. But the publishing model has changed the situation for libraries: instead of having the paper copies on the stacks, they need  “preserving a connection”  – this phrase is from Peter Burnhill- . This is what most subscribing organisations do: they don’t own the content, only the right to distribute the subscription to their members . To avoid loss of this material, one should start preserving the collection and negotiate with publishers  the rights to preserve this. Six use cases illustrate the challenges in preserving this material and they are not so much technical challenges as well as “organisational challenges”, like publishers ceasing operation or transferring part of their collection to another publisher without notifying. One chapter is about Trust, and in this case it is not about the trust in the sense of one repository certified by the  ISO 16363 standard for Trustworthy Repositories. But it is more about how to trust that these e-journals in general will be available in the future. The total sum of the participating and in future participating organisations that preserve e-journals should lead to trusting them to have a complete set that is accessible for the community.

In contrast to websites, where nobody expects to preserve the whole Word Wide Web, with e-journals we strive ‘ to have them all’, at least to preserve all e-journals that are relevant for the scholarly communication.  To monitor this, the KEEPERS registry is there to show us who is preserving which e-journal. In his talk Peter Burnhill tried on the hand to be optimistic about the registry but showed on the other hand that we are not there. Although the e-journals of big publishers like Elsevier and Springer are preserved for example by Portico and the International e-Depot of the KB , they represent only a small part of the total. It is far more difficult to collect the rest of the e-journals, the  “long tail”, as these are often called:  small publishers with only a few e-journals .  Collecting these is costly. One need to search for them, negotiate the terms with each publisher individually and design an ingest flow, which is as time consuming for one small publisher as it is for big publishers.  Some statistics here,  from the 100.000 serials with an e-ISSN, only 21.000 are mentioned in the Keepers registry. So 79.000 are in danger, not to mention the amount without a e-ISSN (more statistics in Burnhills blog).

For preservation the challenge lies also in the technical developments around e-journals, what is exactly the “digital object” ? This topic is less represented in the DPC Tech Watch Report, but a growing problem for collecting organisations.  The time lies behind us that a publication was simply a pdf article. Nowadays it is often accompanied by supplemental material (this can still be seen as part of the article) and “context information”, like websites, altmetrics, data etc. Can this be seen as part of the object and should this also be preserved? The same discussion takes place related to “enhanced publications”. And this is different from the analogue world, where no one expected a library to preserve all the literature referred to in the footnotes of scientific publications! Preserving organisations will need to publish their policies in this respect, to manage the expectations of their user community.

Beagrie writes that “ This makes e-journals one of the most dynamic and challenging areas of digital preservation” . But how about e-books and websites, are they less challenging? Let’s not categorize the objects to preserve (“who is doing the toughest job”), time will show that all digital genres will offer us similar challenges!

© 2018 KB Research

Theme by Anders NorenUp ↑