KB Research

Research at the National Library of the Netherlands

Author: Marcel Ras

Preservation at Scale: workshop report

Digital preservation practitioners from Portico and from the National Library of The Netherlands (KB) organized a workshop on “Preservation at Scale” as part of iPres2013. This workshop aimed to articulate and, if possible, to address the practical problems institutions encounter as they collect, curate, preserve, and make content accessible at Internet scale.

Preservation at scale has entailed continual development of new infrastructure. In addition to preservation of digital documents and publications, data archives are collecting a vast amount of content which must be ingested, stored and preserved. Whether we have to deal with nuclear physics materials, social science datasets, audio and video content, or e-books and e-journals, the amount of data to be preserved is growing at a tremendous pace.

The presenters at this workshop each spoke from the experience of organizations in the digital preservation space that are wrestling with the issues introduced by large scale preservation. Each of these organizations has experienced annual increases in throughput of content, which they have had to meet, not just with technical adaptations (increases in hardware and software processing power), but often also with organizational re-definition, along with new organizational structures, processes, training, and staff development.

There were a number of broad categories addressed by the workshop speakers and participants:

  1. Technological adaptations
  2. Institutional adaptations
  3. Quality assurance at scale and across scale
  4. The scale of the long tail
  5. Economies and diseconomies of scale

Technological Adaptations
Many of the organizations represented at this workshop have gone through one or more cycles of technological expansion, adaption, and platform migration to manage the current scale of incoming content, to take advantage of new advances in both hardware and software, or to respond to changes in institutional policy with respect to commercial vendors or suppliers.

These include both optimizations and large-scale platform migrations at the Koninklijke Bibliotheek, Harvard University Library, the Data Conservancy at Johns Hopkins University, and Portico, as well as the development by the PLANETS and SCAPE projects of frameworks, tools and test beds for implementing computing-intensive digital preservation processes such as the large-scale ingestion, characterization, and migration of large (multi-terabyte) and complex data sets.

A common challenge was reaching the limits of previous-generation architectures (whether those limits are those of capacity or of the capability to handle new digital object types), with the consequent need to make large-scale migrations both of content and of metadata.

Institutional Adaptations
For many of the institutions represented at this workshop, the increasing scale of digital collections has resulted in fundamental changes to those institutions themselves, including changes to an institution’s own definition of its mission and core activities. For these institutions, a difference in degree has meant a difference in kind.

For example, the Koninklijke Bibliotheek, the British Library, and Harvard University Library have all made digital preservation a library level mandate. This shift from relegating the preservation of digital content to an organizational sub-unit to ensuring that digital preservation is an organization-wide endeavor is challenging, as it requires changing the mindsets of many in each organization. It has meant reallocation of resources from other activities. It has necessitated strategic planning and budgeting for long-term sustainability of digital assets, including digital preservation tools and frameworks – a fundamental shift from one-time, project-based funding. It has meant making choices; we cannot do everything. It has meant comprehensive review of organizational structures and procedures, and has entailed equally comprehensive training and development of new skill sets for new functions.

Quality Assurance at Scale and Across Scales
A challenge to scaling up the acquisition and ingest of content is the necessity for quality assurance of that content. Often institutions are far downstream from the creators of content. This brings along many uncertainties and quality issues. There was much discussion of how institutions define just what is “good enough,” and how those decisions are reflected in the architecture of their systems. Some organizations have decided to compromise on ingest requirements as they have scaled up, while other organizations have remained quite strict about the cleanliness of content entering their archives. As the amount of unpreserved digital content continues to grow, this question of “what is sufficient” will persist as a challenge, as will the challenge of moving QA capabilities further upstream, closer to the actual producers of data.

The Scale of the Long Tail
As more and more content is both digitized and born digital, institutions are finding they must scale for increases in both resource access requests and expectations for completeness of collections.

The number of e-journals in the world that are not preserved was a recurrent theme. The exact number of journals that are not being preserved is unknown, but some facts are:

  • 79% of the 100,000 serials with ISSN are not being known to be preserved anywhere. It is not know how many serials that do not have ISSNs are being preserved.
  • In 2012, Cornell and Columbia University Libraries (2CUL) estimated that about 85% of e-serial content is unpreserved.

This digital “dark matter” is dwarfed in scope by existing and anticipated scientific and other research data, including that generated by sensor networks and by rich multimedia content.

Economies and Diseconomies of Scale
Perhaps the most important question raised at this workshop was the question as to whether we as a community are really at scale yet? Can we yet leverage true economies of scale? David Rosenthal noted that as we centralize more and more preserved content in fewer hands, we will be able to better leverage economies of scale, but we will also be increasing risk of a single point of failure.

Next Steps
The consensus of the group seemed to be that, as a whole, the digital preservation community is not yet truly at scale. However, the organizations in the room have moved beyond a project mentality and into a service oriented mentality, and are actively seeking ways to avoid wasteful duplication of effort, and to engage in active cooperation and collaboration.

Workshop presentations and notes on each presentation are available at: https://drive.google.com/folderview?id=0B1X7I2IVBtwzcGVhWUF0TmJIUms&usp=sharing

Meer dan tekst

Barbara Sierman, Marcel Ras

Op 18 en 19 maart was er een interessante Conferentie in Hannover met als thema: Non-textual Information Strategy and Innovation beyond Text. Verschillende sprekers gingen in op het feit dat wetenschappelijke informatie tegenwoordig meer is dan een artikel of boek. Jan Brase van DataCite riep bibliotheken op hun catalogus niet langer een venster op hun holdings te laten zijn, maar een venster met verwijzingen naar trusted providers van content die elders aanwezig is. En hij gaf een mooie definitie van Research Data: Anything that is foundation of further research is research data. Die definitie kunnen we goed gebruiken voor onze enorme collecties gedigitaliseerd materiaal. Todd Carpenter van NISO wees erop dat er een toename van supplemental files bij artikelen in het algemeen is, en noemde als voorbeeld een biomedisch tijdschrift waarbij aan 95% van de artikelen supplementairy materiaal toegevoegd wordt. Een duidelijke toename in een aantal jaren. Overigens is het meeleveren van supplementair materiaal niet een nieuw, digitaal, fenomeen. Ook in de papieren wereld gebeurd dit.

NISO maakt een onderscheid in drie soorten supplemental files: Integral content, Additional Content en Related Content. (let op, waarschuwde hij, de uitgever bepaalt wat een supplemental file is, niet de vorm waarin deze verschijnt). Dit is uitgebreid beschreven in het NISO rapport: NISO RP-15-2013, Recommended Practices for Online Supplemental Journal Article Materials. Belangrijk om in de gaten te houden wanneer we voor het Internationaal e-Depot policies gaan vastleggen over wat we willen bewaren. Interessante quote van Todd Carpenter: “it is expensive to care for metadata, but it is even more expensive not to care”.


Jill Cousins gaf een overzicht van de stand van zaken met betrekking tot Europeana.

Guido Herman van STM/Thieme gaf aan dat van de 23.000 STM tijdschriften die jaarlijks verschijnen er 90% digitaal is. Dat zijn ongeveer 1,4 miljoen artikelen per jaar. Dit aantal groeit jaarlijks met zo’n 3%, het aantal tijdschrifttitels groeit jaarlijks met 3,5%. Kon iemand in 1952 nog een Nobelprijs winnen op basis van een artikel van 2 pagina’s met 1 plaatje, nu is dat onmogelijk en dijen de supplemental files steeds meer uit, wat de vindbaarheid en hergebruik niet altijd bevordert. Als feiten moeten leiden tot information en information to knowledge, dan is het dus de vraag of we de ontwikkeling van knowledge nu ook beter voor elkaar hebben. Naast een pleit voor trusted repositories, vroeg hij zich ook af of de auteurs van de wetenschappelijke artikelen en de data niet meer moesten bijdragen aan de sustainability van de datasets.

Puneet KLishor gaf ons een korte vooruitblik op versie 4.0 van Creative Commons licentie, die er binnen enkele weken aan staat te komen. Voornaamste wijziging ten opzichte van versie 3 is dat niet langer het werk zelf gelicentieerd is, maar dat aangegeven wordt welke rechten bij het werk van toepassing is. Voorbeeld was een amateur filmpje waarop mensen op muziek dansen. De muziek valt niet onder het deel waar rechten voor zijn,  het filmpje zelf wel.

Olivier Koepler gaf een demonstratie van een vernieuwde zoekmethode op research data:  het zoeken op statistische curves in een dataset, waarna er een verfijning aangebracht kan worden op vakgebied.

Brian McMahon van de International Union of Christallography (IUCr) deed ons huiveren over de mogelijkheden die in de hedendaagse CIF files zitten (deze hebben we ook in het e-depot) waarbij je vanuit het artikel een animatie kan oproepen om deze vervolgens in specifieke bijbehorende software af te spelen. Met de data bij het artikel kan er voor verschillende views in de animatie gekozen worden. Daarmee ontstaat er een “verrijkte publicatie” van een hoog niveau. Dit is echt een niveau hoger dan een pdf met een plaatje erbij en gaat zelfs verder dan wat wij tot nu toe met onze Enhanced Publications uitgeprobeerd hebben. Gelukkig heeft hij in artikelen beschreven hoe de christallografen het aanpakken, maar voor toegang zullen we ons deze kennis toch eigen moeten maken. Overigens voegt IUCr ook het volledige peer review proces toe aan de data die ze online zetten (en leveren ze deze gegevens zeer waarschijnlijk ook als supplemental files aan het e-Depot). Daarmee kunnen onderzoekers het gehele proces van het artikelen en kwaliteitscontrole daarvan volgen.

Toegang geven tot grote hoeveelheden dat door middel van data visualisaties werd getoond door Microsoft (Rob Fatland) en van Nederlandse bodem vertelde Remco Veltkamp hoe onderzoek naar patronen in muziek het mogelijk gaat maken te kijken of volksmuziek invloed heeft uitgeoefend op latere muziek van de 20ste eeuw. Helaas vielen er wat lezingen uit, onder meer Thomas Bär over digital preservation van AV materialen. Het nieuwe Europese project DuraArk werd gelanceerd door Jakob Beetz van de Eindhoven University, maar helaas was zijn intro zo lang, dat de laatste slide over preservation erdoor heen gejast werd, maar wel om in de gaten te houden. Al is het maar omdat bleek dat de bouw een enorm inefficiënte bedrijfstak is, die dat wil verbeteren door middel van een preservation project!

Al met al een heel leerzame conferentie en voldoende stof tot nadenken en onderzoek.

Trusted access to scholarly publications

In December 2012 the 3rd Cultural Heritage online conference was held in Florence. Theme of the conference was “Trusted Digital Repositories and Trusted Professionals. At the conference a presentation was given on the KB international e-Depot with the title: The international e-Depot to guarantee permanent access to scholarly publications.

conference room

The international e-Depot of the KB is the long-term archive for international academic literature for Dutch scholars, operating since 2003. This archival role is of importance because it enables us to guarantee permanent access to scholarly literature. National libraries have a depository role for national publications. The KB goes a step further and also preserves publications from international, academic publishers that do not have a clear country of origin. The next step for the KB is to position the international e-Depot as a European service, which guarantees permanent access to international, academic publications for the entire community of European researchers.

The trend towards e-only access for scholarly journals is continuing rapidly, and a growing number of journals are ‘born digital’ and have no printed counterpart. For researchers there is a huge benefit because they have online access to journal articles, anywhere, any time. The downside is an increasing dependency on digital access. Without permanent access to information, scholarly activities are no longer possible. But there is a danger that e-journals become “ephemeral” unless we take active steps to preserve the bits and bytes that increasingly represent our collective knowledge.

We are all familiar with examples of hardware and software becoming obsolete. On top of this threat of technical obsolescence there is the changing role of libraries. In the past libraries have assumed preservation responsibility for material they collect, while publishers have supplied the material libraries need. These well understood divisions of labour do not work in a digital environment and especially so when dealing with e-journals.

Research and developments in digital preservation issues have grown mature. Tools and services are being developed to help perform digital preservation activities. In addition, third-party organizations and archiving solutions are established to help the academic community to preserve publications and to advance research in sustainable ways. As permanent access is to digital information is expensive, co-operation is essential, each organization having its own role and responsibility.

The KB has invested in order to take its place within the research infrastructure at European level and the international e-Depot serves as a trustworthy digital archive for scholarly information for the European research community.

© 2018 KB Research

Theme by Anders NorenUp ↑