ARCLib, komplexní řešení pro dlouhodobou archivaci digitálních (knihovních) sbírek

Vymezení konkrétních cílů

Projekt reaguje na velmi aktuální potřebu knihoven i dalších paměťových institucí, kterou je zajištění kvalitního a zároveň dostupného řešení pro dlouhodobou ochranu kulturního dědictví v digitální podobě.

K naplnění této potřeby jsou definovány čtyři hlavní cíle projektu, které jsou v přímém souladu se Specifickým cílem č. 2.1 Výzkum a jeho uplatnění – kulturní dědictví a území s historickými hodnotami a se Specifickým cílem č. 2.2 Technologie a postupy pro ochranu kulturního dědictví Globálního cíle č. 2: Kulturní dědictví programu NAKI:

  1. Vývoj komplexního LTP (Long Tem Preservation) open source řešení ARCLib s využitím open- source systému Archivematica
  2. Vytvoření metodiky pro dlouhodobou logickou ochranu digitálních dat pro české prostředí s ohledem na mezinárodní standardy (zejména referenční model OAIS – ČSN ISO 14721 a ČSN ISO 16363)
  3. Vytvoření metodiky a návrh řešení pro fyzické ukládání velkého množství dat a zajištění bit-level ochrany pro potřeby dlouhodobé archivace
  4. Ověření v praxi formou poloprovozu

Vývoj komplexního LTP (Long Tem Preservation) open source řešení ARCLib

V knihovnách České republiky trvale narůstá množství projektů a aplikací generujících velké objemy digitálních dat. Probíhají rozsáhlé digitalizační projekty a stále více dat vzniká přímo v digitální podobě (born-digital). Pro velkou část těchto dat je nezbytné zajistit jejich dlouhodobou ochranu a přístupnost (Long-term Digital Preservation, LTP). Je třeba zajistit jak tzv. bit-level ochranu dat (zabezpečení před fyzickou ztrátou, změnou či havárií digitálních souborů a nosičů) tak logickou ochranu (ochrana před nepříznivými dopady změn a zastarávání informačních technologií a datových formátů na dostupnost a použitelnost digitální informace).

Problematika dlouhodobé ochrany digitálních dat (LTP – Long-Term Preservation nebo DP – Digital Preservation) byla až donedávna výhradní doménou velkých institucí typu národních knihoven či národních archivů, které disponovaly potřebnými mandáty, financemi a expertními zdroji. Tyto instituce se typicky zaměřily na budování komplexních na míru vyvinutých řešení postavených zejména na komerčních systémech. Pokroky v oblasti teorie a praxe digitální ochrany spolu s rostoucími potřebami řešit dlouhodobou archivaci digitálních dat i v menších institucích vedly k poznání, že i s omezenými zdroji lze začít vytvářet vlastní řešení s využitím volně dostupného softwaru (viz např. projekt POWRR – Preserving Digital Objects With Restricted Resources, http://commons.lib.niu.edu/handle/10843/13610).

Cílem projektu je vytvoření volně dostupného archivačního systému, který bude respektovat národní i mezinárodní standardy. Pro potřeby projektu bude využit open source systém Archivematica, který je dynamicky rozvíjen a nasazován v řadě projektů po celém světě. Archivematica však neřeší všechny funkční entity dle modelu OAIS, ale zaměřuje se jen na kritické archivační funkce (transfer, příjem, tvorba informačních balíčků SIP/AIP/DIP).

Nové archivační řešení ARCLib bude vyhovovat požadavkům odvozeným z funkčního a informačního modelu standardu OAIS, tj. mělo by ochraňovat informační obsah v balících AIP se všemi OAIS metadaty a mělo by disponovat nástroji pro podporu všech funkčních celků OAIS (OAIS functional entities) včetně celku “plánování uchovávání” (preservation planning). Komunita uživatelů systému k tomu pak bude společně udržovat znalostní základnu potřebnou ke kvalifikovaným rozhodnutím při dlouhodobém uchovávání informačního obsahu ve vyvinutém systému – databázi formátů, pravidel a služeb, migračních cest, nástrojů – a vykonávat funkce požadované standardem OAIS v oblasti plánování uchovávání.

ARCLib bude kompatibilní s komerčním řešením Národní knihovny ČR a umožní předávání archivních balíčků AIP mezi instancemi nově vyvinutého systému navzájem a se systémem LTP v NK, a naopak. Z hlediska modelu OAIS se jedná o možnost vytvoření sítě spolupracujících OAIS archivů propojených standardem pro “repository exchange package” (např. jako http://wiki.fcla.edu/TIPR); výstupní balíček DIP z jednoho systému by měl sloužit jako vstupní balíček SIP dalších systémů (a systému NK), a naopak. Interoperabilita umožňující oboustrannou výměnu archivačních dat s komerčním LTP řešením v Národní knihovně významně zvýší stupeň zabezpečení archivovaných dat v České republice. Zároveň může NK ČR naplnit požadavek archivačních standardů na existenci exit strategie

Řešení bude schopné uchovávat data ve strukturách a formátech, jež jsou už v knihovnách ČR ukládána (NDK, starší standardy digitalizace, zvukové dokumenty, mapové sbírky, kvalifikační práce, akademické publikace atd.).

Vstupem pro archivační řešení ARCLib budou data ze všech majoritně využívaných softwarových řešení pro výrobu, zpřístupnění a ukládání knihovních digitálních dokumentů v České republice. Zejména se jedná o digitální dokumenty ze systémů:

  • Kramerius – systém pro zpřístupnění digitálních dokumentů; využívaný ve většině velkých knihoven v ČR
  • ProArc – systém pro výrobu digitálních dokumentů; využívá např. Knihovna AV ČR, SVK Hradec Králové
  • DSpace – repozitář využívaný zejména na univerzitách jako přístupový systém jak pro digitalizované sbírky tak pro nově vznikající digitální dokumenty (archivy vysokoškolských prací, institucionální repozitáře vědeckých publikací a výzkumných dat); využívá např. Masarykova univerzita, VŠB-TU v Ostravě, Univerzita Pardubice, Univerzita Tomáše Bati ve Zlíně, ČVUT Praha a další

K dalším systémům, pro něž by bylo vhodné zajistit napojení na archivační řešení, patří  repozitář Invenio, který je používán v Národní technické knihovně pro Národní úložiště šedé literatury.

Systémy sloužící pro zpřístupnění (Kramerius, DSpace, Invenio) budou zároveň cílovými systémy pro balíčky DIP sloužící k dalšímu šíření dlouhodobě uchovávaných informací koncovým uživatelům.

ARCLib bude otevřeným řešením, které v případě potřeby umožní připojení dalších systémů do archivačního procesu. Kromě knihoven se tak může stát vhodnou volbou např. i pro další paměťové instituce – muzea, galerie a archivy.

Projekt realizací tohoto cíle významně přispěje k naplnění specifického cíle programu NAKI vytvořením technologie na ochranu kulturního dědictví.

Vytvoření metodiky pro dlouhodobou logickou ochranu digitálních dat pro české prostředí s ohledem na mezinárodní standardy (zejména referenční model OAIS – ČSN ISO 14721 a ČSN ISO 16363)

Metodika, kterou by certifikovalo Ministerstvo kultury ČR, bude jasně definovat způsob zajištění dlouhodobé logické ochrany digitálních dat zohledňující mezinárodní standardy v této oblasti (referenční model OAIS – ČSN ISO 14721 a ČSN ISO 16363) a systémy využívané pro vytváření a zpřístupňování digitálních dat v českých knihovnách.

České knihovny i další paměťové instituce tak získají srozumitelný postup pro zavedení a provozování dlouhodobého úložiště digitálních dokumentů a dat různých formátů.

Vytvoření metodiky a návrh řešení pro fyzické ukládání velkého množství dat a zajištění bit-level ochrany pro potřeby dlouhodobé archivace

Výstupem bude metodika certifikovaná Ministerstvem kultury pro fyzické ukládání dat a bit-level ochranu v rámci systému ARCLib pro potřeby dlouhodobé archivace digitálních dat a dokumentů. Součástí této metodiky bude popis základních nároků na úložiště, které lze za účelem dlouhodobého ukládání dat spolu s bit-level ochranou využít.

Navržená metodika musí zvážit a eliminovat rizika, která ohrožují datová úložiště (selhání hardware, neúmyslnou chybu obsluhy, úmyslný útok obsluhy nebo jiného subjektu, přírodní katastrofy, ozbrojené konflikty, legislativní omezení nakládání s daty ukládanými na určitém území apod.) a stanovit vhodné postupy pro minimalizaci škod způsobných působením takových události – ukládání identických kopií dat ve více geograficky oddělených lokalitách na různých typech úložišť spravovaných různými skupinami osob, ovšem při zajištění pravidelných kontrol dostupnosti a integrity dat. Nedílnou součástí politiky zacházení s daty musí být její pravidelné revize a úpravy dle změněných okolností v průběhu času. Popsané technické řešení musí být v souladu s politikou definovanými požadavky na exit strategie (export všech dat ve vhodném tvaru pro přenos do jiných/novějších systémů).

Navržené řešení musí být dobře škálovatelné (menší i velmi velké objemy dat, rozvoj systému s ohledem na počet zapojených účastníků), s dobrou propustností (technicky řešitelné např. hierarchickým uložením dat s rychlým online-přístupem často využívaného menšího objemu dat versus off-line uložení velkého množství dat, které však znamená velké latence při vybavování dat) a musí umožňovat použití i více nezávislých řešení podle specifických potřeb jednotlivých institucí. Řešení se dále musí vypořádat s některými základními omezeními, která jsou specifická pro řadu typů úložišť (např. jak datová úložiště CESNETu, tak i úložiště založená na cloudech) – kupříkladu obtíže a omezení při ukládání příliš velkého množství malých souborů aj.

Ověření v praxi formou poloprovozu

Archivační řešení ARCLib bude formou poloprovozu nasazeno a ověřeno v Knihovně AV ČR. Budou na něm uložena např. data ústavů Akademie věd ČR a knihovny Národního muzea.