Kramerius je název databázové open-source aplikace, kterou lze zařadit do kategorie CMS, tedy Content Management System – systém pro správu obsahu. Aplikace je určena pro zpřístupňování digitálních dokumentů buď na lokální síti instituce, která Kramerius provozuje, nebo v prostředí internetu. Primárně je Kramerius určen pro digitalizované knihovní sbírky, monografie a periodika. Může však být využit i pro přístup k dalším typům dokumentů, například mapám, hudebninám a starým tiskům, případně k částem dokumentů, jako jsou články a kapitoly. Systém je vhodný také pro tzv. digital-born dokumenty, tedy dokumenty, které již vznikly v elektronické podobě. Kramerius představuje jednu z komponent komplexní a poměrně unikátní open-source softwarové infrastruktury, která je v České republice využívána při práci na digitalizaci, archivaci a zpřístupňování knihovních fondů. Jedná se o jeden z mála příkladů implementace rozsáhlého a oborově důležitého open-source softwarového řešení, které je financováno ze státního rozpočtu.
Digitalizace v České republice
Jedním z impulzů pro vznik systému Kramerius byly povodně v roce 2002, během kterých bylo v archivech a knihovnách zničeno nebo poškozeno velké množství knih. Jako jeden ze způsobů záchrany nebo náhrady poškozených dokumentů bylo využito reformátování dokumentů a zároveň bylo třeba vytvořit nástroj, který by umožnil tyto digitální kopie hromadně zpřístupnit.
Digitalizace je v současné době v českých knihovnách v plném proudu, přičemž hlavní motivací je snaha zachránit historické dokumenty a zajistit pohodlný přístup koncovým uživatelům. Řada knihoven při různých institucích v rámci ČR provádí digitalizaci svých fondů samostatně, často je přitom využíván dotační program Ministerstva kultury ČR VISK. K hlavním projektům celonárodního významu patří zejména Národní digitální knihovna a Česká digitální knihovna.
Kramerius je v rámci projektu Česká digitální knihovna doplňován dalšími dvěma open-source softwarovými komponentami: RDflow a ProArc. Vývoj a plánování chystaných funkcí všech tří komponent probíhá současně.
RDflow je aplikace pro správu procesu digitalizace (workflow management), která navazuje na Registr digitalizace, což je systém pro evidenci digitalizovaných dokumentů a sledování postupu zpracování.
Registr zaznamenává všechny digitalizační aktivity týkající se knihovních sbírek v ČR, pomáhá předcházet duplicitní práci, umožňuje monitorování všech kroků a spolupracuje s dalšími knihovnickými informačními systémy. Centrální instalaci provozuje Národní knihovna ČR na webové adrese registrdigitalizace.cz. RDflow, který bude díky své open-source licenci volně dostupný všem digitalizačním centrům, bude s Registrem spolupracovat (automatická komunikace) a odstraní problémy s dostupností Registru, který je zcela závislý na Národní knihovně.
ProArc je produkční a archivační systém, který je vyvíjen od roku 2011 díky podpoře ministerstva kultury. Program umožňuje vytvářet digitální dokumenty, přičemž splňuje standardy Národní knihovny ČR. Archivace dokumentů pro dlouhodobou ochranu (longterm preservation, LTP) bude založena na standardech obvyklých pro LTP systémy, tj. zejména ISO a OAIS (Open Archival Information System). Stejně jako ostatní komponenty digitalizačního procesu je ProArc open source.
Národní digitální knihovna
Národní digitální knihovna je souhrnný název pro činnosti Národní knihovny ČR, které jsou zaměřené na digitalizaci a následné zpřístupnění národního knihovního bohatství. Nejpodstatnější část těchto aktivit je zahrnuta v projektu nazvaném „Vytvoření Národní digitální knihovny“, který je financovaný mimo jiné i ze Strukturálních fondů EU.
Tento projekt má za cíl digitalizaci, dlouhodobou ochranu a zpřístupnění velké části fondů Národní knihovny ČR a Moravské zemské knihovny. Do roku 2019 by mělo být s pomocí robotických skenerů digitalizováno přes 50 milionů stran, tedy přibližně 300 000 svazků.
Parametry projektu mimo jiné určují, že dojde k zásadní změně dosavadních digitalizačních postupů a používaných formátů metadat. Stávající proprietární, uzavřené definice typu dokumentu (DTD) budou nahrazeny novými, standardizovanými formáty, které budou kompatibilní s formáty používanými v jiných knihovnách a obvyklými při podobných projektech digitalizace a dlouhodobé ochrany digitálních dat. S tím je spojeno i nasazení nové verze systému Kramerius 4.
Česká digitální knihovna
Česká digitální knihovna je zastřešující projekt, jehož hlavním cílem je zajistit agregaci digitálního (tj. zejména digitalizovaného) obsahu z nejrůznějších digitálních knihoven na území ČR. Nezabývá se tedy přímo digitalizací fondů, ale sjednocením všech digitálních dokumentů a přípravou vhodné infrastruktury pro poskytování přístupu k digitalizovaným fondům všech českých knihoven (včetně dat vytvořených v rámci projektu Národní digitální knihovna).
Výsledný systém bude obstarávat sběr metadat, na základě kterých bude k dispozici jednotné rozhraní pro fulltextové vyhledávání nad souborem všech agregovaných digitálních dat. Aplikace bude zároveň umožňovat dynamické načítání kompletních textových zdrojů, tj. nepůjde pouze o indexaci. Kromě toho budou sbírky agregované prostřednictvím České digitální knihovny přístupné i v rámci portálu Europeana – projekt Česká digitální knihovna bude sloužit jako agregátor za Českou republiku.
Europeana.eu je webový portál, který slouží jako jednotný přístupový bod k digitalizovaným záznamům mnoha evropských kulturních a vědeckých institucí. Databáze zahrnuje miliony knih, obrazů, filmů, muzejních předmětů a archivních dokumentů. Projekt, který je financovaný z různých programů Evropské komise a z příspěvků ministerstev školství a kultury jednotlivých států EU, je stále ve stádiu vývoje, ale již nyní lze využívat jeho služeb.
Vývoj a budoucnost systému Kramerius
Vývojový tým tvoří zaměstnanci Knihovny Akademie věd ČR, Národní knihovny ČR a Moravské zemské knihovny v Brně. Technologickým partnerem je na základě výběrového řízení firma INCAD, s. r. o., v čele s jednatelem Pavlem Kocourkem. Garantem současného vývoje je Knihovna Akademie věd ČR zastoupená ředitelem Ing. Martinem Lhotákem.
Kramerius je dostupný s nejrozšířenější svobodnou licencí – GPL. Podle Ing. Martina Lhotáka bylo rozhodnutí využít pro vyvíjený software open-source licenci vhodnou volbou, zvláště jedná-li se o knihovnický systém: „V případě Krameria byl software od počátku vytvářen podle vlastní potřeby, protože v dané době nebylo k dispozici vhodné řešení v komerční ani volně dostupné formě. Byl založen projekt s financováním na určitou dobu vývoje. Když tento systém pro zpřístupnění digitálních a digitalizovaných dokumentů vznikl, ostatní knihovny to braly tak, že když ho vyvinula Národní knihovna a používá ho pro svoje dokumenty a Knihovna Akademie věd také, tak je to dostatečně dobrý důvod, aby software začaly přejímat pro své vlastní potřeby. Důvěra v open-source produkt je založena na tom, kdo ho vyvíjí a kolik uživatelů projekt má.“
Vývoj iniciovala v roce 2003 Národní knihovna ČR. Hned od počátku přispívala k vývoji také Knihovna AV ČR. V roce 2009 došlo k zásadní změně, když byl jako základ systému využit open-source repozitář Fedora a zároveň se Knihovna AV ČR stala hlavním koordinátorem vývoje. Ve výběrovém řízení na další vývoj byla vybrána firma INCAD. Aktuální verze Kramerius 4 je vyvíjena a průběžně publikována od té doby.
Fedora (Flexible Extensible Digital Object Repository Architecture – pružná, rozšiřitelná architektura pro repozitáře digitálních objektů) byla původně vyvinuta výzkumníky z Cornell University jako architektura pro ukládání, správu a přístup k digitálnímu obsahu ve formě digitálních objektů. Fedora definuje sadu abstrakcí pro popis digitálních objektů, určování vztahů mezi digitálními objekty a odkazovací logiku (tj. služby). Projekt repozitáře Fedora implementuje zmíněné abstrakce v rámci robustního open-source systému. (Poznámka redakce: Tato Fedora nesouvisí se stejnojmennou linuxovou distribucí.)
Pavel Kocourek z firmy INCAD k tomu řekl: „Sledujeme komunitu kolem digitálních knihoven, a ačkoliv bylo možných řešení více, Fedora se nám zdála jako nejvhodnější a pořád si myslíme, že výběr repozitáře byl správný.“
V současné době je na roky 2012–2015 financování vývoje zajištěno díky projektu „Česká digitální knihovna a nástroje pro zajištění komplexních digitalizačních procesů“ z Programu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI) Ministerstva kultury ČR. V předchozích letech byl vývoj systému Kramerius průběžně financován z různých dotačních programů Akademie věd ČR a Ministerstva kultury ČR.
Funkce
Původně požadovaná jednoduchá sada funkcí byla v posledních letech díky vývojovým projektům obohacena o mnohá zlepšení a systém dnes umožňuje řadu činností, včetně integrace s evropskými projekty. Kramerius je průběžně upravován tak, aby struktura metadat digitálních dokumentů odpovídala standardům vyhlašovaným Národní knihovnou ČR.
Systém poskytuje webové rozhraní pro přístup koncových uživatelů, které umožňuje vyhledávání v metadatech a v plných textech, generování vícestránkových dokumentů v PDF z vybraných stran, vytváření virtuálních sbírek a další operace nad uloženou sbírkou digitálních dokumentů.
Kdo používá Kramerius
Systém Kramerius je v současné době hlavním a nejpoužívanějším aplikačním řešením pro zpřístupnění digitálních dokumentů ve velkých českých knihovnách a archivech. Kromě Knihovny Akademie věd ČR a Národní knihovny ČR využívá aplikaci Kramerius například Moravská zemská knihovna, Městská knihovna v Praze, Národní filmový archiv a mnoho dalších významných institucí.
Přestože se knihovny obecně nebrání otevřeným řešením, pro Kramerius mluví to, že jej zaštiťuje Knihovna AV ČR a Národní knihovna ČR. Protože za systémem stojí důvěryhodné organizace, další knihovny a organizace nemají obavy software využít.
Ing. Martin Lhoták shrnuje rozhodování o výběru (open-source) softwaru takto: „Při nasazování open-source řešení je na výběr ze dvou možností: začít vyvíjet software pro své vlastní potřeby, vyhradit si na projekt finance a později produkt sám nabízet a garantovat ostatním, nebo využít již existující projekt, který svým zaměřením odpovídá našim potřebám. Důležité je v takovém případě vidět za projektem živou komunitu a tzv. kritickou masu použití, tj. dostatečně širokou uživatelskou základnu. Báli bychom se využít open-source projekt pro nějakou zásadní věc, kdybychom věděli, že si jej pro sebe vyvinula jen jedna organizace a nikdo jiný ho nepoužívá. V takovém případě by bylo nutné aplikaci delší dobu testovat a zjistit, jestli se bude produkt dál rozvíjet. Pokud systém nepoužívá dostatečné množství uživatelů, existuje riziko, že vyschne zdroj financí a byla by z toho slepá cesta.“
Open source a digitalizace v ČR
Rozsáhlé a ambiciózní projekty směřující k zachování archivních materiálů pomocí digitalizace a následného programu dlouhodobé ochrany získaných dat jsou v České republice realizovány s výrazným přispěním open-source softwaru a využívají otevřené standardy a formáty. Odpovědné instituce, které připravují nástroje využívané při procesu digitalizace a zpřístupňování knihovních sbírek, volí open-source licencování pro své produkty zejména kvůli základním charakteristikám otevřeného modelu vývoje a distribuce: pořizovací náklady pro jednotlivé instituce a organizace, prevence vendor lock-in (závislosti na dodavateli), pružnost vyplývající z otevřenosti zdrojových kódů a zajištění kontinuity.
Tento článek vyšel v čísle 3/2012 magazínu Open source & praxe.