Część 1

Przy planowaniu procedur i etapów pracy projektu digitalizacji zasobów archiwalnych Instytutu zastanawialiśmy się nad tym, jakiego standardu użyć przy opisie digitalizowanych dokumentów. Po wykonaniu skanu czyli zapisu obrazu dokumentu, niezbędnym jest jego opisanie tak, aby możliwe było znalezienie interesującej czytelnika informacji. Idealnie byłoby dokonać transkrypcji całości materiału, ale przy dużej ilości ręcznie pisanych dokumentów były to tylko marzenia. Proces  znajdywania i organizowania informacji o tekście, zdjęciu itp. czyli tak zwanych metadanych (danych o danych) oraz zapisywania ich w odpowiedniej bazie danych jest najważniejszyma (i najbardziej czasochłonnym) etapem digitalzacji.

Jest wiele schematów i standardów zapisu i transportu metadanych, więcej niż można łatwo ogarnąć ciekawie brzmiących skrótów: DC, EAD, MARC, MODS, TEI, AACR2, CCO, CDWA, DACS, FOAF, ISAD(G), METS, OAI-PMH, OAIS, OWL, POWDER, PREMIS, RDA, RDF, SWORD itp. Nawet ograniczając się do standartów opisu metadanych zawartości dokumentów, mieliśmy do wyboru DC, EAD, MARC i TEI. Przy testach pojawił się problem hierarchizacji informacji, który w zasadzie ciągle jest z nami, mimo prób jego oswojenia.

Otwarty niedawno Europejski Portal Archiwów, Archives Portal Europe (APE), zrzesza 63 archiwów z 15 krajów europejskich. Archiwa wnoszą swój wkład w postaci elektronicznie zakodowanych pomocy archiwalnych. Zaletą systemu jest wspólna wyszukiwarka, która pozwala na przeszukiwanie pomocy w całym zespolonym zasobie. Przydatna jest też przeglądarka po jednostkach archiwalnych, pozwalająca na oglądanie sąsiednich zapisów tego samego poziomu, oraz przesuwanie się z poziomu na poziom.

Intrygujące jest użycie standardu EAD do zapisu informacji. EAD, w połączeniu z ISAD(G)  jest bardzo elastycznym systemem kodowania informacji archiwalnych, ale na skutek tej elastyczności występuje nadmierna różnorodność w schemacie zapisu. Prawie każdą informację można zapisać na kilka sposobów, co w kapitalny sposób utrudnia interoperatywność. APE opracował usztywnioną wersję EAD oraz przygotował zestaw narzędzi do konwersji różnych ‘smaków’ EAD w jednolity system, który może byc użyty do wyświetlania informacji i do jej łączenia. Takie narzędzie i standard może się stać podstawą interoperacyjnej wersji EAD.

Głębokość zasięgu APE kończy się na opisie zasobów, który jest tak wyczerpujący jakim go stworzyły archiwa, ale nie daje dostępu do dokumentów. Następnym etapem pracy badacza jest wizyta w odnalezionym archiwum lub podróż po róznych archiwach  i studiowanie oryginałow lub mikrofilmów.  Polska jest reprezentowana w APE przez 10 archiwów, które umieściły tam część swoich katalogów.

Marek Zieliński, 30 czerwca 2012

Może Cię też zainteresować

Crowdsourcing z użyciem Google Docs

slaska-mala-260Fragment mapy z okresu Powstań śląskich z archiwów Instutytu Józefa Piłsudskiego, zespół 8 jedn. 164.

Przy pracy nad kolekcją  “Powstania Śląskie” w archiwum Instytutu pojawił się dylemat. Archiwa są już zmikrofilmowane a mikrofilmy zeskanowane, ale z ponad 800 jednostek (teczek) udostępnione zostało tylko 50. Wynika to z braku metadanych, szczególnie danych o powstańcach, którzy walczyli w trzech Powstaniach Śląskich w latach 1919-1921. Brak finansowania powodował odsuwanie dokończenia projektu, gdyż nie umieliśmy wykorzystać pomocy wolontariuszy pracujących w domu. Co prawda istniały podobne projekty crowdsourcing, ale były one oparte na specjalnie napisanym oprogramowaniu i sporym finansowaniu projektu.

Wpadliśmy wtedy na pomysł, aby użyć gotowego, publicznie dostępnego systemu. Google Docs (teraz Google Drive) wydawał się być użyteczny dla tego projektu. Wymagało to dopasowania naszych wymagań do możliwości systemu, i narażało nas na wpadkę jeśliby Google w sposób istotny zmienił format dokumentów (co już się raz zdarzyło). Ale postanowiliśmy zaryzykować.

W pracy archiwum i biblioteki Instytutu spotykamy się często z technicznymi i społecznymi problemami, które maja ciekawe rozwiązania, z rozwiązaniami które czekają na wdrożenie i z niezwykłymi odkryciami w naszych i innych archiwach. Czytamy o wydarzeniach i zjawiskach, które mogą zainteresować wszystkich archiwistów i bibliotekarzy. Postanowiliśmy się podzielić w Wami tymi odkryciami w postaci blogu, który jest dostępny na naszej stronie. Będziemy tam pisać o rzeczach, które nas zainteresowały. Prosimy o uwagi i komentarze.

Crowdsourcing jest relatywnie nowym pomysłem, polegającym na powierzeniu jakiegoś zadania, tradycyjnie wykonywanego przez pracowników organizacji, grupie osób czy społeczności (crowd = tłum) poza tą organizacją. Różnica w stosunku do techniki outsourcing polega na tym, że zadanie powierzone jest nieznanej grupie jako publiczny apel, a nie jakiemuś konkretnemu ciału. Crowdsourcing, dzięki technologii Web. 2.0, uważany jest za narzędzie z dużymi perspektywami tak w przypadku komercyjnych organizacji jak i non-profit, jakimi są biblioteki i archiwa. Najbardziej znanym przykładem wykorzystania techniki crowdsourcing jest Wikipedia, czyli cyfrowa, powszechnie dostępna encyklopedia, tworzona przez internetowych wolontariuszy. Projekt ten w bardzo krótkim czasie i przy minimalnym koszcie doprowadził do powstania blisko 4 milionów artykułów w przypadku anlogjęzycznej wersji!

Biblioteki i archiwa wydają się być naturalnie predysponowane do wykorzystania metody crowdsourcing. Ograniczone i często skromne budżety, jak i niewielka ilość pracowników często stają na przeszkodzie w wykonaniu projektów, zwłaszcza tych związanych z digitalizacją. Z drugiej strony biblioteki i archiwa cieszą się dużym zaufaniem i poparciem publiki, które to może zaowocować zaangażowaniem i silną motywacją wolontariuszy. Jak sugeruje Ross Holley w swoim artykule “Crowdsourcing: How and Why Should Libraries Do it?”, satysfakcja z wykonywania pracy, która przynosi dobro dla ogółu jest ważnym motorem sukcesu organizacji kulturalnych podejmujących ideę crowdsourcing.

PARTNERZY
mkidn
bn
senat
ndap
msz
dn
psfcu
nyc