metro260W środę, 15 stycznia 2014 odbyła się w Nowym Jorku doroczna konferencja Metropolitan New York Library Council (METRO). Konferencja, która miała miejsce w nowoczesnym budynku Baruch College (CUNY), zgromadziła ponad dwustu przedstawicieli bibliotek archiwów, uczelni i innych instytucji z Nowego Jorku i okolic. Uczestnicy mieli do wyboru 25 prezentacji i wykładów przedstawiających różne aspekty pracy, możliwości i osiągnięć szeroko rozumianego środowiska bibliotekarskiego. Do przyjętych do prezentacji projektów zakwalifikował się referat przedstawicieli Instytutu Piłsudskiego: Dr Marka Zielińskiego i Dr Iwony Korga p.t. Digitization of Polish History 1918-1923 opisujący projekt digitalizacji i przedstawiający wybrane materiały, technikę opracowania danych, prezentację online i wykorzystanie danych przez Internautów.

Konferencja rozpoczęła się od wykładu znanej w środowisku amerykańskim bibliotekarki i blogerki Jessamyn West, która w wykładzie p.t. Open, Now! opowiedziała o możliwościach otwartego dostępu (open access) dającego nieskrępowany, bezpłatny dostęp do szeroko rozumianej informacji internetowej. Mówiła o projektach Google, Digital Public Library of America i o problemach prawnych związanych z takim dostępem.

CodexSinaiaticus260“A ona sama różaną barwą na twarzy rozlaną i wdzięcznymi a jasnymi oczyma serce swe smutne i zbytnią bojaźnią ściśnione pokrywała.” - Ksiega Estery z Codex Sinaiaticus 4:17m - 5:2 - ks. 9 rozdz. 5

Odpowiedzi na pytanie “Czym jest digitalizacja?” są tak różnorodne, jak różne są zasoby które są zamieniane w postać elektroniczną i jak różne są instytucje, które podejmują się tego zadania. Istnieją projekty, które zajmują się tylko jednym dokumentem, inne opisują z dużą szczegółowością jakieś wydarzenie lub twórczość jednej osoby, jeszcze inne dostarczają dostępu do wirtualnego archiwum historii. Są projekty które wykazują się nowatorskimi rozwiązaniami technicznymi, połączeniem różnych technik i źródeł informacji, sposobami odszukania i przeglądania zasobów. Instytucje posiadające bogate zbiory opracowują wystawy wybranych kolekcji, podczas gdy inne opierają się na współpracy wielu instytucji aby pokazać wspólnie jeden zasób. Oto garść przykładów ilustrujących tę różnorodność:

Codex Sinaiaticus to powstały w połowie czwartego wieku manuskrypt zawierający tekst Biblii po grecku, z najstarszą kompletną kopią Nowego Testamentu. Do połowy 19 wieku manuskrypt ten był przechowywany w klasztorze Świętej Katarzyny, najstarszym istniejącym dziś klasztorze chrześcijańskim, położonym u stóp góry Synaj  (Góry Mojżesza) w Egipcie. Dziś fragmenty tego rękopisu znajdują się w czterech instytucjach: oprócz Klasztoru Świętej Katarzyny także w Bibliotece Brytyjskiej w Londynie, Bibliotece Uniwersytetu w Lipsku i w  Rosyjskiej Narodowej Bibliotece w Petersburgu. Strona powstała jako wynik współpracy tych czterech instytucji. Jest nadzwyczaj starannie opracowana i zawiera wszystkie arkusze i ocalałe fragmenty kodeksu. Oprócz skanu oryginału strony podana jest transkrypcja w języku greckim, a dla niektórych stron również tłumaczenie na inne języki (angielski, niemiecki, rosyjski). Linki umożliwiają zlokalizowanie transkrypcji fragmentów tekstu po kliknięciu w oryginał.

Dziękujemy wszystkim naszym członkom i przyjaciołom za opłaty członkowskie i donacje, które stanowią podstawę naszych wydatków na utrzymanie oraz wspomagają działalność programową. Dziękujemy za szczodre donacje organizacjom polonijnym: Polsko-Słowiańskiej Federalnej Unii Kredytowej, Adam M. Bak Foundation Inc. i Stowarzyszeniu Weteranów Armii Polskiej District nr 2. Chcielibyśmy specjalnie podziękować za darowizny w wysokości tysiąca lub więcej dolarow następującym osobom: Zofii Werchun, Zbigniewowi Chrzanowskiemu, Elżbiecie i Zbigniewowi Darzynkiewiczom, Magdzie Kapuścińskiej (wraz z Chevron Corp - matching gift), Ewie Jędruch, Wallace Zielińskiemu i Aldonie Wos.

Jesteśmy szczególnie wdzięczni wszystkim tym, którzy odpowiedzieli na nasz apel z prośbą o pomoc w kontynuowaniu programu digitalizacji zasobów archiwalnych. Szeroki odzew na ten apel pozwolił nam na kontynuacje programu i pokazał, jak ważny jest Instytut Piłsudskiego dla Polonii w USA i Polaków na całym świecie.

Dziękujemy instytucjom rządowym w Polsce, które w bieżącym roku dofinansowały programy Instytutu Józefa Piłsudskiego w Ameryce. Programy te dotyczyły głównie opracowania i katalogowania dokumentów archiwalnych i bibliotecznych, edukacji historycznej oraz digitalizacji dającej szeroki dostęp do zbiorów Instytutu:

  1. Naczelna Dyrekcja Archiwów Państowych wydelegowała trzech archiwistów na dwumiesięczne staże: Bartosza Nowożyckiego i Zbigniewa Króla z Archiwum Akt Nowych oraz Tomasza Szpila z Archiwum Państwego w Łodzi, którzy opracowywali kolekcje Instytutu i digitalizowali dokumenty archiwalne. NDAP wsparła też obchody 70. rocznicy powstania Instytutu, poprzez wydrukowanie nowego folderu o historii i działalności Instytutu. Pobyt stażystów i druk folderów dofinansowano ze środków Ministerstwa Kultury i Dziedzictwa Narodowego.

  2. Ze środków MKiDN zostały również sfinansowane dwumiesięczne staże bibliotekarek z Biblioteki Narodowej: Urszuli Stasiak i Joanny Podurgiel, które  opracowały kolekcję składającą się z materiałów życia społecznego. W 2013 r. BN wydała Katalog czasopism Instytutu Józefa Piłsudskiego w Ameryce, który cieszy się dużym zainteresowaniem.

  3. Ministerstwo Spraw Zagranicznych RP przyznało grant na zorganizowanie uroczystości obchodów 70-lecia Instytutu Piłsudskiego. W czerwcu w Zamku Królewskim w Warszawie odbyła się gala, której współorganizatorem było Stowarzyszenie „Wspólnota Polska”, w październiku jubileusz Instytutu obchodzono w Konsulacie Generalnym RP w Nowym Jorku, który był współorganizatorem uroczystości.

    MSZ RP przy współudziale Konsulatu Generalnego RP dofinansowało projekt digitalizacji kolekcji Adiutantura Generalna Naczelnego Wodza oraz Konferencję Polonijny Nowy Jork zorganizowaną w Instytucie w październiku.

  4. Instytut Pamięci Narodowej pokrył koszty ośmiu miesięcznych staży swoich pracowników, którzy pracowali przy digitalizacji kolekcji z archiwum Instytutu. IPN wydał w pięknej oprawie książkę Rola Józefa Piłsudskiego w odbudowie i umacnaniu państwa polskiego, w której zawarte są wykłady prof. Wacława Jędrzejewicza wygłoszone w Instytucie Piłsudskiego w Amerycew latach 1981 – 1982.

Jesteśmy wdzięczni wszystkim placówkom rządowym, które wsparły bieżącą działalność naszej placówki. Serdecznie dziękujemy pracownikom polskich instytucji, którzy w 2013 r. przebywali u nas na stażach zawodowych, za ich wspaniałą pracę, życzliwość i oddanie sprawom Instytutu.

mkidn_120 ndap_170 bn-170  
 msz_220
konsulat
 wspolnotapolska_120
 ipn_120
 
 
 

digitalizacja260

Digitalizacja. Ilustracja wykonana z wykorzystaniem pracy Junior Melo udotępnionej przez Wikimedia Commons [CC-BY-SA-3.0])

(Version in English)

W języku polskim pojawiło się nowe słowo, ‘cyfryzacja’. Zostało ono spopularyzowane przez stworzenie w 2011 roku nowego ministerstwa Administracji i Cyfryzacji, obejmującego szeroki zakres działania, od mniejszości religijnych do informatyzacji. Słowo to zwiększyło tylko pogmatwanie, gdyż niektórzy zaczęli używać go zamiast słowa digitalizacja, które także jest używane w różnych znaczeniach. Czym więc jest digitalizacja, formatowanie cyfrowe i cyfryzacja?

Formatowanie cyfrowe

To, co dociera do naszych zmysłów ma najczęściej charakter sygnału ciągłego, t.j. takiego, który może przyjmować dowolne wartości w swojej domenie. Światło - zarówno w jego natężeniu jak i kolorze jest sygnałem ciągłym, takim jest też dźwięk (charakteryzujący się też natężeniem i tonem). Natomiast nuty albo tekst zapisany na papierze jest ciągiem dyskretnym, tj. ciągiem znaków, z których każdy jest wybrany z tylko ograniczonego zestawu możliwości.

Konwersja sygnału ciągłego na dyskretny, albo konwersja analogowo-cyfrowa jest podstawą procesu digitalizacji. Odbywa się przez tzw. próbkowanie, tj podział jakiegoś obszaru (domeny) na dyskretne elementy, i zapisanie wartości sygnału w każdym elemencie. Dla dźwięku próbkowanie polega na zapisie intensywności sygnału dźwiękowego w odcinkach czasu. Dla obrazu dwuwymiarowego, obszar dzieli się na prostokąty (najczęściej kwadraty) i zapisuje wartość sygnału - w tym wypadku koloru - dla danego kwadratu (pixla). Dyskretny jest zarówno podział obszaru na elementy, jak i wartości, jakie po próbkowaniu może przyjąć zapis sygnału.

Jak się to odbywa w praktyce? Obraz dwuwymiarowy (płaski), np. zdjęcie, dokument, stronę tekstu, zamieniamy na zapis cyfrowy używając skanera; można też użyć aparatu fotograficznego. Sygnał dźwiękowy, przekształcony najpierw na elektryczny w mikrofonie, zamieniamy na zapis cyfrowy za pomocą urządzenia zwanego przetwornikiem analogowo-cyfrowym (AC). Przy konwersji filmu na błonie filmowej łączymy obie techniki - skan dla obrazu i przetwornik AC dla ścieżki dźwiękowej. Film zapisany na taśmie magnetycznej jest najpierw odtwarzany, a więc zamieniany z powrotem na sygnał elektryczny, który w podobny sposób jest zamieniany na cyfrowy z rozdzieleniem obrazu i dźwięku. W każdym wypadku przekształcamy jakąś informację zapisaną na ‘klasycznym’ nośniku na ciąg zer i jedynek, który z użyciem określonego kodowania zostaje zapisany na dysku lub w innej pamięci komputera.

Należy tu od razu odróżnić materiał który jest w chwili powstania zapisany w postaci cyfrowej - “born digital”. Zdjęcie aparatem cyfrowym lub elektroniczny zapis koncertu to są zasoby które powstały jako cyfrowe, mimo, że w procesie produkcji mogły odbywać się procesy konwersji.

W domenie języka którym posługują się bibliotekarze i archiwiści, na proces konwersji analogowo-cyfrowej najczęściej używa się określenia “reformatting” albo “digital reformatting” - zamiana oryginału na surogat cyfrowy.

Metadane

Plik cyfrowy zawierający jakiś zasób jest początkowo zupełnie pozbawiony metadanych. To tak, jakby na dysku mieć setki tysięcy plików (komputer na którym piszę ten tekst ma ich prawie pół miliona) o nazwach “abdez” rs23s” “94mpX” - nie mielibyśmy żadnych szans na znalezienie czegokolwiek. Proces zbierania metadanych (danych o danych, w tym wypadku danych o zasobie cyfrowym) można porównać do katalogowania książek, z tym, że pliki cyfrowe są o wiele bardziej niesforne i nie poddają się łatwo prostym zasadom katalogowania stworzonym przez bibliotekarzy. Metadane sa ważne dla zasobów domowych (dawniej wnuki dostawały w spadku albumy fotografii dziadków), a krytyczne dla archiwów i bibliotek których zadaniem statutowym jest zachowanie i udostępnianie zasobów. O metadanych pisałem już poprzednio, standardy metadanych są częścią cyklu w tym blogu.

Należy tu jeszcze wspomnieć o transkrypcji tekstu. Zeskanowany dokument jest czytelny dla człowieka, ale dla komputera to tylko gęsta masa kropek o różnych kolorach. Metadane są niezbędne do tego, żeby odszukać dany zasób, i często pomagają w tworzeniu indeksów (tematy, osoby, miejsca, daty itp). Można jednak pójść dalej, i metadane uzupełnić o transkrypcję całego tekstu doprowadzając go do postaci zrozumiałej przez komputer. Można to zrobić ręcznie, ale zautomatyzowanie tego procesu jest możliwe dzięki technice optycznego rozpoznawania obrazu (OCR). Poddanie np. książki procesowi OCR (i usunięcie błędów, bo technika nie jest 100% dokładna) pozwala na jej dostarczenie w postaci cyfrowej, w wielu różnych formatach, w zależności od potrzeb, a także na przeszukiwanie zawartości całego tekstu.

Digitalizacja

Czym więc jest digitalizacja? Jest to cały proces przeróbki zasobu analogowego na cyfrowy, składający się z przygotowania, formatowania, opisu (zbierania metadanych) i udostępnienia. Proces digitalizacji może wyglądać nieco inaczej w zależności od rodzaju zasobu, tu opiszę ten proces dla archiwów, parafrazując fragment autorytatywnego dokumentu NARA (Narodowej Administracji Archiwów i Zasobów USA):

Digitalizacja to seria czynności których końcowym efektem jest kopia cyfrowa dostępna dla użytkowników poprzez Internet lub innymi kanałami, przez długi okres czasu. Na czynności te składa się:

  • Identyfikacja i selekcja dokumentów. Jest to szczególnie ważne w archiwach, które często dostają pudła lub teczki zawierające wiele dokumentów, nie koniecznie w właściwej kolejności, często z pomieszanymi stronami.
  • Przygotowanie dokumentów, porządkowanie, konserwacja, paginowanie.
  • Zbieranie podstawowych metadanych - zarówno technicznych jak i opisowych, wystarczających do znalezienia dokumentu i dostarczających podstawowych danych o kontekście, w którym ten dokument występuje.
  • Konwersja cyfrowa.
  • Kontrola jakości kopii cyfrowych oraz metadanych.
  • Dostarczenie użytkownikowi (w postaci elektronicznej) dostępu do dokumentów.
  • Utrzymanie kopii cyfrowych i metadanych, kopii zapasowych i planowanie na przyszłość (konwersje formatów i nowe urządzenia)

Tak jak biblioteka to nie magazyn książek (choć spełnia ona także funkcje magazynowe) tak digitalizacja to nie skanowanie (choć konwersja cyfrowa jest częścią procesu digitalizacji).

Cyfryzacja

Trudno znaleźć użyteczną definicję cyfryzacji - słowo to jest używane w wielu kontekstach w sposób dość dowolny. Przyjrzyjmy się więc, czym zajmuje się Ministerstwo Cyfryzacji. W programie “Polska Cyfrowa” ministerstwo definiuje trzy “osie”: dostęp do szybkiego internetu, rozwój dostępnych w sieci e-usług i zasobów i kompetencje cyfrowych umiejętności obywateli. Pod hasłem “Kluczowe działania zintegrowanej informatyzacji” wymienia takie zadania jak zapewnienie ram organizacyjnych budowy systemu informacyjnego państwa, uzyskanie interoperacyjności rejestrów publicznych czy uruchomienie Państwowej Chmury Obliczeniowej. Widać więc wyraźnie, że pojęcie cyfryzacji jest tu rozumiane szeroko jako działania w celu zwiększenia dostępności Internetu i jego zasobów dla obywateli i wbudowanie mechanizmów elektronicznych w administrację państwową. Nie ma to więc nic wspólnego z digitalizacją.

Podsumowanie

Digitalizacja jest jednym z bardzo ważnych, a może najważniejszych zadań archiwów i bibliotek, wynikająca z powołania tych organizacji (zabezpieczenie i dostęp), w połączeniu z konserwacją i zabezpieczaniem oryginałów zasobów. Przyszłość, z czym zgadza się rząd powołując Ministerstwo Cyfryzacji, jest w dostępie elektronicznym do zasobów, w tym do książek i archiwów. Digitalizacja to cały proces zamiany istniejących zasobów analogowych w równoważne i dostępne zasoby cyfrowe, na co składa się m.in. obróbka oryginałów, konwersja cyfrowa, zbieranie metadanych i udostępnianie.

Czytaj więcej

(wszystkie źródła w języku angielskim)

Marek Zieliński, 17 grudnia 2013

Może Cię też zainteresować

PARTNERZY
mkidn
bn
senat
ndap
msz
dn
psfcu
nyc