Projekty digitalizacji na świecie

: Marek Zielinski

Projekty digitalizacji na świecie

CodexSinaiaticus260 “A ona sama różaną barwą na twarzy rozlaną i wdzięcznymi a jasnymi oczyma serce swe smutne i zbytnią bojaźnią ściśnione pokrywała.” - Ksiega Estery z Codex Sinaiaticus 4:17m - 5:2 - ks. 9 rozdz. 5

Odpowiedzi na pytanie “Czym jest digitalizacja?” są tak różnorodne, jak różne są zasoby które są zamieniane w postać elektroniczną i jak różne są instytucje, które podejmują się tego zadania. Istnieją projekty, które zajmują się tylko jednym dokumentem, inne opisują z dużą szczegółowością jakieś wydarzenie lub twórczość jednej osoby, jeszcze inne dostarczają dostępu do wirtualnego archiwum historii. Są projekty które wykazują się nowatorskimi rozwiązaniami technicznymi, połączeniem różnych technik i źródeł informacji, sposobami odszukania i przeglądania zasobów. Instytucje posiadające bogate zbiory opracowują wystawy wybranych kolekcji, podczas gdy inne opierają się na współpracy wielu instytucji aby pokazać wspólnie jeden zasób. Oto garść przykładów ilustrujących tę różnorodność:

Codex Sinaiaticus to powstały w połowie czwartego wieku manuskrypt zawierający tekst Biblii po grecku, z najstarszą kompletną kopią Nowego Testamentu. Do połowy 19 wieku manuskrypt ten był przechowywany w klasztorze Świętej Katarzyny, najstarszym istniejącym dziś klasztorze chrześcijańskim, położonym u stóp góry Synaj (Góry Mojżesza) w Egipcie. Dziś fragmenty tego rękopisu znajdują się w czterech instytucjach: oprócz Klasztoru Świętej Katarzyny także w Bibliotece Brytyjskiej w Londynie, Bibliotece Uniwersytetu w Lipsku i w Rosyjskiej Narodowej Bibliotece w Petersburgu. Strona powstała jako wynik współpracy tych czterech instytucji. Jest nadzwyczaj starannie opracowana i zawiera wszystkie arkusze i ocalałe fragmenty kodeksu. Oprócz skanu oryginału strony podana jest transkrypcja w języku greckim, a dla niektórych stron również tłumaczenie na inne języki (angielski, niemiecki, rosyjski). Linki umożliwiają zlokalizowanie transkrypcji fragmentów tekstu po kliknięciu w oryginał.

The Newton Project jest przykładem kolekcji monotematycznej. Wszystkie pisma jednego z największych naukowców wszechczasów, Isaaca Newtona, są udostępniane na stronie projektu. Oprócz skanów oryginalnych tekstów dostępna jest transkrypcja jego pism, zarówno tych opublikowanych jak i istniejących tylko w postaci rękopisów: teksty naukowe, matematyczne, religijne i z dziedziny alchemii, a także jego notatniki i korespondencja. Można przeczytać dwie wersje każdego dokumentu: “dyplomatyczną” i “znormalizowaną”. Wersja “dyplomatyczna” to transkrypcja brudnopisu, z widocznymi wszystkimi poprawkami, skreśleniami i zmianami. Wersja “znormalizowana” odpowiada czystopisowi, tekstowi gotowemu do druku. Zaawansowana transkrypcja i oznakowanie jest wykonana z użyciem standardu TEI, co oznacza, że korzystając ze źródła w TEI można przygotować praktycznie dowolne przedstawienie tych tekstów w różnych formatach wyświetlania, na różnych urządzeniach (albo nawet do druku na papierze).

Mapping Our Anzacs. Anzacs to żołnierze Armii Australii i Nowej Zelandii, którzy walczyli m.in. w pierwszej wojnie światowej (pod Gallipoli i w innych miejscach). Strona zawiera bardzo szczegółowe dane o żołnierzach ANZAC, skany oryginalnych dokumentów, linki do map i inne dane. Konstrukcja strony jest interaktywna oraz, co jest rzadkością, pozwala użytkownikom na dodawanie informacji do zapisów poszczególnych żołnierzy, a także pomagać w rozpoznawaniu osób na zdjęciach. Mapy pozwalają na lokalizację żołnierzy (np. dwóch urodzonych w Radomiu). Nowa strona o rozszerzonej funkcjonalności, “Discovering Anzacs” jest w budowie. Istnieje też podobna strona francuska pod tytułem Mémoire des hommes, ze spisem i danymi żołnierzy, którzy walczyli za Francję.

Brooklyn Daily Eagle to dziennik Brooklynu, który z cztero-stronicowej gazety w roku 1841 urósł do 16 stron w latach dziewięćdziesiątych 19 wieku. Wydawany był do 1955 roku, z krótkim wznowieniem w latach 1960-1963. Zdigitalizowane przez Bibliotekę Brooklińską zostały roczniki od 1841 do 1902, zanim projekt wyczerpał fundusze. Jest to przykład bardzo drobiazgowego i szczegółowego opracowania materiału drukowanego. Mikrofilmy zostały wypożyczone z Biblioteki Kongresu, zeskanowane, następnie obrobione przez program OCR (optycznego rozpoznawania tekstu). Strony gazety zostały podzielone na segmenty, a wyniki zapisane jako tekst oznakowany w XML z użyciem standardu Dublin Core oraz obrazy w formacie tiff i pdf skonstruowane tak, że tekst w postaci cyfrowej, który można przeszukiwać, jest nałożony jako przezroczysta warstwa na oryginalny obraz. Przeszukiwanie daje efektowny wynik podświetlenia fragmentu oryginalnego tekstu.

Polish American Pamphlets to ciekawa kolekcja poloników - broszur wydawanych przez organizacje polonijne różnego typu, takich jak broszury rocznicowe, materiały konferencyjne, programy koncertów, zjazdów, balów, dedykacji itp. Zawierają one także eseje historyczne, zdjęcia i listy członkowskie. Kolekcja została opracowana i udostępniona przez Polsko Amerykańskie Archiwa Uniwersytetu Stanowego Centralnego Connecticut. Broszury te są kapitalnym przyczynkiem do studiów nad codziennym życiem Polonii w Ameryce 19 i 20 wieku. Broszury są zeskanowane i opatrzone metadanymi, ale w większości bez transkrypcji.

NYPL Digital Collections jest nowo otwartą (jeszcze w formie beta) prezentacją prawie 800 tysięcy zdigitalizowanych obiektów w zasobach Biblioteki Publicznej Nowego Jorku (New York Public Library). Jest ona nastawiona na efekt wizualny, zawiera bardzo dużą liczbę fotografii, ilustracji, rycin, ale także inne rodzaje materiałów. Jak przystało na rodowód biblioteczny, zaopatrzona jest w szczegółowo opracowaną taksonomię. Oprócz obowiązkowej przeszukiwarki, można przeglądać kolekcje według: haseł tematycznych (np. “Sztuka -- Czechosłowacja -- Periodyki”), nazwisk, miejsc, kolekcji, rodzajów czy gatunków (genre), wydawców, miejsca w bibliotece i rodzajów materiału (782 tys zdjęć, 5.5 tys tekstu, 1,5 tysiąca wideo, 562 mapy itp.) Sama forma prezentacji jest też znakomita, z intuicyjnym interfejsem, przedstawieniem dostosowanym do rodzaju zasobu (inne wyświetlarki dla zdjęć, inne dla map, jeszcze inne dla dokumentów wielostronicowych itp.)

Digital Public Library of America jest składnicą zdigitalizowanych zasobów pochodzących z wielu różnych instytucji w USA. Wiele z nich można obejrzeć na stronach tych instytucji, ale DPLA daje wspólne, jednolite podejście do zasobów. Jest tam kilka wystaw tematycznych, wyszukiwarka (hasło “Piłsudski” daje 10 trafień - w zdigitalizowane książki), i ciekawe użycie wielu wymiarów: w osi czasu, w mapie (pokazującej instytucje, nie pochodzenie zasobów) czy też w spisach książek (wymiary prostokąta sugerują wymiary i liczbą stron książki). Zasoby są różnorodne - od obiektów muzealnych do dokumentów z archiwów stanowych do 1.6 miliona zdigitalizowanych książek. Zasób jest ilościowo imponujący - ponad 5 milionów obiektów, a interfejs przyjazny dla użytkownika. Po znalezieniu obiektu strona przekierowuje do instytucji przechowującej zasób, co daje różne wyniki, od doskonałej prezentacji do stron z problemami (np. niejednolite użycie kodowania utf-8 a więc trudności w wyświetlaniu liter z polskimi czy innymi znakami diakrytcznymi).

Project Gutenberg jest systemem oferujacym darmowe książki elektroniczne (eBook). Jest to system oparty na pracy wolontariuszy, z użyciem crowdsourcing, a także w oparciu o granty. Jego filozofią jest udostępnienie książek (głównie) w różnych formach tak, aby większość ludzi używających komputery mogła je swobodnie czytać, używać, cytować i przeszukiwać. Forma eBook jest najdalej posuniętą digitalizacją: materiał jest nie tylko skanowany, ale zastosowana jest transkrypcja (OCR), z ręczną korektą i uzupełnieniem, z dodaniem ilustracji we właściwych miejscach itp, innymi słowy jest to pełen system wydawniczy. Tak opracowana publikacja może być (i jest) formatowana dla różnych systemów - od czystego tekstu poprzez format webowy HTML, jako PDF, a także w różnych formatach eBook takich jak Kindle czy EPUB, które pozwalają na wyświetlenie książki w urządzeniach (tabletach, telefonach itp) o różnych proporcjach i wymiarach strony. Projekt Gutenberg oferuje obecnie 42 tysiące tytułów, a wraz z siostrzanymi systemami (np. wersjami językowymi z innych krajów) ponad 100 tysięcy.

Internet Archive - organizacja niedochodowa - jest znana ze swojej Maszyny Czasu (Wayback Machine) która zapisuje migawki stron WWW. Można w tym archiwum zobaczyć dawno już nieczynne strony i informacje. Ale oprócz tego Internet Archive zajmuje się też digitalizacją książek na duża skalę - obecnie około tysiąca książek jest digitalizowanych dziennie. W głównej kolekcji można znaleźć 5 milionów zdigitalizowanych książek i innych materiałów z 1,5 tysiąca różnych kolekcji i bibliotek, z Ameryki Północnej, Europy i Azji, reprezentujących 150 języków. Bardziej współczesna Otwarta Biblioteka (Open Lbrary) ma ponad 2 miliony książek w postaci eBook, które można czytać na miejscu i wypożyczać.

Google Books jest największym projektem digitalizacji książek na świecie (około 30 milionów tytułów). Ze względu na skalę przedsięwzięcia firma Google jest zarówno chwalona jak i podawana do sądów. Chwalona za to, że udostępnia dla wszystkich dużą część wiedzy i literatury człowieka, podawana do sądów z tego samego powodu. Ze względu na różnorodność praw autorskich na świecie, a także inne ograniczenia, dostęp do książek jest zróżnicowany. Książki w domenie publicznej (a także te, których autorzy wyrazili na to zgodę) są dostępne w całości. W większości jest to dostęp do skanów stron, z nałożoną “przezroczystą warstwą” tekstu który poddany został transkrypcji poprzez OCR. Umożliwia to wyszukiwanie słów i zdań w tekście (co jest specjalnością Google). Część zasobów udostępnionych to książki dla których prawa autorskie już wygasły. Inne, na zasadzie umów z autorem lub wydawcą, są zindeksowane i dostępne w postaci podglądu: można przeczytać wybrane fragmenty, często wstęp lub niektóre rozdziały, a dla przeczytania całości trzeba książkę kupić. Tego typu zasoby są też indeksowane w całości, z pokazaniem skrawka tekstu ze znalezionym słowem, jeśli ten fragment nie mieści się w podglądzie. Inni wydawcy wymagają całkowitego usunięcia dzieła z indeksowania (Google Books dalej podaje tytuł i autora), co w pewien sposób usuwa również to dzieło z pamięci świata. Więcej o Google Books można przeczytać w Wikpedii.

W Instytucie Piłsudskiego udostępniamy w chwili obecnej około 10 tysięcy zdigitalizowanych dokumentów historycznych z 8 jednostek archiwalnych. Są one indeksowane ręcznie, można je przeglądać teczka po teczce i strona po stronie, wybierać nazwiska, miejsca, daty - jest też ogólna wyszukiwarka. Projekt Elektronicznego Łączenia Kolekcji zadebiutował zespołem archiwalnym Józefa Piłsudskiego, dostępnym w jednym miejscu w Internecie, a fizycznie po dwóch stronach oceanu (Nowy Jork i Londyn).

Marek Zieliński, 15 stycznia 2014

Może Cię też zainteresować