Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

metro260W środę, 15 stycznia 2014 odbyła się w Nowym Jorku doroczna konferencja Metropolitan New York Library Council (METRO). Konferencja, która miała miejsce w nowoczesnym budynku Baruch College (CUNY), zgromadziła ponad dwustu przedstawicieli bibliotek archiwów, uczelni i innych instytucji z Nowego Jorku i okolic. Uczestnicy mieli do wyboru 25 prezentacji i wykładów przedstawiających różne aspekty pracy, możliwości i osiągnięć szeroko rozumianego środowiska bibliotekarskiego. Do przyjętych do prezentacji projektów zakwalifikował się referat przedstawicieli Instytutu Piłsudskiego: Dr Marka Zielińskiego i Dr Iwony Korga p.t. Digitization of Polish History 1918-1923 opisujący projekt digitalizacji i przedstawiający wybrane materiały, technikę opracowania danych, prezentację online i wykorzystanie danych przez Internautów.

Konferencja rozpoczęła się od wykładu znanej w środowisku amerykańskim bibliotekarki i blogerki Jessamyn West, która w wykładzie p.t. Open, Now! opowiedziała o możliwościach otwartego dostępu (open access) dającego nieskrępowany, bezpłatny dostęp do szeroko rozumianej informacji internetowej. Mówiła o projektach Google, Digital Public Library of America i o problemach prawnych związanych z takim dostępem.

CodexSinaiaticus260“A ona sama różaną barwą na twarzy rozlaną i wdzięcznymi a jasnymi oczyma serce swe smutne i zbytnią bojaźnią ściśnione pokrywała.” - Ksiega Estery z Codex Sinaiaticus 4:17m - 5:2 - ks. 9 rozdz. 5

Odpowiedzi na pytanie “Czym jest digitalizacja?” są tak różnorodne, jak różne są zasoby które są zamieniane w postać elektroniczną i jak różne są instytucje, które podejmują się tego zadania. Istnieją projekty, które zajmują się tylko jednym dokumentem, inne opisują z dużą szczegółowością jakieś wydarzenie lub twórczość jednej osoby, jeszcze inne dostarczają dostępu do wirtualnego archiwum historii. Są projekty które wykazują się nowatorskimi rozwiązaniami technicznymi, połączeniem różnych technik i źródeł informacji, sposobami odszukania i przeglądania zasobów. Instytucje posiadające bogate zbiory opracowują wystawy wybranych kolekcji, podczas gdy inne opierają się na współpracy wielu instytucji aby pokazać wspólnie jeden zasób. Oto garść przykładów ilustrujących tę różnorodność:

Codex Sinaiaticus to powstały w połowie czwartego wieku manuskrypt zawierający tekst Biblii po grecku, z najstarszą kompletną kopią Nowego Testamentu. Do połowy 19 wieku manuskrypt ten był przechowywany w klasztorze Świętej Katarzyny, najstarszym istniejącym dziś klasztorze chrześcijańskim, położonym u stóp góry Synaj  (Góry Mojżesza) w Egipcie. Dziś fragmenty tego rękopisu znajdują się w czterech instytucjach: oprócz Klasztoru Świętej Katarzyny także w Bibliotece Brytyjskiej w Londynie, Bibliotece Uniwersytetu w Lipsku i w  Rosyjskiej Narodowej Bibliotece w Petersburgu. Strona powstała jako wynik współpracy tych czterech instytucji. Jest nadzwyczaj starannie opracowana i zawiera wszystkie arkusze i ocalałe fragmenty kodeksu. Oprócz skanu oryginału strony podana jest transkrypcja w języku greckim, a dla niektórych stron również tłumaczenie na inne języki (angielski, niemiecki, rosyjski). Linki umożliwiają zlokalizowanie transkrypcji fragmentów tekstu po kliknięciu w oryginał.

digitalizacja260

Digitalizacja. Ilustracja wykonana z wykorzystaniem pracy Junior Melo udotępnionej przez Wikimedia Commons [CC-BY-SA-3.0])

(Version in English)

W języku polskim pojawiło się nowe słowo, ‘cyfryzacja’. Zostało ono spopularyzowane przez stworzenie w 2011 roku nowego ministerstwa Administracji i Cyfryzacji, obejmującego szeroki zakres działania, od mniejszości religijnych do informatyzacji. Słowo to zwiększyło tylko pogmatwanie, gdyż niektórzy zaczęli używać go zamiast słowa digitalizacja, które także jest używane w różnych znaczeniach. Czym więc jest digitalizacja, formatowanie cyfrowe i cyfryzacja?

Formatowanie cyfrowe

To, co dociera do naszych zmysłów ma najczęściej charakter sygnału ciągłego, t.j. takiego, który może przyjmować dowolne wartości w swojej domenie. Światło - zarówno w jego natężeniu jak i kolorze jest sygnałem ciągłym, takim jest też dźwięk (charakteryzujący się też natężeniem i tonem). Natomiast nuty albo tekst zapisany na papierze jest ciągiem dyskretnym, tj. ciągiem znaków, z których każdy jest wybrany z tylko ograniczonego zestawu możliwości.

Konwersja sygnału ciągłego na dyskretny, albo konwersja analogowo-cyfrowa jest podstawą procesu digitalizacji. Odbywa się przez tzw. próbkowanie, tj podział jakiegoś obszaru (domeny) na dyskretne elementy, i zapisanie wartości sygnału w każdym elemencie. Dla dźwięku próbkowanie polega na zapisie intensywności sygnału dźwiękowego w odcinkach czasu. Dla obrazu dwuwymiarowego, obszar dzieli się na prostokąty (najczęściej kwadraty) i zapisuje wartość sygnału - w tym wypadku koloru - dla danego kwadratu (pixla). Dyskretny jest zarówno podział obszaru na elementy, jak i wartości, jakie po próbkowaniu może przyjąć zapis sygnału.

Jak się to odbywa w praktyce? Obraz dwuwymiarowy (płaski), np. zdjęcie, dokument, stronę tekstu, zamieniamy na zapis cyfrowy używając skanera; można też użyć aparatu fotograficznego. Sygnał dźwiękowy, przekształcony najpierw na elektryczny w mikrofonie, zamieniamy na zapis cyfrowy za pomocą urządzenia zwanego przetwornikiem analogowo-cyfrowym (AC). Przy konwersji filmu na błonie filmowej łączymy obie techniki - skan dla obrazu i przetwornik AC dla ścieżki dźwiękowej. Film zapisany na taśmie magnetycznej jest najpierw odtwarzany, a więc zamieniany z powrotem na sygnał elektryczny, który w podobny sposób jest zamieniany na cyfrowy z rozdzieleniem obrazu i dźwięku. W każdym wypadku przekształcamy jakąś informację zapisaną na ‘klasycznym’ nośniku na ciąg zer i jedynek, który z użyciem określonego kodowania zostaje zapisany na dysku lub w innej pamięci komputera.

Należy tu od razu odróżnić materiał który jest w chwili powstania zapisany w postaci cyfrowej - “born digital”. Zdjęcie aparatem cyfrowym lub elektroniczny zapis koncertu to są zasoby które powstały jako cyfrowe, mimo, że w procesie produkcji mogły odbywać się procesy konwersji.

W domenie języka którym posługują się bibliotekarze i archiwiści, na proces konwersji analogowo-cyfrowej najczęściej używa się określenia “reformatting” albo “digital reformatting” - zamiana oryginału na surogat cyfrowy.

Metadane

Plik cyfrowy zawierający jakiś zasób jest początkowo zupełnie pozbawiony metadanych. To tak, jakby na dysku mieć setki tysięcy plików (komputer na którym piszę ten tekst ma ich prawie pół miliona) o nazwach “abdez” rs23s” “94mpX” - nie mielibyśmy żadnych szans na znalezienie czegokolwiek. Proces zbierania metadanych (danych o danych, w tym wypadku danych o zasobie cyfrowym) można porównać do katalogowania książek, z tym, że pliki cyfrowe są o wiele bardziej niesforne i nie poddają się łatwo prostym zasadom katalogowania stworzonym przez bibliotekarzy. Metadane sa ważne dla zasobów domowych (dawniej wnuki dostawały w spadku albumy fotografii dziadków), a krytyczne dla archiwów i bibliotek których zadaniem statutowym jest zachowanie i udostępnianie zasobów. O metadanych pisałem już poprzednio, standardy metadanych są częścią cyklu w tym blogu.

Należy tu jeszcze wspomnieć o transkrypcji tekstu. Zeskanowany dokument jest czytelny dla człowieka, ale dla komputera to tylko gęsta masa kropek o różnych kolorach. Metadane są niezbędne do tego, żeby odszukać dany zasób, i często pomagają w tworzeniu indeksów (tematy, osoby, miejsca, daty itp). Można jednak pójść dalej, i metadane uzupełnić o transkrypcję całego tekstu doprowadzając go do postaci zrozumiałej przez komputer. Można to zrobić ręcznie, ale zautomatyzowanie tego procesu jest możliwe dzięki technice optycznego rozpoznawania obrazu (OCR). Poddanie np. książki procesowi OCR (i usunięcie błędów, bo technika nie jest 100% dokładna) pozwala na jej dostarczenie w postaci cyfrowej, w wielu różnych formatach, w zależności od potrzeb, a także na przeszukiwanie zawartości całego tekstu.

Digitalizacja

Czym więc jest digitalizacja? Jest to cały proces przeróbki zasobu analogowego na cyfrowy, składający się z przygotowania, formatowania, opisu (zbierania metadanych) i udostępnienia. Proces digitalizacji może wyglądać nieco inaczej w zależności od rodzaju zasobu, tu opiszę ten proces dla archiwów, parafrazując fragment autorytatywnego dokumentu NARA (Narodowej Administracji Archiwów i Zasobów USA):

Digitalizacja to seria czynności których końcowym efektem jest kopia cyfrowa dostępna dla użytkowników poprzez Internet lub innymi kanałami, przez długi okres czasu. Na czynności te składa się:

  • Identyfikacja i selekcja dokumentów. Jest to szczególnie ważne w archiwach, które często dostają pudła lub teczki zawierające wiele dokumentów, nie koniecznie w właściwej kolejności, często z pomieszanymi stronami.
  • Przygotowanie dokumentów, porządkowanie, konserwacja, paginowanie.
  • Zbieranie podstawowych metadanych - zarówno technicznych jak i opisowych, wystarczających do znalezienia dokumentu i dostarczających podstawowych danych o kontekście, w którym ten dokument występuje.
  • Konwersja cyfrowa.
  • Kontrola jakości kopii cyfrowych oraz metadanych.
  • Dostarczenie użytkownikowi (w postaci elektronicznej) dostępu do dokumentów.
  • Utrzymanie kopii cyfrowych i metadanych, kopii zapasowych i planowanie na przyszłość (konwersje formatów i nowe urządzenia)

Tak jak biblioteka to nie magazyn książek (choć spełnia ona także funkcje magazynowe) tak digitalizacja to nie skanowanie (choć konwersja cyfrowa jest częścią procesu digitalizacji).

Cyfryzacja

Trudno znaleźć użyteczną definicję cyfryzacji - słowo to jest używane w wielu kontekstach w sposób dość dowolny. Przyjrzyjmy się więc, czym zajmuje się Ministerstwo Cyfryzacji. W programie “Polska Cyfrowa” ministerstwo definiuje trzy “osie”: dostęp do szybkiego internetu, rozwój dostępnych w sieci e-usług i zasobów i kompetencje cyfrowych umiejętności obywateli. Pod hasłem “Kluczowe działania zintegrowanej informatyzacji” wymienia takie zadania jak zapewnienie ram organizacyjnych budowy systemu informacyjnego państwa, uzyskanie interoperacyjności rejestrów publicznych czy uruchomienie Państwowej Chmury Obliczeniowej. Widać więc wyraźnie, że pojęcie cyfryzacji jest tu rozumiane szeroko jako działania w celu zwiększenia dostępności Internetu i jego zasobów dla obywateli i wbudowanie mechanizmów elektronicznych w administrację państwową. Nie ma to więc nic wspólnego z digitalizacją.

Podsumowanie

Digitalizacja jest jednym z bardzo ważnych, a może najważniejszych zadań archiwów i bibliotek, wynikająca z powołania tych organizacji (zabezpieczenie i dostęp), w połączeniu z konserwacją i zabezpieczaniem oryginałów zasobów. Przyszłość, z czym zgadza się rząd powołując Ministerstwo Cyfryzacji, jest w dostępie elektronicznym do zasobów, w tym do książek i archiwów. Digitalizacja to cały proces zamiany istniejących zasobów analogowych w równoważne i dostępne zasoby cyfrowe, na co składa się m.in. obróbka oryginałów, konwersja cyfrowa, zbieranie metadanych i udostępnianie.

Czytaj więcej

(wszystkie źródła w języku angielskim)

Marek Zieliński, 17 grudnia 2013

Może Cię też zainteresować

 

Regime_entailment_basic-260

Przykład schematu RDF Linked Data (reifikacja) - autor Karima Rafes (własne dzieło) [CC-BY-SA-3.0], via Wikimedia Commons)

Linked Data to mechanizm którym posługuje się Semantic Web albo “Web 3.0 w budowie”. Te powiązane ze sobą określenia są tak nowe, że nie maja jeszcze ‘oficjalnego’ polskiego tłumaczenia. Na czym polega Semantic Web? Wszyscy używamy World Wide Web (www). Podstawowym składnikiem www sa tak zwane hiperłącza (hiperlink), odnośniki albo odsyłacze do innych stron, źródeł informacji. Kliknięcie w taki odsyłacz (ma w nazwie http) powoduje otwarcie w przeglądarce internetowej nowej strony pozwalającej na rozszerzenie naszej wiedzy lub dalsze zaspokojenie ciekawości. Www została stworzona dla naszej konsumpcji, i jak język naturalny, jest rozumiana przez ludzi.

Jak pisałem poprzednio, komputery są w porównaniu z nami bardzo mało rozgarnięte. Trzeba im wszystko przedstawiać kawa na ławę, metodą łopatologiczną. Ale są za to bardzo szybkie, a przede wszystkim potrafią ogarnąć o wiele więcej danych na raz niż my. A to znaczy, że odszukają w petabajtach informacji to, czego właśnie potrzebujemy. Aby to było możliwe, musimy być dużo bardziej precyzyjni, mieć wiarygodne źródła informacji i system który to wszystko połączy. Tym systemem jest właśnie Linked Data. 

Dlaczego interesować się Linked Data? Oczywiście z ciekawości, żeby zrozumieć jak działa dziś świat cyfrowy, który nas otacza; dotyczy to szczególnie archiwistów, bibliotekarzy i innych pracujących w dziedzinie obróbki  danych. Jeśli pracujemy w instytucji która posiada jakieś dobrej jakości dane z dowolnej dziedziny, udostępnienie tych danych już teraz w Linked Data podniesie znacząco prestiż tej instytucji na całym świecie.

(In English)

graphicformats240 W coraz większym tempie przestawiamy się na fotografię cyfrową. To, co było kilkanaście lat temu nowinką staje się standardem, a aparaty na film staja się rzadkością. Możliwość natychmiastowego sprawdzenia wyniku, powszechość zapisu obrazu w telefonach, tabletach, coraz tańsza pamięć cyfrowa i sprzęt fotograficzny powoduje, że robimy teraz o wiele więcej zdjęć. Jednocześnie jednak fotografia stała się czymś bardzo przejściowym. Kiedyś wklejało się zdjęcia do albumów, kolekcjonowało w pudełkach, dziś siedzą one jako pliki na dysku komputera, a gdy dysk padnie (wszystkie dyski to czeka), nagle tracimy nasze zasoby. Pisałem już wcześniej o osobistych archiwach cyfrowych, tym razem bardziej szczególowo o tym, jak zapakować i przechować obraz cyfrowy.

Zapis obrazu to nie tylko zdjęcia. Skany dokumentów w archiwum to także zapis cyfrowy, który powienien wiernie odzwierciedlać oryginalny dokument. Jak wybrać najlepszy format i sposób zapisu tak, aby przetrwał dla następnego pokolenia, aby nasze wnuki mogły ogladąć albumy dziadków, a archiwa przechowały bezcenne już (bo papier sie rozpadł) obrazy archiwaliów? Zapisany obraz przechowujemy w opakowaniu zwanym plikiem (file). W dalszym ciągu bedzie o formatach tych kopert, do których wkładamy zdjęcia - plików komputerowych, kompresji i metadanych a także przekładaniu obrazu z jednej koperty do innej (konwersji).

Aparat cyfrowy to imitacja siatkówki oka. Imitacja ta nie jest zbyt dobra, gdyż oko pracuje zupełnie inaczej niż kamera, ale można to traktować jako przybliżenie. Obraz - zbierany przez soczewkę albo skanowany na płaskim skanerze, dzielony jest na małe elementy, zwykle kwadratowe (pixle), a kolor zapisywany jest osobno dla każdego kwadratu. Notowane są dane dla trzech kolorów, choć innych niż w oku człowieka. Po przetworzenu danych mamy więc prostokątną matrycę, a w każdej jej komórce zapisany jest  kolor. Zapis charakteryzuje się wymiarami w pixlach (wysokość i szerokość) i trzecim wymiarem (zwanym głębokością), podającym jak szczegółowo rozróżnione są kolory. Najbardziej popularny zapis używa 8 bitów na każdy z 3 kolorów “podstawowych”(razem 24), co daje możliwość zapisania ponad 16 milionów odcieni.  Tak zapisane dane pakowane są do plików w jednym z formatów zwanych rastrowymi.

Kryteria wyboru formatu

Do niedawna nie trzeba było żadnego narzędzia do obejrzenia malowidła, zdjęcia czy przeczytania książki. Dziś coraz częściej musimy użyć tego sprzętu (komputera lub urządzenia które spełnia tę sama funkcję, choć nazywa się inaczej - telefon, tablet itp.). Co gorzej, spotykamy się z dużą liczbą formatów, lepiej lub gorzej przystosowanych do naszych wymagań. Jakie one są?

    1. Format powinien być publiczny, nie zamknięty. Niektóre, szczególnie starsze formaty, powstały w firmach zajmujących się obróbką obrazu, które zachowują prawa autorskie, ale zwykle format jest opublikowany i publicznie dostępny. Formaty zdefiniowane jako międzynarodowe standardy (np. ISO) mają dużo większą szansę pozostania użytecznym w przyszłości.

 

    1. Format powinien być popularny (co może czasem być w sprzeczności z punktem 1). Standard który nie ma łatwo dostępnych narzędzi jest przydatny tylko w teorii.

 

    1. Narzędzia do obróbki obrazu powinny być łatwo dostępne, a czytniki powinny być darmowe albo tanie, najlepiej otwartego oprogramowania. Dawanie komuś zdjęcia z adnotacją “możesz je sobie obejrzeć, ale musisz do tego kupić program za $500” jest w złym smaku. Podstawowa obróbka taka jak obracanie, przycinanie, zmiana rozmiaru itp. powinna być dostępna w popularnych, tanich  i/lub otwartych narzędziach.

 

  1. Formaty powinny posiadać możliwość zapisywania metadanych, patrz blog “Co jest na odwrocie zdjęcia cyfrowego?”.

Rozdzielczość i kompresja

Dla tych z nas, którzy parali się fotografią na kliszach srebrowych, znana jest ziarnistość filmu, połączona z jego czułością. Czym mniejsza czułość, tym mniejsze kryształki halogenku srebra, i tym drobniejsze szczegóły można zarejestrować. Kryształki zastąpiły w aparacie cyfrowym elementy światłoczułe - czym gęstsze tym drobniejsze szczegóły. Rozdzielczość czujnika podaje się zwykle w (mega) pixlach. Dla skanera ten wymiar podawany jest zwykle w pixlach na cal (lub centymetr), w skrócie ppi lub dpi.

Wielkość obrazu w pamięci komputera (szerokość x wysokość [w pixlach] x 3)  może być znaczna. Dla oszczędności miejsca niektóre formaty stosują kompresję. Nie musimy się tu zastanawiać nad jej rodzajami, a jedynie nad tym, czy cykl kompresja - dekompresja pozostawia obraz bez zmian. Jeśli tak, mówimy, że kompresja jest bezstratna, jeśli nie, stratna. Stratna kompresja może być dużo bardziej skuteczna w przypadku zdjęć, ale w zależności od jej intensywności pozostawiać po sobie ślady.

Formaty

GIF

GIF (Graphic Interchange Program) został wprowadzony przez Compuserve w 1987 roku. Stosuje bezstratna kompresję, ale jest ograniczony do 8 bitów na trzy kolory (maks. 256 odcieni) i z tego powodu nie nadaje się do zapisu fotografii. Możliwości zapisu metadanych są bardzo ograniczone. Posiada jednak dwie bardzo pożądane funkcje. Można w nim zdefiniować kolor przezroczysty, co pozwala na tworzenie grafik (takich jak logo) które można nałożyć na istniejący już wzór graficzny. GIF posiada też możliwość zapisu wielu obrazów, które można wyświetlać jako krótkie filmy (animacje) - ta funkcja powoduje niemalejącą popularność tego formatu. Większość przeglądarek internetowych potrafi wyświetlać pliki w formacie GIF, włącznie z animacją, obsługuje go prawie każdy program graficzny. Pliki mają rozszerzenie .gif

PNG

PNG (Portable Network Graphics) powstał w celu przezwyciężenia problemów z GIF, do których należała ograniczona liczba kolorów i opatentowany sposób kompresji. Format ten został zatwierdzony do użycia w Internecie w 1996 i uzyskał status standardu ISO w 2004. PNG pozwala na zapis grafiki i zdjęć, z użyciem 24 lub 32 bitowego koloru, ma też możliwość stosowania koloru przezroczystego. Stosuje bezstratną kompresję, a więc nadaje się do archiwalnego przechowywania obrazu i jego obróbka nie wprowadza strat jakości. Możliwości zapisu metadanych są ograniczone: brak jest formatu EXIF stosowanego przez aparaty fotograficzne; jest możliwość zapisu danych w formacie XMP, ale popularne programy ani nie zapisują ani nie czytają tych danych. Popularność formatu PNG rośnie, jest odtwarzany przez przeglądarki internetowe i obsługuje go większość programów graficznych. Pliki maja rozszerzenie .png

TIFF

TIFF (Tagged Image File Format) stworzony przez firmę Aldus został wprowadzony do użycia w roku 1986. Mimo tego, że ma już ponad 25 lat, jest ciągle niezmiernie popularnym formatem wśród grafików, fotografów, w przemyśle wydawniczym. Może zapisać pliki o wielkości do 4 GiB, w pełnej gamie kolorów. TIFF posiada możliwość zapisu wielostronicowego (a więc może zapisać np. wszystkie strony faksu), posiada kompresję bezstratną i możliwość zapisu bez kompresji. Ma wiele dodatków i rozszerzeń, względnie standardowa jest wersja TIFF 6.0 - standard administrowany przez Adobe, oraz kilka wersji zarejestrowanych jako standardy ISO. Nie posiada animacji, przezroczystości, nie jest wyświetlany przez najczęściej stosowane przeglądarki internetowe. Jest popularny wśród archiwów jako format przechowywania archiwalnego obrazów i skanów. Można w nim zapisać metadane Exif i IPTC, użycie XMP, choć teoretycznie możliwe, nie jest powszechnie stosowaną opcją. Tiff jest bardzo popularny, obsługuje go prawie każdy program graficzny. Pliki mają rozszerzenie .tif lub .tiff

JPEG

JPEG (Joint Photographic Expert Group) jest bardzo popularnym formatem stworzonym dla zapisu zdjęć i innych obrazów półtonowych. Używa zawsze kompresji, która jest stratna, ale daje znaczące zmniejszenie rozmiaru obrazu. Przy tej samej wielkości pliku, obraz w formacie jpeg może mieć 25 lub więcej razy więcej pixli (5 razy więcej wymiarze liniowym) niż tiff, co w dużym stopniu kompensuje stratność kompresji. Przy zapisie archiwalnym pojawiają się jednak dwa problemy: po pierwsze błędy kompresji są najbardziej widoczne na ostrych - kontrastowych granicach elementów obrazu (np. na brzegach liter tekstu), po drugie każda przeróbka powoduje powstawanie dodatkowych błędów gdyż nie można całkowicie wyłączyć kompresji. Ten drugi problem można częściowo ominąć przy przechowywaniu zdjęć, jeśli używa się programu (takiego jak np. Picasa), który zapisuje tylko transformacje pozostawiając oryginał niezmienionym.

Format JPEG jest zarejestrowany jako kilka standardów ISO, jest obsługiwany przez wszystkie programy do obróbki i wyświetlania obrazu, obsługują go przeglądarki internetowe - jest najpopularniejszym formatem do zapisu i wyświetlania zdjęć. W pliku JPEG można też zapisać metadane w Exif, IPTC i XMP, co zwiększa znacznie jego uniwersalność. Pliki maja rozszerzenie .jpg lub .jpeg, choć spotyka się czasem .jif, .jfif i inne.

JPEG 2000

Format JPEG 2000 (w plikach zaznaczany jako rozszerzenie .jp2) jest następną generacją formatu opracowanego przez Joint Photographic Expert Group. Posiada wszystkie zalety JPEG, lepszy algorytm kompresji, jest standardem ISO. Posiada możliwość zapisu bez kompresji, nadaje się więc do przechowywania materiałów archiwalnych. Zapis metadanych jest tylko w formacie XMP. W sumie jest to bardzo dobry przyszłościowy format graficzny.

Mimo tego, że został wprowadzony ponad 10 lat temu, zbywa mu jednak na popularności. Wiele czytników i programów do obróbki albo nie obsługuje JPEG 2000 albo obsługuje go tylko w ograniczonym zakresie, używając wtyczek - ładowanie obrazu w tym formacie trwa znacząco dłużej. Popularny program do obróbki i organizacji zdjęć, Picasa, nie wspiera tego formatu, a zapis metadanych wymaga wyspecjalizowanych narzędzi. Jpeg 2000 nie jest też wyświetlany w przeglądarkach internetowych.

Inne formaty

Istnieje jeszcze wiele innych formatów poza wymienionymi powyżej. Z różnych powodów pozostawimy je jednak na uboczu.

RAW  jest wspólną nazwą wielu formatów zapisujących ‘surowe’ dane z czujnika kamery - zawierają najbardziej szczegółowe dane obrazu, które następnie można dalej przerabiać. Choć wiele z nich używa elementów TIFF, są to formaty zamknięte, ograniczone do danego producenta kamery i jako takie nie nadają się do długoterminowego przechowywania ani wymiany obrazów.

BMP jest formatem rastrowym Microsoft, zbudowanym dla systemu Windows. Ponieważ jest bardzo popularny, spotyka się go często, szczególnie w starszych aplikacjach i jako format grafik w Windows.

PDF (Portable Document Format) nie jest formatem graficznym, ale może zawierać w sobie także grafikę. Jest formatem opisu dokumentu, zawierającym wszystkie elementy niezbędne do pokazania / wydrukowania jedno lub wielostronicowego dokumentu. Został stworzony przez formę Adobe w latach 1991-93 i spopularyzowany przez publikację przez tę firmę darmowych czytników PDF. Od 2008 jest standardem ISO, i nie jest już sterowany przez Adobe. W 2005 opublikowany został standard ISO o nazwie PDF/A, opisujący standard dokumentu z nastawieniem na przechowanie archiwalne, będącym pewnym podzbiorem formatu PDF.

PDF, a szczególnie PDF/A jest rekomendowany jako format dla długoterminowego przechowywania dokumentów. W istocie nadaje się on dobrze do tego celu, dając uniwersalny, względnie trwały zapis tekstu, sformatowanego na stronie, który może również zawierać grafikę, zarówno rastrową jak i wektorową. PDF nie jest jednak formatem graficznym, i dlatego w przypadku zdjęć i skanów stanowi tylko drugą kopertę, w która wkąda się juz zapakowane zdjęcie. PDF nie jest bezpośrednio wyświetlany przez przeglądarki internetowe, ani przez programy do obróbki obrazu. Najnowsza wersja (PDF/A-2 z 2011 roku) oferuje kompresję JPEG 2000 i użycie metadanych, zarówno dla całego dokumentu jak i pojedynczych stron. Narzędzia do obróbki PDF (poza własnościowymi i raczej kosztownymi narzędziami Adobe) są jednak rzadkie, i nawet wykonanie prostych manipulacji takich jak dodanie, odjęcie czy obrócenie stron dokumentu wiąże się ze sporą gimnastyką. Jeśli chodzi o prezentację (a nie przechowywanie długoterminowe) dokumentów wielostronicowych, PDF jest wygodny do użycia, i konkuruje z innym formatem stworzonym do tego celu, DjVu.

Rekomendacje

Jakiego formatu używać do przechowywania zdjęć i do przechowywania skanów dokumentów, w domu i w archiwum? Z opisu powyżej wynika, że w przyszłości będziemy mieli doskonałe formaty dające archiwalny zapis obrazu, metadane, świetne narzędzia i możliwość obejrzenia naszych zasobów w dowolnym urządzeniu. Dziś jeszcze do tego etapu nie doszliśmy. Mamy formaty które zostały stworzone dawno i są popularne, oraz nowsze, które być może będą lepsze, ale brak narzędzi dyskwalifikuje je do użycia teraz. Jest więc prawdopodobne, że nasze dzieci a na pewno wnukowie będą musiały dokonać konwersji do ‘właściwego’ w 2050 roku formatu - przełożyć zdjęcia do nowych, lepszych kopert.

Co robić teraz? Fotografie można zapisywać w formacie JPEG, w największej możliwej rozdzielczości. Aparaty fotograficzne maja zwykle różne opcje, należy wybierać zawsze najlepszą jakość. Powoduje to zwiększenie rozmiaru pliku, ale pamięć jest tania i jej cena systematycznie spada. Należy przechowywać oryginały zdjęć, i nie modyfikować ich, a tylko robić kopie. Należy zapisywać metadane (popularne czytniki takie jak IrfanView lub XnView to potrafią, dużo danych zapisuje też program Picasa (Opcje/Tagi/Przechowuj tagi w zdjęciach). Skany, a szczególnie materiały archiwalne należy przechowywać jako pliki TIFF. W przyszłości będzie można je przenieść do formatu .jp2, kiedy stanie się on bardziej powszechny. Zapis metadanych jest też mocno polecany, choć do archiwaliów zwykle chcemy dodać więcej informacji, skąd pochodzą, jakie były ich losy, co zawierały itp. Do tego polecam zwykły arkusz rozliczeniowy lub dokument biurowy, albo wyspecjalizowany program archiwalny, Jeśli chcemy zachować dokumenty tworzone elektronicznie, format PDF nadaje się do tego celu bardzo dobrze.

Czytaj więcej

Artykuły w Wikipedii o formatach graficznych(w języku angielskim)

Marek Zieliński, 2 listopada 2013

Może Cię też zainteresować

{plusone}

Ten blog jest trzecim w serii poświęconej standardom metadanych używanym w archiwach.

eadEAD (Encoded Archival Description) jest standardem stworzonym specjalnie w celu zakodowania pomocy archiwalnych. Z tego powodu jest on pewnego rodzaju hybrydą. Z jednej strony stara się odzwierciedlić sposób, w jaki pracują archiwiści tworząc pomoce archiwalne, z drugiej stara się wprowadzić dyscyplinę i dokładność niezbędną do elektronicznej obróbki dokumentu. W wyniku mamy sporo dowolności w umiejscowieniu danych, co ułatwia pracę archiwiście a jednocześnie utrudnia wymianę danych. W nowej wersji EAD (EAD3), która jest w przygotowaniu od kilku lat, spodziewane jest zmniejszenie tych dowolności.

Reguły i zasady tworzenia pomocy archiwalnych zawarte są w osobnych dokumentach. Oprócz zasad międzynarodowych - ISAD(G) - są również zasady tworzone w różnych krajach, jak np. DACS w USA, które są podobne ale posiadają często subtelne różnice. EAD jest formą zapisu tych danych w postaci zrozumiałej przez człowieka ale także nadającej się do obróbki komputerowej. Jak wszystkie nowoczesne standardy metadanych, wyrażony jest w XML i składa się z serii etykiet, takich jak <ead>, które mieszczą się w innych, wraz z regułami ich umieszczania i regułami dotyczącymi ich zawartości.

Poniższy tekst proszę potraktować jako zachętę i wstęp do lektury zbioru esejów Debates in the Digital Humanities pod redakcją Matthew K. Golda, wydanego w 2012 przez University of Minnesota Press. Antologia ta została także opublikowana w nieco rozszerzonej formie jako tekst „open access”, który dostępny jest tutaj.

Digital humanities (w skrócie DH), czy też humanistyka cyfrowa jest relatywnie nową dziedziną, która zdobywa coraz większą popularność w świecie akademickim. Artykuł w angielskiej Wikipedii podaje bardzo zgrabną definicję DH, do której odsyłam zainteresowanych. W skrócie, humanistyka cyfrowa, jest obszarem badań, nauczania i tworzenia łączącego technologie informatyczne i dyscypliny humanistyczne. Obejmuje ona działalność od kuracji kolekcji cyfrowych w sieci po eksplorację danych dokonywaną na wielkich zbiorach. DH stara się połączyć warsztat tradycyjnych dyscyplin humanistycznych (takich jak historia, filozofia, językoznastwo, nauka o literaturze, sztuce, muzyce, itd.) z narzędziami informatycznymi takimi jak wizualizacja danych, pozyskiwanie danych, eksploracja danych i tekstu, statystyka czy publikacja elektroniczna.

PARTNERZY
mkidn
bn
senat
ndap
msz
dn
psfcu
nyc