Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

david David by Michelangelo; dithered by User:Gerbrant using own software (cropped from Image:Dithering algorithms.png) [Public domain], via Wikimedia Commons

Recently, during a conversation with an archivist in London, I had a chance to argue with him about dpi of digital files. It seemed to me then that it was a simple misunderstanding, until recently, when another archivist of a large institution in Poland tried to convince me that he scans 35 mm negatives with a resolution of 600 dpi. Because it would result in a scan rather like raster images in old newspapers (produced in a process called dithering) - see picture on the right, I was a bit perplexed. This gave impetus to write this blog about, as it turns out, rather common myth of dpi. A scan of the 35 mm negative will be discussed a little further, I will begin with an introduction of the concept of resolution.

Resolution

Optical resolution is a concept of established reputation; in general it defines, for a given optical system, how far apart two objects (for example, two parallel lines) need to be to be distinguished in an image. Resolution depends on the quality and diameter of the lens, the resolution of the film, on the emulsion grain size, etc. Optical resolution is often expressed in lines per centimeter. In digitization the optical resolution is of paramount importance, as it determines which of the original fine details are faithfully rendered in a digital format.

The prevalence of digital technology resulted in introduction of another measure, also called a resolution, measuring the number of pixels into which the original image is divided in conversion to a digital file, with respect to its physical dimension. To differentiate it from the optical resolution we will call it pixel resolution (PR) and express it in pixels per inch, abbreviated dpi (letter d comes from the dot). If you scan an image that has 2 inches in width, divide this dimension into 600 elements then the scan will have PR = 300 dpi. We can do the same in the second dimension (height) and if we use the same pixel density, which is common, the height of say 3 inches will be divided into 900 elements, and the pixels will be square.

Zegar katedry Satiago de Compostela

The clock in the Santiago de Compostela Cathedral. By Luis Miguel Bugallo Sánchez (Lmbuga Commons) [CC-BY-SA-2.5-es], via Wikimedia Commons

Nothing illustrates better the difficulties of computer processing of natural language as the notation of units of time. The calendar we use in the US originates in year 46 BC (introduced by Julius Caesar) and amended in 1582 (by Pope Gregory VIII). It is the most popular, but not the only calendar, there are other widely used such as as Hijri, Hindu, Chinese or Hebrew calendars. In the Gregorian calendar we specify day, month and year, and it seems straightforward that computers should always understand those 'basic data'. Unfortunately, this simplicity is only apparent.

The first difficulty is the notation of date. In Polish we traditionally write 3 IV 1923 or perhaps 3.4.23. In English we would write 4/3/23, which could mean 3 April 1923 or 4 March 2023, depending on the country and the default century. Until recently, computers could not even deal with such simple conversions, today there exists some Artificial Intelligence (AI) which does attempt to guess the language, and sometimes (but not always) manages to guess the correct date.

Notation of time is also problematic. In the US day is divided into morning hours marked AM and afternoon hours (PM). Except that no one wants to make an appointment on Monday at 12 AM or Tuesday at 12 PM, because those notations are ambiguous [1]. The  24-hour clock removes at least this ambiguity (24:00 on Monday and 00:00 Tuesday is the same moment in time, but belonging to different days).

Another problem involves recording dates with specified precision. Anyone who has worked with spreadsheets (even the latest), knows that one can write the day (with or without specifying the time), but not time without specifying the day. We cannot record the year without specifying the month and day, etc. We can of course write it out in words, which is fine for humans and completely throws off the computer.

Many developers struggled with such difficulties, creating their own rules for writing dates. There are many such standards, mostly incompatible. It was not until the introduction of the ISO standard and its adoption by the W3C that a uniform date and time notation was created. Below are some basic elements of this notation, based on the W3C Schema standard that limits a little the range of possibilities written into ISO 8601.

Przy opisie jakiegoś zasobu - książki, kolekcji medali, dokumentu, obrazu - mamy w zasadzie dwie możliwości. Dokonać opisu w postaci narracji (zwykle sięgamy do tego, co jest pod ręką, czyli w dobie komputerów po procesor tekstu). Albo dokonać opisu w postaci struktury - na przykład w tabeli arkusza rozliczeniowego. Opis w postaci narracji pozwala na pełna ekspresję intencji badacza, i jednocześnie prawie uniemożliwia dalsza automatyczną przeróbkę danych. W  Instytucie Piłsudskiego mamy doskonale zrobiony przez doświadczonego fachowca opis kolekcji falerystycznej, który ma postac narracji. Poszczególne elementy opisu (nazwa odznaki, jej twórca, miejsce stworzenia, daty itp.) są graficznie uwydatnione- np przez użycie czcionki wytłuszczonej, kursywy, przez oddzielanie elementów przecinkami, średnikami itp. Jednocześnie, jeśli jakiejś informacji brak, po przecinku znajdzie się już inny element opisu. Setki stron takiego tekstu wymagają wielu dni a nawet tygodni pracy aby zrobić prostą tabelkę którą można wyświetlić na stronie internetowej, gdyż zautomatyzowanie konwersji jest prawie niemożliwe.

Nawet prosta tabela w arkuszu rozliczeniowym daje strukturę - tytuł bedzie zawsze np. w kolumnie trzciej a data w siódmej itp. Jeśli więc użyliśmy jakiejś struktury, i nie mieszalismy np. miejsca z datą, mamy podstawy do użycia danych w różny sposób, taki, jakiego w danym momencie potrzebuje projektant wystawy, witryny internetowej czy inwentarza. Przy użyciu standardów metadanych najważniejszą decyzją jest użycie struktury adekwatnej do opisywanego zasobu. Przetłumaczenie tej struktury na taki czy inny standard metadanych jest wtedy zajęciem trywialnym. Mówiąc trywialnym mam na myśli to, że da się zautomatyzować - kiedy raz stworzymy algorytm konwersji, przeróbka 100 czy 100 tysięcy rekordów to tylko sprawa zapuszczenia komputera na sekundy albo godziny pracy.

 

Archiwa osobiste nie sa niczym nowym. U mojej babci lezały na stoliku dwa piękne albumy, jeden z drewnianą okładką z płaskorzeźbą górala na tle Tatr. Albumy zawierały zdjęcia z młodości moich dziadków i pradziadków, z początków 20 wieku, w domu, w górach, na Powszechnej Wystawie Krajowej w Poznaniu (1929). Takie albumy były często zabierane jako jedyny dobytek, kiedy wojna zmuszała rodziny do opuszczenia domu i wędrówki w nieznane.

Dziś, kiedy nowe pokolenie żyje dniem dzisiejszym Internetu w Facebooku, Flickr-rze, Pintereście czy w Naszej Klasie, warto przypomnieć o tej tradycji. Archiwa instytucjonalne zajmuja się tylko ‘ważnymi’ sprawami lub osobami, ale w każym prawie domu są materiały które potencjalnie mogą kiedyś stać się ważne dla badacza historii. Albo nawet bezcenne.

Jak przenieśc tradycję robienia albumów, zbierania listów czy innych dokumentów w sferę elektroniczną? Zapisy sprzed 15 lat na dyskietkach są już często nie do odczytania, jeśli nawet potrafimy odcyfrować tekst w egzotycznym formacie z ubiegłego wieku. Trzeba się do tego zabrać inaczej, używając nowych narzędzi i tworząc nowa tradycję.

Od czego zacząć? Dobrym wstępem jest wideo (po angielsku) o cyfrowej konserwacji przygotowany przez Biliotekę Kongresu USA (LC):

NetgearW miarę wzrostu wykorzystania cyfowego zapisu informacji, archiwa zaczynaja przywiązywać coraz większą wagę do mediów w postaci elektronicznej. Dotyczy to zarówno archiwów klasycznych które digitalizują swoje zasoby, jak i instytucji ktore archiwizuja dokumenty i zapisy powstałe w ostatnich dekadach, które sa w coraz większym stopniu cyfrowe od początku ich powstania (‘born digital’).

Zapis cyfrowy wymaga zupełnie innego podejścia do problemu zachowania i zabezpieczenia zasobów archiwalnych. W jednym z poprzednich blogów rozważaliśmy oprogramowanie do inwentaryzacji zasobów, tutaj chciałbym przedyskutować problem pojemności pamięci cyfrowej, potrzebnej do przechowywania zasobów.

Zapis informacji w postaci cyfrowej poprzedza oczywiście powstanie komputerów. Karty dziurkowane były uzywane od poczatku 19 wieku - w krosnach (Joseph Jacquard), w przetwarzaniu informacji (Siemion Korsakow), w opracowywaniu danych spisu powszechnego (Herman Hollerith). Jeszcze niedawno maszyny cyfrowe Odra używaly (za IBM) kart dziurkowanych do zapisu programów i danych. Wkrótce zostały one zastąpione papierową taśmą perforowaną, ale prawdziwe przyspieszenie spowodowało dopiero użycie zapisu magnetycznego. Rewolucja komputerowa to pamięc dyskowa: najpierw mainframe, potem stacje robocze, komputery osobiste, laptopy - to wszystko istniało dzieki możliwości zapisu informacji na dyskach twardych i przenośnych dyskietkach. Dysk twardy ma chyba najdłuższa historię rozwoju technologicznego, i jest do dziś podstawowym medium zapisu danych w Internecie oraz w większości komputerów stacjonarych i laptopów.

Dziś w południe swoje elektroniczne podwoje otwiera Publiczna Biblioteka Cyfrowa Ameryki (Digital Public Library of America). Po dwój latach przygotowań biblioteka startuje z 2 milionami zdigitalizowanych obiektów - ksiażek, obrazów, zdjęć, manuskryptów itp. dostępnych publicznie dla wszystkich bez żadnych ograniczeń. Twórcy traktują ten zasób tylko jako początek rosnącej biblioteki, która ma w planie udostępnianie dziedzictwa kulturowego świata.

Jak zawsze, obecne reguły prawa autorskiego ograniczają zakres dostępności do dzieł powstałych przed rokiem 1923. Celem intensywnych prac Biblioteki są takie zmiany w istniejącym prawie, ktore umożliwiłyby dostęp online do zasobów w okresie czasowym typowym dla innych chronionych zasobów intelektualnych (jak np. patenty), tj. w okresie 10 do 15 lat.

Marek Zieliński, 18 kwietnia 2013

Może Cię też zainteresować:

Każdego roku odbywają się konferencje organizowane przez środowiska polonijne na świecie. W tym roku członkowie Rady Instytutu wezmą udział w trzech konferencjach naukowych odbywających się na terenie Stanów Zjednoczonych i Europy.

W dniach 15-16 maja 2013 odbędzie się konferencja i spotkanie naukowe Polish-American Historical Association (PAHA). Konferencja będzie miała miejsce w University at Buffalo, The State University of New York. PAHA jest organizacją pożytku publicznego która skupia naukowców zajmujących się badaniami nad Polonią. Powstała w roku 1942 jako część Polskiego Instytutu Naukowego, od 1948 jest niezależnym towarzystwem naukowym.

W dniach 14-15 czerwca 2013 odbędzie się konferencja prezentująca badania naukowe Polaków w Ameryce w wilelu dyscyplinach nauki. Konferencja jest organizowana przez Polski Instytut Naukowy w Ameryce (Polish Institute of Arts and Sciences of America - PIASA) i odbędzie się Waszyngtonie. PIASA powstała w 1942 r. początkowo jako kontynuacja na czas okupacji Polskiej Akademii Umiejetnosci w Krakowie a od lat powojennych jako niezależna organizacja. PIASA  skupia polsko-amerykańskich uczonych, posiada bibliotekę i archiwum oraz galerię sztuki.

Jak każdego roku uczestniczyć będziemy także w Stałej Konferencji Muzeów, Archiwów i Bibliotek Polskich na Zachodzie (MAB), w której biorą przedstawiciele instytucji polskich działających w Europie Zachodniej i w obu Amerykach. Kolejne spotkanie MAB odbędzie się we wrześniu 2013 r. w Budapeszcie. Podczas konferencji przedstawione zostaną referaty dotyczące 150 Rocznicy Powstania Styczniowego i historii polsko-węgierskiej.

Iwona Korga, 2 kwietnia 2012

Może Cię też zainteresować:

PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs