Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

When we look at the reverse side of an old photograph, we can often find a stamp of the photographer, a note on the place and date of photograph, and sometimes who is depicted in it. But where is the "reverse side" of a digital picture?

The filename is not a good place to store this information. It turns out, however, that digital images have a "flip side" information about a picture or scan, stored within the file. This information storage does not alter the picture itself, and can be read (and written) by a proper tool - a computer program.

This type information, or metadata, can belong to many different categories. Digital camera typically saves a lot of technical data such as shutter speed, aperture, number of pixels and details of the camera itself. This metadata is stored using a standard called Exif. When transmitting images it is very useful to store information about what is shown in the photo, who made it, its title, author, copyright information, etc. The data is stored in a standard called IPTC. Both Exif and IPTC were introduced around 1995, so they are quite old and venerable. It has its advantages - most photo-reader software can read the labels, and the metadata are readily available. Those standards have also a number of drawbacks:

  • Not all digital file formats use the metadata standards (eg. images in png format do not contain EXIF data).
  • The number of tags is limited without the possibility of adding new ones, missing important fields, such as naming people in the picture.
  • The records are limited in the size of the text fields (a small number of characters), there is no unicode support (lack of support for Polish letters), inability to write in more than one language and many more.

A lighter topic for hot summer days (perhaps not necessarily lighter, but surely hot). Recently I was  getting many e-mails from friends, all with accounts in yahoo. Emails looked pretty much the same - "hey, look what I found interesting" and a link to the website. If the text is in English and your correspondent uses Polish, it is easy to immediately be suspicious, but it is not always the case. The link can lead to a page that infects your computer, it may even try to steal your passwords. This phenomenon has already its name  - Spear Phishing.

I also have friends who fall into the other extreme and avoid any online presence – do not join online  communities, do not respond to e-mails (or even do not use the computer, which is a conservative extremism). They throw out the baby with the bath water - the presence in the net has its genuine advantages, as can be seen particularly when you are far away from the people close to you.

Sometimes I have to deal with someone else's computer completely overrun by viruses. Usually the computer runs very slowly, and any attempts to connect to the website redirect to another page (probably even more infected). In this case, the best solution is to copy the valuable materials (and then pass them through a good antivirus program) and completely reformat the hard drive.

It happens often that my mail is rejected by the recipient's server (usually with a lame excuse). This problem is a little complicated – it is seen only by the sender (recipient usually responds "I always get my emails" ...) and it can be fixed only by the recipient.

How to deal with all this? There's no great magic, just common sense. Here are some observations from my own experience:

david David by Michelangelo; dithered by User:Gerbrant using own software (cropped from Image:Dithering algorithms.png) [Public domain], via Wikimedia Commons

Recently, during a conversation with an archivist in London, I had a chance to argue with him about dpi of digital files. It seemed to me then that it was a simple misunderstanding, until recently, when another archivist of a large institution in Poland tried to convince me that he scans 35 mm negatives with a resolution of 600 dpi. Because it would result in a scan rather like raster images in old newspapers (produced in a process called dithering) - see picture on the right, I was a bit perplexed. This gave impetus to write this blog about, as it turns out, rather common myth of dpi. A scan of the 35 mm negative will be discussed a little further, I will begin with an introduction of the concept of resolution.

Resolution

Optical resolution is a concept of established reputation; in general it defines, for a given optical system, how far apart two objects (for example, two parallel lines) need to be to be distinguished in an image. Resolution depends on the quality and diameter of the lens, the resolution of the film, on the emulsion grain size, etc. Optical resolution is often expressed in lines per centimeter. In digitization the optical resolution is of paramount importance, as it determines which of the original fine details are faithfully rendered in a digital format.

The prevalence of digital technology resulted in introduction of another measure, also called a resolution, measuring the number of pixels into which the original image is divided in conversion to a digital file, with respect to its physical dimension. To differentiate it from the optical resolution we will call it pixel resolution (PR) and express it in pixels per inch, abbreviated dpi (letter d comes from the dot). If you scan an image that has 2 inches in width, divide this dimension into 600 elements then the scan will have PR = 300 dpi. We can do the same in the second dimension (height) and if we use the same pixel density, which is common, the height of say 3 inches will be divided into 900 elements, and the pixels will be square.

Zegar katedry Satiago de Compostela

The clock in the Santiago de Compostela Cathedral. By Luis Miguel Bugallo Sánchez (Lmbuga Commons) [CC-BY-SA-2.5-es], via Wikimedia Commons

Nothing illustrates better the difficulties of computer processing of natural language as the notation of units of time. The calendar we use in the US originates in year 46 BC (introduced by Julius Caesar) and amended in 1582 (by Pope Gregory VIII). It is the most popular, but not the only calendar, there are other widely used such as as Hijri, Hindu, Chinese or Hebrew calendars. In the Gregorian calendar we specify day, month and year, and it seems straightforward that computers should always understand those 'basic data'. Unfortunately, this simplicity is only apparent.

The first difficulty is the notation of date. In Polish we traditionally write 3 IV 1923 or perhaps 3.4.23. In English we would write 4/3/23, which could mean 3 April 1923 or 4 March 2023, depending on the country and the default century. Until recently, computers could not even deal with such simple conversions, today there exists some Artificial Intelligence (AI) which does attempt to guess the language, and sometimes (but not always) manages to guess the correct date.

Notation of time is also problematic. In the US day is divided into morning hours marked AM and afternoon hours (PM). Except that no one wants to make an appointment on Monday at 12 AM or Tuesday at 12 PM, because those notations are ambiguous [1]. The  24-hour clock removes at least this ambiguity (24:00 on Monday and 00:00 Tuesday is the same moment in time, but belonging to different days).

Another problem involves recording dates with specified precision. Anyone who has worked with spreadsheets (even the latest), knows that one can write the day (with or without specifying the time), but not time without specifying the day. We cannot record the year without specifying the month and day, etc. We can of course write it out in words, which is fine for humans and completely throws off the computer.

Many developers struggled with such difficulties, creating their own rules for writing dates. There are many such standards, mostly incompatible. It was not until the introduction of the ISO standard and its adoption by the W3C that a uniform date and time notation was created. Below are some basic elements of this notation, based on the W3C Schema standard that limits a little the range of possibilities written into ISO 8601.

Przy opisie jakiegoś zasobu - książki, kolekcji medali, dokumentu, obrazu - mamy w zasadzie dwie możliwości. Dokonać opisu w postaci narracji (zwykle sięgamy do tego, co jest pod ręką, czyli w dobie komputerów po procesor tekstu). Albo dokonać opisu w postaci struktury - na przykład w tabeli arkusza rozliczeniowego. Opis w postaci narracji pozwala na pełna ekspresję intencji badacza, i jednocześnie prawie uniemożliwia dalsza automatyczną przeróbkę danych. W  Instytucie Piłsudskiego mamy doskonale zrobiony przez doświadczonego fachowca opis kolekcji falerystycznej, który ma postac narracji. Poszczególne elementy opisu (nazwa odznaki, jej twórca, miejsce stworzenia, daty itp.) są graficznie uwydatnione- np przez użycie czcionki wytłuszczonej, kursywy, przez oddzielanie elementów przecinkami, średnikami itp. Jednocześnie, jeśli jakiejś informacji brak, po przecinku znajdzie się już inny element opisu. Setki stron takiego tekstu wymagają wielu dni a nawet tygodni pracy aby zrobić prostą tabelkę którą można wyświetlić na stronie internetowej, gdyż zautomatyzowanie konwersji jest prawie niemożliwe.

Nawet prosta tabela w arkuszu rozliczeniowym daje strukturę - tytuł bedzie zawsze np. w kolumnie trzciej a data w siódmej itp. Jeśli więc użyliśmy jakiejś struktury, i nie mieszalismy np. miejsca z datą, mamy podstawy do użycia danych w różny sposób, taki, jakiego w danym momencie potrzebuje projektant wystawy, witryny internetowej czy inwentarza. Przy użyciu standardów metadanych najważniejszą decyzją jest użycie struktury adekwatnej do opisywanego zasobu. Przetłumaczenie tej struktury na taki czy inny standard metadanych jest wtedy zajęciem trywialnym. Mówiąc trywialnym mam na myśli to, że da się zautomatyzować - kiedy raz stworzymy algorytm konwersji, przeróbka 100 czy 100 tysięcy rekordów to tylko sprawa zapuszczenia komputera na sekundy albo godziny pracy.

 

Archiwa osobiste nie sa niczym nowym. U mojej babci lezały na stoliku dwa piękne albumy, jeden z drewnianą okładką z płaskorzeźbą górala na tle Tatr. Albumy zawierały zdjęcia z młodości moich dziadków i pradziadków, z początków 20 wieku, w domu, w górach, na Powszechnej Wystawie Krajowej w Poznaniu (1929). Takie albumy były często zabierane jako jedyny dobytek, kiedy wojna zmuszała rodziny do opuszczenia domu i wędrówki w nieznane.

Dziś, kiedy nowe pokolenie żyje dniem dzisiejszym Internetu w Facebooku, Flickr-rze, Pintereście czy w Naszej Klasie, warto przypomnieć o tej tradycji. Archiwa instytucjonalne zajmuja się tylko ‘ważnymi’ sprawami lub osobami, ale w każym prawie domu są materiały które potencjalnie mogą kiedyś stać się ważne dla badacza historii. Albo nawet bezcenne.

Jak przenieśc tradycję robienia albumów, zbierania listów czy innych dokumentów w sferę elektroniczną? Zapisy sprzed 15 lat na dyskietkach są już często nie do odczytania, jeśli nawet potrafimy odcyfrować tekst w egzotycznym formacie z ubiegłego wieku. Trzeba się do tego zabrać inaczej, używając nowych narzędzi i tworząc nowa tradycję.

Od czego zacząć? Dobrym wstępem jest wideo (po angielsku) o cyfrowej konserwacji przygotowany przez Biliotekę Kongresu USA (LC):

NetgearW miarę wzrostu wykorzystania cyfowego zapisu informacji, archiwa zaczynaja przywiązywać coraz większą wagę do mediów w postaci elektronicznej. Dotyczy to zarówno archiwów klasycznych które digitalizują swoje zasoby, jak i instytucji ktore archiwizuja dokumenty i zapisy powstałe w ostatnich dekadach, które sa w coraz większym stopniu cyfrowe od początku ich powstania (‘born digital’).

Zapis cyfrowy wymaga zupełnie innego podejścia do problemu zachowania i zabezpieczenia zasobów archiwalnych. W jednym z poprzednich blogów rozważaliśmy oprogramowanie do inwentaryzacji zasobów, tutaj chciałbym przedyskutować problem pojemności pamięci cyfrowej, potrzebnej do przechowywania zasobów.

Zapis informacji w postaci cyfrowej poprzedza oczywiście powstanie komputerów. Karty dziurkowane były uzywane od poczatku 19 wieku - w krosnach (Joseph Jacquard), w przetwarzaniu informacji (Siemion Korsakow), w opracowywaniu danych spisu powszechnego (Herman Hollerith). Jeszcze niedawno maszyny cyfrowe Odra używaly (za IBM) kart dziurkowanych do zapisu programów i danych. Wkrótce zostały one zastąpione papierową taśmą perforowaną, ale prawdziwe przyspieszenie spowodowało dopiero użycie zapisu magnetycznego. Rewolucja komputerowa to pamięc dyskowa: najpierw mainframe, potem stacje robocze, komputery osobiste, laptopy - to wszystko istniało dzieki możliwości zapisu informacji na dyskach twardych i przenośnych dyskietkach. Dysk twardy ma chyba najdłuższa historię rozwoju technologicznego, i jest do dziś podstawowym medium zapisu danych w Internecie oraz w większości komputerów stacjonarych i laptopów.

PARTNERZY
mkidn
bn
senat
ndap
msz
dn
psfcu
nyc