Get Adobe Flash player

 

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Archiwum Adiutantury Generalnej Naczelnego Wodza w pełni zdigitalizowane

ModlinW dokumentach tych odbijają się zmagania nowego państwa przyjmowanego wrogo, nie tylko przez Niemcy i bolszewicką Rosję, ale także przez Czechy i Litwę...mało znane, zapomniane i niepublikowane dokumenty pokazujące przygotowania podczas Konferencji Paryskiej do Traktatu Wersalskiego, zakulisowe rozmowy dyplomatów, kształtowanie się stosunków Polski z innymi państwami…. materiały pokazujące polsko-niemiecką walkę o Górny Śląsk, Wielkopolskę i Pomorze Gdańskie..Unikatowe materiały pokazują losy wojsk polskich na Wschodzie, nie wyłączając Syberii. Bezcenne są raporty mówiące o Armii generała Józefa Hallera we Francji i jej późniejszych walkach w Polsce... materiały dotyczące najważniejszych osób w państwie...począwszy od Romana Dmowskiego, Józefa Piłsudskiego i Ignacego Jana Paderewskiego...a także dwaj spokrewnieni ze sobą generałowie Hallerowie Józef i Stanisław, Tadeusz Rozwadowski, Ignacy Matuszewski, Kazimierz Sosnkowski, Maurycy Zamoyski, Eustachy Sapieha i inni.

Uprzejmie informujemy, że zakończona została digitalizacja wszystkich dokumentów z kancelarii naczelnika państwa i zarazem naczelnego wodza, którym był Józef Piłsudski. Można teraz do nich dotrzeć drogą internetową z każdego zakątka ziemi. Jest to wielkie ułatwienie dla wszystkich, którzy z najróżniejszych powodów są lub będą zainteresowani historią Polski, Europy i świata w okresie od listopada 1918 do końca 1922 roku. Nie oznacza to jednak, że nie będziemy nadal udostępniać tych dokumentów osobom, które przyjdą osobiście do siedziby Instytutu mieszczącej się na nowojorskim Greenpoincie. Wgląd w nie na miejscu mogą mieć nie tylko zawodowi historycy, badacze z różnych dziedzin i dziennikarze, ale także osoby, które chcą poszerzyć swoją wiedzę historyczną lub dotrzeć do informacji o interesujących je faktach i wydarzeniach. Z kolei osobom nie wiedzącym, jak korzystać z naszych zbiorów w Internecie chętnie pomożemy drogą e-mailową.

Archiwum Adiutantury Generalnej Naczelnego Wodza składa się z 17 tysięcy dokumentów liczących łącznie 40 tysięcy stron. Rzecz jasna  uważne przeczytanie ich, czy choćby tylko przejrzenie, będzie łatwiejsze w Internecie niż w siedzibie Instytutu, gdzie trzeba docierać do kolejnych zbiorów zgromadzonych w tekach i wewnętrznych teczkach, by z kolei dotrzeć w nich do potrzebnych informacji. Na podstawie tychże dokumentów można odtworzyć m.in. dzieje nowopowstałego państwa polskiego, wychodzącego z zaborów i I wojny światowej. Widać w nich wielką radość z odzyskania niepodległości oraz wielkie zmagania o kształt odradzającej się Polski, wydzierającej swe terytoria z rąk zaborców i walczącej o uznanie swej suwerenności przez świat. Widać w nich również nieprawdopodobny wręcz wysiłek połączony z równie nieprawdopodobnymi umiejętnościami, by z trzech zaborów stworzyć jak najszybciej sprawnie funkcjonujące państwo, potrafiące bronić się przed wrogami nacierającymi ze Wschodu, Zachodu i Południa. W dokumentach tych odbijają się zmagania nowego państwa przyjmowanego wrogo, nie tylko przez Niemcy i bolszewicką Rosję, ale także przez Czechy i Litwę, czyli sąsiadów, którzy tak, jak ona uzyskali niepodległość w wyniku postanowień Traktatu Wersalskiego. Nie jest jej sprzymierzeńcem także Wielka Brytania pod rządami Lloyd George’a, obojętnie patrzą na jej los kraje skandynawskie oraz Belgia i Holandia. Francja zaś widzi w niej głównie swego sojusznika w strategii powziętej względem Niemiec i w pewnym stopniu wobec Związku Sowieckiego. Odradzającą się Polskę popiera Ameryka na czele z jej prezydentem Wilsonem, ale jest ona daleko a nieustające zagrożenie ze strony Niemiec i Rosji bolszewickiej całkiem blisko. W tychże dokumentów przebija się również smutna prawda, że wobec nawały bolszewickiej w 1920 byliśmy zupełnie sami, jeśli nie liczyć doradczej i umiarkowanie pomocnej Francuskiej Misji Wojskowej. Fakt, że Polacy uratowali Europę przed inwazją bolszewicką,  owszem, docierał do polityków znających imperialne plany Rosji, ale jakoś szybko o nich zapomnieli.

METRO Annual Conference 2016

Metro 2016 Streszczenie

W czwartek 21 stycznia 2016 braliśmy udział w dorocznej konferencji METRO - Metropolitan New York Library Council - która miała miejsce w Baruch College w Manhattanie. Konferencja ta, jak i poprzednie, była doskonałym przeglądem najnowszych inicjatyw, pomysłów, rozwiązań i projektów w dziedzinie humanistyki cyfrowej w społeczności GLAM. Poniżej przedstawiamy omówienie wybranych prezentacji w języku angielskim.

The annual METRO (Metropolitan New York Library Council) conferences are about the best sources of the latest inventions, projects and ideas in the GLAM community, concentrated in one day of intense briefings. This year was no exception - the conference that took place January 21, 2016 at the Baruch College in Manhattan. On the conference a number of “Project briefings” were presented - the intent was to show the projects in progress and discuss their workings, issues and plans, not necessarily the completed works. It was impossible to attend so many parallel briefings; we have selected two in each sessions, and report on them here as a sampling of the conference.

Czy umiemy pisać daty - część 2: EDTF

Zegar astronomiczny w Prazdze
Zegar astronomiczny w Pradze
By Steve Collis from Melbourne, Australia (Astronomical Clock Uploaded by russavia) [CC BY 2.0], via Wikimedia Commons

W jednym z poprzednich wpisów na blogu “Czy umiemy pisać daty?” omawiałem podstawy uniwersalnej notacji  czasu i dat, zdefiniowanej w międzynarodowym standardzie ISO 8601 i jego uproszczonej wersji konsorcjum W3C. Od tego czasu Biblioteka Kongresu Amerykańskiego zakończyła prace nad rozszerzonym standardem, Extended Date/Time Format (EDTF) 1.0. Większa część EDTF dotyczy zapisu nieprecyzyjnych dat. Taka niedokładna lub nieprecyzyjna informacja dotycząca czasu występuje często w zapisach wydarzeń historycznych, np. w archiwach czy naukach bibliotecznych. Standard ISO 8601 nie pozwala na wyrażenie takich konceptów jak “w przybliżeniu rok 1962”, “któryś rok pomiędzy 1920 a 1935” czy “wydarzenie miało prawdopodobnie miejsce w roku 1938, ale nie jesteśmy tego pewni”. Standard EDTF pozwala na zapisanie w postaci zrozumiałej przez komputer takich konceptów, wypełniając potrzeby istniejące w wielu polach wiedzy mających do czynienia z metadanymi o charakterze historycznym.

Mimo tego, że standard EDTF jest stosunkowo nowy i nie ma zbyt wiele narzędzi programowych pomagających wprowadzać takie dane, sądzę, że warto jest zaznajomić się z tą nowa notacją i używać jej w miarę możliwości.

Definicje

Chciałbym rozpocząć dyskusję kilkoma definicjami; symbole pojawiające się przy definicjach będą opisane dalej.

Precyzja

Precyzja jest miarą zakresu, wewnątrz którego mieści się ‘prawdziwa’ wartość [1]. Precyzja jest jednoznacznie zdefiniowana w wyrażeniach daty i daty/czasu. Jeśli wydarzenie miało miejsce w roku 1318, zapis taki posiada precyzję jednego roku (mogło mieć miejsce w dowolnym czasie w ciągu tego roku). Jeśli podamy 1318-05, zwiększamy precyzję do jednego miesiąca, a 1945-09-15 posiada precyzję jednego dnia, itp [2]. W EDTF możemy rozszerzyć tę definicję określając precyzję dziesięcio- lub stulecia używając symbolu x (patrz 'precyzja maskowana' poniżej).

Przybliżona (~)

Szacunek który jest prawdopodobnie prawdziwy lub zbliżony do prawdziwego, gdzie stopień ‘zbliżenia’ zależy od danej aplikacji.

Niepewna (?)

Nie jesteśmy pewni wartości zmiennej (w naszym przypadku daty lub czasu). Niepewność jest niezależna od precyzji. Źródło informacji może samo nie  być wiarygodne, możemy mieć do czynienia z kilkoma różnymi szacunkami i nie dość informacji aby zdecydować między nimi, itp.

Nieokreślona (u)

Wartość nie jest podana. Punkt w czasie może być nieokreślony ponieważ jeszcze nie nastąpił, bo jest tajny, nieznany lub z innych powodów.

Funkcjonalność EDTF

Standard EDTF rozszerza ISO 8601 w trzech poziomach. Poziom 0 jest zgodny z ISO 8501 i jego ograniczeniami w W3C. Poziom 0 jest opisany szczegółowo w poprzednim wpisie blogu i nie będę go tu powtarzał. Poziom 1 i 2 rozszerza ten standard wprowadzając dodatkowe możliwości oznaczenia precyzji, przybliżenia, niepewności i nieokreślenia w datach. Jakkolwiek poziom 2 daje standardowi większą moc wyrazu, nie widzę powodu aby programiści nie wdrożyli obu poziomów w aplikacjach.

Pora roku

Zamiast miesiąca w ciągu rok-miesiąc można użyć liczb odpowiadających porom roku: 21 (wiosna), 22 (lato), 23 (jesień) i 24 (zima).

  • 2014-21 (wiosna 2014)

W poziomie 2 można dodatkowo uściślić porę roku używając symbolu ^ jak w przykładzie: 2014-21^southernHemisphere. Jednakże słownik uściśleń nie został wyspecyfikowany w standardzie.

Data przybliżona i niepewna

Symbol ? jest używany do wskazania na niepewną datę, a symbol ~ na przybliżoną. Oba symbole mogą być użyte osobno lub razem (w tym ostatnim przypadku znaczy to, że data jest przybliżona a nawet i to jest niepewne)

W poziomie 1 symbole ? i ~ mogą być umieszczone tylko na końcu daty, i stosują się do całej daty:

  • 1945? (rok niepewny)
  • 1945-03-12~ (data przybliżona)
  • 1945-03?~ (rok-miesiąc przybliżony i niepewny)

W poziomie 2 dowolna część daty (ale tylko cały rok, cały miesiąc lub dzień) może być zaznaczona jako niepewna lub przybliżona. Symbol ma zastosowanie do części zapisu po lewej stronie od symbolu, i można użyć nawiasów aby wydzielić jakąś część zapisu.

  • 1816?-05-25 (dzień i miesiąc znany, rok niepewny)
  • 1816-05~-25 (dzień znany, rok i miesiąc przybliżone)
  • 1816-(05)?-25 (tylko miesiąc niepewny, rok i dzień znany)
  • 1816-(05-25)? (rok znany, miesiąc i dzień niepewny)
  • 1816?-05-25~ (miesiąc znany, rok niepewny, dzień przybliżony)
  • (1816-(06)~)? lub 1816?-(06)?~ (rok niepewny, miesiąc przybliżony i niepewny)
  • 1816-22~ (pora roku przybliżona “około lata 1816”)

Data nieokreślona

Litera u może być użyta zamiast cyfry w dacie, jeśli ta część daty jest nieokreślona.

W poziomie 1 tylko cyfry po prawej stronie daty mogą być zastąpione. Drugim ograniczeniem jest to, że tylko jedna lub 2 cyfry w roku, i dokładnie dwie cyfry w miesiącu lub dniu mogą być zastąpione.

  • 191u (nieokreślony rok w latach 1910-tych)
  • 19uu (jakiś rok w latach 1900-ych)
  • 1915-uu (jakiś miesiąc w roku 1915)
  • 1915-03-uu (jakiś dzień w marcu  1915)
  • 1915-uu-uu (jakiś dzień w roku 1915)

W poziomie 2 te ograniczenia są zniesione, i u może zastąpić dowolną cyfrę w dacie. Jak zawsze, używamy liczby segmentów (rok, rok-miesiąc, rok-miesiąc-dzień) aby określić precyzję.

  • 13uu-01-15 (15 stycznia w 1300-ych)
  • 13uu-01-uu (jakiś dzień w styczniu któregoś roku w 1300-ych)
  • 13uu-01  (styczeń któregoś roku w 1300-ych)

Rozszerzony okres czasu

W okresie czasu (składającego się z dwóch dat przedzielonych znakiem / ) możemy użyć słowa unknown zamiast daty początkowej lub końcowej, aby wskazać, że ta część jest nieznana. Możemy użyć słowa open zamiast końcowej daty aby wskazać, że okres czasu jest otwarty. Poza tym, symbole wskazujące na datę przybliżoną, niepewną i nieokreśloną (ten ostatni tylko w poziomie 2) mogą też być użyte.

W poziomie 1 można użyć unknown i open; symbole ~ i ? zaś tylko na końcu każdej z dat.

  • 1945-02-11/unknown (okres rozpoczęty 2 lutego 1945, koniec nieznany)
  • 2015-01-20/open (okres rozpoczęty 20 stycznia 2015, bez daty końcowej)
  • 1825~/1918-05 (okres rozpoczęty w przybliżeniu w 1825 i zakończony w maju 1918)

W poziomie 2 można użyć symboli ~, ? i u w dowolnym miejscu w obu datach.

  • 2012-(06)?-01/2015-06-nn (okres rozpoczęty 1 czerwca 2016, gdzie miesiąc jest niepewny i zakończony w nieokreślonym dniu w czerwcu 2015)

Rok przekraczający 4 cyfry

Jeśli zapis roku jest dłuższy niż 4 cyfry (i tylko wtedy), poprzedzamy rok literą y (nie używamy w takim wypadku miesięcy ani dni). W poziomie 2 można dodatkowo użyć formy wykładniczej dla roku, oraz opcjonalnie dodać precyzję w postaci litery p po której podaje się liczbę cyfr znaczących.

Poziom 1

  • y-1700015 (rok minus 1700015)

Poziom 2

  • y17e5 (rok 1700000)

--------

W poziomie 2 występują trzy dodatkowe, bardzo przydatne funkcje: precyzja maskowana i dwie listy dat.

Precyzja maskowana

W poziomie 0 wyrażamy precyzję zapisu daty przez określenie roku-miesiąca-dnia (precyzja 1 dnia), roku-miesiąca (precyzja miesiąca) i roku (precyzja roku). W poziomie 2 można zastąpić literą x ostatnią albo dwie ostatnie cyfry roku aby wskazać jeszcze mniejszą precyzję, dziesięciolecia i stulecia.

  • 198x (lata 1980-te)
  • 19xx (lata 1900-ne)

Należy zwrócić uwagę na to, że określenie ‘lata 1900-ne’ jest zbliżone ale nie identyczne z 20 wiekiem; 20 wiek zaczyna się w roku 1901 i kończy w 2000, podczas gdy lata 1900-ne zaczynają się w roku 1900 i kończą w 1999.

Jedna ze zbioru

Nawiasy kwadratowe [ i ] otaczają listę dat z której wybieramy tylko jedną. Wewnątrz nawiasów daty oddzielone są przecinkami, albo dwukropkiem oznaczającym wszystkie dat pomiędzy datami które oddziela dwukropek, włącznie z datami końcowymi. Różne elementy listy mogą mieć różną precyzję

  • [1821,1822,1830..1832] (jeden rok z: 1821, 1822, 1830, 1831, 1832)
  • [..1935-11-15] (15 listopad 1935 roku lub jakaś wcześniejsza data)
  • [1510-12..] (grudzień 1510 lub jakiś późniejszy miesiąc)
  • [1725,1726-12] (rok 1725 albo grudzień 1925)

Daty wielokrotne

Nawiasy klamrowe { i } otaczają listę, której wszystkie elementy powinny być uwzględnione. Dla kolejnych dat, oznacza to wszystkie daty w zbiorze, nie zakres dat. Przykładowo, możemy opisywać jakieś zdarzenie które powtarzało się w kilku różnych datach.

  • {1970-12..1972-12,1973-11} (wydarzenie powtarzało się w grudniu 1970, w grudniu 1971, w grudniu 1972 i w listopadzie 1973)
  • {1950,1951-05} (rok 1950 i maj roku 1951)

Jak używać EDTF

Nie ma jeszcze wielu implementacji czy przykładów użycia EDTF. Na stronie www Biblioteki Kongresu można znaleźć przewodnik po przydatnym oprogramowaniu używającym EDTF. Serwis weryfikacji zapisów pozwala na testowanie swoich rozwiązań przy nauce EDTF.

Wpisywanie daty sformatowanej według zasad EDTF w formularzach webowych nie zawsze jest możliwe, jeśli formularz egzekwuje standardowa datę lub podsuwa kalendarz. EDTF jest jednak o wiele lepsze niż tekstowy opis niepewnych lub rozszerzonych dat, gdyż zapis tekstowy rzadko może być zrozumiany przez komputery. Być może warto prosić programistów o takie pola w formularzach, korzystając z przykładów instytucji które już wdrożyły EDTF [4]. Jako plan minimum, EDTF powinien być używany w polach tekstowych zamiast słownego opisu.

Marek Zieliński, 1 lipca 2015

Przypisy

[1] Dokładność i precyzja metod pomiaru - artykuł w Wikipedii
[2] Precyzja różni się od dokładności, która określa, jak pewni jesteśmy, że dane zdarzenie miało miejsce np. w danym roku.

Czytaj więcej

Może Cię też zainteresować

Instytut Piłsudskego w Ameryce zmienił siedzibę.

Piłsudski InstituteKto lubi przeprowadzki?

I wszystko, co się z tym wiąże: segregowanie, redukowanie, pakowanie, przewożenie, rozpakowywanie, ustawianie....? O ile można w miarę sprawnie przenieść się z mieszkania do mieszkania, to przeprowadzenie zmiany lokalu instytucji, która od ćwierćwiecza zajmowała kamienicę w centrum Manhattanu, gromadząc archiwa, dzieła sztuki i eksponaty muzealne, trudno sobie wyobrazić.

Wieść o sprzedaży domu, który wynajmował Instytut Piłsudskiego w Ameryce na swoją siedzibę, była dużym zaskoczeniem dla jego pracowników. Instytut kojarzony był od wielu lat z Drugą Aleją na Manhattanie, miał stałe grono przyjaciół, wielbicieli, odwiedzających oraz badaczy, a tu nagle taka wiadomość! Niełatwo było się z nią pogodzić, ale innego wyjścia nie było. Niezwłocznie zorganizowano Kampanię Na Rzecz Przyszłości w celu zebrania funduszy na to przedsięwzięcie i opracowano logistykę zmiany lokalizacji. Przygotowania trwały ponad rok. Instytut Piłsudskiego Przede wszystkim musieliśmy znaleźć nową siedzibę, która pomieściłby nasze zbiory i zapewniła sprawne kontynuowanie działalności Instytutu. Najbardziej przypadł nam do gustu lokal zaproponowany przez Polsko-Słowiańską Federalną Unię Kredytową, a także warunki jego wynajmu. Rozpoczęły się prace adaptacyjne: zaprojektowanie i zabudowanie wnętrza, instalacja profesjonalnych zabezpieczeń, regałów oraz montowanie przestronnych szaf. Archiwiści z IPNNieocenioną pomoc otrzymaliśmy z Instytutu Pamięci Narodowej, z którego oddelegowano ośmiu archiwistów, którzy w ciągu dwóch miesięcy profesjonalnie i sprawnie zapakowali archiwa oraz zbiory biblioteczne i pomagali w przenoszeniu ich do nowego lokum. Nie byliśmy w stanie policzyć tych wszystkich pudeł i paczek, które po przewiezieniu na nowe miejsce, zajęły większość powierzchni użytkowej, piętrząc się niemal pod sufit.

Najbardziej wzruszającym momentem było przeniesienie ogromnego pomnika Marszałka Piłsudskiego, który zawsze był w centrum uwagi i stanowił, nie tylko ozdobę galerii Instytutu, ale był także jego symbolem. pomnik Marszałka w oddziale PSFUK na 140 Greenpoint Avepomnik Marszałka opuszcza siedzibę na ManhattaniePomnik z brązu, dłuta Stanisława Ostrowskiego „przybył” do Ameryki w 1939 roku jako eksponat do polskiego pawilonu na Wystawie Światowej w Nowym Jorku. Nie wrócił już do kraju i znalazł bezpieczne miejsce w Instytucie. Teraz, po wielu latach, musiał go opuścić. Z drżeniem serca obserwowaliśmy, jak panowie z ekipy przeprowadzkowej próbują ruszyć posąg z posad. Kilku silnych mężczyzn dźwignęło „Marszałka” znosząc go ze schodów i umieszczając w ciężarówce. Drogę z Manhattanu na Greenpoint, gdzie obecnie Instytut się znajduje, posąg przebył bez uszczerbku, ale na miejscu czekała nas niespodzianka. Drzwi do nowej siedziby okazały się za wąskie i pomnik się w nie nie zmieścił! I cóż robić? Wrócić nie możemy. Padła propozycja, żeby postawić pomnik na chodniku przed wejściem do Instytutu, ale nie było to godne miejsce dla Marszałka. Z pomocą przyszła nam znów Unia Kredytowa, która z radością zgodziła się „przechować” eksponat. I pomnik Marszałka Piłsudskiego od kilku tygodni rezyduje w przestronnej Sali w oddziale PSFUK na Greenpoint Ave. Prezentuje się okazale i wzbudza zaciekawienie. Nasi Rodacy zdejmują przed nim czapki i pokazują dzieciom i wnukom. „Marszałek” pozostanie tam do czasu, gdy w siedzibie Instytutu będzie wymiana okna, przez które wniesiemy go do nowego domu.

Pudła z książkami czekaja na rozpakowaniePierwsze dni w siedzibie na Greenpoincie to porządki, porządki, porządki. Rozpakowywanie setek pudeł, ustawianie na miejsce gablot i szaf na obiekty muzealne, przygotowywanie ekspozycji, rozkładanie na półkach książek. Gdy już wszystko było gotowe, przyszła pora na zagospodarowanie ścian. Poza archiwami, biblioteką i kolekcjami medali, Instytut posiada wspaniały zbiór malarstwa polskiego. Cenne obrazy przez kilka dni rozmieszczane były na przestronnych ścianach nowej siedziby. Było to zajęcie bardzo emocjonujące. Bezpośrednie obcowanie z dziełami Matejki, Chełmońskiego, Gierymskiego, Styki czy Kossaka, było dużym przeżyciem dla wolontariuszy i pracowników Instytutu biorących udział w tym przedsięwzięciu.

Ściana z rysunkami Zdzisława CzermańskiegoRozpakowana została kolekcja kilkudziesięciu rysunków Zdzisława Czermańskiego, znakomitego twórcy karykatur portretowych sławnych osób, którą w roku 1995 wdowa po artyście – Janina Czermańska ofiarowała Instytutowi Piłsudskiemu w Ameryce. Wyeksponowanych zostało prawie 40 obrazów! Znalazły się wśród nich portrety sławnych ludzi, szkice Nowego Jorku i nastrojowe rysunki kobiet. Wiele obrazów z kolekcji Instytutu wykonanych zostało przez artystów, którzy jednocześnie służyli w szeregach wojskowych. Do nich należał Zdzisław Czermański, który podczas I wojny światowej wstąpił do Legionów. Rysownik wykonał kilkadziesiąt karykatur Józefa Piłsudskiego, które tak spodobały się Marszałkowi, że polecił zawiesić 13 z nich na ścianach Belwederu.

Prace adaptacyjne dobiegają końca. Powstała pracownia digitalizacji i miejsce do pracy dla badaczy. Nowe wnętrza Instytutu są funkcjonalne i prezentują się znakomicie. A rok temu nie wierzyliśmy, że nam się tak sprawnie uda ta przeprowadzka. I nie udałaby się, gdyby nie pomoc wolontariuszy, archiwistów z IPN oraz darczyńców, którzy wsparli Instytut donacjami. Dziękujemy Wam! Parapetówka już wkrótce!

Jolanta Szczepkowska, 24 czerwca 2015

Może Cię też zainteresować

Visualizing Cultural Heritage: Linked Open Data and the Carnegie Hall Archives p. 2

Part II: Product

(Guest blog by Rob Hudson)

Arthur Rubinstein (Linked Data)In Part I of this blog, I began telling you about my experience transforming Carnegie Hall’s historical performance history data into Linked Open Data, and in addition to giving some background on my project and the data I’m working with, I talked about process: modeling the data; how I went about choosing (and ultimately deciding to mint my own) URIs; finding vocabularies, or predicates, to describe the relationships in the data; and I gave some examples of the links I created to external datasets.

In this installment, I’d like to talk about product: the solutions I examined for serving up my newly-created RDF data, and some useful new tools that help bring the exploration of the web of linked data down out of the realm of developers and into the hands of ordinary users. I think it’s noteworthy that none of the tools I’m going to tell you about existed when I embarked upon my project a little more than two years ago!

As I’ve mentioned, my project is still a prototype, intended to be a proof-of-concept that I could use to convince Carnegie Hall that it would be worth the time to develop and publish its performance history data as Linked Open Data (LOD) — at this point, it exists only on my laptop. I needed to find some way to manage and serve up my RDF files, enough to provide some demonstrations of the possibilities that having our data expressed this way could afford the institution. I began to realize that without access to my own server this would be difficult. Luckily for me, 2014 saw the first full release of a linked data platform called Apache Marmotta by the Apache Software Foundation. Marmotta is a fully-functioning read-write linked data server, which would allow me to import all of my RDF triples, with a SPARQL module for querying the data. Best of all, for me, was the fact that Marmotta could function as a local, stand-alone installation on my laptop — no web server needed; I could act as my own, non-public web server. Marmotta is out-of-the-box, ready-to-go, and easy to install — I had it up and running in a few hours.

In addition to giving me the capability to serve up, query, and edit my RDF data, Marmotta has some great built-in visualization features. The screencast below demonstrates one of the map functions, with which I can make use of the GeoNames URIs I’ve used in my dataset to identify the birthplaces of composers and performers.

I’d like to point out two other great tools — both of which are new within about the last year — that help make the process of exploring and visualizing LOD much easier. The first of these, RelFinder, allows you to easily explore and visualize relationships within an RDF dataset. RelFinder, like Marmotta, is also very easy to download and install — basically just a Flash file and an .xml configuration file. In this screencast, you can see how I use RelFinder to examine relationships between two composers within Carnegie Hall’s data.

Another wonderful new tool called LodLive makes it possible for you to actually browse the web of linked data — simply choose a starting point, and follow your nose. LodLive consists mostly of a few jQuery plug-ins, a configuration file, and an HTML page, and is nearly as simple to set up as RelFinder. This last screencast demonstrates how I can start with a Carnegie Hall URI and then pull in and explore various connected resources.

Moving forward, I’d like to see the LOD community continue to develop more tools like RelFinder and LodLive — anything that facilitates a more seamless integration with the greater World Wide Web and helps to help unlock the capabilities of linked data for the ordinary user. At Carnegie Hall, I’d like to continue to work towards publication of our linked data, and to explore how we can utilize it. We’re in the midst of a major grant-funded digitization project — can we use LOD to increase discoverability of assets? Can we better leverage some of our existing tools, like our Performance History Search? The possibilities are exciting.

Rob Hudson, March 19, 2015

Explore more blog items:

Visualizing Cultural Heritage: Linked Open Data and the Carnegie Hall Archives p. 1

Rob Hudson
Rob Hudson - Photo by Gino Francesconi

Part I: Process

(Guest blog by Rob Hudson)

My name is Rob Hudson, and I’m the Associate Archivist at Carnegie Hall, where I’ve had the privilege to work since 1997. I’d like to tell you about my experience transforming Carnegie Hall’s historical performance history data into Linked Open Data, and how within the space of about two years I went from someone with a budding interest in linked data, but no clue how to actually create it, to having an actual working prototype.

First, one thing you should know about me: I’m not a developer or computer scientist. (For any developers and/or computer scientists out there reading this right now: skip to the next paragraph, and try to humor me.) I’m a musician who stumbled into the world of archives by chance, armed with subject knowledge and a love of history. I later went back and got my degree in library science, which was an incredibly valuable experience, and which introduced me to the concept of Linked Open Data (LOD), but up until relatively recently, the only lines of programming code I’d ever written was a “Hello, World!” - type script in Basic — in 1983. I mention this in order to give some hope to others out there like me, who discovered LOD, thought “Wow, this is fantastic — how can I do this?”, and were told “learn Python.” Well, I did, and if I can do it, so can you — it’s not that hard. Much harder than learning Python — and, one might argue, more important — is the much more abstract process of understanding your data, and figuring out how to describe it. Once you’ve dealt with that, the transformation via Python is just process — perhaps not a cakewalk, but nonetheless a methodical, straightforward process that you can learn and tackle, step by step.

Now let me tell you a bit about the data that I worked with for my linked data prototype. The Carnegie Hall Archives maintains a database that attempts to track every event, both musical and nonmusical, that has occurred in the public performance spaces of Carnegie Hall since 1891. (Since the CH Archives was not established until 1986, there are some gaps in these records, which we continue to fill in using sources like digitized newspaper listings and reviews, or missing concert programs we buy on eBay.) This database now covers more than 50,000 events of nearly every conceivable musical genre: classical, folk, jazz, pop, rock, world music, and no doubt some I’m overlooking.  But Carnegie Hall has always been about much more than music; its stages have also featured dance and spoken word performances, as well as meetings, lectures, civic rallies, political conventions — there was even a children’s circus, complete with baby elephants, in 1934. Our database has corresponding records for more than 90,000 artists, 16,000 composers and over 85,000 musical works. Starting in 2013, we began publishing some of these records to our website, where you can now find the records for nearly 18,000 events between 1891 and 1955.  The limited release reflects our ongoing process of data cleanup, and we’re continuing to publish new records each month.  For my linked data prototype, I chose to use this published data set, since I knew it was good, clean data.

In their breadth and depth these records, reflecting musical performance practice and standards, programming choices, and even current events, offer a vivid cross-section of the cultural and societal history of the past 124 years. They illustrate one of the things I love about Carnegie Hall: beyond its iconic status, which of course has helped to attract the greatest performers of every era, the Hall has functioned as a kind of focal point for culture and society. The events are like a snapshot of the world at that point in time, a mirror to reflect what people were listening to, interested in, and thinking about at that moment. And best of all, to me at least: for a lover of history, Carnegie Hall’s timeline has featured not only the greatest and most famous, but also the less great and not-so-famous — there’s a bit of everything there, from the sublime to the ridiculous.

I hope you can begin to see why I wanted to take all of this and transform it into Linked Open Data: imagine all of this, unlocked and released, to become part of the networked fabric of the web, filled with the raw materials of discovery and ready to be explored, with the potential to stretch farther beyond the walls of Carnegie Hall than we ever imagined. I decided that was a goal worth enduring a bit of brain torture as I tried to learn some Python.

Modeling the Data

My first task was to figure out what our data really had to say, to parse out the raw materials and relationships it contained. I realized that even though I’d been working with the Hall’s history for 15 years, I’d never really done this kind of deep, conceptual dive into all of this performance history data. I started by looking at the biggest, most obvious “kernels” of data: our events. I needed to identify the key elements of an event, and to find a way to describe each of its components:

  • Where → venues: the location of each event
  • When → date/time of each event
  • Who → names: of performers/participants, creators
  • What → musical/creative works, or for non-performance events, what took place

A quick note about venues: you might be wondering why the venue in question wouldn’t always be simply “Carnegie Hall”. But Carnegie Hall actually has three different auditoriums within its walls (at one time, there were actually four), and the names for each of these have changed throughout the years. In fact one of our auditoriums, Zankel Hall (on CH’s lower level) was completely gutted and rebuilt, as a totally new space, in 2003, and went through no fewer than four name changes before then: 1) Recital Hall (1891-1896); 2) Carnegie Lyceum (1896-1956, following significant interior alterations from the Recital Hall); 3) Carnegie Hall Playhouse (1956-1960); and Carnegie Hall Cinema (1960-1997). I needed to find a way to clearly identify these auditoriums and deal with the name changes. Here is a fragment,  the full file can be viewed in RDF/XML format):

chVenues:Carnegie_Hall rdfs:label "Carnegie Hall"@en ;
   owl:sameAs <http://sws.geonames.org/5111573/> .

chVenues:Recital_Hall rdfs:label "Recital Hall"@en ;
   geoNames:parentFeature chVenues:Carnegie_Hall .

chVenues:Carnegie_Lyceum rdfs:label "Carnegie Lyceum"@en ;
   geoNames:parentFeature chVenues:Carnegie_Hall ;
  geoNames:historicalName "Recital Hall"@en .

Finding URIs

Once I had identified the key components in our data and had modeled all the relationships, I needed to find URIs for them — Uniform Resource Identifiers, the stable, unambiguous, HTTP-based “names” we use for things in the world of linked data.  I began by looking at some of the “big names” in linked data, well-established and widely-used data sources such as DBpedia (essentially a linked data version of Wikipedia), the Library of Congress Authorities (their subject headings, name authority file, etc.), and the Virtual International Authority File, or VIAF.  I quickly realized this wasn’t going to work: there were far too many obscure names and little-known musical works in our data. And the biggest problem was staring me right in the face: no other data set could possibly have identifiers for 50,000 Carnegie Hall events (or even the 17,000+ I was starting with)!

Carnegie Hall Event
Example of a Carnegie Hall Event

My choices were either 1) cobble together a grab-bag of URIs from different sources (which would still leave many gaps), or 2) mint my own URIs. I decided to mint my own URIs.  While this solution had the disadvantage of adding to a growing plethora of overlapping URIs in circulation, I felt this was outweighed by the clarity and uniformity it would bring to my data set.  Also, if Carnegie Hall were recognized as a trustworthy and knowledgeable source of cultural heritage information, which I hoped we were, our URIs stood a chance of becoming “canonical” identifiers in our section of the information space, at least if people began to use them and link to them.

Best practices for LOD, as defined by the W3C’s Government Linked Data Working Group, emphasize stability and persistence (although their document is still in draft form, I don’t think this concept would find any argument in the LOD community). Few things are more frustrating on the web than a broken hyperlink, so if you’re going to mint your own URIs, it’s a good idea to ensure that they will stick around — which means you need a stable namespace that won’t disappear soon.  Carnegie Hall owns the carnegiehall.org namespace, and we’ve made it almost 125 years, so I hope that we (along with our namespace) won’t disappear anytime soon.  For my URIs, I decided to create four categories, based on the key elements I’d defined in my data set (see the above example):

  • Events:  <http://data.carnegiehall.org/events/RH_18920615_2000>
  • Venues: <http://data.carnegiehall.org/venues/Recital_Hall>
  • Names:  <http://data.carnegiehall.org/names/Jeannette_Doyle>
  • Works:   <http://data.carnegiehall.org/works/Come%2C_the_bark_is_moving_(Cecil)>

I opted to create “human-readable” URIs, within a structure that was as straightforward and transparent as possible. I added the sub-domain “data”, to clearly separate the URIs from the regular Carnegie Hall website. For Events, each would be identified by a combination of a venue code + date/time.Venues and Names are self-explanatory; Names would include both event participants (individuals and organizations) as well as creators (e.g. composers, arrangers, playwrights, choreographers, etc.). Works follow a format of work title + composer name (in parentheses).

Finding Vocabularies (Predicates)

The wide range of musical and nonmusical events and performer types/roles reflected Carnegie Hall’s performance history presented some challenges when choosing vocabularies for predicates. In looking at my needs for describing the what, where, when, and who of our data, in addition to straightforward terms for general concepts and labels — such as using the Resource Description Framework Schema’s rdfs:type for data typing and rdfs:label for event titles — I needed a fairly broad mixture of terminology, but I tried hard to find the right balance of specificity and clarity, opting for widely-used and well-tested vocabularies wherever I could.

For the what and where of each event, I went with the Event Ontology, which is broad enough to cover both musical and nonmusical events (I wouldn’t have to worry about a complicated process of separating and identifying these), but specific enough to make it clear we were still talking about “events”. For describing when, the obvious choice was Dublin Core: widely adopted, well-documented, transparent, and unambiguous (I also used Dublin Core to identify composers and arrangers — creators of and contributors to — musical works).

The Music Ontology also worked well for describing who was involved with events, e.g. conductors and performers, but for performance-related data (such as associating works and venues to each event) it began to fall apart, since it was created primarily to describe recorded music.  For these I used broader Event Ontology properties (on which the Music Ontology was modeled), such as event:place and event:product.

This is just a small sample, to illustrate the basics. I also used terms from the DBpedia Ontology, Friend of a Friend (FOAF), the Gemeinsame Normdatei Ontology (from the Deutsche Nationalbibliothek), the GeoNames Ontology, Library of Congress Authorities (the MARC Code List for Relators), and Schema.org.  So that you can get a better sense of how this all came together in context, here are some sample triples from my data, presented in graphic form, for an individual (pianist and composer Ignacy Jan Paderewski) and for an event (the Carnegie Hall debut of conductor Artur Rodzinski).

Paderewski

 

Rodzinski

 

Links to Other Data Sets

So far, I’ve talked about how I modeled and described things and relationships within Carnegie Hall’s performance history data, but of course the real power of Linked Open Data comes into play when we can link to other data sets. Since I had minted my own URIs for Carnegie Hall’s data, I felt it was important to identify any existing URIs already published in major data sets and link to them using the Web Ontology Language’s term owl:sameAs. I’ve mainly provided links to DBpedia and the Library of Congress Name Authority File:sameAs_exampleor, in more visual form:

same-as-visual

Early on in my process, I’d also experimented with linking to MusicBrainz URIs, but didn’t pursue it very far, because their data was difficult to access and the URI scheme is extremely cryptic (Paderewski’s URI is <http://musicbrainz.org/artist/4a2b8def-5a86-45fd-9c21-31c3356a3774#_>, for example).  However, as I wrote this, I discovered that the maintenance and access for all of the MusicBrainz data has now been taken up by the British Museum, which now provides an RDF data dump and  SPARQL endpoint for the data, so it may be worth my while to reinvestigate.

I’ve also made use of the fantastic geographical data set GeoNames to link composers and performers to their place of birth. GeoNames URIs give access to all sorts of great data, such as latitude and longitude coordinates, geographical hierarchy, and name variations, which open up lots of possibilities for creating specialized maps.GeoNames

I haven’t talked at all about my process for transforming all of this data from its original source in a SQL database into RDF using Python — that could be the subject for several posts (or perhaps a whole course) by itself — but I hope this helps to give a sense for how I’ve modeled and put together Carnegie Hall’s performance history data as Linked Open Data. In the next installment, I’ll talk about some of the tools now available that make the process of publishing and using LOD much easier, and show some sample visualizations I’ve created using Carnegie Hall’s data.

Samples

The RDF data can be represented in a number of data formats, and the choice often depends on the particular tool one uses to manipulate them. Fortunately, they can be all converted into each other, and also into a graphical form, using for example this handy web-based RDF format converter. You can get all the full examples referenced in the blog in canonical RDF/XML form: SameAs example, Carnegie Hall Venues, Rodzinski and Paderewski performances. Using the tool, you can convert the files into other RDF dialects and experiment with them.

Rob Hudson, March 10, 2015

Explore more blog items:

Humanistyka Cyfrowa w New York City

1-nycdh-smNa niedawnej konferencji METRO (Metropolitan New York Library Council) miała miejsce prezentacja przedstawicieli grupy ‘Humanistyka Cyfrowa w New York City' (NYCDH). Grupa ta działa od połowy 2011, i zrzesza zainteresowanych Humanistyką Cyfrową z Nowego Jorku i okolic. Dostarcza ona forum wielu różnym organizacjom i małym grupom osób które pracują nad jakimiś problemami związanymi z humanistyką cyfrową. Uczelnie, w których pracują członkowie komisji sterującej grupy (takie jak NYU, CUNY, Columbia, Pratt i inne) udzielają miejsca na spotkania. Kalendarz grupy jest pełny, często jest kilka wydarzeń lub spotkań w tygodniu. Grupa jest otwarta, i po zarejestrowaniu się każdy członek może wpisać w kalendarz imprezę jaka organizuje i wziąć udział w już ogłoszonej.

Na stronie NYCDH można znaleźć grupy dyskusyjne o wielu tematach takich jak “Pedagogika Cyfrowa”, “Grupa OMEKA”, “Bibliotekarze w Humanistyce Cyfrowej”, “Grupa analizy tekstu”, “Grupa eksperymentów cyfrowych”, “Antyki i techniki cyfrowe” i inne. Planowane na najbliższy okres i niedawno zakończone imprezy dobrze obrazują działalność grupy.

Własność intelektualna w naukach humanistycznych - panel dyskusyjny z udziałem administratora uczelni, prawnika, bibliotekarza i studenta o napięciach pomiędzy egzekwowaniem praw a uczelnianą tradycją otwartego zdobywania wiedzy.

Muzeum po-cyfrowe - wykład Ross Perry z University of Leicester.

HyperCities - tworzenie gęstych map w humanistyce cyfrowej. Todd Presner omawia swoją nowa książke a także interaktywną stronę internetową która przedstawia współczesne wydarzenia takie jak “Wiosna arabska” czy katastrofa Fukushima w postaci interaktywnych map zawierających strumienie informacji z różnych źródeł.

THATCamp AHA. THATCamp to inicjatywa otwartych, nie wymagających dużych nakładów spotkań. Skrót pochodzi o nazwy The

Humanities and Technologies Camp (Obóz humanistyki i technologii). Obozy (meetingi) THATCamp organizowane są na całym świecie, w tym również  w Polsce. To spotkanie zostało zorganizowane przez AHA, American Historical Association.

Digitalizacja, demokratyzacja: biblioteki, książki i przyszłość cyfrowa. Wykład Roberta Darntona z Harvard, współtwórcy Cyfrowej Biblioteki Ameryki.

Nauka bez granic: Big Open Data. Dyskusja panelowa problemu, jak oswoić ogromne zasoby otwartych danych.

Sympozjum “Bibliotekarz akademicki w przyszłości Otwartego Dostępu”. Jak ruch “Open Access” wpływa na użytkowników i instytucje akademickie, i jak dostosować się do nieuchronnych zmian.

Argument, dowód i ograniczenia cyfrowych badań literackich.  David Hoover z New York University polemizuje z kilkoma niedawnymi krytykami wykorzystania nowoczesnych metodologii humanistyki cyfrowej w badaniach literatury.

Prezentacja filmu “Chłopiec Internetu - historia Aarona Swartza”

Tworzenie map i WWW: wprowadzenie do metod cyfrowych. Wprowadzenie do metod i narzędzi cyfrowych opracowanych w uniwersytecie w Amsterdamie, i ich zastosowania do osiągnięcia wglądu w wiele współczesnych tematów społecznych, od praw człowieka do problemów zdrowia i zmian klimatycznych.

Grupa Humanistyka Cyfrowa NYC jest bardzo cennym zasobem dla zainteresowanych tym tematem. Będąc na miejscu można brać udział w wielu ciekawych wydarzeniach, będąc z dala, uzyskuje się dostęp do nowych ciekawych trendów, inicjatyw i powstających portali w dziedzinie humanistyki cyfrowej.

Marek Zieliński, 22 stycznia 2015

Może Cię też zainteresować

Więcej artykułów…

Kalendarz wydarzeń

Last month June 2017 Next month
S M T W T F S
week 22 1 2 3
week 23 4 5 6 7 8 9 10
week 24 11 12 13 14 15 16 17
week 25 18 19 20 21 22 23 24
week 26 25 26 27 28 29 30

Blog - spis treści

Ciekawe dokumenty

  •  Legitymacja Haliny Buraczewskiej, ochotniczki Strzeleckich Oddziałów Żeńskich, 2 sierpnia, 1914 r.

Wiele ten może, co musi.
- Józef Piłsudski

mkidn_170 

 
bn-170
senat170 ndap_170msz_220 Fundacja na rzecz Dziedzictwa Narodowego imienia Józefa Piłsudskiego
psfcu_165
City Culture