Linked Data cz. 2: gdzie są dane?

linked-data280 Fragment diagramu Linked Data z portalu LinkedData.org

Linked Data jest stosunkowo nowym zjawiskiem w sieci WWW, ideą dostępu do danych strukturalnych. Co to są dane strukturalne? WWW jest uniwersalnym nośnikiem informacji czytelnej dla człowieka - wszystkie strony internetowe, artykuły, aplikacje dają nam informacje, które możemy odczytać i zinterpretować, na przykład pytanie: "kiedy przyjedzie następny tramwaj?” i odpowiedź; “za 10 minut". Takie pytanie i odpowiedź nie są jednak łatwe do odczytania przez komputery, które potrzebują informacji w ścisłej strukturze: (“Numer przystanku: 4398, linia tramwajowa: 11, odległość od przystanku: 0.8 km, itp.)

Informacja jest zwykle zapisana w bazach danych, które po wielu latach udoskonalania są bardzo wydajne w przechowywaniu i wyszukiwaniu danych, ale fatalne w wymianie informacji. Każda baza danych zawiera wiele kolumn, nazywanych raczej dowolnie i tylko lokalny system komputerowy umie z niej wyciągnąć dane. Nowy koncept, Linked Data, przybywa tutaj z pomocą. Schemat metadanych Linked Data, o nazwie RDF (Resource Description Framework, struktura opisu zasobów), wymaga, aby dane nie były prezentowane w trudnych do odcyfrowania tabelach, ale w prostych zdaniach, składający się z podmiotu, orzeczenia i dopełnienia. Zamiast wymyślonych nazw kolumn używamy nazw standardowych, a zamiast nazwy podmiotu używamy jego identyfikator URI (Universal Resource Identifier, uniwersalny identyfikator zasobu). Przykładowo, trywialna dla człowieka informacja o tytule tego blogu (przecież możemy przeczytać go powyżej, prawda?) zamienia się w zdanie albo “trójkę” w slangu RDF [1) www.pilsudski.org/portal/pl/nowosci/blog /484, 2) dc:title, 3) "Linked Data cz. 2: gdzie są dane?"]. Pierwsza część to adres URI jednoznacznie wskazujący na ten artykuł, druga to "tytuł” w konkretnym standardzie metadanych (Dublin Core), a trzecia część to tekst tytułu.

Więcej o szczegółach Linked Data i RDF znajdziecie w pierwszym artykule z tej serii,: "Wstęp do Linked Data", i nie będę ich tu powtarzać. W tym blogu chciałbym skupić się na konkretnych źródłach danych dostępnych obecnie na stronach WWW, nad tym jak je znaleźć i co one zawierają. W procesie digitalizacji archiwów często poszukujemy odnośnika do nazw, miejsc, organizacji lub zdarzeń, który byłby stabilny i dostępny. Jeśli pojawia się nazwisko, np. Karol Anders, czy możemy znaleźć źródło, które będzie jednoznacznie wskazywać na rekord tej osoby? Z oczywistych powodów będziemy omawiać tylko te źródła danych, które są publicznie dostępne. Link, który opublikujemy na stronie internetowej, otwartej dla każdego czytelnika, nie może prowadzić do zasobu, który nie jest dostępny dla tego czytelnika. Będziemy analizować nie wszystkie Linked Data, a otwarte Linked Open Data. Ilustracja powyżej pokazuje mały fragment ogromnej sieci Linked Open Data, poniżej kilka wybranych źródeł z wyszczególnieniem tych użytecznych dla archiwisty i bibliotekarza.

Źródła danych Linked Open Data

Popularne zasoby danych

DBPedia

DBPedia jest centralnym zasobem Linked Open Data. Jej źródłem danych jest Wikipedia; ale informacje DBPedia są ustrukturyzowana, jak w typowej bazie danych. Prace nad budową DBpedii są w toku, i zależą w dużej mierze od wkładu wolontariuszy w udoskonalanie artykułów Wikipedii, dodających Infoboksy i inne dane strukturalne. DBPedię można uznać za inne spojrzenie na dane w Wikipedii, z możliwością wykonywania złożonych zapytań - ma ona za sobą całą moc i wszechstronność Wikipedii.

VIAF

VIAF (Virtual International Authority File) jest oparta na zasobach “kontroli autorytatywnej” wielu bibliotek w wielu krajach, od Biblioteki Kongresu (USA) do biblioteki w Aleksandrii (Egipt). Rekordy wzorcowe autorów, wydawców itp. są gromadzone w bibliotekarstwie przez wieki i są naturalnym źródłem w miarę wiarygodnych informacji na temat osób, organizacji i miejsc.

YAGO

YAGO, opracowany w Instytucie Informatyki Maxa Plancka w Saarbrücken, jest integratorem informacji zebranych z Wikipedii, WordNet i GeoNames. Yago zapewnia spójny interfejs i posiada wiele przydatnych narzędzi, np. ciekawą wizualizację danych w postaci diagramu RDF. Jest również powiązane z DBPedią.

GeoNames

GeoNames jest to baza danych geograficznych, dostępnych bezpośrednio a także za pośrednictwem różnych usług internetowych, udostępniona na podstawie licencji Creative Commons. Dane pochodzą z oficjalnych źródeł publicznych, a także jako wynik crowdsourcing. Zawiera on około 10 milionów nazw w wielu językach wskazujących na określone lokalizacje geograficzne. Po znalezieniu miejsca, można pobrać rekord RDF, zobaczyć mapę, opis hierarchii administracyjnej i wiele innych ciekawych danych.

MusicBrainz

MusicBrainz jest otwartą bazą muzyczną. Rozpoczęła działanie jako otwarta alternatywa dla zamkniętej bazy CDDB, dziś jest uniwersalną bazą danych z informacjami na temat artystów, ich utworów i relacji między nimi.

Inne źródła

Istnieje wiele innych, bardziej specjalistycznych źródeł danych - wystarczy spojrzeć na cały schemat, którego tylko niewielki fragment jest zilustrowany powyżej. Wymienię tylko kilka:

UniProt jest jedną z wielu baz danych nauk ścisłych, które zawierają coraz większą ilość surowych danych naukowych. UniProt zawiera sekwencje białek, podstawowe narzędzie dla biologów.

KEGG jest to zasób przydatny dla zrozumienia systemów biologicznych, takich jak komórki, organizmy i ekosystemy, z informacji na poziomie molekularnym, szczególnie generowanych na dużą skalę przez sekwencjonowanie genomu i innych technologii wysokiej wydajności.

Data.gov jest scentralizowane miejsce dostępu do zbiorów danych z wielu branż i tematów w rządzie USA (nie wszystkie są otwarte).

European Union Open Data Portal jest europejskim odpowiednikiem data.gov, pojedynczy punkt dostępu do wielu danych z instytucji i innych organów Unii Europejskiej.

New York Times otworzył swoją kolekcję informacji w działach tematycznych: ludzie, organizacje, lokalizacje itp.

Open Science Data Cloud to serwis zawierający szereg zestawów danych naukowych, od całego ludzkiego genomu sekwencji do zbiorów danych o zmianach klimatycznych.

Meta witryny

Meta witryny to strony, które zbierają informacje o zasobach danych, dostępie do nich, przeglądy i statystyki.

LinkedData.org jest stroną, która zbiera i porządkuje dane zasobów Linked Data, dostarcza informacji o tych zasobach i różne dane statystyczne. Stan na dziś to 2122 zestawów danych, 62 miliardów “trójek” RDF z 928 zestawów (ponad 50% zbiorów danych nie ma jeszcze wystarczającej jakości)

DataHub to zbiornica linków, która zbiera otwarte zestawy danych. Posiada imponującą liczbę 9000 zestawów, w tym np. z Banku Światowego i Federal Reserve Board w USA. Niestety zawiera dużo spamu, co sugeruje, że strona nie jest regularnie utrzymywana. Wszystkie zestawy danych omówione wyżej są również zarejestrowane w DataHub.

Case study: MusicDB

Organizując swoją kolekcję plików mp3 zgranych z płyt CD byłem często w rozterce. Pliki mp3 posiadały możliwości zapisania "artysty". Czy Etiudę nr.12 op.10 należało zapisać pod hasłem Fryderyka Chopina czy Władimira Aszkenazi ? Nowsza wersja metadanych w plikach mp3 pozwala na umieszczenie etykiet dla kompozytora i wykonawcy, ale piosenka może mieć autora tekstu, napisanego na podstawie wiersza, który ma swojego własnego autora, kompozytora muzyki, wokalistkę, muzyków, itd. Gdzie znaleźć i jak zorganizować takie skomplikowane dane było tematem niedawnej prezentacji zatytułowanej "Budowanie rekordów wzorcowych w użyciem crowdsourcing i Linked Open Data w ProMusicDB", przedstawionej przez Kimmy Szeto i Christy Cowl na konferencji METRO 2014. Autorzy dyskutowali kwestie związane z konstrukcją bazy ProMusicDB (w budowie). Projekt wymaga złożonego schematu metadanych aby zapisać wszystkie niezbędne informacje, takie jak nazwy i pseudonimy osób zaangażowanych w tworzenie i wykonywanie utworu, ich role w kreacji i realizacji, szczegóły studia w którym dokonano nagrania, klasyfikacja utworu, prawa autorskie itp. Informacje te są rozproszone w wielu miejscach. Niektóre dane są do znalezienia w wspomnianych już DBPedii/Wikipedii i MusicBrains/Discogs. Informacje zbierano z osobistych stron wykonawców a także od ich związków zawodowych. Agencja ISNI zapewniająca unikalne identyfikatory była konsultowana, ale w końcu zdecydowano, że ProMusicDB stworzy swoje własne identyfikatory. Jako inne źródła wykorzystywane były np. EIDR (Entertainer Identifier Registry), organizacje takie jak HFA, RIAA, MediaNet, dane szkół muzycznych i bibliotek itp. Następnym etapem po złączeniu danych z wielu źródeł było uwierzytelnianie i weryfikacja, by w końcu uzyskać autorytatywną bazę muzyczną.

Ten przykład pokazuje, że chociaż szczegółowe dane można często znaleźć w formie elektronicznej, są one rozproszone w różnych miejscach i nie są łatwe do zintegrowania. Dodatkowo, proste schematy metadanych, takie jak Dublin Core są niewystarczające do opisu bardziej złożonych zależności. MADS/RDF, stosunkowo nowy standard metadanych (który zasługuje na osobną dyskusję) jest wykorzystywany przez twórców ProMusicDB jako schemat ontologii do rekordów wzorcowych. Czekamy na otwarcie strony MusicDB aby zobaczyć, jak jego twórcy poradzili sobie z tym złożonym procesem zbierania danych.

Ludzie, miejsca, instytucje

Podczas indeksowania zasobów archiwalnych w Instytucie Piłsudskiego, na szczególną uwagę zasługują daty, osoby, miejsca i instytucje. Istnieje oczywiście więcej informacji w archiwalnych dokumentach, i mamy nadzieję, że badacze historii potrafią je odszukac i wykorzystać, ale do pomocy w znadywalności, kategorie te są szczególnie atrakcyjne. Daty są najprostsze, jeśli tylko przedstawiane są w standardowej formie. Nazwy są jednak często niejednoznaczne, i dobrze byłoby, aby połączyć je z rekordami wzorcowymi.

Ludzie

Weźmy przykład generała Władysława Andersa. Gdy człowiek, taki jak on, jest znany i napisał w swoim życiu książkę, w VIAF znajdziemy odpowiedni zapis i identyfikator. Podobnie jest z YAGO, o ile tylko uda nam się przezwyciężyć jego ekscentryczny interfejs, który ma problemy z polskimi znakami diakrytycznymi. Wpiszmy jednak w wyszukiwarkę jego brata, pułkownika Karola Andersa, który nie napisał książki, i zarówno VIAF i YAGO nic nie znajdują. Nie jest to zaskakujące, ponieważ zarówno VIAF i YAGO korzystają z tych samych źródeł danych opierających się o katalogi biblioteczne. Natomiast Wikipedia ma wpisy dla Władysława Andersa, a także dla jego obu braci Karola i Tadeusza. Podobnie założyciel Instytutu Piłsudskiego i emigracyjny działacz społeczny (ale nie pisarz), Stefan Łodzieski posiada wpis w Wikipedii, ale nie w VIAF ani YAGO.

Miejsca

Miejsca znajdują się często w VIAF i Yago, zwłaszcza dla większych obiektów. Dlatego Łódź i Wolbórz będzie można znaleźć w VIAF (Yago może też mieć dane, ale interfejs nie rozpoznaje nazwy), ale nie wieś Borowa, gdzie spędzałem letnie wakacje. Tu błyszczy baza GeoNames. Wpis “Borowa” pokazuje nie tylko mapy, zdjęcia satelitarne, hierarchię administracyjną (województwo łódzkie, powiat łodzki wschodni itp.), współrzędne geograficzne, ale także link do artykułu w Wikipedii, pełen zapis RDF i inne formy danych. Takie zródło danych jest bardzo użyteczne, szczególnie w obliczu odnajdywania nazw historycznych, które często zmieniały się przez wieki. W GeoNames takie różne nazwy wskazują na to samo miejsce na ziemi, np. Juzovka, Hughesovka, Stalino i Donieck mają ten sam zapis w GeoNames, podczas gdy Wikipedia posiada odnośnik do Walijczyka Johna Hughesa, inżyniera, który założył to miasto.

Instytucje

VIAF posiada rejestry instytucji, które zostały wymienione jako wydawcy książek, czasopism itp. Instytut Piłsudskiego występuje jednak w VIAF kilka razy, co sprawia, że trudno jest znaleźć "poprawny" rekord. Widać jednak wyniki powolnej pracy nad korektą danych. W lutym 2013 r., kiedy pisałem blog o unikalnych identyfikatorach, VIAF miał 4 rekordy Instytutu, 278200980, 277221969, 262858213 i 151002901. Dziś trzy z nich wskazująjuż na ten sam zapis, a jedynie 262858213 stanowi duplikatem. W Wikipedii jest o wiele mniej prawdopodobne, aby pojawiły się takie problemy, ponieważ jest na bieżąco aktualizowana. Wikipedia ma tylko jeden wpis dla Instytutu (dla każdej wersji językowej), i stronę ujednoznaczniającą, na której wymienione są inne instytucje o podobnej nazwie.

Podsumowanie

Dziedzina Linked Open Data jest pełna nowych inicjatyw i modeli danych; rośnie szybko liczba źródeł użytecznych, wiarygodnych danych. Spełnienie marzenia twórcy WWW Tima Berners-Lee przekształecenia WWW w Sieć Semantyczną (Semantic Web) wymaga jednak jeszcze sporo pracy.

Istnieje wiele źródeł dobrej jakości danych, które mogą być stosowane przez archiwistę. Do identyfikacji osób i instytucji, moim pierwszym wyborem jest Wikipedia (i jej siostrzany projekt DBPedia). Wikipedia jest ciągle ulepszana i aktualizowana, a błędy są korygowane szybko. VIAF jest drugim źródłem, które może być użyteczne, ponieważ zawiera dane zebrane przez dekady. W ostatnim czasie Wikipedia i VIAF cytują się nawzajem, co pomaga w wyszukaniu właściwego rekordu. Dla miejsc na ziemi, GeoNames jest źródłem z wyboru jako najbardziej kompletna i wysokiej jakości baza danych.

Linked Open Data i Sieć Semantyczna ma dużo entuzjastów, którzy stale pracują nad nowymi, lepszymi sposobami, aby uzyskać dostęp do danych.

Podejmowane są też wysiłki, aby otworzyć dostęp publiczny do danych , które zostały zamknięte w rządowych i firmowych skarbcach. Jest to szczególnie przydatne w naukach ścisłych - w niektórych dziedzinach masowo generowane są terabajty danych. Warto jest przyjrzeć się bliżej wyżej wymienionym zasobom i doświadczyć potęgi “Big data”.

Marek Zieliński, 15 maja 2014

Może Cię też zainteresować