Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

Frictionless Data: bardziej użyteczne zestawy danych sektora kultury

Dane na temat zbiorów to kolejny zasób, który może być udostępniany przez muzea, archiwa czy biblioteki. Obok wyboru formatu (csv, xml czy json), statusu prawnoautrskiego danych czy sposobu ich udostępniania (pliki do pobrania, API czy protokół OAI-PMH) instytucje mają dużą dowolność w wyborze jakości publikowanych zestawów. Od tego, czy będzie to po prostu zrzut z bazy danych czy odpowiednio wyczyszczony i dobrze opisany zbiór może zależeć to, czy dane te będą w ogóle wykorzystane.

Na blogu Open Knowledge Foundation pojawił się niedawno interesujący wpis na temat metod publikowania danych dziedzictwa. Jednym z podejmowanych w nim wątków jest idea frictionless data (od friction – tarcie):

Frictionless Data is about removing the friction in working with data through the development of a set of tools, specifications, and best practices for publishing data.

Na frictionlessdata.io znaleźć możemy zatem zestaw standardów i narzędzi pozwalający tak przygotować zestaw danych do udostępnienia, aby był on jak najbardziej użyteczny, a wszystkie jego braki czy problemy w ponownym wykorzystaniu dokładnie wskazane i opisane. Jedną z propozycji jest na przykład dołączanie do plików z danymi osobnego pliku data package. W pliku tym, łatwym do maszynowego przetwarzania ze względu na format (json), znajdowałyby się wszystkie niezbędne informacje o danych, ich wytwórcy, zasadach wykorzystania itp. Wyglądać to może w ten sposób:

{
 # general "metadata" like title, sources etc
 "name" : "a-unique-human-readable-and-url-usable-identifier",
 "title" : "A nice title",
 "licenses" : [ ... ],
 "sources" : [...],
 # list of the data resources in this data package
 "resources": [
  {
   ... resource info described below ...
  }
 ],
 # optional
 ... additional information ...
}

I dalej, informacje o licencji dla publikowanych danych mogą być publikowane podobnie, przy czym zalecane jest stosowanie ID licencji według wzorów proponowanych przez Open Definition:

 "licenses": [{
  "name": "ODC-PDDL-1.0",
  "path": "http://opendatacommons.org/licenses/pddl/",
  "title": "Open Data Commons Public Domain Dedication and License v1.0"
 }]

Format json oraz stosowanie standardów wypełniania poszczególnych elementów (licencje, zapis dat itp.) umożliwić ma maszynowe przetwarzanie takich informacji. Taka metoda porządkowania opisów zestawów danych może być wykorzystywana do udostępniania danych o zbiorach dziedzictwa, danych badawczych i bibliograficznych czy danych dotyczących bieżącej działalności instytucji kultury.

Na stronie projektu dostępna też jest obszerna lista narzędzi ułatwiających porządkowanie danych.

Więcej: frictionlessdata.io

Grafika: CC-BY Ainsley Seago

Przeczytaj także:

Udostępnij na Twitterze | Udostępnij na Facebooku