-
Notifications
You must be signed in to change notification settings - Fork 5
Konvertierung und Bereitstellung von Vokabularen im JSKOS Format
Zuerst sollte überprüft werden, ob das neue Vokabular bereits in BARTOC eingetragen ist. Zur Beschreibung als JSKOS Concept Scheme sind insbesondere folgende Felder notwendig:
-
uri
mit einem globalen, eindeutigen Identifier des Vokabulars (vorzugsweise eine BARTOC-URI) -
prefLabel
mit Namen des Vokabulars -
notation
mit einem Kürzel des Vokabulars -
namespace
oderuriPattern
mit dem URI-Namensraum für die Konzepte des Vokabulars -
notationPattern
mit einem regulären Ausdruck zur Überprüfung der Identifier bzw. Notationen der Konzepte des Vokabulars
Zu klären ist auch die Lizenz unter der Vokabular-Daten verwendet werden können (möglichts CC-Zero).
Bei rein internen Vokabularen kann auch von einer Eintragung in BARTOC abgesehen werden. Statt die Angaben aus BARTOC herunterzuladen muss in diesem Fall eine lokale Datei im JSKOS Concept Scheme Format angelegt werden.
Zunächst müssen die Vokabular-Daten, also im Wesentlichen die in einem Vokabular enthaltenen Konzepte, maschinenlesbar verfügbar sein. Die Erfahrung zeigt dass fast alle Vokabular-Daten Lücken, Inkonsistenzen und andere Fehler enthalten. Zur Qualitätskontrolle sollten die Daten zunächst analysiert werden, um beispielsweise folgende Fragen zu klären:
- Wieviele Konzepte enthält das Vokabular?
- Entsprechen die Notationen den Vorgaben (siehe Feld
notationPattern
)? - Sind die Notationen eindeutig (keine Duplikate)?
- Gibt es für alle Konzepte Benennungen und in welchen Sprachen?
Viele Analysen lassen sich mit Standard-Werkzeugen auf der Unix-Kommandozeile durchführen (grep
, sort
, uniq
, wc -l
...). Je nach Datenformat sind weitere Tools hilfreich (z.B. jq für JSON-Daten).
Prinzipiell können Daten mit jeder Programmiersprache nach JSKOS konvertiert werden. Je nach Ausgangsformat sind andere Werkzeuge sinnvoll.
-
CSV → jskos-convert → JSKOS
Als Feldtrenner muss Komma (“,“) verwendet werden. Zusätzliche Leerzeichen um Feldinhalte sind nicht erlaubt. Aufpassen dass führende Nullen beim Export nach CSV nicht verloren gehen! Die Feldnamen in der ersten Zeile müssen den bekannten JSKOS-Feldnamen entsprechen (
notation
,prefLabel
, ...) -
MARCXML → mc2skos → JSKOS
Da mc2skos kein reines JSKOS unterstützt sind in der Regel weitere Nachbearbeitungen der Daten notwendig, z.B. mit jq.
-
RDF/SKOS → skos2jskos → JSKOS
Nicht alle Spielarten und Besonderheiten von RDF/SKOS-Daten werden unterstützt.
Damit die Konvertierung zu einem späteren Zeitpunkt wiederholt werden kann, empfiehlt es sich die einzelnen Konvertierungsschritte (Herunterladen, Datenbereinigung, Umwandlung nach JKOS…) in einem Makefile
einzutragen.
Beispiele finden sich im Repository jskos-data
Traue keinen Daten die du nicht überprüft hast. Zur Kontrolle eignen sich:
- jskos-validate überprüft ob die Daten dem JSKOS-Schema entsprechen
- jskos-metrics liefert aufschlussreiche Statistiken
...dieser Abschnitt muss noch ausgebaut werden...
Die Liste ist noch im Aufbau...