Skip to content

Konvertierung und Bereitstellung von Vokabularen im JSKOS Format

Jakob Voß edited this page Feb 11, 2022 · 2 revisions

Übersicht

Arbeitsschritte

1. Vokabular identifizieren und beschreiben

Zuerst sollte überprüft werden, ob das neue Vokabular bereits in BARTOC eingetragen ist. Zur Beschreibung als JSKOS Concept Scheme sind insbesondere folgende Felder notwendig:

  • uri mit einem globalen, eindeutigen Identifier des Vokabulars (vorzugsweise eine BARTOC-URI)
  • prefLabel mit Namen des Vokabulars
  • notation mit einem Kürzel des Vokabulars
  • namespace oder uriPattern mit dem URI-Namensraum für die Konzepte des Vokabulars
  • notationPattern mit einem regulären Ausdruck zur Überprüfung der Identifier bzw. Notationen der Konzepte des Vokabulars

Zu klären ist auch die Lizenz unter der Vokabular-Daten verwendet werden können (möglichts CC-Zero).

Bei rein internen Vokabularen kann auch von einer Eintragung in BARTOC abgesehen werden. Statt die Angaben aus BARTOC herunterzuladen muss in diesem Fall eine lokale Datei im JSKOS Concept Scheme Format angelegt werden.

2. Vokabular-Daten analysieren

Zunächst müssen die Vokabular-Daten, also im Wesentlichen die in einem Vokabular enthaltenen Konzepte, maschinenlesbar verfügbar sein. Die Erfahrung zeigt dass fast alle Vokabular-Daten Lücken, Inkonsistenzen und andere Fehler enthalten. Zur Qualitätskontrolle sollten die Daten zunächst analysiert werden, um beispielsweise folgende Fragen zu klären:

  • Wieviele Konzepte enthält das Vokabular?
  • Entsprechen die Notationen den Vorgaben (siehe Feld notationPattern)?
  • Sind die Notationen eindeutig (keine Duplikate)?
  • Gibt es für alle Konzepte Benennungen und in welchen Sprachen?

Viele Analysen lassen sich mit Standard-Werkzeugen auf der Unix-Kommandozeile durchführen (grep, sort, uniq, wc -l...). Je nach Datenformat sind weitere Tools hilfreich (z.B. jq für JSON-Daten).

3. Vokabular-Daten nach JSKOS konvertieren

Prinzipiell können Daten mit jeder Programmiersprache nach JSKOS konvertiert werden. Je nach Ausgangsformat sind andere Werkzeuge sinnvoll.

  • CSV → jskos-convert → JSKOS

    Als Feldtrenner muss Komma (“,“) verwendet werden. Zusätzliche Leerzeichen um Feldinhalte sind nicht erlaubt. Aufpassen dass führende Nullen beim Export nach CSV nicht verloren gehen! Die Feldnamen in der ersten Zeile müssen den bekannten JSKOS-Feldnamen entsprechen (notation, prefLabel, ...)

  • MARCXML → mc2skos → JSKOS

    Da mc2skos kein reines JSKOS unterstützt sind in der Regel weitere Nachbearbeitungen der Daten notwendig, z.B. mit jq.

  • RDF/SKOS → skos2jskos → JSKOS

    Nicht alle Spielarten und Besonderheiten von RDF/SKOS-Daten werden unterstützt.

Damit die Konvertierung zu einem späteren Zeitpunkt wiederholt werden kann, empfiehlt es sich die einzelnen Konvertierungsschritte (Herunterladen, Datenbereinigung, Umwandlung nach JKOS…) in einem Makefile einzutragen.

Beispiele finden sich im Repository jskos-data

4. Daten kontrollieren

Traue keinen Daten die du nicht überprüft hast. Zur Kontrolle eignen sich:

5. Daten in JSKOS Server Instanz einspielen

...dieser Abschnitt muss noch ausgebaut werden...

Werkzeuge

Die Liste ist noch im Aufbau...