Sv: Nikita, Noark 5 og RDF

Thu May 4 14:18:43 CEST 2023

Da jeg nylig leste de siste oppdateringene i
<URL:https://github.com/arkivverket/standardlab/issues/76>, så slo det
meg at kanskje RDF-baserte søk i Noark 5-arkivet kunne være en bedre
tilnærming enn Odata-baserte søk.  Det kan jo også gjøre det enklere å
krysskoble arkivinformasjon med annen informasjon, og gjøre at arkivet
kan bli et informasjonsnav i organisasjonen, steder der en går for å
finne kunnskap, i steet for stedet der kunnskap og dokumenter går for å
dø.

På en måte er det du skisserer enkelt, men på en annen måte er det komplisert. Men arkivmiljøet har vært her før under SAMDOK arbeidet om jeg husker rett. Jeg var selv hos Riksarkivet på et seminar og snakket varmt om behovet for å vrenge arkivstrukturen slik at i vi kunne gå vekk fra en systemforståelse av arkiv til et objektforståelse av arkiv. Dersom du er ut etter saker der en bestemt identifisert person inngår må du i Noark lete gjennom flere uttrekk og må langt ned før du finner informasjonen. Fagmiljøet er godt kjent med mulighetene som ligger i det å gå over til RDF, så RDF og Noark er et gammelt konsept som det blåses støv av. Forskjellen nå er at digdir og EU har løftet tematikken og nå plutselig blir det interessant igjen for arkivene. Når dette var opp sist så mener jeg å huske at Bouvet var tatt inn for å gjøre en jobb. Mitt inntrykk er at den gangen var Arkivverket mest bekymret at RDF vil løse opp for mye. At det ville enklere kunne finnes sakmapper uten klassifisering, at obligatoriske verdier lettere ville ikke være med i en RDF-modell så noe av det som ble gjort var å sikre at RDF kunne beholde disse obligatoriske og strukturelle kravene. Du kan lese litt mer om modellen deres her:

   https://github.com/SesamResearch/Records-Management-and-Archive-Systems-Research

Jeg opplever RDF  (semantisk web) som vinklrett i forhold til Noark. Underliggende er det to forskjellige tilnærminger til innpakking av data. Noark basert på en slags forståelse av relasjonsmodelldatabaser (Noark er uavhengig av teknologi) er mer opptatt av enterprise perspektiver på ting, skjerming, tilgangskontroll osv enn semantisk web. Semantisk web er mer i digital cultural heritage verden og handler om å tilgjengliggjøre data for omverden slik at det kan gjenbrukes og forstås. Den gangen diskuterte vi så vidt at det kunne være mulig å bruke semantisk web der du lever både med den åpne og det offentlige perspektivet. Altså at deler av grafen er offentlig tilgjengelig, mens andre deler er lukket.

Jeg tror konseptet ble ikke tatt godt imot den gangen fordi det virket skummelt å tenke at utenforstående skulle få delt tilgang til arkivene på en slik måte og det ble for usikkert. Så kom det en ny riksarkivar etterhvert. Pådriver for semantisk web hos Arkivverket sluttet og det dabbet ut. Så kom det en ny generasjon av ledere i Arkivverket som skulle riste opp i ting og da tror jeg alle gamle forslag ble kastet i søppla, uansett hvor bra de var. Ut med det gamle inn med det nye.

Spurte Kjetil Kjernsmo om han hadde innspill om hva som trengs for å få
noe slikt til, og han svarte følgende at vi må finne vokabular også kalt
ontologi, så må det lages URI-er for hver eneklt ting, så er det bare å
serialisere dataene i et RDF-format, typisk Turtle og JSON-LD, eller
kanskje det mindre brukte RDF/XML.

Sesamprosjektet er et veldig godt utgangspunkt både fordi den inneholder grunnmodellen, men også pga begrensningene (constraints) som er definert. Turtel / JSON-LD en RDF/XML er bare forskjellig serialisering av samme data og det er ikke så mye å hente på å bruke tid på hvilken som er riktig. Den gangen hadde jeg så vidt begynt på en XSLT for å prøve å omforme en arkivstruktur.xml til RDF/XML men fordi arkivmiljøet ikke visste interesse til RDF konseptet så ble det borte.

Jeg antar fra mangelmelding #76 at det allerede finnes vokabular
definert, og at URI bør være trivielt gitt at alle instanser i Nikita
allerede har unik URL, så da er det vel bare å finne ut av formatvalg og
se hvor vi havner. :)

Her er det fort gjort å gjøre samme feilen som det Arkivverket gjør. Hopp inn i noe som virker spennende og undervurder innsatsen. På en måte er det bare å lage en ny *Mapper* objekt i nikita som omformer riktig når en forespørsel kommer med "Accept: text/turtle" eller"Accept: application/ld+json". Det du gjør da er bare å lage tripples av arkivenheter. Det morsomme er det vi kjenner som _links for en arkivenhet kan bli omformet til RDFS klasser. Da vil feks mappe gi en relativ stor graf og nyttig innhold. Men det vil ikke gi en RDF søk.

RDF søk er et enkelt endepunkt som støtter SPARQL der du skriver en tripple som en spørring. Arkivbasen må omformes til RDF triples for å kunne søke i det. Per i dag så er hibernate implementasjonen slik at nikita skriver både til en relasjonsdatabase og elasticsearch. Så kanskje det kunne vært mulig huke deg inn i den transaksjonen og konvertere all innkommende data til RDF.

Hva tenker dere andre om noe slikt?  Hva vil det gjøre mulig, hvilke
utfordringer vil det gi oss?

Jeg tror utgangspunktet her er at vi snakker om CRUD og CUD kan jo være det samme som per dags dato. Så det er READ delen som er mest interessant.  De prosjektene som er omtalt i #76 gir inntrykk at RDF er langt mer utbredt enn det jeg har trodd. Det opplever jeg som positivt. Men som @psilip sier "Nå blir jeg litt sånn besnært av en følelse jeg er blitt lurt av før—nemlig fornemmelsen av at nå løsner det. Jeg fikk den da foranalysen "Informasjonsforvaltning i offentlig sektor" kom ut fra daværende Difi i 2013. Og jeg fikk den da jeg satt i Wergelandssalen på Riksarkivet og så Bouvet og Hafslund presentere arbeidet de hadde gjort med å rdf-isere Noark.". Jeg er nok av samme oppfatning som psilip. Dette er blitt utforsket og forkastet, men lik han så forsto jeg ikke hvorfor og hva som skal til for at det skal løftes. I motsetning til meg er psilip  kanskje en optimist og tror at Arkivverket er en organisasjon du kan ta seriøst og som føler ting opp på en profesjonell måte.

Hva vil det gjøre mulig? Ikke så veldig mye mer enn at vi kan bruke sparql til å søke. Utfordringen blir å sikre at data ikke lekker. Nikita per i dag har en dårlig implementasjon for tilgangskontroll på baksiden, så det må settes av tid til å sørge for det blir håndtert riktig. Hva vil det gjøre mulig for organisasjonen? Jeg tror ikke organisasjonen er interessert i ren Noark som RDF, men heller rdf DCAT-AP-NO, CPSV-AP-NO der Noark data blir integrert. Begynn med DCAT-AP-NO, CPSV-AP-NO.

Arbeidet som alt er gjort gjør at "you will hit the ground running". Så dersom det er interesse her så er det bare å hoppe på. Den raskeste måten å komme i gang er å lage et uttrekk fra arkivkjernen og omforme den til RDF triples ala sesamprosjektet. Deretter kan du raskt få opp en instans av Apache Jena og indeksere innholdet og så er du i gang med støtte for RDF baserte søk.

Hvilke utfordringer vil det gi oss? Per i dag er vi så få som koder på nikita at det vil spre oss enda tynnere. Hver time som går til å lese opp og implementere andre ting er en time mindre til grunnutviklingen til nikita. Innsatsen min dette semesteret har vært på integrasjoner. Oppdatert saksbehandlingsbrukergrensenitt, Epost inn og ut, TAM-arkiv bildedatabasen importert og tilgjengeliggjort i nikita, og jeg begynner nå med bevaring av pensum som vsm data i nikita. Dette er gjort i et forsøk for å få andre til å se nytteverdien i arkivering og verdien av et sentralisert arkiv. Semantisk web er nok en tilnærming som kan løfte nytteverdien, men da synes jeg heller vi burde forsøke å lage en implementasjon av hvordan Noark skal tolkes i DCAT-AP-NO, CPSV-AP-NO osv.

Selv er jeg en tilhenger av å bli ferdig med noe. Jeg tok selvkritikk på at min Noark utvikling bar preg av kasting og unødvendig nyutvikling. Det var veldig sant. Noen ganger er det enklere å begynne på nytt. Nikitabasen har en del teknisk gjeld (feks CORS støtte) som er hacket inn. En nyutvikling hadde ordnet opp i det, men det er noe viktig med det å faktisk bli ferdig med noe før man går videre med noe nytt. Jeg er fortsatt et stykke unna å levere en egenerklæring at Nikita er en Noark 5 kjerne. Det er en del arbeid igjen i henhold til tjenestegrensesnittet og sørge for at nikita er en implementasjon av TG (Bedre OData støtte, selv om det er mye bra) og at TG kan videreutvikles med bakgrunn av vår forståelse av Nikita implementasjonen.

Tidligere var jeg en stor tilhenger av å ta i bruk RDF i depot og er det nok nå også, men når ingen andre er interessert så blir det å sitte alene og pusle med det. Da blir det veldig kjedelig på sikt. Det er interessant at Arkivverket viser interesse for det igjen. Det  blir spennende å se hva de kommer fram til!

 - Thomas

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.nuug.no/pipermail/nikita-noark/attachments/20230504/de018aa8/attachment-0001.htm>