Bruke arkivet til å sjekke om målloven blir fulgt?

Petter Reinholdtsen pere at hungry.com
Tue Apr 16 11:38:06 CEST 2019


[Thomas Sødring]
> Dette er en veldig god ide synes jeg! Det kan utvikles en ny pakke i
> standarden som heter 'statistikk' og i den pakken kan du hente ut
> forskjellig statistikk på arkivenheter, blant annet bruk av
> målform. Det er her vi også kunne satt inn datakvalitets statistikk.

En statistikkpakke høres veldig nyttig ut, ja, for å kunne få ut
informasjon om arkivet.

Når det gjelder målform, så er et kompliserende faktor at et gitt
dokument kan ha flere språk, f.eks. mest skrevet på bokmål, men med
sitater på nynorsk, engelsk og latin.  Jeg vet ikke hvordan slikt slår
ut på målingene om bruk av målform etter målloven.

Når det gjelder språkkoder, så bør en nok gå for to- eller
trebokstavskoder i henhold til ISO 639-koder, slik at de mest aktuelle
kodene for norge blir nb (bokmål), nn (nynorsk), sme (nordsamisk), smj
(lulesamisk) og sma (sørsamisk).  I tillegg vil en ha språkkoder for
alle verdens språk.  Det bør antagelig legges i en kodeliste ala Land.

> Noen href eksempler:
>
> https://nikita.hioa.no/noark5v4/hateoas-api/statistikk/mappe/e5aeaef5-49bf-4b43-adf1-4da83e2c4e6f/maalform
>
> https://nikita.hioa.no/noark5v4/hateoas-api/statistikk/dokumentobjekt/4b496e7b-82fd-457c-b27f-c1c2a4ff7e4d/maalform

Det er vel et spørsmål om granularitet om en skal ha ett eller flere
språk koblet til hvert dokument.  Jeg tror ikke det er verdt tiden å
vurdere flere språk og andel tekst i hvert språk, men det ville helt
klart gjort måling av brukt språk mer nøyaktig.

> Her kunne vi feks brukt apertium til å lage en versjon av dokumentet i
> et annet målform.

Er <URL: https://www.apertium.org/ > bra nok mellom bokmål og nynorsk
til at resulatet kan brukes offisielt?

> Mye morsomt som kan utforskes når tjenestegrensesnittet er på plass med
> en fri programvare implementasjon.  Får meg til å lure om vi kunne snudd
> litt på ting og autogenerert tjenestegrensesnittet specen med UML osv på
> bakgrunn av en implementasjon. Da kunne ting testes rent praktisk for å
> vise at det er mulig.

Jeg tror det er lurt å skrive spesifikasjonen manuelt, må jeg innrømme.
Så kan innholdet deretter testes maskinelt. :)

I dagens definisjon av Dokumentobjekt er det vel kun feltet
"formatDetaljer" og mimeType som er vagt relevant å bruke til å lagre
språk.  En kunne funnet opp et MIME-parameter 'lang' og brukt for
eksempel "text/plain; lang=nb" eller "application/pdf; lang=nn" for å
lagre og dokumentere dokumentets språk i arkivet.  Det er dog uheldig,
da 'lang' ikke er standardisert slik for eksempel parameteret 'charset'
er det.

Feltet "formatDetaljer" har derimot ingen klar definisjon som jeg
kjenner til, så der kunne en nok fylt på med "lang=nb" og lignende uten
å komme i konflikt med andre standarder.

-- 
Vennlig hilsen
Petter Reinholdtsen


More information about the nikita-noark mailing list