noark-xmp

Sat Mar 3 22:06:44 CET 2018

On 03/03/2018 09:19 PM, Petter Reinholdtsen wrote:
> [Thomas Sødring]
>> Så langt har vi sett på PDF formatet og hvorvidt det er mulig å legge
>> til ekstra metadata. Det viser seg at PDF støtter dette via
>> XMP-standarden og vi tror vi kan lage en Noark beskrivelse som kan
>> inngå i XMP. XMP er basert på RDF og Bouvet lagde en Noark RDF
>> datamodell i 2011/2012 som jeg tror vi kan gjenbruke.
> Jeg lurer på om ikke bilder også støtter XMP-standarden?  I hvert fall
> kan exiftool legge inn XMP-metadata i bilder, fant jeg ut i går da jeg
> publiserte et bilde og la inn lisensinfo med exiftool. :)
Det stemmer, XMP er ganske utbredt. Jeg synes det er rart at det ikke
har vært mer fokus på dette før nå.

>
> <URL:https://en.wikipedia.org/wiki/Exchangeable_image_file_format> tyder
> på at det er standardisert hvordan en kan legge inn XMP-info i bilder.
>
> Kanskje en ide å støtte både PDF, JPEG og PNG?
Gjerne det, men prosjektet er begrenset i tid og budsjett. Jeg har bare
en liten rolle her. Men jeg kan se for meg at vi følger dette opp. Blir
veldig anekdote, men jeg sjekket PDF generert av MS Office2010,
FrameMaker og LibreOffice og det var mye variasjon i metadata. Så det
virker som om mulighetene for metadata ikke er utnyttet i noe særlig
grad. Hadde vært interessant å bare kjøre en sjekk av alle PDF hos en
interkommunal arkiv og sjekket hvilken metadata felter har et verdi.
>
> Hva er forresten årsaken til at du går for RDF?
>
Det virker som om PDF kun støtter RDF for XMP. PDF har sin egne
metadatafelter og XMP metadatafelter. For å hente ut via Apache PDFBox,
så får man kun tilgang til en inputstream som viser seg å være RDF.
Fleksibiliteten gjør vel at du kan visst sette hva du vil inni der og
det er kanskje derfor de bruker RDF. Så de ønsker kanskje ikke å lage en
API når det skal være utvidbar.

Men jeg merker meg noen kuriositeter. RDF er innlemmet inn under
<xpacket> og <xmpmeta> noder. Det mangler en <?xml?> deklarasjon. Så de
var litt styr å kunne hente ut informasjonen. Jeg bruker Apache jena for
å håndtere RDF'en men først må jeg fjerne <xpacket> og <xmpmeta> nodene.
Men når jeg oppdaterer via PDFBOX sin API for å skrive standardiserte
metadata XAP, Dublin Core osv og leser innholdet tilbake så er xml
deklarasjonen på plass. Både evince og Acrobat kan leve med eller uten
xml deklarasjon.

Så det virker lite gjennomtenkt. Jeg regner med at XMP for bilder er
kanskje mer begrenset og kanskje åpner for standardiserte API kall for å
lese informasjon.

Når det er sagt så kan også iText lese / skrive XMP men fra hva jeg ser
så får du også bare tilbake en RDF inputstream som du må prosessere.

 - Thomas