nikita med beta versjon av fulltesktsøk
Thomas Sødring
tsodring at oslomet.no
Wed Jun 23 17:48:35 CEST 2021
Hei,
En gladnyhet om videreutvikling av nikita. Vi har lenge hatt et ønske om
å støtte fulltekstindeksering av dokumentinnhold, men har ikke hatt tid
til å prioritere det før nå.
Commit
(https://gitlab.com/OsloMet-ABI/nikita-noark5-core/-/commit/44abe7b7239f3234489a5e7120e98981f5af0f91)
er en beta implementasjon av fulltekst søk på dokumentinnhold og litt
manuell testing viser seg at det fungerer ganske bra.
Vi bruker Apache Tika til å hente ut dokumentinnhold fra alle dokumenter
på vei inn i nikita. Petter kom med et eget bidrag i forrige uke
(https://gitlab.com/OsloMet-ABI/nikita-noark5-core/-/commit/0f1a909a187c3eb9b9c91322c5eaee0a9a0a17a5)
som automatisk gjør tekstgjenkjenning (OCR) på bilder på vei inn og
eventuell tekst som finnes blir lagt til i søkemotoren.
Dette synes jeg er en stor dag for nikita da bruksverdien utvides enormt
når fulltekstsøk er ferdigutviklet. For å søke via APIet trenger du bare
å legge til $search kommandoen. Feks:
curl --header 'Accept:appliction/vnd.noark5+json' --header
"Authorization: Bearer esg7Qhv8hM0edCfxqPFxDDrTmsA" -X GET
"http://localhost:8092/noark5v5/api/arkivstruktur/dokumentobjekt?%24search=HVA_JEG_SØKER_PÅ"
Om det er noen som leker med APIet via nikita.oslomet.no er søk
tilgjengelig på instansen som kjører der.
På sikt håper vi å kunne kombinere $filter med $search for enda mer
avansert filtrering av arkivmateriale.
God sommer!
- Thomas
More information about the nikita-noark
mailing list