nikita med beta versjon av fulltesktsøk

Thomas Sødring tsodring at oslomet.no
Wed Jun 23 17:48:35 CEST 2021


Hei,

En gladnyhet om videreutvikling av nikita. Vi har lenge hatt et ønske om 
å støtte fulltekstindeksering av dokumentinnhold, men har ikke hatt tid 
til å prioritere det før nå.

Commit 
(https://gitlab.com/OsloMet-ABI/nikita-noark5-core/-/commit/44abe7b7239f3234489a5e7120e98981f5af0f91) 
er en beta implementasjon av fulltekst søk på dokumentinnhold og litt 
manuell testing viser seg at det fungerer ganske bra.

Vi bruker Apache Tika til å hente ut dokumentinnhold fra alle dokumenter 
på vei inn i nikita. Petter kom med et eget bidrag i forrige uke 
(https://gitlab.com/OsloMet-ABI/nikita-noark5-core/-/commit/0f1a909a187c3eb9b9c91322c5eaee0a9a0a17a5) 
som automatisk gjør tekstgjenkjenning (OCR) på bilder på vei inn og 
eventuell tekst som finnes blir lagt til i søkemotoren.

Dette synes jeg er en stor dag for nikita da bruksverdien utvides enormt 
når fulltekstsøk er ferdigutviklet. For å søke via APIet trenger du bare 
å legge til $search kommandoen. Feks:

curl --header 'Accept:appliction/vnd.noark5+json' --header 
"Authorization: Bearer esg7Qhv8hM0edCfxqPFxDDrTmsA" -X GET 
"http://localhost:8092/noark5v5/api/arkivstruktur/dokumentobjekt?%24search=HVA_JEG_SØKER_PÅ"

Om det er noen som leker med APIet via nikita.oslomet.no er søk 
tilgjengelig på instansen som kjører der.

På sikt håper vi å kunne kombinere $filter med $search for enda mer 
avansert filtrering av arkivmateriale.

God sommer!

  - Thomas



More information about the nikita-noark mailing list