Hei,
Jeg jobber med å lage et nettsted med søk bygget på ElasticSearch [1]. Som del av arbeidet ønsker jeg at motoren forstår seg på sammensatte ord på norsk, f.eks. at et søk på «formue» og «skatt» begge finner resultater som omhandler «formueskatt».
Søkemotoren har ut av boksen støtte for å bruke en ordliste for dette formålet, men jeg har også kommet over et prosjekt som forsøker å gjøre det mye mer effektivt ved hjelp av maskinlæring [2]. I praksis trener man opp en klassifikator til å forstå hvordan ord deles. Prosjektet støtter for øyeblikket tysk, men eieren er åpen for å legge til støtte for norsk om jeg kan fremskaffe nødvendig data. Se gjerne diskusjonen jeg har hatt med han [3].
Helt konkret er spørsmålet om det finnes en norsk ordliste som viser korrekt orddeling, da på et format a la dette:
Smør + brød Midt + sommer + natt + drøm
Hvis det ikke finnes noen ferdig liste kan vi alltids generere noe fra den vanlige words-fila, men tenkte jeg skulle sjekke om noen her hadde innspill først.
Med vennlig hilsen,
Jari Bakken -- holderdeord.no
[1] http://www.elasticsearch.org/ [2] https://github.com/jprante/elasticsearch-analysis-decompound [3] https://groups.google.com/d/topic/elasticsearch/nsUcdomDIhk/discussion
fr. den 23. 11. 2012 klokka 18.46 (+0100) skreiv Jari Bakken:
Helt konkret er spørsmålet om det finnes en norsk ordliste som viser korrekt orddeling, da på et format a la dette:
Smør + brød Midt + sommer + natt + drøm
Hvis det ikke finnes noen ferdig liste kan vi alltids generere noe fra den vanlige words-fila, men tenkte jeg skulle sjekke om noen her hadde innspill først.
Følgjande artiklar kan kanskje vera av interesse:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.23.7469&rep=rep... http://folk.uib.no/kun041/doc/ihopskriving.pdf
For nynorsk prøver me å laga ei manuell oversikt over kva ord som brukar kva ordbindarar, men denne er førebels veldig ufullstendig:
https://github.com/unhammer/fugeord