Hei,
NST ordlisten hos norsk ordbank inneholder orddeling på formen 'borte+banen' (du må dog trekke ut disse feltene selv), på samme vis inneholder source filen hos speling.org orddeling på formen 'COMPOSITE-WORD: benediktiner=munkers'
http://www.nb.no/sbfil/leksikalske_databaser/leksikon/no.leksikon.tar.gz (NST) finner ikke link til source filen i farten
mvh frode
Date: Fri, 23 Nov 2012 18:46:52 +0100 From: Jari Bakken jari@holderdeord.no To: i18n-no@lister.ping.uio.no Subject: [i18n-no] Liste over orddeling Message-ID: CAP4LNbhcn+01_Ro62n4XT8wH_N9WV8KdW9bEvqctVen+rnNRxA@mail.gmail.com Content-Type: text/plain; charset=ISO-8859-1
Hei,
Jeg jobber med ? lage et nettsted med s?k bygget p? ElasticSearch [1]. Som del av arbeidet ?nsker jeg at motoren forst?r seg p? sammensatte ord p? norsk, f.eks. at et s?k p? ?formue? og ?skatt? begge finner resultater som omhandler ?formueskatt?.
S?kemotoren har ut av boksen st?tte for ? bruke en ordliste for dette form?let, men jeg har ogs? kommet over et prosjekt som fors?ker ? gj?re det mye mer effektivt ved hjelp av maskinl?ring [2]. I praksis trener man opp en klassifikator til ? forst? hvordan ord deles. Prosjektet st?tter for ?yeblikket tysk, men eieren er ?pen for ? legge til st?tte for norsk om jeg kan fremskaffe n?dvendig data. Se gjerne diskusjonen jeg har hatt med han [3].
Helt konkret er sp?rsm?let om det finnes en norsk ordliste som viser korrekt orddeling, da p? et format a la dette:
Sm?r + br?d Midt + sommer + natt + dr?m
Hvis det ikke finnes noen ferdig liste kan vi alltids generere noe fra den vanlige words-fila, men tenkte jeg skulle sjekke om noen her hadde innspill f?rst.
Med vennlig hilsen,
Jari Bakken -- holderdeord.no
[1] http://www.elasticsearch.org/ [2] https://github.com/jprante/elasticsearch-analysis-decompound [3] https://groups.google.com/d/topic/elasticsearch/nsUcdomDIhk/discussion
------------------------------