On Tue, 22 Jun 2004, Gaute Hvoslef Kvalnes wrote:
Tysdag 22. juni 2004 10:06 skreiv Leiv Hellebø: Er det ein god idé å utstyra ordlistene med stilinformasjon? Både bokmål og nynorsk har så mange alternative former at ein stavekontroll som godtek «alt» ikkje alltid er til så god hjelp. Dersom du skriv konsekvent «fram», bør stavekontrollen varsla deg om du skriv «frem». Brukar du a-infinitiv, skal e-infinitiv vera feil. Held du deg til hovudformene, skal ikkje sideformene godtakast. Språkinnstillingane i Nyno er eit døme på kva ein grundig stavekontroll kunne ha omfatta: http://www.nynodata.no/informasjon.htm Slik stavekontrollen er i dag (gjeld det òg Microsoft?), vert ikkje inkonsekvent språkbruk retta.
Eg er samd med deg i at denne stilinformasjonen bør med, for slik vert det lettare å halde oversyn over at det er noko som "feit" og "fet" har til felles. Dersom ein har tilgang til denne informasjonen er det ei smal sak å lage rutinar som sjekker om ein tekst er bøyingsmessig konsistent (uavhengig av stil): Alle ord i ein tekst som er former av det same leksemet, skal vere bøygde etter same mønsteret.
Vidare kan ein definere ulike stilar, og dermed har ein eit grunnlag for ein slags sjekk på stilistisk konsekvens.
(Det er mogleg å gjere seg verkeleg flid med stilane. Ein kan skilje frå kvarandre ord som vert bøygde likt, men som tilhøyrer ulike stilar, t.d. Men ein bør neppe trekkje det for langt: Stilar ligg ikkje fast, sjølv om nokon likar å tru det, og det er _lov_ å blande.)
Som Lars har nemnt overfor Gaute i ein annan epost, så finst det system som har implementert slike ting: url:http://www.ling.uib.no/~desmedt/scarrie
Eg kjenner ikkje til at Ispell, Myspell eller andre rammeverk har støtte for slike ulike skriftnormalar, men det er ein ting eg trur kunne gjort stavekontrollen veldig mykje nyttigare.
Ispell vart opprinneleg skrive 1971. Engelsk er eit mykje enklare språk enn norsk, sånn ordbøyingskompleksitetsmessig sett.
Eg har høyrt at Nederland òg slit med mange alternative bøyingar. *Lastar ned aspell-nl for å sjå korleis det fungerer.*
Eg trur Myspell (og kanskje Ispell) ser på ord med bindestrek som to ord. Då eg prøvde meg fram, såg det ut til at OOo 1.1.0 handterte ord med bindestrek som to ord, medan kommandolinjeverktøyet til Myspell såg på det som eitt. Det kjem kanskje av ulike Myspell-versjonar, eg veit ikkje heilt.
Sært!
Kva kommandolinjeverkty er det eg har oversett?
Eg laga eit kjapt skript som tok utgangspunkt i bøyingsmønstra i Nynorskordboka og prøvde å klassifisera orda i ordlista. Når ordlista inneheld «båt, båtane, båtar, båten», finn skriptet ut at dette liknar mest på eit regelrett hannkjønnsord type m1: «-en, -ar, -ane». Det ser ut som om skriptet klarar å gjetta rett ganske ofte. Ei slik grovklassifisering kan vel vera eit greitt utgangspunkt dersom leksemleksikonet skal lagast frå botnen av.
Absolutt, flottings!
Leiv