Petter Reinholdtsen kirjoitti 12.9.2007 kello 18.44:
For å teste om stavekontrollen gjør jobben sin trenger vi å teste den. Til testingen trenger vi korrekt stavede ord, og ord som er feilstavet. http://wiki.debian.org/SpellNorwegian/TestsSucceed http://wiki.debian.org/SpellNorwegian/TestsFailing
Til no har du altså eitt ord på den første, og eitt på den andre. Du treng ti- og hundretusenvis.
Tips for å få det til:
a. Ta korpus du _veit_ er korrekte, og dra ut ordlister frå dei b. Gå gjennom ukorrigert tekst, og finn skrivefeil. Helst: Merk kvar skrivefeil med korrektskriving, eller i det minste, samle på feila. Eigenkonstruerte feil er ikkje like interessante som dokumenterte feil (dei kan til og med vere missvisande - dine eigne oppfatningar av "vanlege feil" treng slett ikkje stemme). Eit anna problem er at den som veit korleis korreksjonsmekanismane fungerer vil konstruere feil som desse mekanismane kjenner att, eller også konstruere feil han/ho _veit_ at mekanismane ikkje kjenner att. For å få ny innsikt treng ein med andre ord autentiske feil. Skrivefeil er det mogleg å finne på ulike måtar: - ved manuell korrekturlesing - ved å bruke andre stavekontrollar - ved å bruke analyseprogram som t.d. oslo-bergen-taggaren (http:// omilia.uio.no/obt/), "for tida ikke tilgjengelig", men i prinsippet nedlastbar og mogleg å bruke på kommandolina. - ved å bruke fullformsordlista som filter c. ta kontakt med UiO og UiB, og spør om de kan få tilgang til korpusa deira - dei sit på store mengder tekst, både grundig korrekturlese (skjønnliteratur) og meir eller mindre rå tekst (t.d. avistekster, nettsider, nyhendegrupper på nettet osb.) d. samle inn korpus sjølve, og bruke infrastrukturen som finst ved UiT/Divvun-prosjektet for å bearbeide korpuset og trekkje ut data (all infrastrukturen vår er i prinsippet språkuavhengig, og vi har etter kvart både røynsle og kunnskap om nettopp dette arbeidet) e. ein kombinasjon av alt over, men kanskje helst c. og d. - UiT og SD/Divvun-prosjektet har fokusert på andre språk enn norsk, så for analysedelen kan det vere lettast å bruke dei verktya som finst ved UiO, medan resten av infrastrukturen ved UiT burde vere som hand i hanske for dykk
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------