For å teste om stavekontrollen gjør jobben sin trenger vi å teste den. Til testingen trenger vi korrekt stavede ord, og ord som er feilstavet.
For å gi alle mulighet til å bidra med slike ord har jeg opprettet to wikisider, en for korrekt stavede ord som har vist seg å være vanskelig for stavekontrollen å få korrekt, og en for ord som er feilstaved og som stavekontrollen har latt være å markere som feil (eller andre som vi synes er gode eksempler på vanlige feilstavede ord).
Nå trengs det hjelp til å fylle inn ord. Kan du legge inn de ordene du har oppdaget at stavekontrollen har problemer med? Wikisidenen finner du på
http://wiki.debian.org/SpellNorwegian/TestsSucceed http://wiki.debian.org/SpellNorwegian/TestsFailing
Vennlig hilsen,
Den 12. sep. 2007 kl. 19.44 skrev Petter Reinholdtsen:
For å teste om stavekontrollen gjør jobben sin trenger vi å teste den. Til testingen trenger vi korrekt stavede ord, og ord som er feilstavet.
For å gi alle mulighet til å bidra med slike ord har jeg opprettet to wikisider, en for korrekt stavede ord som har vist seg å være vanskelig for stavekontrollen å få korrekt, og en for ord som er feilstaved og som stavekontrollen har latt være å markere som feil (eller andre som vi synes er gode eksempler på vanlige feilstavede ord).
Nå trengs det hjelp til å fylle inn ord. Kan du legge inn de ordene du har oppdaget at stavekontrollen har problemer med? Wikisidenen finner du på
http://wiki.debian.org/SpellNorwegian/TestsSucceed http://wiki.debian.org/SpellNorwegian/TestsFailing
Sidene er ein god start, men for å testa kvaliteten på ein stavekontroll, trengst det meir. I Divvun-prosjektet har vi no ein testbenk som kan testa desse parametra dersom ein testar med relevante inndata:
• Presisjon [precision] (kor mange av dei markerte feila er i eit dokument reelle feil) • gjenfinning [recall] (kor mange av feila i eit dokument klarar stavekontorllen å finna) • nøyaktigheit [accuracy] (kor stor del av alle orda i eit dokument er det stavekontrollen klarer å diagnostisera rett)
Dette er klassiske kvalitetsmål på ein stavekontroll, men langt i frå dei einaste. Testbenken vår kan i tillegg måla desse storleikane:
• kor mange av dei korrekt identifiserte feila er det som får eit relevant forslag • kor mange skrivefeil pr ord klarar stavekokntrollen å korrigera * kor mange av dei korrekte forslaga er av dei 5 første (dvs lette å finna for brukaren)
Vi har òg samla data som gjer at vi kan sjekka oppførselen i høve til kjende skrivefeil (dvs feil vi har funne i korpus - dette er vel det nærmaste vi kjem Wiki-sidene), og akkurat no samlar vi i hop data over feil som stavekontrollen har gjort tidlegare for å hindra at feila dukkar opp på nytt (dvs eit sett med regresjonstestar). I tillegg har vi ein test som sjekkar at alle grunnformene vi har i leksikona våre faktisk blir gjenkjende av stavekontrollen (vi har ein relativt lang og komplisert veg frå kjeldekode til ferdig stavekontroll, så denne testen har vist seg svært viktig for oss - han er kanskje mindre relevant for dykk).
Alle testresultata blir lagde ut på heimesidene våre: resultata frå dei siste kvalitetstestane finst på [1], dei siste resultata frå kjende skrivefeil på [2], og for grunnformstestane på [3]. Resultat for regresjonstestar har vi ikkje - den delen av testbenken er ikkje ferdig enno, men blir det denne veka. Alle lenkene er til nordsamisk, men vi har tilsvarande resultat for lulesamisk.
Alt vi gjer i Divvun-prosjektet er tilgjengeleg med ein vanleg GPL- lisens, så dersom de er interesserte i å bruka noko av dette, er det fritt fram.
Til no er det berre MS Word vi testar, og testbenken vår speglar sjølvsagt det. Men han er modulært bygt opp, og det burde vera enkelt å tilpassa han til andre program (og vi er sjølve interesserte i ei slik utviding litt seinare på hausten, då vi etter planen skal byrja å testa stavekontrollen vår i OOo).
Vi har to ulike testprogram, eitt som er levert av underleverandøren vår (og som *ikkje* er tilgjengeleg for andre enn Divvun-prosjektet), og eitt der vi skriptar MS Word med AppleScript, og altså er uavhengig av underleverandøren (men vi er i staden avhengig av ein installasjon av MS Office 2004, og at vi er lokalt innlogga på maskina vi vil testa, dvs logga inn via det grafiske grensesnittet i MacOS X; AppleScript-skriptet er ei tekstfil, og open kjeldekode som alt anna Divvun-prosjektet har utvikla).
Desse to testprogramma er relativt isolerte frå resten av testbenken (og kan bli det endå meir - det er neste punkt på programmet), så det å byta ut eitt av dei med eit tredje burde ikkje vera vanskeleg.
Postprosesseringa av testresultata skjer med eit perlskript som leverer XML, som deretter blir transformert til eit presentasjonsformat for Forrest [4]. Resultata er som de ser i [1][2] [3] (det er enkelt å bytta ut transformeringa til Forrest-formatet til eit anna presentasjonsformat; Forrest er open kjeldekode).
Inndata er av to typar: anten ei enkel to-kolonners tekstfil (leif<TAB>feil), eller ei XML-fil som fylgjer ein DTD vi sjølve har utvikla. XML-filene er dei som gjev mest omfattande kvalitetsdata, men ein kjem langt med den andre typen.
Vi er sjølve godt nøgde med infrastrukturen vår, og har lagt mykje tid ned i å utvikla han. Viss vi med dette kan få andre til å ta det i bruk, og dermed få tilgang til erfaringar med utvikling av testing for t.d. OOo, er vi glade for det.
Verktya er dessverre ikkje dokumenterte enno, men vil vonaleg bli det den nærmaste tida. Mykje av koden er ikkje så veldig vanskeleg, så det finst jo ein del dokumentasjon der;)
Gå til heimesida vår[5], og sjekk ut frå cvs (sjå lenke til "anonym cvs" på framsida). Deretter er det berre å ta for seg:)
[1] http://www.divvun.no/doc/proof/spelling/testing/spelltest-pl- forrest-Markansluska-20070903.html [2] http://www.divvun.no/doc/proof/spelling/testing/spelltest-typos- pl-forrest-sme_20070907.html [3] http://www.divvun.no/doc/proof/spelling/testing/selftest-pl- forrest-sme-20070910.html [4] http://forrest.apache.org/ [5] http://www.divvun.no/
Beste helsing Sjur N. Moshagen Samediggi · Sametinget Prosjektleiar for Divvun-prosjektet http://www.divvun.no/ http://www.samediggi.no/ +358-9-49 75 29 (a) +358-505 634 319 (m)
Petter Reinholdtsen kirjoitti 12.9.2007 kello 18.44:
For å teste om stavekontrollen gjør jobben sin trenger vi å teste den. Til testingen trenger vi korrekt stavede ord, og ord som er feilstavet. http://wiki.debian.org/SpellNorwegian/TestsSucceed http://wiki.debian.org/SpellNorwegian/TestsFailing
Til no har du altså eitt ord på den første, og eitt på den andre. Du treng ti- og hundretusenvis.
Tips for å få det til:
a. Ta korpus du _veit_ er korrekte, og dra ut ordlister frå dei b. Gå gjennom ukorrigert tekst, og finn skrivefeil. Helst: Merk kvar skrivefeil med korrektskriving, eller i det minste, samle på feila. Eigenkonstruerte feil er ikkje like interessante som dokumenterte feil (dei kan til og med vere missvisande - dine eigne oppfatningar av "vanlege feil" treng slett ikkje stemme). Eit anna problem er at den som veit korleis korreksjonsmekanismane fungerer vil konstruere feil som desse mekanismane kjenner att, eller også konstruere feil han/ho _veit_ at mekanismane ikkje kjenner att. For å få ny innsikt treng ein med andre ord autentiske feil. Skrivefeil er det mogleg å finne på ulike måtar: - ved manuell korrekturlesing - ved å bruke andre stavekontrollar - ved å bruke analyseprogram som t.d. oslo-bergen-taggaren (http:// omilia.uio.no/obt/), "for tida ikke tilgjengelig", men i prinsippet nedlastbar og mogleg å bruke på kommandolina. - ved å bruke fullformsordlista som filter c. ta kontakt med UiO og UiB, og spør om de kan få tilgang til korpusa deira - dei sit på store mengder tekst, både grundig korrekturlese (skjønnliteratur) og meir eller mindre rå tekst (t.d. avistekster, nettsider, nyhendegrupper på nettet osb.) d. samle inn korpus sjølve, og bruke infrastrukturen som finst ved UiT/Divvun-prosjektet for å bearbeide korpuset og trekkje ut data (all infrastrukturen vår er i prinsippet språkuavhengig, og vi har etter kvart både røynsle og kunnskap om nettopp dette arbeidet) e. ein kombinasjon av alt over, men kanskje helst c. og d. - UiT og SD/Divvun-prosjektet har fokusert på andre språk enn norsk, så for analysedelen kan det vere lettast å bruke dei verktya som finst ved UiO, medan resten av infrastrukturen ved UiT burde vere som hand i hanske for dykk
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Trond Trosterud:
d. samle inn korpus sjølve, og bruke infrastrukturen som finst ved UiT/Divvun-prosjektet for å bearbeide korpuset og trekkje ut data
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord …
Ved å kjøra dei mest vanlige (frekvens > 5?) orda gjennom ein stavekontroll, kan me lett både forbetra stavekontrollen og omsettingane.
[Karl Ove Hufthammer]
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord ???
Vi har også tilgang til frekvensordlister fra An Crúbadán-prosjektet, tilgjengelig via URL:http://no.speling.org/links.html. Det som mangler er noen som har tid og lyst til å jobbe med stavekontrollen. Der har vi veldig få, og de er veldig opptatt på annet hold. Noen frivillige som vil forbedre stavekontrollen?
Ved å kjøra dei mest vanlige (frekvens > 5?) orda gjennom ein stavekontroll, kan me lett både forbetra stavekontrollen og omsettingane.
God ide. Fikser du?
Vennlig hilsen,
Petter Reinholdtsen kirjoitti 13.9.2007 kello 10.34:
Vi har også tilgang til frekvensordlister fra An Crúbadán-prosjektet, tilgjengelig via URL:http://no.speling.org/links.html.
Problemet med den lista er at ho ikkje er korrekturlest. T.d. fann eg desse formene på "nynorsk": almänreportage aLm Allum alltihop allsidigere allraade allows allmanvegen Allerinnerlichsten allene
Men det er absolutt ein start.
Det som mangler er noen som har tid og lyst til å jobbe med stavekontrollen. Der har vi veldig få, og de er veldig opptatt på annet hold. Noen frivillige som vil forbedre stavekontrollen?
Som sagt, betre infrastruktur.
Trond.
---------------------------------------------------------------------- Trond Trosterud t +47 7764 4763 Institutt for språkvitskap, Det humanistiske fakultet m +47 950 70140 N-9037 Universitetet i Tromsø, Noreg f +47 7764 5216 Trond.Trosterud (a) hum.uit.no http://www.hum.uit.no/a/trond/ ----------------------------------------------------------------------
Torsdag 13. september 2007 skreiv Karl Ove Hufthammer:
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord …
Eg har no lagt til eit skript for å gjera dette. De finn det i SVN i
skolelinux/i18n/skript/frekvens-ordliste.sh
Å kjøra det på omsettingane våre går overraskande kjapt (35 sekund på mi *ganske* gamle maskin).
Litt info:
Det vert ikkje skild mellom store og små bokstavar (ord som begynner med stor forbokstav er oftast ein setningsstartar og sjeldnare eit særnamn).
Alt som ikkje er bokstavar vert handtert som teiknsetting, slik at for eksempel «HTML-dokument» og «e-post» vert tolka som dei fire orda «html», «dokument», «e» og «post».
Kort og/eller lågfrekvente ord vert filtrerte vekk. Som standard vert ord på to eller færre bokstavar, eller som berre førekjem éin gong filtrert vekk. Dette er lett å endra på; sjå i fila.
Skriptet kan òg ha feil og andre manglar!
Elles kan ein ikkje rekna med at frekvensinfoen er representativ for noko anna enn omsetting av KDE-programvare. For eksempel er ord som «konqueror» eller «gaute» overrepresentert i forhold til nynorsk elles. :)
Til orientering: Her er dei aller mest brukte orda i nynorskomsettinga av KDE 4 (venstre kolonne viser kor mange gongar kvart ord er brukt):
6950 til 6042 for 4689 ikkje 4021 som 3751 kan 2678 med 2536 det 2453 ein 2422 vil 2083 denne 2001 eit 1951 dette 1939 eller 1759 vert 1749 vel 1711 ved 1686 skal 1670 frå 1640 kde 1449 den 1435 vis 1293 opp 1252 har 1221 endra 1205 inn 1203 alle 1185 dei 1175 bruk 1045 dersom
Sundag 16. september 2007 skreiv Karl Ove Hufthammer:
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord …
Eg har no lagt til eit skript for å gjera dette. De finn det i SVN i
skolelinux/i18n/skript/frekvens-ordliste.sh
Kan nokon opplysa om eg korleis eg får tak i den nyaste versjon av stavekontrollen, og kjører denne på frekvendsordlista for å få ut ei liste over kva ord stavekontrollen meiner er feilstava?
Karl Ove Hufthammer skrev:
Sundag 16. september 2007 skreiv Karl Ove Hufthammer:
Eg kan henta ut oversikt og frekvensordlister over alle orda me har brukt i omsettingane våre (bokmål, nynorsk og nordsamisk). Det vert nok nokon hundre tusen ord …
Eg har no lagt til eit skript for å gjera dette. De finn det i SVN i
skolelinux/i18n/skript/frekvens-ordliste.sh
Kan nokon opplysa om eg korleis eg får tak i den nyaste versjon av stavekontrollen, og kjører denne på frekvendsordlista for å få ut ei liste over kva ord stavekontrollen meiner er feilstava?
Den siste som er utgitt er: http://alioth.debian.org/frs/?group_id=30577
Den er fra februar, og ordbankens ord er ikke med.
-Axel