On Wed, 2011-01-19 at 19:27 +0100, Axel Bojer wrote:
- Hurtigmåten å rette orddelingsfeil på er å legge inn vanlige
sammensatte ord. Dette er dels gjort allerede.
Så bra. Det visste jeg ikke. Men jeg tror også det er en bra metode, og så er det jo lett å sjekke siden vi allerede har mange sammensatte ord i lista.
- Den mer avanserte måten er å forbedre logistikken bak den ordlista vi
har. Hvis jeg har forstått dette rett, så foretar hunspell (som OOo/LibreOffice bruker) et forsøk på å sette sammen ord etter visse algoritmer (samme prinsipp som Words stavekontroll). Dette er altså dels gjort, men kan sikkert også forbedres. (Ifølge [A] bruker den bl.a. «Morphological analysis, stemming and generation».)
Så vidt jeg vet, sjekker hunspell de ordene som _allerede er satt sammen/bøyd_, og kjører morphological analysis på dem. Eksempel fra Quichua:
"wañuchikrirkapashchari" er ikke et ord i ordlista. Men hunspell tenker:
$ echo "wañuchikrirkapashchari" | hunspell -d qu_EC -m
wañuchikrirkapashchari pa:wañuchikrirka st:wañuchikrina # Past 3rd person singular pa:pash st:pash pa:chari
Altså "dette er wañuchikrina, bøyd i 3persEntallFortid -rka, satt sammen med ordene pash og chari"
Men håper at du har rett, så hunspell kan gjøre forsøk på å sette sammen ord også, ikke bare ta dem fra hverandre.
Evt kunne jo grammatikkontrollen prøve å sette sammen ord og gi dem til hunspell for en uttalelse på om det er et gyldig ord eller ikke.
- Den aller mest avanserte metoden, som du nevner, er å foreta en
grammatisk analyse før man finner ut om ordet skal deles eller ikke.
Høres bra ut.
Men noen ganger er både delt og udelt mulig «Jeg har lamme lår», kanskje ikke det beste eksempelet, men det kan leses både sammensatt og delt – og gi ulik mening. Der kan metode 3 hjelpe. Det vanlige da er dog ikke å markere dette som feil. Likevel vil noen slike være vanlige andre litt søkte, som eksempelet over i delt versjon. Der må sikkert også manuelle markeringer inn.
Ja, jeg har lurt på om det beste (hvis man ikke skal gjøre det manuelt) måtte vært å få grammatikkontrollen til å skrive om ordene, og presentere spørsmålet "Mener du at 1) 'lår' er 'lamme', eller at 2) du har 'lammelår'?
Omskriving hjelper ofte på resonnementet.
[Grammatikkontrollen kan finne ut at 'lamme' er flertall av et Adjektiv, mens 'lår' er substantiv.*]
* Kan jo være imperativ av "å låre" også, men da begynner det vel å bli litt mange verb i setningen.
Vet ikke om det er noe utopisk å tenke så langt, men det skader vel ikke å håpe...
Likevel spørs det om ikke alle tre metodene sammen gir best resultat på både lang og kort sikt.
Enig. Det som er bra med Languagetool er at man kan aktivere/deaktivere hver regel, så hvis det blir plagsomt med forslag, kan man deaktivere én bestemt sjekk :D
Irc høres bra ut, det dokumenterer jo seg selv :-)
å. logger ute og går?
Hva med en mandag morgen for eksempel? Eller om det er et dårlig tidspunkt, kan dere foreslå andre?
Mandag morgen går bra!
+1 på mandag :)
Det jeg nok kan bidra med er tanker og innspill, og å se på integrasjon med det vi alt har (stavekontrollen). Terje og jeg arbeider fortsatt med å skrive den om, så får vi se når vi er ferdige om den er lettere å utvide, forenkle osv :-)
Gøy. Jeg har noen spørsmål til hvordan den er lagt opp.
mvh Arno