Petter Reinholdtsen skrev:
[Børre Gaup]
Systemet for norsk på www.speling.org bygger på arbeidet til Rune Kleven (?), og er et ispellbasert system. Med dette systemet er det mye som er mulig, og mye som ikke er det. Xspell er automater, men ikke transdusere, og kan dermed ikke fortelle oss om et ord er substantiv eller verb, bare om det er en lovlig streng eller ikke.
Så vidt jeg vet er www.speling.org bygget på arbeidet til danskene for å få et dugnadsprosjekt for klassifisering av ord på plass, og jeg tror ikke det i utgangspunktet har de begrensningene du snakker om her. Norsk-biten av det er helt i start-gropa, så jeg vet ikke helt status der. CC til i18n-no@, som bør vite mer.
Det ser ud til at »no.speling.org« (der er et alias for Alioth hos Debian), »www.speling.org« (der et alias for Tyge hos SSLUG), »speling.org«-programpakken og et andet ordlisteprogram bliver blandet sammen her, så jeg vil starte med en lille oversigt over hvad vi snakker om:
------------------------------------------------------------
»speling.org« =============
En samling værktøjer til at korrekturlæse ordlister (som undertegnede er medskyldig i eksistensen af).
»www.speling.org« =================
Websted med henvisninger til udvalgte frie ordlisteprojekter og -programpakker.
»(da|fi|fo|sv|no).speling.org« ==============================
Websteder hvor man kan finde frie ordlister (og eventuelt også være med til at arbejde videre på dem).
Tyge ====
Udviklingsserver hos Skåne Sjælland Linux User Group (SSLUG). Vært for webstederne »da.speling.org«, »fo.speling.org« og »www.speling.org«. Vært for projekter med korrekturlæsning af danske, færøske og norske ordlister med »speling.org«-værktøjerne.
Alioth ======
Udviklingsserver hos Debian. Vært for »no.speling.org«-webstedet.
------------------------------------------------------------
Petter har helt ret i at »speling.org«-værktøjerne kan håndtere oplysninger om ordklasser, bøjningsformer og deslige. Jeg har allerede udnyttet dette (og de oplysninger vi har i det danske ordlisteprojekt) til at demonstrere en prototype på et program der kan fortælle om et givet ord er et plausibelt ord - givet danske regler for sammensatte ord - og hvilke ordklasser det i så fald tilhører.
Her er tallene for hvor mange ord der på nuværende tidspunkt ér klassificerede i den danske ordliste alt efter hvilket udgivelseskriterium vi vælger:
2+) 148878 af 375989 ord (40%) 3+) 129313 af 298673 ord (43%) 4+) 112196 af 205853 ord (55%)
4+ er endnu ikke stor nok til at den er praktisk anvendelig for almindelige brugere. 3+ er på kanten og det er stadig 2+ udgaven der er den vi anbefaler (under betegnelsen »dsdo-1.4«).
Bortset fra den ovennævnte prototype og Hunspell (som jeg ikke har set på endnu) er jeg ikke opmærksom på nogle programmer der potentielt kan udnytte de grammatiske oplysninger vi har samlet i den danske ordliste, men jeg regner med at de kommer - om ikke andet så fordi jeg selv vil skrive et.
Jacob